Jak převádět text do elektronické formy
Tato wiki vznikla mimo jiné jako pracovní prostor pro zpracování a následnou veřejnou publikaci unikátních woodcrafterských materiálů.
Většinou jde o texty, které jsou už v originále v děsuplné kvalitě. Jen pro ilustraci zde uvádím na ukázku jednu ze stránek Hlasatele.
Zpracování takového materiálu pomocí OCR je velmi obtížné a vyžaduje značný podíl lidské práce. Pro jednoho člověka je to práce přímo Sisyfovská. Ovšem čím víc lidí se na ní podílí, tím rychleji se udělá a výsledkem je text, který lze nejenom bez problémů číst, nebo vyhledat. Ale také "prohnat" on-line překladačem.
Při korektuře textu zpracovaného přes OCR je třeba řešit některé specifické problémy. Čas od času v něm narazíte na neobvyklé znaky a každý jistě ocení, když na výsledku jeho práce spočine okem také někdo jiný, kdo odhalí případný překlep, doplní odkaz, nebo vloží poznámku.
Obsah tohoto článku je tedy určen pro všechny, co se chtějí také svým dílem na tomto procesu podílet.
Dokumenty v Archivu
- Každý vícestránkový dokument v DjVu formátu, nebo PDF by měl být zařazen do kategorie [[Kategorie:Archiv]]
- Součástí popisu by také mělo být - je-li to známo - odkud pochází a kdo ho do elektronické formy zpracoval.
- U dokumentů, které pochází z jiných webů by měl být pokud možno odkaz na původní dokument
- Dokumenty, které mohou být zatíženy autorskými právy by měly být dostupné pouze pro přihlášené uživatele s právem k přístupu. To jsou lidé, co buď vynaložili svoje finance k jejich pořízení, nebo lidé co se podílejí na jejich dalším zpracování. Je pouze na jejich uvážení, jestli pak bude zpracovaný výsledek zpřístupněn také široké veřejnosti, nebo ne.
Listování elektronickým dokumentem
Každý vícestránkový dokument v DjVu formátu, nebo PDF lze prolistovat na příslušné stránce souboru v grafické podobě - každá stránka se zobrazuje jako obrázek.
Stažení elektronického dokumentu do lokálního zařízení
Každý dokument, který je přístupný jako soubor, lze stáhnout do lokálního zařízení - stačí k tomu kliknout na obrázek s náhledem stránky.
Pokud takové zařízení disponuje aplikací pro čtení DjVu či PDF souborů, pak není problém si dokument v klidu číst off-line na tabletu, či mobilním telefonu.
Zpracování elektronického dokumentu do knihy
Dokumenty, které jsou ve zdejším archívu většinou obsahují také textovou vrstvu. Ta je při pouhém listování souborem nedostupná.
Proto tato wiki obsahuje rozšíření, které umožňuje tuto textovou vrstvu ze souboru pro každou stránku vytáhnout, a dále zpracovávat.
Další zpracování je - obzvláště v případě stránek s tak bídnou kvalitou, jak bylo demonstrováno hned v úvodu - nezbytné, protože jedině tak lze zajistit, aby bylo možné v obsahu vyhledávat, nebo do něj přidávat poznámky a externí odkazy.
Soubory, které jsou takto zpracované naleznete ve zdejší knihovně.
Knihovna
Jako "knihovna" zde funguje speciální stránka s přehledem existujících indexových stránek.
Je-li do wiki vložen vícestránkový soubor (dokument ve formátu DjVu, nebo PDF), lze jeho stránky prolistovat na příslušné stránce souboru, ovšem zobrazovat se budou pouze jako obrázky! Na obsah textový tohoto souboru nelze odkazovat, ani jej fulltextově prohledávat.
Aby to bylo možné, musí být pro něj založena indexová stránka i odpovídající stránky s extrahovaným textovým obsahem.
Editovat a tím i zakládat nové stránky mohu pouze přihlášení uživatelé! |
Založení indexové stránky
Založení indexové stránky je jednoduché. Systém umí rozpoznat, že jde o vícestránkový formát a proto v takové případě nabídne na stránce souboru "odkaz na úvodní stránku".
Je-li uživatel přihlášený, tak po kliknutí na tento link je vyzván k tomu, že indexovou stránku může založit.
Ve výchozím stavu se mu otevře prázdný formulář, který lze vyplnit dodatečně. Po jeho uložení, je ze souboru vytažena titulní stránka, a vygenerován seznam odkazů na všechny stránky dokumentu.
Dokud stránky nejsou založeny, jsou odkazy červené - a jejich obsah nedostupný. K jeho extrakci z dokumentu a vygenerování náhledu stránky dojde až v okamžiku založení stránky.
Když zakládám novou stránku…
Tak záleží na tom, kolik času mohu věnovat její korektuře.
- Pokud nemám čas…
- Nechám stav stránky tak jak je a bez jakýchkoliv dalších úprav stránku uložím.
- Je-li stránka prázdná, bez textu
- Změním stav stránky na "Bez textu" (šedé políčko) a rovněž uložím. Pokud z textové vrstvy přeci jenom něco vypadlo, ale s obsahem nijak nesouvisí, tak můžu buď provést korekturu, nebo text rovnou vymazat.
- Pokud mám čas a chuť…
- Pokud mám čas a chuť, udělám před uložením stránky alespoň částečnou korekturu.
Korektura stránky
- Odstraním věci které patří k záhlaví - narušovaly by kontinuitu obsahu
- Pokud je zřejmé, že text na stránce pokračuje z nějaké předchozí stránky, vložím na začátek textu řetězec
{{subst:FROM}}
- Očima kontroluji text vytažený z textové vrstvy s obsahem zobrazené stránky a provádím opravy:
- V prvé řadě je třeba opravit znaky, které byly pomocí OCR špatně rozeznané - a jiné nesmysly - a doplnit znaky které chybí. Při korektuře nahrazujte znaky pokud možno těmi, které v textu skutečně mají být. Nebo alespoň z jeho logiky vyplývají (např. uvozovky). Pro usnadnění hledání takových znaků je zde k dispozici tabulka pro neobvyklé znaky, odkud je lze kopírovat.
- Textová vrstva má obvykle na konci řádky vložen neviditelný znak konce řádky, který by pak mohl dělat problémy při formátování textu - je třeba ho odstranit. Někdy je to lze rozeznat ihned - řádek je nedokončený a text pokračuje na další řádce. Jindy to na první pohled vidět není. Optimální je přejít kurzorem na začátek následující řádky, a pak buď pomocí klávesy Backspace "umazávat" mezery, dokud se text nespojí, a pak vložit mezeru. Nebo část mezi slovy označit a nahradit mezerou.
- Pokud následuje další odstavec, přidá se za text prázdný řádek - wiki to bude interpretovat jako konec odstavce
- Text rozdělený do více řádku, který evidentně patří k sobě - spojte, tak aby šel kontinálně za sebou.
- Text, který má být kurzívní - uzavřete mezi zdvojené jednoduché uvozovky
- Text, který má být tučný, nebo je v textu zvýrazněný větším odsazením mezi znaky - uzavřete mezi ztrojené jednoduché uvozovky
- Nadpisy doporučuji řešit až poté, co je dokončena korektura všech stránek - teprve pak lze totiž správně zvolit jejich odpovídající úrovně. Viz #Úrovně nadpisů
- Pokračování textu
- Pokud je na stránce text, který pokračuje kontinuálně na následující stránce, vložte za něj řetězec
{{susbt:CONT}}
. Je-li slovo rozděleno, tak ho doplňte a zbytek slova z obsahu následující stránky vyhoďte. - Pokračuje-li text na další stránce novým odstavcem, vložte na konec stránky řetězec
{{susbt:NEXT}}
- Pokud text pokračuje novým oddílem, nevkládá se nic.
Pro položky zápatí (čísla stránek atp.) platí stejné pravidlo co pro záhlaví - odstranit.
Pak klikem na tlačítko "Ukázat náhled" zkontroluji v jakém stavu stránku opouštím. Podle toho zvolím odpovídající "Stav stránky" a kliknu na Uložit změny.
{{FROM}}
, {{CONT}}
a {{NEXT}}
dojde až v okamžiku uložení stránky. Vložený kód obsahuje šablony {{from}}
a {{next}}
, které pak na stránce generují upozornění, že jde o pokračování textu z předcházející stránky, resp. že text pokračuje.Poté buď klikněte na šipku v záhlaví, která jde na následující stránku, nebo - pokud byla vložena šablona {{next}}
, která vkládá upozornění že text stránky pokračuje na další stránce - na červeně zbarvený link na konci textu - pokud následující stránka již existuje, bude zbarven modře.
…otevírám-li již existující stránku
Pokud je na stránce text, který pokračuje z nějaké předchozí stránky, vložím na začátek textu {{subst:FROM}}
a provedu korekturu textu tak, jak je uvedeno v předchozím odstavci.
Pokud text pokračuje, ale dál než na následující stránce, stránku po uložení znovu otevřu přidám jako parametr vložené šablony {{next}}
číslo stránky kde text pokračuje. Parametr se přidá tak, že se za jméno šablony napíše svislítko |
, které funguje jako oddělovač parametrů, a za příslušné číslo stránky, nebo její název.
Totéž platí pro šablonu {{from}}
, pouze s tím rozdílem, že se jako parametr přidá číslo stránky, nebo název článku, odkud text pokračuje.
Zkontrolovaná stránka
Je taková stránka, jejíž obsah prošel korekturou, byly odstraněny všechny chyby a překlepy a její obsah byl odpovídajícím způsobem naformátován.
Záhlaví takové stránky se zobrazuje žlutě.
Ověření stránky
Záhlaví ověřené stránky se zobrazuje zeleně.
Označit stránku jako ověřenou může pouze jiný uživatel, než ten který stránku nastavil jako "Zkontrolovanou". Předtím by měl, alespoň zběžně ověřit jestli je všechno tak jak má být.
V případě že tomu tak není, je na něm, aby změnil status stránky tak, aby odpovídal skutečnosti!
Dodatečné úpravy stránky
Nahrubo zpracovaný text, který však prošel korekturou lze následně dále zpracovat, jako každou jinou wiki stránku. Tzn.:
- Udělat kurzívu či ztučnění, tam kde je zvýrazněna změna v původním textu
- Vyznačit nadpisy
- Doplnit odkazy na externí stránky, nebo jiné stránky této wiki
- Případně vložit doplňující poznámky pod čarou pomocí tagu <ref> </ref>
Finální úprava knihy
Úrovně nadpisů
Jak potlačit u nadpisů generování obsahu na stránce
U některých stránek, jako je například strana č. 13 ve 14. angl. vydání Svitku březové kůry, kde je použito váce úrovní nadpisů, je nutné použít systémovou proměnnou __NOTOC__, která potlačí generování obsahu.
Tu je ale nutné uzavřít do tagu <noinclude>__NOTOC__</noinclude> - jinak by se negeneroval obsah ani na stránce hotové elektronické knihy.
Kontinuita textu
Jak přepisovat rukopisy a strojopisy do elektronické formy
1, Nejprve přepíšeme obsah dopisu či strojopisu tak, aby bylo zachováno řádkování a rozdělení slov jako u originálu. V případě strojopisu můžeme využít OCR.
2, Pak do wiki vložíme naskenovaný originál. V případě že je dokument vícestránkový, může být – tak jako el. verze knih – zpracován do formátu DjVu.
Jinak ho vložíme ho jako bitmapový soubor (obrázek). Pro pojmenování by měl být zachován následující úzus:
dopis_<od_koho>_<komu>_<datum>[_<stránka č.>].<suffix>
- suffix
- určuje typ dokumentu (jpg, png, gif).
- od_koho
- příjmení nebo přezdívka odesílatele, bez mezer a diakritiky
- komu
- příjmení nebo přezdívka adresáta, bez mezer a diakritiky
- datum
- rok, kdy byla zásilka odeslána. Případně i měsíc (je-li znám). V takovém případě je oddělen pomlčkou
- stránka č.
- uvádí se pouze v případě vícestránkových dopisů, které nelze zpracovat tak, aby se vešly na jednu stránku.
Zpracování naskenovaného dopisu
Pro zpracování dokumentu do DjVu či aplikaci OCR je žádoucí co nejlepší kvalita skenu. Ale pro účely zdejšího archívu platí že podstatný je čitelný obsah. Proto:
- Je zbytečné vkládat do wiki dokument ve stejném rozlišení jako byl naskenovaný.
- Důležité je, aby byl pokud možno čitelný obsah, a to včetně rukopisných poznámek a vpisků – pokud je obsahuje. Takže:
- zvolte optimální rozměr
- zredukuje množství barev
- a zvolte optimální formát (JPG se hodí pro fotografie, PNG tam kde lze omezit množství barev)
Použití šablony {{letter}}
Po vložení obrázku do wiki, doplníme informace o původu dokumentu, a přepsaný text vložíme na stránce souboru do šablony {{letter}}
, u které použijeme jako první parametr pre
, čímž zabráníme automatického spojení za sebou jdoucích řádků do jednoho odstavce.
Pro další formátování textu můžeme využívat další šablony a běžnou wikisyntaxi.
Kupř. pokud chceme zachovat odsazení prvního řádku, můžeme použít buď HTML entitu pro tabulátor 	
, nebo aplikovat wiki syntaxi a přidat odsazení odstavce přes dvojtečku na začátku řádku.
Chceme-li zabránit rozdělení slov, použijeme místo běžné mezery tzv. pevnou mezeru, zapsanou jako tzv. HTML entitu
Rozdělování slov
Pokud pisatel v dopise rozděloval slova, pak – v případě, že elektronický text dokumentuje naskenovaný originál – toto rozdělení zachovat.
Ale protože pro další použití představují tyto pomlčky a zalomení řádku znaky navíc, uzavřeme je do tagu noinclude
. Tzn. že při vložení obsahu do jiné stránky bude text souvisle spojený.
Česko- slovensko
Česko<noinclude>- </noinclude>slovensko
Výsledný efekt bude takový, že na stránce s elektronickým textem, bude vypadat (bez použití parametru pre) takto:
Česko- slovensko
Kdežto na každé jiné stránce, do které bude obsah originální stránky vložený bude text spojitý:
Československo
Rukopisy
Rukopisy od strojopisů většinou nijak nerozlišujeme. Pouze v případě, že je strojopis opatřen vlastnoruční poznámkou, či podpisem, přidáváme za text zkratku
- v.r.
- vlastní rukou, nebo…
- m.p.
- což je latinská zkratka pro totéž.
Občas se můžeme dostat do situace, kdy jsou do původního textu dopisu vepsané rukopisné poznámky. V takovém případě můžeme odlišit takový text uzavřením do hranatých závorek a kurzívou. Viz příklad:
Postavili jsme na pláži hrad z písku. [Bohužel ho spláchnul příliv.]
Vložení obsahu psaní do článku
Obrázek i obsah vložíme podobně. Využijeme při tom transkluzi a šablony {{Vsuvka}}
, {{letter}}
a {{Image}}
.
Jak psát bibliografické odkazy
Protože součástí tohoto webu jsou i vlastní práce, považuji za důležité uvést také pravidla pro psaní bibliografických odkazů a jejich použití v textu
Jako modelový příklad, jsem vybral knihu "The chief", kterou napsal H. Allen Anderson, protože jde zároveň o knihu s velice pečlivě zpracovaným poznámkovým aparátem[1]
Odkaz na knihu
Nejprve je zde třeba vytvořit pro knihu záznam, kategorizovaný do Kategorie:Bibliografie s názvem, který se pak bude používat při odkazech v textu.
Než založíte nový bibliografický záznam, zkontrolujte nejdřív, zda-li již neexistuje. Pokud ano, tak ho použijte a nezakládejte nový! |
Syntaxe je následující:
- Příjmení autora práce oddělené čárkou a mezerou od roku vydání.
- Příjmení má první písmeno velké, ostatní písmena jsou malá.
V textu se pak na tuto stránku odkazuje tímto Harvardským způsobem citování, kdy jméno a rok vydání odkazuje na stránku s bibliografickým záznamem. Viz příklad
- Ukázka kódu
Setonovi rodiče ([[Anderson, 1986]], první strana obrazové přílohy)
U překladů, nebo knih které jsou dílem kolektivu autorů, lze místo jména autora použít pro stránku s bibliografickým záznamem název knihy. Viz:
- Ukázka kódu
…píše Logan v předmluvě překladu Andersonovy knihy ''The chief'' ([[Náčelník, 2012]], s.10-12)
Bibliografický záznam
Odpovídá platné normě a je umístěn v záhlaví odkazované stránky. Pro vytvoření záznamu lze využít stránku http://www.citace.com/vytvorit-citaci
V případě Andersonovy knihy vypadá takto:
- Ukázka kódu
ANDERSON, Hugh Allen. ''The chief: Ernest Thompson Seton and the Changing West''. 1rd. Texas: Texas A&M University Press, College Station, 1986, USA. ISBN 0-89096-239-1
Pod tímto záznamem může následovat:
- Informace o autoru, či překladateli - ev. odkaz na příslušné stránky, pokud zde již existují
- Recenze knihy
- A případně zde mohou být uvedeny i vybrané citace z knihy, pokud to není kniha běžně dostupná. Ty mohou být zpracované tak, aby na ně bylo možné rovněž odkazovat.
Neobvyklé znaky
V následující tabulce jsou uvedeny méně obvyklé UNICODE znaky, které se mohou vyskytovat ve zpracovávaných textech.
Pravidla pro jejich psaní a umístění nejsou nahodilá, proto – pokud jde o znaky s nimiž jste se dosud nesetkali – nezapomeňte se podívat i na odkazované stránky z webu http://www.liteera.cz (jsou uvedeny ve sloupci "Použití"). Tam můžete nalézt podobnou tabulku: http://www.liteera.cz/slovnik/tabulka-entit
Ohledně psaní neobvyklých znaků v linuxovém prostředí jsem napsal blogpost na abclinuxu - http://www.abclinuxu.cz/blog/kenyho_stesky/2017/1/psani-zridkave-uzivanych-znaku-v-linuxovem-prostredi kde se problematice psaní spojovníků a pomlček rovněž věnuji.
Jak znak vypadá? | HTML entita | Použití | Unicode | |
---|---|---|---|---|
… | Tři tečky (Výpustka) | Se používají pro naznačení pokračování textu, případně jako symbol, který nahrazuje text vypuštěný - odtud výpustka http://www.liteera.cz/slovnik/vypustka | Obecná interunkce. V unicode je znak uveden jako U+2026 HORIZONTAL ELIPSIS | |
■ □ ▤ ▥ ▦ ▧ ▨ ▩ | Symboly barev: černá (plný); bílá nebo stříbrná (prázdný); modrá (horizontální šrafování); červená (vertikální šrafování); černá v heraldice (mřížka) ; zelená (příčné šrafování z levého rohu); purpurová (příčné šrafování z pravého rohu) ; pro příčnou mřížku barevná symbolika není ; žlutá nebo zlatá (tečkování, protože unicode znak není lze jako náhradu použít "pětitečku" viz níže) | |||
½ ⅓ ⅔ ↉ ¼ ¾ ⅕ ⅖ ⅗ ⅘ ⅙ ⅚ ⅐ ⅛ ⅜ ⅝ ⅞ ⅑ ⅒ ⅟ | Zlomky | Se zlomky se lze nejčastěji setkat v anlosaských textech (u palců, uncí, atp.) | Číselné tvary. VULGAR FRACTION | |
₀₁₂₃₄₅₆₇₈₉₀₎₍ | Dolní indexy | S dolními indexy se nejčastěji můžete setkat u zápisu chemických vzorců | ||
¹²³⁴⁵⁶⁷⁸⁹⁰⁾⁽ | Horní indexy | Horní indexy se obvykle používají u číslování poznámek v textu, případě u matematických vzorců | ||
ⅰ ⅱ ⅲ ⅳ ⅴ ⅵ ⅶ ⅷ ⅸ ⅹ ⅺ ⅻ ⅼ ⅽ ⅾ ⅿ ↀ ↁ Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ Ⅸ Ⅹ Ⅺ Ⅻ Ⅼ Ⅽ Ⅾ Ⅿ | Římské číslice | S římskými číslicemi se lze setkat na mnoha místech. Používají se u číslování poznámek v textu, stránek, atp. | ||
£¢ | Měnové značky | http://www.liteera.cz/slovnik/mena-euro-libra-dolar | ||
©®™ | Copyright, Registrovaná značka, Obchodní značka | http://www.liteera.cz/slovnik/copyright http://www.liteera.cz/slovnik/registered-a-trademark | ||
± | Plus mínus.. | Plus minus se používá u číselných hodnot pro vyjádření odchylky, či přibližné tolerance http://www.liteera.cz/slovnik/plus-minus | ||
– | Pomlčka. | Může být v textu alternativně nahrazena čárkami, či závorkou. Mezi slovy je pomlčka vždy oddělena mezerami. Může být nahrazena dlouhou pomlčkou bez mezer. Neplést se znakem mínus, spojovníkem (HYPHEN), nebo vodorovnou zlomkovou čárou (HORIZONTAL BAR)! Více viz http://www.liteera.cz/slovnik/podobne-znaky a http://www.liteera.cz/slovnik/radkovy-zlom | U+2013 EN DASH | |
— | Dlouhá pomlčka. | Používá se jako alternativa normální pomlčky – kupř. tam, kde je mezi slovy pomlčka oddělená mezerami, lze použít dlouhou pomlčku bez mezer. Používá se také na začátku, či konci citace. Neplést se znakem mínus, spojovníkem (HYPHEN), nebo vodorovnou zlomkovou čárou (HORIZONTAL BAR)! Více viz http://www.liteera.cz/slovnik/podobne-znaky a http://www.liteera.cz/slovnik/radkovy-zlom | U+2014 EM DASH | |
‑ | Spojovník | V nedělitelné formě se používá u spojení dvou slov do jednoho. Jinak na konci věty při dělení slova, ovšem v případě wiki dělení slov nepoužíváme, proto je zde uveden pouze nedělitelný spojovník. Neplést s pomlčkami či znakem mínus! Více viz http://www.liteera.cz/slovnik/podobne-znaky a http://www.liteera.cz/slovnik/spojovnik | U+2010 HYPHEN a U+2011 NON-BREAKING HYPHEN | |
† | Křížek | Se zde nejčastěji používá jako symbol data úmrtí (Pro datum narození se používá hvězdička *) Více viz http://www.liteera.cz/slovnik/hvezdicka-kriz-ampersand-paragraf | Obecná interpunkce. U+2020 DAGGER | |
⁎ ⁑ ⁂ ⁕ | Hvězdičky (asterisky) | Mohou být někdy použity u číslování poznámek v textu | LOW ASTERISK, TWO ASTERISK ALIGNED VERTICALY, ASTERISM a FLOWER PUNCTUATION MARK | |
» « | Francouzské uvozovky | http://www.liteera.cz/slovnik/francouzske-uvozovky | U+00BB RIGHT-POINTING a U+00AB LEFT-POINTING DOUBLE ANGLE QUOTATION MARK | |
‧ ⁚ ⁖ ⁝ ⁘ ⁛ ⁞ ⁙ ⁜ ※ | Tečky a tečkované kříže | |||
‘ ’ ‚ ‛ | Jednoduchá levá a pravá uvozovka, jednoduchá dolní uvozovka a obrácená horní jednoduchá uvozovka | Compose + lomená závorka (levá nebo pravá) + uvozovka (pro napsání dolní uvozovky se místo lomené závorky napíše čárka) | Obecná interunkce. U+2018 a U+2019 SINGLE QUOTATION MARK, U+201A SINGLE LOW-9 a U+201B SINGLE HIGH-REVERSED-9 QUOTATION MARK | |
“ ” „ ‟ | Dvojité uvozovky. Levá a pravá horní. A levá dolní a levá horní dvojitá uvozovka | Compose + lomená závorka (levá nebo pravá) + uvozovka dvojitá (pro napsání dolních uvozovek se místo lomené závorky napíše čárka) | Obecná interunkce. U+201C a U+201D DOUBLE QUOTATION MARK a U+201E DOUBLE LOW-9, a U+201F DOUBLE HIGH-REVERSED-9 QUOTATION MARK |
- ↑ Poznámkový aparát - je doplňující složka textu v podobě souboru poznámek, v nichž autor nebo editor textu uvádí komentář k textu, popř. bibliografické citace. Poznámky bývají s textem propojeny průběžným číslováním, starší označování grafickými značkami bývá dnes někdy užíváno pro redakční poznámky. Bývají umístěny na dolním okraji každé strany, na konci kapitoly nebo na konci textu. (Převzato z http://aleph.nkp.cz/publ/ktd/00000/24/000002403.htm [cit. 2016-11-26])