Textová vrstva DjVu dokumentu
U DjVu formátu se pracuje s několika typy textových informací, z nichž každá používá svůj vlastní typ vrstvy. Pro uložení skrytého textového obsahu stránky (Hidden text), se používá vrstva TXTz – komprimovaná textová vrstva, se kterou lze (podobně jako s metadaty) pracovat pomocí utility djvused.
Pokud skrytá textová vrstva obsahuje nějaký text, pak se můžete při výpisu setkat s těmito prvky:
- page
- je přítomen vždy a vymezuje obsah stránky
- column
- sloupec - vyskytuje se v dokumentech co mají text stránek uspořádaný do sloupců
- region
- oblast?
- para
- odstavec
- line
- řádek
- word
- nejmenší prvek obsahující samotný text
Souřadnice - Každý z těchto prvků má uvedeny souřadnice levého horního rohu a pravého dolního rohu, jimiž je vymezena jeho pozice vůči stránce. V případě že je obsažen pouze jediný prvek přebírá nadřazený prvek souřadnice podřízeného prvku. Jinak platí že:
- leftmin - nejnižší leftmin ze všech podřízených prvků
- topmin - nejnižší topmin ze všech podřízených prvků
- leftmax - nejvyšší ze všech podřízených prvků
- topmax - nejvyšší ze všech podřízených prvků
Vytvoření skryté textové vrstvy pomocí OCR
Pro získání textu z obrazové vrstvy pomocí OCR vytvořil Jakub Wilk[1] vynikající opensource nástroj ocrodjvu, který pro rozpoznávání umožňuje vybrat jeden ze dvou OCR nástrojů:
- cuneiform
- rychlý OCR engine, ruské provenience. Při rozpoznávání českého či slovenského textu poskytuje v některých případech lepší výsledky než tesseract.
nebo
- tesseract
- se neustále intenzivně vyvíjí a má širokou podporu nejrůznějších jazyků a slovníků
Výpis textové vrstvy
Pro výpis textové vrstvy se používá utilita djvutxt
Korektury skryté textové vrstvy
Korektura skryté textové vrstvy v DjVu dokumentech byla dlouhou dobu dost nepohodlná. Bylo to do značné míry dáno tím, že neexistovalo vhodné GUI, které by to usnadnilo vizuální orientaci při editaci textu.
Vůbec první aplikací, která umožnila alespoň úpravy pozice a změnu velikosti jednotlivých prvků v rámci textové vrstvy, byl djvusmooth.
DJVUxml
Nicméně v současné době existuje mnohem lepší editor textové vrstvy, který pracuje s textovým obsahem vyexportovaným do DjVuXML formátu spřes utilitu djvutoxml, založený na javascriptu – WebDjVuTextEd
hOCR
djvuhocr perlový skript
hocr2djvused (ocrodjvu), exituje ale i verze pro python3 https://gist.github.com/char101/b183631680b5b6a62aa991ceaace52a4
hocr2pdf exactimage
- ↑ Jakub Wilk naprogramoval rovněž djvusmooth, pdf2djvu a konverzní nástroj didjvu