DjVu - formát pro elektronickou archivaci dokumentů

Z thewoodcraft.org
Stránka byla naposledy editována 17.8.2023
Původní verze textu, která byla naposled upravena v září 2015, byla sloučena s následující stránkou, kde bylo srovnání DjVu formátu s formátem PDF

Formát DjVu se používá k elektronické „konzervaci” vícestránkových dokumentů (knih, časopisů, atp.). Je výhodný především pro studijní a badatelskou práci, protože kombinace níže uvedených vlastností umožuje vytvořit elektronickou verzi papírového dokumentu, se kterou se dá pohodlně a rychle pracovat. Ale protože používá ztrátovou wavelet kompresi, nehodí se pro jejich archivaci – mezi jeho silné zbraně patří:

Komprimace obrazových vrstev wavelet kompresí
Použití wavelet komprese umožňuje dosáhnout velmi dobrého poměru mezi rychlostí vygenerování dobře čitelného obrazu bitmapového obrazu stránky dokumentu a celkovým objemem uložených dat.
Bezproblémové slučování a rozdělování jednotlivých stránek (dokumentů)
Každý dokument ba i každá jeho extrahovaná vrstva může existovat v rámci svazku jako samostatný dokument.
Obrazové a textové informace umístěné v oddělených vrstvách
Každá stránka DjVu dokumentu může mít svou vlastní skrytou editovatelnou textovou vrstvu s informacemi, které lze fulltextově prohledávat, indexovat i pomocí editačních nástrojů upravovat. Textovou vrstvu lze získat i aplikování OCR na černobílou obrazovou vrstvu dokumentu.
Skrytá textová vrstva také může obsahovat řadu dalších informací
Mohou to být kontrolní součty obrazových vrstev, takže pak lze ověřit zda nedošlo k jejich dodatečné úpravě, nebo informace o původu a zpracování originálního dokumentu, aj.

Formát DjVu byl navržen primárně pro sdílení naskenovaných papírových materiálů prostřednictvím internetu[1], nikoliv pro jejich archivaci. Je-li konverze dokumentu provedena kvalitně, jsou redukovány především nepodstatné detaily. To podstatné – jako text, obrázky atp. – zůstane. Logika je taková, že to podstatné je v popředí. Díky tomu se pak mnohem rychleji renderuje obraz stránky.

Skrytá textová vrstva navíc dovoluje k dokumentu přidat indexovatelný obsah - kupř. překlad, nebo přepis jeho obsahu. Toho lze využít obzvláště u dokumentů psaných rukopisem či znakovým písmem, takže teorericky není problém udělat DjVu dokument, který umožňuje fulltextově prohledávat i dokument psaný rukopisem.[2]

DjVu versus PDF

V současné době je možné dosáhnout s využitím komerčních nástrojů, jako je např. Master PDF Editor 5, srovnatelné komprese vícestránkového souboru i u PDF, ovšem vykreslování obrazu stránky a prohledávání textových vrstev je mnohem pomalejší.

Čím se liší PDF od DjVu?

PDF[3] (Portable Document Format) vytvořila firma Adobe Systems proto, aby mohla zajistit, že dokument vytvořený s využitím jejich produktů bude vypadat po vytištění na papír pokaždé stejně[4], bez ohledu na to, na jaké platformě byl vytvořen a kde byl vytištěn. Směrodatná tedy nebyla velikost výsledného vícestránkového elektronického dokumentu jako u DjVu, ale věrnost podání obrazové informace a přenositelnost souboru.

Základem PDF formátu je postscript - jazyk, kterým umí komunikovat počítač s tiskárnou. Proto má PDF - podobně jako postscript - lineární zápis i čtení. Aplikace pro čtení PDF tedy postupně načítá data ze souboru a vykresluje jednotlivé objekty, specifikované pomocí atributů a souřadnic. Objektem může být:

  • postscriptový obrazec
  • formátovaný text
  • nebo bitmapový obrázek

Pokud PDF obsahuje pouze kolekci postscriptových ilustrací a formátovaný text, je výsledný soubor poměrně malý a vyrenderování obrazu rychlé. Prohlížečka vykreslí obrázky a ke zobrazení textu použije předepsanou znakovou sadu (font). Takový dokument může být dokonce mnohem menší a vizuálně kvalitnější než DjVu dokument se stejným obsahem. PDF soubor totiž obsahuje v postatě to samé, co počítač při tisku posílá na tiskárnu.

Jenže font, použitý v takovém PDF souboru nemusí být k dispozici na každém počítači. Proto PDF od verze 1.3 umožňuje textový obsah uložit několika různými způsoby:

  • formátovaný text + použitý font[5] - v takovém případě však má každý takový PDF soubor v sobě uloženy kopie všech použitých fontů.
  • jednotlivá písmena textu jako postscriptové obrázky - to může být výhodné, pokud dokument používá hodně fontů a má hodně textu.
  • celá stránka jako postscriptový obrázek - se vyplatí pokud je na stránce málo textu, ale mnoho různých fontů

Pokud PDF obsahuje textový obsah ve formě bitmapového obrázku[6], jeho objem naroste. Každý obrázek je v PDF uložen jako samostatný objekt - včetně formátu. Do r. 2001 bylo možné použít buď TIFF, GIF nebo ztrátový JPEG. Bitmapový obrázek se do PDF souboru ukládá v takovém rozlišení, které odpovídá cílovému určení dokumentu. Čím má vyšší dpi (počet bodů na palec) tím víc detailů se při tisku zachová. Ovšem objem uložených dat s vyšším dpi kvadraticky stoupá.

Lidské oko je schopné rozeznat detaily zhruba v rozmezí od 300 do 600 dpi. Takže dokumenty, určené k tisku by měly mít uloženy obrázky nejméně v rozlišení 300dpi. Je-li však PDF dokument určen pouze ke čtení na monitoru, je tak velké rozlišení zbytečné. Do nedávna totiž většina monitorů ani nebyla schopna víc než 100 dpi vůbec zobrazit.

Takže i když na první pohled vypadá stránka PDF souboru v prohlížečce stejně, může se jeho vnitřní struktura značně lišit - v závislosti na tom, pro jaký účel byl dokument vytvořen.

U archivních dokumentů, které tvoří prakticky výhradně naskenované stránky, tedy nabízelo PDF v podstatě totéž co DjVu. Jen s tím rozdílem, že byl výsledný soubor mnohonásobně větší a jeho zpracování pomalejší.

Pro zobrazení a následný tisk PDF nabízelo Adobe software ke stažení zdarma. Specifikace byla otevřená, takže k jejich software mohly vznikat i otevřené alternativy.

Fakt, že hotový elektronický dokument v PDF formátu lze dodatečně upravovat jen v omezené míře, vedl k tomu, že se tento formát začaly firmy hojně používat k elektronickou dokumentaci svých produktů.


Princip, který PDF obšlehlo od DjVu

U vícestránkového DjVu dokumentu je každá stránka samostatný objekt, který je složen z několika vrstev dalších objektů - viditelný obraz vzniká až jejich sloučením:

  • Základem je obrazová vrstva (složená z několika dalších vrstev) - ta je přítomna vždy.
  • Kromě ní může být v dokumentu i textová vrstva s metadaty, hyperlinky, skrytým textem obsahu stránky a poznámkami.

Dokument zpracovaný do DjVu formátu bude vždy menší než v PDF, protože neexistuje takový algoritmus pro uložení bitmapového obrázku, který by dokázal skloubit:

  • rychlou dekompresi uložených dat
  • vysoký kompresní poměr
  • nízké zatížení procesoru v průběhu dekomprese
  • minimálně obsazenou pamě%t

Wavelet komprese

Naproti tomu obrazová vrstva DjVu je složena z několika barevných vrstev. Z nichž každou tvoří shluky skvrn komprimovaných wavelet kompresí. Takové shluky se dají matematicky popsat, takže je lze dobře komprimovat.

Maska

Obrazové formáty JPEG2000, a JBIG2, se kterými pracuje PDF, využívají stejně jako DjVu wavelet kompresi ale jsou náročnější při dekompresi na výkon procesoru protože se v paměti pracuje s celým bitmapovým obrázkem ve velkém rozlišení. Takže se jednotlivé stránky vykreslují velmi pomalu.

Trumfem v rukávu (a patentově chráněnou technologií) je u DjVu použití masky při kompresi. Zjednodušeně řečeno - před kompresí jsou odfiltrovány pomocí masky kontrastní plochy, takže s výsledkem je pak možné naložit stejně, jako by šlo o spojitou barevnou plochu. Místo mnoha členitých křivek se tak vektorově popíše jedna spojitá barevná plocha, která se uloží jako pozadí (background). A data odfiltrovaná pomocí masky se uloží do popředí (foreground).

Maska (mask) samotná je čistě černobílá, uložená v samostatné vrstvě. Hyperlinky, textové poznámky a další doplňkové informace jsou uloženy ve skryté textové vrstvě.

Obrazová vrstva složená z barevných skvrn

DjVu principiálně vychází z toho, že u archivního dokumentu nás většinou víc zajímá informace, kterou nese text, než jak vypadá struktura a zažloutlé okraje papíru, na kterém je napsaný. Takže nás tolik nebolí, že se z obrazu nepodstatné detaily vytratí, hlavně že je zachován tištěný či psaný text.

Vrstvy popředí a pozadí', získané po separaci s využitím masky se rozdělí na další vrstvy vektorově popsaných barevných skvrn. Takto popsané objekty, není problém zvětšovat, takže i při zvětšení obrazové vrstvy nevzniká problém s rychlostí při vykreslování obrazu.

U DjVu formátu je vždy nutné počítat s tím, že se při konverzi část obrazové informace ztratí, proto je občas třeba zvolit při konverzi optimální postup. Ale o tom více v kapitolách věnovaných anatomii DjVu souborů a konverzi do DjVu.

Nejsilnější argument - práce s poznámkami a vloženým textem

Když v roce 2001 firma Lizardtech uvolnila formát DjVu pro volné použití pod GPL2 licencí. Umožnila tímto krokem vývoj DjVuLibre - open source nástrojů a knihovny pro práci s DjVu, kterou dnes využívá k renderování DjVu stránek většina prohlížeček.

Léon Bottou - který byl jedním z otců formátu DjVu, tak mohl vytvořit a dát do pléna nástroje, srovnatelné s původním komerčním produktem, který se orientoval výhradně na oblast proprietárních operačních systémů MS Windows a Mac OS X. Každý uživatel opensource tak díky němu má možnost nejenom DjVu dokumenty číst, ale také vytvářet a upravovat v nich uloženou textovou vrstvu.

Vzhledem k tomu, jak byl DjVu formát navržen, lze díky čím dál lepším open source nástrojům znovu zpracovávat i staré DjVu dokumenty a dodatečně do nich doplnit chybějící metainformace a textová data.

Pokud jde o PDF, byla situace z hlediska zpracování textového obsahu dlouhé roky naprosto tristní, neboť s výjimkou komerčního balíku Adobe Acrobat dlouho nebyl k dispozici nástroj, který by umožnil editaci textové vrstvy a vkládání hypertextových odkazů a poznámek. V současné době sice již takové nástroje existují, ovšem vzhledem k vlastnostem formátu PDF nenabízí ani zdaleka takové možnosti jako DjVu.

PDF či DjVu?

Pro dlouhodobou archivaci dokumentů se jednoznačně hodí uložit naskenované stránky do formátu JPEG-2000, ovšem pro zpřístupnění dokumentu k dalšímu bádání je jednoznačně lepší, je-li k dispozici ve formátu DjVu


  1. Pracuje s ním kupř. internetový archív http://www.archive.org
  2. Prakticky to ovšem problematické je, protože neexistuje žádný vhodný WYSIWYG editor, který by umožnil pohodlnou editaci.
  3. První verze PDF formátu se objevila v roce 1993, tedy o tři roky dříve, než začal vývoj DjVu ve firmě AT&T Laboratories.
  4. Fa. Adobe Systems vyvíjela software jak pro Mac OS X, tak MS Windows ale u každého z nich se tisk řešil jiným způsobem. U Apple šli cestou lokálního tiskového serveru CUPS, který se dnes používá i u jiných unixových systémů. U Microsoftu závisela výsledná podoba tisku na konstelaci lokální instalace - dostupných fontech, aplikaci a ovladači tiskárny.
  5. Verze 1.3 (z r. 2000) pracovala pouze s CID fonty. TrueType a OpenType fonty podporuje PDF až od verze 1.6, uvedené v r. 2004
  6. Takový PDF dokument se již nedá znovu editovat, a pokud nemá skrytou textovou vrstvu, ani prohledávat. Skrytá textová vrstva, jako má DjVu, byla do specifikace PDF zahrnuta až od rozšířené verze 1.7 v r. 2008.