Využití grafických formátů JPEG a DjVu v digitalizaci
Filip Vojtášek, Ikaros, Praha
Referát srovnává vlastnosti dvou grafických formátů - JPEG, který představuje standard široce podporovaný rastrovými editory a webovskými prohlížeči, DjVu, který nedávno vyvinula firma AT&T. Referát se soustřeďuje na možnosti využití DjVu v digitalizaci. Závěry se opírají o výsledky testování digitálních kopií různých dokumentů.
E-mail: filip.vojtasek@ff.cuni.cz


JPEG zatím vládne
Od roku 1991, kdy Joint Photographic Experts Group, pracovní skupina ustavená při International Standard Organization (ISO), představila normu pro kompresi (ISO/IEC 10918-1 a 10918-2) grafického formátu, jehož oficiální název zní JPEG File Interchange Format (JFIF), který vyvinula firma C-Cube Microsystems, avšak pro nějž se vžilo prosté pojmenování JPEG, zaujímá neotřesitelnou pozici všeobecně akceptovatelného standardu pro statické bitmapové obrazové soubory reprezentující předlohy se složitou barevnou strukturou (24bitová barevná hloubka nebo škála 256 odstínů šedi). K ním počítáme i většinu druhů dokumentů z historických knihovních fondů (HKF), resp. tzv. speciálních nebo vzácných fondů (rukopisy, tisky do roku 1800, mapy, černobílé fotografie aj.). Tento formát je implicitně doporučován pro účely jejich digitalizace např. v technické dokumentaci zveřejněné v rámci projektů realizovaných na půdě Library of Congress (American Memory) a Národní knihovny ČR (Memoriae Mundi Series Bohemica), která v této oblasti působí de facto jako metodické pracoviště programu "Memory of the World" na záchranu dokumentového dědictví, vyhlášeného UNESCO v roce 1992.
Budeme však přesnější, pokud budeme tvrdit, že JPEG vládne DOSUD, avšak křeslo pod ním se začíná povážlivě naklánět pod náporem progresivnějších technologií, zejména technologie "wavelet", která bude níže ve stručnosti charakterizována na příkladu formátu DjVu.

Přednosti JPEG
Úspěšnost JPEG vychází ze dvou skutečností: Za prvé je tento formát široce podporován komerčními grafickými rastrovými editory (k nejznámějším patří Adobe Photoshop, Corel Photo-Paint a Jasc Paint Shop Pro) jako základním aplikačním softwarem pro úpravu digitálních kopií transparentních nebo odrazných analogových dokumentů a dále webovskými prohlížeči jako univerzálními nástroji pro příjem informací v prostředí WWW, v němž poskytují své služby v rostoucí míře i knihovny.
Za druhé se JPEG vyznačuje, což je v kontextu tohoto příspěvku zvláště podstatné, příznivým poměrem mezi velikostí a kvalitou zobrazení. Jinými slovy, digitální kopie uložená v JPEG i při relativně vysokém stupni komprese (až 1:20), kterou chápeme jako účelové snižování datového objemu obrazového souboru, může jednak zastoupit originální dokument pro běžné badatelské účely, o čemž svědčí praktické zkušenosti, jednak se neliší vizuálně od reprodukce, která vznikne jako prvotní výsledek přímého snímání originálu, resp. se tyto rozdíly mezi těmito dvěma soubory projevují ve ztěží postřehnutelných detailech. Je to dáno tím, že při kompresi kódovacím schématem, které má ztrátový (lossy) charakter (což znamená, že určitá množina dat se ve výsledném souboru nenávratně vypouští oproti souboru nekomprimovanému) a které je založeno na metodě diskrétní kosinové tranformace (DCT), jsou odstraňovány pixely o vysoké frekvenci (tj. pixely se značným jasem - např. odstíny žluté, oranžové a červené), na které je lidské oko méně citlivé. Nejúčinnější je komprese u předloh, pro něž je typické spojité tónování, tj. pozvolné barevné přechody v odstínech mezi sousedními pixely (např. barevné fotografie). Kompresi si tak lze představit jako zprůměrování hodnot barevných složek několika sousedních pixelů. Při stejné kvalitě je proto ve větším poměru komprimován obraz s 24bitovou hloubkou než obraz se škálou 256 odstínů šedi, nemluvě o obrazech s ostrými hranami (geometrické tvary). Dojde tak sice ke snížení informační hodnoty, ale nikoliv subjektivnímu, protože lidské oko je není vzhledem ke svým fyziologickým vlastnostem schopné zaregistrovat.

Omezení JPEG
Přestože kompresní poměr (někdy označovaný jako Q-faktor) představuje hlavní parametr pro redukci velikosti obrazu ve formátu JPEG, v různých aplikačních programech se používají různá rozpětí jeho nastavení (např. v Photoshop 1 až 10 a v Paint Shop Pro 1 až 100). Ke každému souboru je navíc třeba v tomto směru přistupovat individuálně, tj. přizpůsobovat Q-faktor jeho charakteru a předpokládanému využití. V praxi se tak bude odlišovat Q-faktor např. u digitální kopie iluminovaného rukopisu a textového starého tisku, resp. u kopie určené pro lokální a síťové zpřístupnění.
Přes uvedené přednosti JPEG nelze v jeho případě mluvit o ideálním formátu, zejména v souvislosti s komunikací po Internetu. Objemné soubory s vysokým rozlišením (tj. kopie rozměrných dokumentů, které pochopitelně přicházejí v úvahu také v projektech digitalizace), které je třeba z praktických důvodů zachovat, by se musely, aby bylo současně dosaženo přijatelné výsledné velikosti pro účely služeb typu elektronických DDS, komprimovat v takovém poměru, že by nesly v důsledku této operace patrné stopy degradace. Příčiny tohoto nežádoucího jevu, nazývaného artefakty (artefacts), který identifikujeme např. podle shluků pixelů nepřirozené barvy na celistvých plochách, stínů na přechodech mezi světlou a tmavou plochou, lesku (moaré) apod., spočívají v principu kompresního algoritmu DCT, který, zjednodušeně řečeno, dekomponuje obraz do bloků 8 krát 8 pixelů, které se komprimují jako samostatné jednotky na základě tzv. kvantizačního koeficientu. Jeho hodnotu uživatel ovlivňuje s pomocí Q-faktoru.

Nároky na síťově přenášený formát
Vzhledem k rostoucím významu WWW, resp. elektronickému publikování v nejširším slova smyslu, které se dnes již zdaleka netýká jen web-designu, je nezbytné této problematice věnovat pozornost. V přenosové rychlosti linek a jejich spolehlivosti existují propastné rozdíly navzdory dynamickému technologickému vývoji, což potvrdí každý, kdo se aspoň jednou, připojen prostřednictvím modemu komutované linky, pokusil stáhnout z Internetu objemnější soubor rychlostí 33,6 kbitů za sekundu, a proto je třeba při zpřístupňování těchto souborů, v našem kontextu produktů digitalizace HKF, respektovat fakt, že ne všichni potenciální uživatelé disponují obdobně báječným připojením optickým vláknem na páteřní síti jako my. Základním kritériem pro efektivní přenos obrazových souborů v síťovém režimu je proto jejich minimální velikost, aniž by přitom klesla jejich kvalitativní úroveň (tj. aby kvalita internetovských souborů byla srovnatelná s kvalitou souborů ukládaných např. na CD-ROM a využívaných lokálně), z čehož však vyplývá, že je nutné aplikovat jiné metody s výrazně vyšším kompresním poměrem, než jakých se používá u formátu JPEG.

DjVu jako perspektivní nástupce JPEG na Internetu?
S cílem překonat slabiny JPEG a především s cílem reagovat na požadavky kladené na grafické soubory ze strany internetovské komunity, která se nechce obecně smířit s omezenými možnostmi současných rastrových formátů (viz formát PNG prosazovaný konsorciem W3 jako nástupce GIF), které vznikly v předwebovské éře, avšak dnes, jak se stále jasněji ukazuje, nedostačují, vyvíjí od roku 1998 výzkumné laboratoře americké telekomunikační firmy AT & T nový formát pojmenovaný poněkud záhadně DjVu, který by měl perspektivně nahradit JPEG primárně pro účely distribuce obrazových dat po Internetu.
DjVu spadá do kategorie formátů s tzv. smíšeným rastrovým obsahem (mixed raster content, MRC), což znamená, že obraz není považován za jeden homogenní celek jako v případě JPEG, nýbrž je segmentován do dvou vrstev (popředí - foreground a pozadí - background) reprezentující dva základní objekty textově-obrazového scannovaného digitálního dokumentu (např. časopisy), pro něž je DjVu na prvním místě určen. (DjVu však lze úspěšně využít i u dalších druhů dokumentů např. barevné fotografie, pérovky.) Vychází se totiž z předpokladu, že z hlediska počítačového zpracování grafických dat mají tyto objekty odlišné vlastnosti. Zatímco pro text, čárovou grafiku, schémata a výkresy apod. (tj. popředí) je charakteristická monochomatičnost, linie, ostré hrany, opakovaný výskyt pixelových shluků (písmena) a vysoký stupeň kontrastu, grafické prvky (tj. pozadí, které je samo tvořeno čtyřmi vrstvami) se vyznačují naopak nepravidelnými tvary a barevnou hloubkou. Tyto objekty jsou pro účely kódování od sebe odděleny, přičemž je aplikován odlišný komprimační algoritmus.

Technologie wavelet
Bitonální komprese popředí s pomocí metody JB2 je předmětem příspěvku Mgr. A. Knolla. Soustředíme se proto na kompresní schéma IW44 pro pozadí, které je založeno na technologii waletet, pro niž se v češtině ujal poetický ekvivalent "vlnky". Wavelet jako matematická teorie je sice znám poměrně dlouho (používá se např. v americké FBI pro uchovávání digitalizovaných vzorků otisků prstů, v lékařském snímkování nebo geografických informačních systémech), ale v komerční sféře v oblasti obrazových dat, která je rozhodující pro jeho budoucí uplatnění, zatím s wavelet probíhají spíše experimenty. Vedle AT & T jde např. o společnosti LizardTech, LuraWave či Aware. Žádná mezinárodní norma týkající se grafického formátu, který by se opíral o wavelet, nebyla dosud schválena. Tento stav však nebude platit věčně, protože pracovní skupina JPEG dokončila letos v březnu specifikaci formátu JPEG 2000 (Final Draft 15444 Part 1), která by měla být podle informací uváděných na jejím oficiálním serveru publikována v roce 2001. Pak je zřejmě jen otázkou času, kdy bude implementována do grafických editorů a webovských prohlížečů. Stejně jako v případě DCT u JPEG je IW44 ztrátový kompresní algoritmus, který ovšem dosahuje vyšší efektivity (vyššího kompresního poměru - 1:50 až 1:100), aniž by kvalita obrazu klesla pod přijatelnou úroveň, díky tomu, že obraz je vyjádřen složitou matematickou funkcí jako spojitý datový tok na rozdíl od blokové struktury JPEG, a jako takový je opakovaně rozložen na poloviční rozlišení, přičemž komprese probíhá při každém tomto kroku. Tato skutečnost přináší další významnou výhodu, kterou oceníme při šíření těchto dat po Internetu, resp. při jejich příjmu z Internetu. Soubor ve formátu DjVu se nedekomprimuje naráz (tj. na monitoru shora dolů), nýbrž přírůstkově (podobně jako u interlaced GIF nebo progressive JPEG), tj. postupně v jemnějším rozlišení. Nejprve se objeví nejdůležitější část dat - text, poté obrysy grafiky a nakonec obraz v kompletní podobě. Klesá tak na minimum nebezpečí přehlcení paměti terminálu.
Rovněž u souborů v DjVu jsou při vysokém kompresním poměru viditelné stopy degradace obrazu, avšak nikoliv v takové míře jako u JPEG (obraz je rozmazán místo toho, aby se rozpadl do bloků).

Aplikační software pro DjVu
Firma AT & T uvolnila od minulého roku k volnému využití několik nástrojů pro práci s formátem DjVu. Pro laické uživatele jsou nejdůležitější dva z nich. Tím prvním je editor DjVuShop (aktuálně verze 2.0 beta 2), ve kterém lze upravovat nejen soubory ve formátu DjVu (mj. umisťovat hypertextové odkazy), ale zejména konvertovat do něj soubory z ostatních běžných rastrových formátů (GIF, JPEG a TIFF). Při otevírání souboru je třeba zvolit příslušné parametry podle jednoho ze tří typů dokumentu (barevný, černobílý nebo fotografie). V první a třetí kategorii se nastavuje kompresní poměr (image quality) v rozpětí 1 až 100, přičemž jako výchozí hodnota slouží 75. Praktické zkušenosti ukazují, že je vhodné pohybovat se mezi hodnotami 75 až 100. Zpravidla se nepodaří nalézt optimální hladinu (nejvyšší kvalita při nejmenší velikosti) na první pokus, a proto se doporučuje parametry "image quality" a "target gama" kombinovat. Dokumenty z HKF (rukopisy a tisky) se překvapivě konvertují v režimu "fotografie", nesmíme se tedy nechat zmást a sáhnout po zdánlivě jediné logické možnosti. V opačném případě dojde při kompresi k nežádoucí separaci popředí a pozadí, která se projeví v nepřirozeném zvýraznění textu a částí iluminací. Pokud chceme vytvořit dokument v barevném režimu v DjVu se shodnými rozměry jako původní soubor v jiném formátu, je nutné změnit hodnotu rozlišení z 300 dpi na příslušnou hodnotu.
Tento program je optimalizován pro Windows 95/98/NT 4.0. Jako minimální požadavky na výkon počítače jsou uvedeny procesor s kmitočtem 266 MHz a 64 MB RAM. Konverze nekomprimovaného souboru ve formátu TIFF o velikosti 15,4 MB trvala na počítači 400 MHz/64 MB několik minut, a proto zmíněné údaje není možné brát doslova.
Druhým nezbytným aplikačním softwarem je plug-in (verze 3.0 beta 6) pro Netscape a Explorer od verze 3 (pro všechny rozšířené platformy), jehož instalace probíhá automaticky a který umožňuje základní manipulaci se souborem: změnu zobrazovacího módu (popředí, pozadí, všechny vrstvy a černobílé popředí s bílým pozadím), zvětšování, navigace ve více dokumentech, hledání znakového řetězce (za podmínky, že byl dokument předtím převeden do textové podoby s pomocí technologie OCR), adjustace jasu, tisk a ukládání do formátu BMP pro další zpracování.
Pro přenos dat ve formátu DjVu je nezbytné zajistit, aby specifikace MIME typu "image" na webovském serveru, na němž jsou tyto soubory uloženy, byla doplněna o podtyp "djvu", příp., jako alternativní řešení, použít místo tagu <IMG> tag <EMBED>, který však prohlížeč Explorer 4.x nepodporuje, s atributem TYPE="image/x-djvu".
Vedle základní technické dokumentace a aktuálních informací zpřístupňuje AT & T na svém serveru ukázky digitálních kopií různých druhů dokumentů (např. Guttenbergova bible, staré tisky, geneaologické záznamy, jídelní lístky, technické zprávy, komiksy, mapy a dopis psaný Thomasem Jeffersonem). Zároveň je odkazováno na některé externí projekty digitalizace, které aplikují DjVu, včetně Národní knihovny ČR, která ve spolupráci s redakcí časopisu Ikaros převedla do tohoto formátu digitalizované arabské rukopisy. Za tento počin jí bylo uděleno ocenění za nejlepší DjVu prezentaci v měsíci srpnu 1999.

V testu dopadl lépe DjVu
Dílčí srovnávací test mezi formáty DjVu a JPEG pro účely tohoto referátu byl uskutečněn na digitální kopii barevné fotografie, která byla pořízena scannerem a dále byla jen drobně upravena v grafickém editoru, aby mohla být efektivně využita pro přenos po Internetu. Snímek, který měl ve výchozím stavu rozměry 512 krát 410 pixelů (rozlišení 144 dpi) a velikost 57 kilobytů, je zajímavý tím, že v něm jako v celku převládá tmavé tónování (interiér knihovny s tmavými sedačkami a pokrytím podlahy a mořenými regály), ovšem zachycuje také jasově výrazně objekty (odraz světelného zdroje na stropě).
Postupně byly v programu Paint Shop Pro ze základního souboru JPEG vytvořeny odvozené soubory JPEG v pěti kvalitativních hladinách (komprese 50, 60, 75, 85 a 90 procent). V programu DjVuShop byla provedena konverze (v podstatě v reálném čase) základního souboru JPEG celkem desetkát s cílem nalézt jednak soubor odpovídající kvalitě základnímu souboru JPEG s co nejmenší velikostí, jednak soubor odpovídající velikosti souboru JPEG 60, který byl určen jako obraz s minimálně přijatelnou kvalitou. Z výsledků testu, při němž byly zmíněné dvojice souborů srovnány, vyplývají následující dvě zjištění:

  1. Při odpovídající kvalitě zobrazení se poměr ve velikosti souborů DjVu a JPEG kolem 1 : 2. (V případě arabských textově-obrazových rukopisů byl vykazován poměr 2 : 3. Jako předloha sloužil obraz v tzv. Internet Quality o velikosti 140 kB z nedávno vydaného CD-ROM.) [srovnani1.png]
  2. Při stejné velikosti obou souborů je kvalita souboru DjVu subjektivně vyšší než souboru JPEG, u něhož je na hranách zřetelnější šum a na větších plochách stopy po blokových artefaktech [srovnani2.png]. Ještě výrazněji se tyto rozdíly projevují při extrémní kompresi [srovnani3.png].
Formát MrSID
DjVu není jediný formát, jehož kompresní algoritmus je založen na principu wavelet. K dalším formátům, které mají předpoklady pro to, aby dosáhly širšího praktického uplatnění, je MrSID, u jehož zrodu stála firma LizardTech a která, jak bylo oznámeno 14. března 2000, odkoupila od laboratoří AT & T technologii DjVu s cílem urychlit její komerční využití. Ve spolupráci s ní bude pokračovat vývoj i aplikačního software. Hlavní přednost MrSID, který se využívá při digitalizaci předloh s extrémním rozlišením (kartografické dokumenty či družicové snímky), tkví v tom, že uživatel si nemusí ze serveru stahovat celý soubor o objemu, který běžně překračuje jeden gigabyte, což by nebylo ostatně prakticky uskutečnitelné, nýbrž vybraný detail v požadovaném zvětšení s pomocí plug-in nebo speciálního prohlížeče MrSID Viewer, který je na rozdíl od kódovacího programu k dispozici zdarma. Library of Congress takto vystavuje digitalizované mapy, z nichž nejstarší pochází z roku 1544, ze své rozsáhlé sbírky jako součást projektu American Memory.

Závěr
Je složité přesně predikovat vývoj v oblasti digitálních informačních technologií, avšak s velkou mírou pravděpodobnosti se v případě grafických dat bude ubírat směrem k formátům využívajícím technologii wavelet. Aby se staly běžnou součásti elektronického publikování, musí být nejprve překonány současné překážky, které spočívají v tom, že zmíněná řešení mají zatím proprietární charakter (pevná vazba na konkrétní software), resp. v jejich nestandardizaci. Dá se předpokládat, že hlavním impulzem, aby se tak stalo, bude avizované uvedení formátu JPEG 2000 na trh.

Použitá literatura:
1. AT & T. DjVu FAQs [online]. AT & T, cop. 1998 [cit. 2000-03-20]. Přístup z: <http://djvu.research.att.com/support/faq.html>.
2. AT & T. What is DjVu [online]. AT & T, cop. 1999 [cit. 2000-03-20]. Přístup z: <http://djvu.research.att.com/wid>.
3. BURIÁNEK, Jan. Když vlnky komprimují obraz... Chip, 1999, roč. 9, č. 10, s. 146-149.
4. ESSEX, David. JPEG rival runs loose on web. PC World.com [online]. February 8, 1999 [cit. 2000-01-31]. Přístup z: <http://www.pcworld.com/pcwtoday/article/0,1510,9638,00.html>.
5. FLEISCHAUER, Carl. Digital formats for content reproductions [online]. Washington, D. C. : Library of Congress, 1998-07-13 [cit. 2000-03-17]. Přístup z: <http://memory.loc.gov/ammem/formats.html>.
6. JPEG. JPEG2000 - the D.C. [online]. Elysium, ca. 2000 [cit. 2000-04-02]. Přístup z: <http://www.jpeg.org/FCD15441-1.htm>.
7. KNOLL, Adolf. Memoriae Mundi Series Bohemica : a programme of digital access to rare documents. In 27. ABDOS-Tagung, Göttingen, 18 bis 21. Mai 1998 : Referate und Beiträge. Zussammengestellt von W. Adreesen. Berlin : Staatsbibliothek zu Berlin-Preußischer Kulturbesitz, 1998, s. 161-167. Přístup též z: <http://digit.nkp.cz/EnglishArticles/Read_Papers/MMSB.html>.
8. MURRAY, James D., RYPER William van. Encyklopedie grafických formátů. 2. vyd. Praha : Computer Press, 1997, s. 167-173.
9. PUGLIA, Steven. Fractal and wavelet compression. RLG DigiNews [online]. 1998, vol. 2, no. 3 [cit. 2000-02-21]. Přístup z: <http://www.rlg.org/preserv/diginews/diginews23.html>.