Hybridní technologie reformátování knihovních fondů
Jiří Polišenský, Národní knihovna ČR, Praha
Hybridní technologie reformátování kombinuje mikrofilm a digitální formát za účelem ochrany ohrožených knihovních fondů. Mikrofilm garantuje dlouihodobé dochování obsahu dokumentu, digitální formát slouží pro zpřístupňování uživatelům. Národní knihovna ČR realizovala v letech 1997 až 1999 projekt "Digitalizace mikromédií", v rámci kterého bylo vytvořeno pracoviště skenování mikrofilmů a mikrofiší a zpřístupňování digitálních dokumentů prostřednictvím internetu.

Digitalizace mikromédií

Digitalizace mikromédií se v současné době doporučuje jako uznávaná hybridní technologie ochranného reformátování, která se využívá k záchraně knihovních dokumentů ohrožených degradací, zejména novin, časopisů a dalších publikací tištěných na kyselém papíru. Mikromédia jsou různé druhy mikrografických nosičů. V knihovnách se nejvíce využívají mikrofilmy 35 mm a mikrofiše formátu A6, s různým počtem polí. V jiných oblastech se využívají také mikrofilmy 16 mm a mikroštítky. Reformátování je technologický postup, jehož pomocí se převádí obsah dokumentu na jiný nosič a to buď při zachování, nebo se změnou původní grafické podoby. Nejvíce používanými technologiemi reformátování v knihovnách jsou mikrofilmování, elektrografické kopírování, digitalizace a v poslední době zejména hybridní technologie, kombinující mikrofilm a digitální záznam.

Reformátování má v oblasti ochrany fondů za cíl vytvořit trvanlivou kopii, která nahradí původní dokument nejen v současné době, ale i po jeho definitivním zničení a to v termínech staletí. Současná trvanlivost mikrofilmu se odhaduje na 500 a více let bez nutnosti složité kontroly, závislé na nákladných zařízeních a dalších operací. Proto se mikrofilm jako jediné médium používá tam, kde je podmínkou uchovat reformátovanou kopii dlouhodobě, nebo trvale. Svitkový mikrofilm je však do značné míry nepříznivý pro zpřístupňování a jeho duplikování je nákladné. Z těchto důvodů je daleko výhodnější používat pro zpřístupňování digitální formát. V případě hybridní technologie tak mikrofilm slouží pro dlouhodobé uchování, digitální formát pro zpřístupňování.

Projekt Digitalizace mikromédií řešila Národní knihovna ČR spolu s Ústavem pro českou a světovou literaturu a firmou Albertina icome Praha v letech 1997 až 1999. Jeho cílem bylo uplatnění hybridní technologie reformátování v oblasti ochrany knihovních dokumentů v podmínkách veřejných knihoven  České republiky. Výsledkem  řešení projektu je pracoviště digitalizace mikrofilmů a mikrofiší, které je schopno provádět konverzi mikrografických médií do digitálního formátu a zpřístupňovat digitalizované dokumenty prostřednictvím CD-R médií, lokální sítě NK ČR a internetu. Součástí řešení bylo vytvoření metody indexace monografických a periodických dokumentů a tvorby metadat ve formátu DOBM. V tomto bodě byly využity výsledky již řešených projektů NK ČR a Albertiny icome Praha v rámci programu UNESCO Paměť světa. Projekt Digitalizace mikromédií byl řešen také v úzké návaznosti na projekt Kramerius I, projekt ochranného mikrofilmování ohrožených bohemikálních dokumentů.

Proces skenování mikromédií
Koncem r. 1997 a v r. 1998 byl řešen problém skenování mikrofilmů a mikrofiší. Bylo třeba rozhodnout, jaké parametry by měl tento proces splňovat. Vzhledem k tomu, že mikrofilmy a mikrofiše zhotovené v knihovnách ČR obsahují a v budoucnosti budou obsahovat nejrůznější typy dokumentů, noviny, časopisy, monografie, staré tisky rukopisy atd., bylo nutné, aby přístroj byl schopen produkovat obrazové soubory s vysokou rozlišovací schopností a v plné šedé škále. Dalším kritériem, podle kterého se rozhodovalo o parametrech skeneru byla rychlost skenování a tím daná produktivita pracoviště. Zda bude hybridní technologie aplikována na velmi omezený počet mikrofilmovaných dokumentů, nebo bude uplatněna hromadně. Vzhledem ke specifické situaci v NK ČR, kde bylo mnoho dokumentů mikrofilmováno, aniž byly zhotoveny uživatelské kopie, a vzhledem k výhodám zpřístupňování dokumentů v digitální podobě, bylo rozhodnuto konvertovat do digitálního formátu maximální počet dokumentů. Z toho vyplynul požadavek na vysokou rychlost a produktivitu procesu digitalizace.

Dalším problémem byla skutečnost, že hybridní technologie vyžaduje specifické odborné znalosti, přístroje i programy, dodržování technologických norem a mezinárodních doporučení a samozřejmě vysoké finanční náklady na vybudování takového pracoviště. Nebylo proto reálné předpokládat, že bude možné tuto technologii vybudovat i v dalších veřejných knihovnách v ČR. Naopak výhodnějším postupem je provozovat jediné produktivní pracoviště, u kterého je mnohem snadnější zajistit požadované parametry na výstupech, než u více pracovišť a které bude konverzi mikrofilmů do digitálního formátu zajišťovat v určitém rozsahu i pro další veřejné knihovny. Výše uvedené požadavky směrovaly výběr k nejproduktivnější skupině skenerů Mekel, Wiks and Wilson a SunRise, z nichž nejlépe svými parametry vyhověl posledně uvedený přístroj.

Přístroj SunRise sestává ze základní části obsahující snímací zařízení s 8800 CCD prvky, které mohou být využívány všechny nebo v omezeném počtu 7200, 4400 a 3600 prvků v závislosti na velikosti předlohy a rozlišovací schopnosti. V podstavci základní části je zabudovaný PC 300 MHz Pentium, 128 MB RAM, 2 GB hard drive. Další části tvoří dva výměnné adaptery pro svitkové filmy (16 a 35mm) a pro mikrofiše. Součástí přístroje je složitý program ScanFlo, který umožňuje eliminovat rozdíly v optické hustotě mikrofilmů, zlepšovat kontrast a další parametry a tím získávat poměrně kvalitní obrazové soubory i z nestandardně zhotovených mikrofilmů. Maximální rozlišovací schopnost je 600 dpi, obrazové soubory je možné ukládat ve formátech TIFF, JPEG a GIF. Soubory je možné komprimovat. Max. rychlost skenování je v případě 35mm filmu 1 pole za vteřinu, při rozlišovací schopnosti 200 dpi. Pří vyšším rozlišení  a při použití šedé škály se rychlost skenování snižuje.
 

Tvorba metadat
Další oblastí řešení v rámci projektu byla oblast tvorby metadat. Metadata (data o datech) usnadňují vyhledávání v dokumentech a jsou podmínkou pro nezávislost digitálních dokumentů na programovém a přístrojovém vybavení. Zde projekt navazoval na výsledky z předchozích projektů aplikací formátu DOBM, založeném na standardu SGML, na další typy dokumentů. Byla navržena specifikace údajů pro monografie a periodika a vytvořeny programové nástroje umožňující poloautomatickou tvorbu metadat. Tento proces probíhá ve dvou fázích. V prvé se vytvoří bibliografický popis a struktura dokumentu. V případě periodik se používá formulář na kterém se shromáždí veškeré potřebné údaje zjištěné prolistováním dokumentu. Ve druhé fázi se tyto údaje přepíší do textového formátu, pomocí programu MICTAB. Textový soubor s indexními daty se stává podkladem pro konverzi do formátu DOBM, která se provádí pomocí programu DOBM generátor, který také umožňuje vytváření komplexních digitálních dokumentů spojením obrazových souborů s metadaty. Oba programové produkty byly vyvinuty firmou Albertina icome Praha v rámci řešení projektu.

Zpřístupňování digitálních dokumentů
Obrazová data vytvořená skenováním mikrofilmů a mikrofiší se ukládají v robotické magnetopáskové knihovně, metadata na diskovém poli, které současně slouží jako paměťová cache pro často žádané soubory. Ve veřejné soutěži byla vybrána knihovna ADIC Scalar 1000, která má 6 mechanik a 65 pásek AIT 2 po 36 GB. Aktuální kapacita knihovny je 2,34 TB a lze ji rozšířit až na 8,53 TB, příp. ještě více, při použití pásek 50 nebo 100 GB. Činnost  robotické knihovny řídí systém SAM FS, což je  komplexní systém HSM (Hierarchical Storage Manager) s rozšířenými funkcemi pro vytváření komplexních archivních systémů. Tato forma zpřístupňování, která se nazývá near-line,  je náročnější na čas, na druhé straně umožňuje uchovávat a pohotově zpřístupňovat po síti velké objemy dat, při podstatně nižších nákladech.
Dokumenty, které nejsou vázány autorským právem, budou zpřístupňovány prostřednictvím internetu zdarma, pokud to dovolí výše poplatků hrazených za přenos dat a finanční situace NK ČR. Většina ostatních dokumentů bude zpřístupňována prostřednictvím lokální sítě na počítačích ve studovnách NK ČR. Digitální dokumenty bude také možné zaznamenat pro externí uživatele na požádání na CD-R média, nebo případně doručit obrazové soubory elektronickou cestou prostřednictvím modulu pro dodávání dokumentů.

Pro zpřístupňování digitálních dokumentů slouží systém AIP SAFE, vytvořený firmou Albertina Icome Praha v rámci řešení projektu. Jedná se o modulární systém pro tvorbu, zpracování, ukládání a poskytování digitálních dokumentů. Kromě jádra obsahuje systém AIP Safe modul výroby digitálních dokumentů, sklad digitálních dokumentů a modul pro poskytování digitálních dokumentů. Část systému AIP SAFE (WWW server) používá pro svůj chod systém SIRIUS, který tvoří rozhraní mezi klienty na internetu, Web Servery a systémem AIP SAFE. Sirius je nezávislá otevřená aplikace pro zajištění komunikace s WWW servery a pro dynamickou tvorbu WWW stránek. Systém SIRIUS je platformě nezávislý a je možné jej provozovat na jakékoliv platformě podporující interpretaci jazyka Java 1.1.
 

Archivace a zálohování digitálních dokumentů
Dlouhodobé dochování obsahu původního dokumentu zajišťuje v rámci hybridní technologie mikrofilm. Vzhledem k tomu, že digitalizace byla provedena z archivního negativu, je třeba zálohovat digitální obrazové soubory, aby v případě ztráty dat nemusela být digitalizace opakována. Vzhledem k předpokládanému velkému objemu dat byla zavržena CD-R média pro jejich ukládání a pro zálohování se využívá robotická knihovna a systém SAM-FS. Zálohování se provádí v několika úrovních. Především jsou identické kopie dokumentů (pásky s identickým obsahem) uloženy v robotické knihovně pro okamžitou náhradu v případě její poruchy. Další identická kopie je uložena off-line mimo budovu, ve které je umístěn robot, pro případ zničení celé robotické knihovny. Pomocí systému SAM-FS a robotické knihovny je možné provádět úplnou recyklaci digitálních dokumentů. Zcela automaticky se provádí kontrola expiračních lhůt médií, dekomprese a dopočítání chybějící informace, zpětná komprese a záznam na nové médium.
 

Velikost obrazových souborů
Velikost obrazových souborů se stává často limitujícím faktorem pro jejich zpřístupnění prostřednictvím internetu. V rámci řešení projektu byla určena jako limitní, v případě obrazových souborů, velikost 300 KB. Tato velikost byla zvolena s ohledem na prioritní uživatele, kterými by měly být knihovny a odborné ústavy.  Soubory v této velikosti nebude možné zpřístupňovat prostřednictvím telefonního vedení a modemu, což znamená omezení pro běžného uživatele v domácnosti. V případě dokumentů zpřístupňovaných prostřednictvím lokální sítě, nebo distribuovaných prostřednictvím CD-R médií může být velikost souborů podstatně vyšší. Vzhledem k tomu, že probíhá rychlý vývoj i v oblasti přenosových tras, viz např. přechod evropského projektu TEN z šířky pásma 34Mb/s na 155 Mb/s, lze očekávat, že i podstatně objemnější soubory bude možné v poměrně blízké budoucnosti zpřístupňovat také na internetu.
 
 

Kvalita obrazových souborů
Výsledná kvalita obrazových souborů závisí na řadě faktorů. Zejména je to kvalita mikrofilmu a to dosažená rozlišovací schopnost, která by měla být vyšší než 120 čar na mm a stejnoměrná optická hustota pozadí Dmax. Kvalita mikrofilmů je pak nejvíce ovlivněná charakterem předlohy, která je na mikrofilmu nasnímkovaná. Vzhledem k tomu, že se většinou mikrofilmují noviny a časopisy, které mají nekvalitní tisk a papír zabarvený v důsledku degradace, příp. obsahují polotónové nebo barevné ilustrace, je dosažení optimálního výsledku komplikované. Podmínkou je velmi dobré zvládnutí mikrofilmové technologie jak v oblasti expozice, tak i chemického zpracování a dostatečná praxe obsluhy. Díky projektu Kramerius I byly vytvořeny podmínky i v dalších knihovnách spolupracujících v rámci národního programu ochranného reformátování pro produkci mikrofilmů v požadované základní kvalitě, především rozlišovací schopnosti.

Dalším důležitým faktorem ovlivňujícím výslednou kvalitu je optimální nastavení parametrů skeneru před skenováním. Přístroj skenuje automaticky všechna pole mikrofilmu, proto nastavení musí být přizpůsobeno všem mezním hodnotám, vyskytujícím se na mikrofilmu. V rámci nastaveného rozmezí je pak skener schopen vyrovnávat rozdíly v denzitě pozadí, odstraňovat šum a provádět další operace s obrazovými daty. Podmínkou je stejnoměrná optická kvalita celého mikrofilmu. U obrazových polí, která přesahují nastavené prahové hodnoty se musí opakovat skenování při jiném nastavení. Vzhledem k tomu, že nové nastavení přístroje trvá 10 až 20 min. je výhodné uchovat v paměti přístroje typická nastavení a ty opakovaně používat a přizpůsobovat pouze některé hodnoty.

Kvalitu a čitelnost digitálního dokumentu ovlivňuje zvolená rozlišovací schopnost uváděná v „dpi“. Čím je vyšší, tím je možné dosáhnout lepších výsledků skenování, současně se ale zvětšuje velikost souborů. Volba rozlišovací schopnosti záleží na účelu, kterému má digitální záznam sloužit. Při volbě rozlišovací schopnosti je třeba brát v úvahu i další záměry jako např. pořízení plného textu pomocí technologie OCR, které bude v knihovnách zcela jistě přicházet v úvahu. Konečně kvalitu dokumentu, tak jak se nám jeví na obrazovce, ovlivňuje také použitý prohlížeč a rozlišovací schopnost obrazovky, příp. použití různých pomocných programových prostředků (plug-in). Kvalitu lze nejlépe prověřit, pokud si vybranou stranu vytiskneme na tiskárně, na které lze dosáhnout větší rozlišovací schopnosti než na obrazovce. Takto budou pravděpodobně digitalizované dokumenty také nejvíce využívány.
 

Další vývoj a kooperace knihoven
Projekty řešené v rámci programu Paměť světa a Digitalizace mikromédií položily základy pro budování digitální knihovny. V další etapě je třeba optimalizovat proces tvorby digitálních dokumentů např. úpravami snímkovacích mikrografických kamer jejichž cílem by měla být vyšší rozlišovací schopnost a vyšší kontrast i v případě velmi degradovaných dokumentů. Dalším krokem ve vývoji digitální knihovny by mělo být použití technologie OCR pro konverzi obrazového záznamu do plného textu, který by sloužil zejména pro vyhledávání pomocí speciálních  fulltextových vyhledávacích nástroj, příp. pro automatickou tvorbu metadat. To je také předmětem řešení nového dvouletého projektu, který NK ČR řeší ve spolupráci s dalšími SVK a Moravskou zemskou knihovnou. Dále bude třeba zaměřit pozornost na použití standardu XML pro tvorbu metadat a nástrojů pro konverze různých formátů. Bude také třeba integrovat do celého systému nové kompresní formáty umožňující zmenšit velikost vytvářených obrazových souborů a tím zefektivnit využití paměťových médií a přenosových tras.

Je zřejmé, že ochranné reformátování nemohou provádět jednotlivé instituce izolovaně, ale tato činnost musí být koordinována na úrovni celé ČR ale i v mezinárodním měřítku. Tomu slouží Národní program ochranného reformátování Kramerius, jehož cílem je koordinace výběru titulů, šíření specifických znalostí a dovedností formou stáží a odborných seminářů a příprava společných projektů. Knihovny provozující pracoviště mikrofilmování zhotovují mikrofilmy i pro další knihovny v ČR za úhradu nákladů. Náklady na mikrofilmování jedné strany se pohybují okolo 2,50 Kč, náklady na digitalizaci a vytvoření metadat okolo 1,00 Kč. NK ČR má také možnost uchovávat po omezenou dobu archivní negativy ve speciálním skladu v Centrálním depozitáři v Hostivaři, kde jsou vytvořeny mikroklimatické podmínky pro jejich dlouhodobé dochování.

Koordinace této činnosti na mezinárodní úrovni se provádí pomocí sdružení evropských knihoven EROMM (European Register of Microform Masters), které buduje a zpřístupňuje databázi záznamů archivních negativů a projektu DIEPER (Digitised European Periodicals), který vytváří databázi umožňující zpřístupnění digitalizovaných periodik z jediného místa. NK ČR je od letošního roku členem sdružení EROMM.

Polišenský
10. 4. 2000