Logo INFORUM 2001 - zpět na home
O konferenci
Program
Sponzoři
Výstava
Ceny Inforum
FotoForum
Anketa
Výbor konference
Archív - předchozí ročníky

Název sekce

Digitální přístup k dokumentům

Archivace tradičních a elektronických dokumentů: stejný cíl, různé metody

Filip Vojtášek, Ikaros

Na základě srovnání obecných vlastností tradičních a digitálních dokumentů je poukázáno na důležité aspekty dlouhodobé ochrany digitálního záznamu (zastarávání platformy, softwarová závislost, datové a metadatové formtáty, životnost médií, autenticita, dynamická povaha digitálních dokumentů). Stručně jsou charakterizovány hlavní a doplňkové strategie archivace (emulace a migrace, resp. technologické muzeum a tisk). Představeny jsou základní informační zdroje.

ÚVOD

Tištěné noviny, relikt 19. století, bez něhož si však dosud nedovedeme komunikaci (masovou) představit, a soubor (uložený např. na disketě, ale v roli nosiče může figurovat ZIP nebo CD-R) ve formátu PDF, který je dnes jedním ze standardů elektronického (internetového) publikování. Dva druhy dokumentů, u nichž byl použit naprosto odlišný nosič a kódovací systém, jedno mají přesto společné: časem se mohou stát nečitelnými. Jinak řečeno: při archivaci (ochraně) tradičních a digitálních dokumentů sledujeme stejný cíl – zajištění jejich dlouhodobého zpřístupnění, ale vzhledem k jejich rozdílnému charakteru je nezbytné aplikovat rozdílné metody, jak tohoto cíle dosáhnout.

 

ELEKTRONICKÉ DOKUMENTY A KNIHOVNY

Elektronické publikování je po objevu písma a vynálezu knihtisku třetím klíčovým milníkem v dějinách dokumentové komunikace, a tedy i v dějinách lidské civilizace. Dá se předpokládat, že jeho význam s rychlým pronikáním digitálních informačních technologií do všech oblastí života neustále poroste, i když patrně nikdy (s vědomím, že jednoznačný soud v tak dynamicky se rozvíjející oblasti je troufalý) nenahradí písemnou a tištěnou formu komunikace.

V kontextu tohoto příspěvku máme na mysli především oficiální publikační aktivity ve vědě, výzkumu, v žurnalistice, v podnikové sféře a ve veřejné správě, jejichž výsledky (lhostejno, zda jsou volně přístupné či nikoliv) jsou šířeny z pragmatických důvodů často paralelně v elektronické a tištěné podobě, příp. pouze v elektronické podobě (typicky na Internetu). Proměnlivost a pomíjivost činí z internetových dokumentů zvláštní kategorii digitálních dokumentů a jako taková vyžaduje ze strany knihoven zásadní modifikaci v jejich postupech při získávání, zpracování a archivaci těchto dokumentů. Navzdory sofistikovaným technickým prostředkům (např. vyhledávacím systémům) zůstává část dokumentů publikovaných na webu skrytá – zejména jde o dokumenty ve formátu PDF (do února 2001 nebyly vůbec roboty indexovány) a dále částečně o dokumenty, které nejsou samostatnými entitami-soubory – nejsou totiž uloženy v adresářové struktuře, nýbrž v dynamických databázových systémech a z nich zobrazovány teprve na základě uživatelského požadavku.

Z výše uvedené skutečnosti vyplývá důležitý závěr, který nemohou zpochybnit námitky poukazující na chaos, který na Internetu vládne, a jeho jistou nedůvěryhodnost jako komunikačního prostředku (máme více či méně otevřenou tendenci považovat dokumenty “fyzicky existující” za kodifikující a serióznější informační zdroje): elektronické publikování již dávno není pouhým technickým výstřelkem využívaným vědeckou komunitou. Elektronické dokumenty tvoří bezesporu legitimní součást národní literární produkce, což nemohou knihovny ignorovat, pokud mají i nadále plnit svou funkci, tj. shromažďovat, zpracovávat, uchovávat a zpřístupňovat dokumentové dědictví v různých formách odrážejících stupeň vývoje technologií použitých pro záznam informací. Konstatovala to ostatně i zpráva zpracovaná expertní skupinou při americké při National Academy of Sciences pro Library of Congress (2000). Na tuto problematiku jsou proto zaměřeny projekty, které jsou od poloviny 90. let realizovány buď na úrovni jednotlivých informačních institucí (obvykle centrálních knihoven nebo archivů), nebo v rámci mezinárodní spolupráce (např. projekty Nordic Web Archive ve skandinávských zemích, NEDLIB v Evropské unii, PANDORA v Austrálii, CEDARS ve Velké Británii, National Digital Library Program ve Spojených státech a další). V České republice je řešen pilotní projekt výzkumu a vývoje “Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet” (nositelem je Národní knihovna ČR, 2000–2001).Předmětem jejich zájmu jsou mj. právní aspekty (povinný výtisk digitálních dokumentů a ochrana autorských práv) a technické aspekty včetně způsobů efektivní archivace.

 

VLASTNOSTI DIGITÁLNÍCH DOKUMENTŮ

Digitální dokumenty (v bibliografickém popisu se pod vlivem anglosaské terminologie prosazuje pojem “elektronický informační zdroj”) se vyznačují několika vlastnostmi, se kterými se u tradičních dokumentů nesetkáme vůbec nebo jen ve velmi omezené míře. (Adjektivum “tradiční” používáme jako souhrnný výraz jednak pro psané a tištěné dokumenty a fotografie, jednak pro dokumenty s analogovým záznamem zvuku a videa.) Jde o následující obecné přednosti, z nichž mohou být u konkrétních digitálních dokumentů podle jejich charakteru a účelu zastoupeny jen některé:

  • distribuovanost (umožňující vzdálený a paralelní přístup de facto neomezeného počtu uživatelů, kteří mají k dispozici nekonečně mnoho “exemplářů” téhož dokumentu)
  • hypertextová struktura
  • multimedialita
  • interaktivita
  • přidaná hodnota (např. bezprostřední vazba metadata-primární data, vyhledávání ve strukturovaných datech nebo v plném textu v reálném čase, automatická konverze, generování dokumentu z databáze na základě uživatelského požadavku aj.)
  • neztrátová reprodukovatelnost (v důsledku toho přestává být rozdíl mezi originálem a kopií patrný)
  • aktuálnost (vydavatelský proces se výrazně zkracuje, navíc se při něm neuplatňují pouze formální komunikační kanály)

V souvislosti s dlouhodobou archivací digitálních dokumentů však musíme brát v úvahu jako podstatnější tyto dva jejich specifické znaky: závislost na tzv. digitálním prostředí a naopak nezávislost na nosiči (v obou případech můžeme konstatovat absolutní závislost, resp. nezávislost).

Závislost na digitálním prostředí

První uvedený atribut výmluvně svědčí o ambivalenci elektronické komunikace. Digitální dokumenty jsou na jedné straně flexibilní a snadno transformovatelné a modifikovatelné, na druhé straně mohou během poměrně krátké doby (na rozdíl od tradičních dokumentů) pozbýt svou funkčnost, a tedy i informační hodnotu, protože digitální prostředí, v němž byly vytvořeny, rychle morálně zastarávají. Digitálním prostředím se rozumí soubor technických prostředků (hardwarová platforma, operační systém a aplikační software) nezbytných pro správné (či dostatečné) dekódování digitálních dokumentů, resp. pro provedení zpětné konverze do takové formy, která zajišťuje, aby mohly být vnímány lidskými smysly (např. tisk na papír, zobrazení na monitoru, zvukový výstup pomocí reproduktoru). Je složité přesně predikovat, kudy se bude další vývoj ubírat. (Připomeňme, že i u některých skupin tradičních dokumentů se neobejdeme bez dekódovacího technického zařízení – anologové audio a video a dále např. mikromédia.)

Hrozí tak reálné nebezpečí, že pokud nebude této otázce věnována adekvátní pozornost, nepodaří se některé digitální dokumenty uchovat do budoucnosti, protože nebudou k dispozici technologie, které umožní jeho čitelnost, ačkoliv jako artefakty budou nadále existovat (nemluvě o tom, že likvidace digitálního záznamu představuje podstatně snazší úkon než v případě tradičních dokumentů s hmotným nosičem). Jako střízlivý se proto ukazuje názor, že tato situace připomíná časovanou bombu, která tiká snad ještě hlasitěji než v případě dokumentů tištěných od poloviny 19. století na papíru se značným obsahem kyselinotvorných látek. T. Kunny hovoří dokonce o současné éře s výrazným postavením elektronického publikování v sociální komunikaci jako o “době temna”, v níž jistoty platné z éry tradičního publikování jsou nenávratně pryč. Do jisté míry to také reflektovala studie Research Libraries Group (1998), která se opírala o výsledky průzkumu týkající se archivace digitálních dokumentů mezi svými členskými institucemi (zpravidla akademické a veřejné knihovny). Přestože 98 procent respondentů předpokládalo, že v roce 2001 budou mít ve svých fondech zařazeny digitální dokumenty, pouze čtvrtina formulovala oficiální koncepci v této oblasti.

Interval obměny (úplné či částečné) digitálního prostředí, která se v praxi projevuje nejčastěji např. v náhradě starší verze téhož softwarového produktu verzí novou, trvá podle zprávy Task Force on Archiving of Digital Information (1996) maximálně pět let. Dosavadní zkušenosti potvrzují, že tento faktor primárně ovlivňuje životnost digitálních dokumentů (vzpomeňme v této souvislosti např. několik generací webových prohlížečů od těch prvních, experimentálních řádkových z roku 1991 až po ty dnešní, které podporují XML), zatímco fyzická trvanlivost nosičů digitálního záznamu hraje méně významnou roli, i když ve srovnání např. s papírem jako základní psací látkou je řádově kratší. Odhady o průměrné životnosti CD-ROM jako typickém nosiči v současnosti se pohybují v rozmezí deset až dvacet let podle intenzity využívání a šetrnosti zacházení – naopak papír a mikrofilm může za příznivých úložných podmínek vydržet stovky let. Relativní stabilitu v oblasti médií pro digitální záznam posiluje i mezinárodní standardizace, jejíž respektování je v zájmu producentů čtecích mechanik i vydavatelů dokumentů uložených na těchto nosičích. Aplikační software jsme nuceni aktualizovat také z toho důvodu, že část dokumentů, s kterými pracujeme, je cizí provenience, což znamená, že nemáme žádnou kontrolu nad tím, v jakém formátu jsou uloženy. Na toho, kdo je přejímá, je tak mimoděk vyvíjen tlak, aby akceptoval určitou konfiguraci digitálního prostředí, aniž by ji ze svého hlediska považoval za správné řešení (např. určitý balík kancelářského softwaru – StarOffice vs. MS Office).

Nezávislost na nosiči

Ochranné metody, které se uplatňují u tradičních dokumentů, jsou primárně podmíněny skutečností, že v jejich případě představují hmotný nosič a informace, které jsou na něm (nebo v něm) fixovány, dva neoddělitelné prvky jednoho homogenního objektu. Jelikož v tomto smyslu uchovat dokument čitelný, a tak umožnit jeho zpřístupnění, znamená totéž co zabezpečit fyzickou celistvost nosiče, soustřeďuje se pozornost (preventivní ochrana dokumentů) na klimatické parametry prostředí, v němž jsou dokumenty deponovány (teplota, relativní vlhkost a intenzita světla).

U digitálních dokumentů se díky tomu, že k záznamu se používá jeden univerzální kódovací systém (binární soustava) bez ohledu na to, jakou formu nebo obsah mají, ruší dosavadní pevná svázanost nosiče a informací (dat), které tak mohou být podle potřeby po dobu existence digitálních dokumentů uloženy na libovolném nosiči – jediným praktickým limitujícím faktorem (viděno očima současníka) je jeho paměťová kapacita. V tomto směru se oba výše zmíněné charakteristické rysy digitálních dokumentů spolu bezprostředně souvisejí. Nosič je pro ně irelevantní, rozhodující je dlouhodobá (ideálně trvalá) čitelnost digitálního záznamu (spojení konkrétního nosiče a digitálního záznamu nemá charakter osobitého artefaktu, jako tomu je u tradičních dokumentů, zejména u historických fondů), na druhé straně pro jejich dekódování nestačí archivovat samotný dokument, je nutná rovněž specifická konfigurace digitálního prostředí, ve kterém bude interpretován (viz dále migrace a emulace).

Při archivaci digitálních dokumentů je třeba si dále uvědomit, které jejich objekty jsou z hlediska jejich budoucí zamýšlené interpretace podstatné – tj. určit kritéria, na jejichž základě budeme posuzovat, zda daný digitální dokument (v původní nebo konvertované podobě) si uchovává svou integritu (tj. validitu, kompletnost) a autenticitu (druhý pojem je zde chápán šířeji než v právním slova smyslu – autenticita znamená použitelnost dokumentu pro ty účely, pro něž byl vytvořen), tj. které objekty, z nichž je digitální dokument složen, nesou informační hodnotu. Obecně platnými kritérii, která se budou samozřejmě lišit podle druhu digitálních dokumentů, které jsou uvažovány jako potenciální součást digitálních knihoven či repozitářů (zásadní rozdíl tak bude existovat např. mezi textem a databází nebo multimediálním dokumentem), jsou čtyři:

  1. obsah
  2. př.: text z HTML dokumentu bez grafických a jiných doplňkových souborů?

  3. forma
  4. př.: text se složitou formální strukturou umožňující snadnější orientaci ® prostý text?

  5. funkčnost
  6. př.: HTML dokument bez externích souborů definujících např. Javascript nebo Flash?

    př.: PDF dokument bez odkazů?

  7. kontext

př.: dokument bez odpovídající identifikace ve formě metadat?

Pozn.: Všichni autoři bez výjimky se shodují na tom, že metadata jako odvozená strukturovaná data o jiných, primárních datech hrají v archivaci digitálních dokumentů klíčovou roli. Vedle funkce popisné a rešeršní (obdobou jsou bibliografické údaje u tradičních dokumentů) vyniká jejich funkce integritní – metadata jsou jedním z prostředků nutných ke správnému dekódování digitálních dokumentů, k nimž se vztahují – bez metadat jsou nesrozumitelné. Proto i v tomto případě má požadavek principiální nesvázanosti s konkrét

 

STRATEGIE ARCHIVACE DIGITÁLNÍCH DOKUMENTŮ

Tzv. strategie dlouhodobé archivace digitálních dokumentů (digital preservation strategy), jak je obvykle v odborné literatuře charakterizována, tvoří z technického hlediska rámec této činnosti, která má však natolik komplexní povahu, že by bychom se dopustili přílišného zjednodušení, pokud bychom od její technické stránky oddělili stránku organizační (např. řízení toku dat v digitální knihovně či stanovení způsobu a intervalu kontroly kvality digitálního záznamu na použitých nosičích), knihovnickou (např. definování kritérií výběru dokumentů a sady identifikačních údajů-metadat) a v neposlední řadě autorskoprávní, jejíž význam a současně složitost je zdůrazňován ve všech oficiálních materiálech týkajících se této problematiky.

Pro praktické využití přicházejí v úvahu dvě strategie, které se opírají o naprosto odlišné metody (migrace a emulace), z nichž pouze prvně jmenovaná se dosud implementuje v rutinním režimu. K těmto dvěma základním strategiím je třeba ještě připojit dvě další (funkční technologické muzeum a konverze digitálních dokumentů do analogové formy), které jsou však hodnoceny jako dílčí, doplňková a případně extrémní řešení, která lze stěží aplikovat v širším měřítku.

Migrace

Ústřední metoda migrace jako hlavní strategie archivace digitálních dokumentů v současnosti, jak čelit morálnímu stárnutí informačních technologií jako nevyhnutelného jevu, který ovlivňuje čitelnost digitálních dokumentů, spočívá v obecném slova smyslu v periodicky probíhajícím procesu jejich konverze z jednoho digitálního prostředí do druhého. Tuto činnost provádějí podniky, úřady veřejné správy a další instituce na různé úrovni, které manipulují s datovými soubory, přirozeně v rámci svého běžného provozu. Knihovny s migrací týkající se digitálních dokumentů nemají zkušenosti, ovšem migrací ve své podstatě je rovněž reformátování fondů (především ochranné mikrofilmování a digitalizace), jehož cílem je usnadnit přístup k uživatelsky atraktivním dokumentům, které jsou však z různých příčin ohroženy, formou jejich kopie a současně přispět k jejich uchování. Migraci doporučuje např. již zmíněný materiál Preserving digital information : report of the Task Force on Archiving of Digital Information. K institucím, které se k migrací hlásí, patří např. britský Public Records Office.

Migrace je na jedné straně strategie osvědčená (ve srovnání s emulací), na straně druhé však může mít negativní dopad na integritu digitálních dokumentů jako celku či jejich jednotlivých objektů proto, že původní a cílové digitální prostředí se zpravidla liší ve všech nebo v některých svých vlastnostech (např. požadavek na dodatečný aplikační software – plug-in pro webový prohlížeč, aktualizace softwaru, jiné nároky na výkon počítače, jiná konfigurace platformy, jiný nosič apod.). Rizikovými faktory migrace se detailně zabývá práce Risk management of digital information vydaná Council on Library and Information Resources (2000). V reálných podmínkách komplexní migrace, která by zahrnovala změnu všech tří základních prvků digitálního prostředí, se příliš často neuskutečňuje, spíše jde o migraci částečnou, která může mít trojí podobu:

  1. SW aplikace 1 ® SW aplikace 2 (resp. formát 1 ® formát 2)
  2. operační systém 1 ® operační systém 2 (např. Linux ® Windows 98)
  3. HW platforma 1 ® HW platforma 2 (např. PC IBM ® Apple Macintosh)

Zvláště naléhavý stav z archivačního hlediska panuje, jak zdůrazňuje J. Rothenberg, v oblasti formátů digitálních dokumentů. Obecně platný problém migrace se dá nazvat “hledání vhodného standardu”. Nekompatibilita je totiž nástrojem konkurenčního soupeření producentů aplikačního softwaru. Vedle poměrně nepočetné skupiny formátů, které lze považovat za obecné a široce podporované (např. RTF, TXT, JPG, GIF, TIFF, MP3, HTML a perspektivně XML), se používá množství dalších proprietárních formátů, k jejichž ideální interpretaci potřebujeme konkrétní software (v opačném případě se vystavujeme riziku, že dojde k narušení integrity daného digitálního dokumentu). Do jisté míry se můžeme spolehnout na zpětnou kompatibilitu u aplikačního softwaru od téhož producenta a zejména hardwarových zařízení (ve druhé případě je umocněna respektovanou mezinárodní standardizací). Podle J. Rothenberga je principiálně nemožné realizovat bezztrátovou konverzi mezi dvěma logickými formáty (tj. způsoby, jakým jsou data, která reprezentují digitální dokument, uspořádána). Tuto skutečnost můžeme demonstrovat na příkladu textového procesoru Corel WordPerfect 8, v němž otevřeme soubor uložený ve formátu DOC (interní formát programu MS Word), přičemž se změní velikost fontu u některých odstavců. K těmto formátům, z nichž některé se díky různým okolnostem (zejména postavení producenta na trhu) staly de facto standardem u určitého typu dokumentů, patří vedle DOC např. ASX (Windows Media Player), CDR (CorelDRAW), DjVu (kodéry, plug-in pro webový prohlížeč), MDB (MS Access), PDF (Adobe Acrobat), PPT (MS PowerPoint), RA/RAM (Real Plyer), SWF (Macromedia Flash) a WPD (Corel WordPerfect).

Přímo “geneticky zakódovanou” limitovanou životnost mají digitální dokumenty, k jejichž spuštění je třeba speciální aplikační software (např. soubor map portálu MSN.Atlas distribuovaný na CD-ROM, který vyžaduje vedle webového prohlížeče MS Internet Explorer 5.x také multimediální ovladač DirectX a prohlížeč MaGIS 3D). Obdobně je riskantní (přinejmenším málo prozíravé) spoléhat se při archivaci na proprietární formáty, které jsou vyvíjeny a podporovány menšími producenty, jakkoliv se jeví ve srovnání se zavedenými formáty jako momentálně výhodnější (např. rastrové grafické formáty s kompresními algoritmy založenými na technologii wavelet – DjVU, LuraWave aj.).

Migrace se někdy nesprávně ztotožňuje s její dílčí operací – kopírováním digitálního záznamu, aniž by bylo nutné jej modifikovat, na nový nosič (tzv. refreshment), které je motivováno dvěma důvody: buď fyzická životnost konkrétního nosiče (např. CD-R) se chýlí ke konci (příčinou může být např. mechanické poškození nebo chyba při zápisu vypalovací mechanikou), což se zjišťuje pomocí speciálních měřicích přístrojů, a proto existuje nebezpečí, že záznam bude nenávratně ztracen, nebo se lze oprávněně domnívat, že aktuálně používaný typ nosiče se výhledově stane morálně zastaralým (např. náhrada magnetooptického disku CD-ROM).

 

Emulace

Emulace, která označuje proces, jehož smyslem je co možná nejvěrněji modelovat funkční vlastnosti digitálního prostředí (morálně zastaralého) či jeho komponentů na jiném počítači, než pro který bylo (byly) určeny, není v počítačové vědě převratnou novinkou. (Pozn.: Od emulace musíme odlišit simulaci – zatímco emulace směřuje k funkční shodě a emulující systém může zastoupit systém emulovaný, simulace slouží k napodobování reálných objektů.) Tento koncept se používá při různých příležitostech – v praxi ověřená je emulace některých procesorů, osmibitových počítačů Atari a ZX Spectrum, herních konzolí, operačního systému MS-DOS, webových prohlížečů (např. NCSA Mosaic, Netscape 1.0 aj.) a v poslední době se začínají uplatňovat emulátory, které umožňují v prostředí Linuxu spouštět virtuální stroje s různými operačními systémy a aplikační software (např. VMWare).

Emulaci jako vůči migraci alternativní strategii archivace digitálních dokumentů formuloval J. Rothenberg v roce 1995 ve svém článku Ensuring the longevity of digital documents v časopise Scientific American. Značnou odezvu však vzbudila až jeho studie Avoiding technological quicksand : finding a viable technical foundation for digital preservation, kterou vydala v roce 1999 americká CLIR a na niž reagují v podstatě všechny následující teoretické práce zabývající se archivací digitálních dokumentů i technické zprávy týkající se jednotlivých takto zaměřených projektů.

Podle J. Rothenberga je emulace nejefektivnějším (tj. de facto bezztrátovým) způsobem uchování digitálního dokumentu jeho uložení v původní podobě spolu s originálním aplikačním softwarem nezbytným pro jeho interpretaci a operačním systémem, v němž se spouštěl. K tomu je třeba přiřadit množinu technických metadat, která specifikují příslušnou hardwarovou platformu s cílem zajistit, aby kdykoliv v budoucnu mohl být vyvinut program-emulátor, který v rámci pozdějšího digitálního prostředí, jehož architektura je v současnosti neznáma, umožní (jako další vrstva v tomto prostředí) “oživit” digitální dokument podle potřeby v jeho, tj. v té době již virtuálním prostředí, aniž by byl vystaven riziku narušení integrity jako důsledku opakované migrace. J. Rothenberg uvádí mezi atributy platformy např. rozlišení monitoru, barevnou kalibraci, parametry procesoru a pevného disku aj. Uvedeným modelem zapouzdření se nemíní fyzická jednota, nýbrž logická entita – z praktického hlediska by se aplikační software, operační systém a specifikace emulátoru nacházely zvlášť a z digitálního dokumentu by na ně bylo odkazováno. J. Rothenberg argumentuje tím, že zápis metadat týkajících se funkčních vlastností hardwaru je obecně snazší než totéž v případě softwaru.

Díky tomu můžeme získat nezávislost na neustálém a jistě nepředvídatelném vývoji softwarových nástrojů pro dekódování digitálních dokumentů (a tedy i jejich formátů), protože pro každou platformu (resp. pro všechny dokumenty, které byly pro ni určeny), kterých je omezený počet na rozdíl od aplikačního softwaru, by měl potenciálně stačit jeden emulátor. I z této stručné charakteristiky Rothenbergových zásad emulace je zřejmá její největší slabina: Přistoupit na tuto strategii znamená souhlasit s tím, že jsme (a budeme) schopni ve vyčerpávající podobě popsat současné digitální prostředí.

Emulace je (resp. byla) testována v rámci dvou projektů. Tím prvním byl NEDLIB, tříletý mezinárodní projekt (1998-2000), který byl realizován s finanční podporou Evropské unie (program Telematics for Libraries). Jeho primárním cílem je vytvoření modelu obecné infrastruktury depozitní knihovny digitálních dokumentů (DSEP) a jeho začlenění jako samostatného modulu do tradiční, automatizované knihovny. Na jeho řešení v oblasti archivace digitálních dokumentů se podílel i J. Rothenberg. Pro tyto účely bylo vybráno několik CD-ROM a CD-I pro PC IBM/Windows 95 (jako zástupce off-line digitálních dokumentů) a dále články z elektronických verzí online přístupných odborných časopisů z produkce nakladatelství Elsevier Science a Kluwer Academic. Tyto pilotní experimenty v podstatě potvrdily Rothenbergův předpoklad (zejména byly podrobně prezentovány výsledky emulace prostředí PC IBM/Windows 95 na počítačích Apple Macintosh). Druhým projektem je britsko-americký projekt CAMiLEON (1999-2002), který se realizuje ve spolupráci univerzit v Michiganu a Leedsu a který je financován ze zdrojů britského Joint Information Systems Committee a americké National Science Foundation.

 

Technologické muzeum

Základní princip konceptu, pro který se vžilo poměrně přesné označení “technologické muzeum”, spočívá v uložení digitálních dokumentů, aplikačního softwaru a operačního systému v originální podobě a rovněž – na rozdíl od emulace – udržování platformy (včetně příslušných čtecích zařízení) ve funkčním stavu. V podstatě jde o konzervaci digitálního prostředí, která je podle zastánců tohoto konceptu efektivnější z archivačního i ekonomického hlediska (migrace a emulace jsou příliš nákladné strategie a je s nimi spojeno mnoho nezodpovězených otázek). V souvislosti s tím se čas od času objevují pokusy, které mají lidstvo zbavit závislosti na digitálním prostředí. Jedním z nich je HD-Rosetta od firmy Norsam, na který je možné uložit až 350 tisíc obrazových souborů ve vysokém stupni rozlišení v miniaturní podobě, které pak lze číst pomocí mikroskopu (!). Životnost tohoto disku, který je imunní vůči stárnutí technologií a působení elektromagnetického pole, se odhaduje na dva až deset tisíc let. Ve skutečnosti však technolgické muzem přináší v praxi natolik závažné technické a organizační problémy, že není možné toto řešení aplikovat jako dlouhodobější strategii. Totéž se týká i dekódovacích zařízení pro analogové audio a video. Především existuje velké množství kombinací prvků digitálního prostředí. Jako ilustrativní příklad lze zvolit tuto konfiguraci: PC IBM 80286 + MS-DOS + 5,25’’ FDD + T602. K zachování funkčnosti platformy jsou navíc nezbytné komponenty, které nebudou nadále vyráběny.

Konverze do analogové formy

Konverze do analogové formy není ničím jiným než přirozeným vyjádřením obav plynoucích z nejistot, které objektivně archivaci digitálních dokumentů obklopují. Knihovny mají bohaté zkušenosti s ochrannými metodami týkajícími se analogových dokumentů, jejichž nosiče mají obecně delší životnost za předpokladu, že jsou uloženy ve vhodných mikroklimatických podmínkách. Tento koncept je evidentně ambivalentní. Analogové kopie si sice mohou déle achovat čitelnost, ale ztrácejí všechny specifické přednosti digitálních dokumentů, které umožňují snadnou manipulaci s nimi. Konverze je akceptovatelné, ale nesystémové řešení archivace statických textových a obrazových digitálních dokumentů, které se svým charakterem blíží tradičním protějškům. Díky tomu, že jsou tyto dokumenty vytištěny, lze zajistit, že budou k dispozici i tehdy, když elektronický originál nebude dále přístupný. V tomto případě má smysl se zabývat pouze tiskem na tzv. permanentní (nekyselý) papír, u něhož je díky svým vlastnostem zaručena ve srovnání s dosud běžně používaným, průmyslově vyrobeným papírem trvanlivost až na stovky let. Alternativou je fixace digitálního dokumentu na mikrofilm (tzv. technologie computer-output-microfilm, COM). Konverze digitálního audia a videa je krajně problematická, u multimediálních a interaktivních digitálních dokumentů je principiálně vyloučena.

 

INFORMAČNÍ ZDROJE

Informační zdroje týkající se archivace digitálních dokumentů můžeme považovat za typický příklad tzv. šedé literatury. Vzhledem k tomu, že jsou publikovány převážně v elektronické podobě (zčásti souběžně v elektronické a tištěné podobě), podléhají jen minimální bibliografické kontrole. Články v odborných časopisech, které jsou excerpovány v dokumentografických systémech, zpravidla obsahují poznatky, které již byly předtím zveřejněny v prostředí WWW. Tyto zdroje lze pracovně rozdělit do tří skupin:

  1. Teoretické a případové studie, technické, výroční a jiné zprávy, metodiky, průzkumy, výsledky experimentů, příspěvky přednesené na odborných akcích aj., které jsou volně k dispozici na webových prezentacích projektů a institucí, které se touto problematikou zabývají. Zvláštní pozornost zaslouží projekty NEDLIB (www.kb.nl/nedlib) a CEDARS (www.leeds.ac.uk/cedars), kde lze také najít odkazy na příbuzné aktivity. Cenné publikace zpřístupňují dvě americké neziskové organizace: Council on Library and Information Resources (www.clir.org) a Research Libraries Group (www.rlg.org). V případě CLIR je možné dokumenty na různá témata včetně archivace digitálních dokumentů stáhnout zdarma v elektronické podobě (ve formátu HTML nebo PDF), zatímco za tištěnou verzi je třeba zaplatit. Další informace lze získat na stránkách britského programu eLib (Electronic Libraries Programme – http://www.ukoln.ac.uk/services/elib/). Funkci portálu nebo tzv. startovního bodu v této oblasti plní systém PADI (Preserving Access to Digital Information – www.nla.gov.au/padi), který spravuje National Library of Australia. Předmětový index elektronického publikování se sekcí věnovanou archivaci digitálních dokumentů vytváří od roku 1996 Charles W. Bailey z University of Houston (info.libuh.edu/sepb/sepb.htm).
  2. Druhou skupinu tvoří elektronické časopisy. Vedle dnes již renomovaného titulu D-Lib Magazine (www.dlib.org) je třeba zmínit šestkrát ročně vydávané bulletiny CLIR a RLG (CLIR Issues, resp. RLG DigiNews).
  3. Tradičním signálním informačním zdrojem jsou elektronické konference, v nichž jsou distribuována např. oznámení o konání odborných akcí nebo o nových publikacích. V této souvislosti nejdůležitější jsou zřejmě padiforum-l (archiv si lze prohlédnout na stránkách tohoto portálu) a Digital-Preservation (http://www.jiscmail.ac.uk/lists/digital-preservation.html).

 

ZÁVĚR

Nezvratný trend nárůstu podílu digitálních dokumentů (zejména šířených online) v publikační produkci je východiskem pro formulaci koncepce rozvoje knihoven v 21. století. Hlavní důsledek, který pro ně ze současného stavu vývoje komunikačních prostředků vyplývá, je nutnost využívat od základu jiné metody než ty, které se v nich dosud uplatňují při získávání, zpracování, archivaci a zpřístupnění tradičních dokumentů. Znamenají současně investice do dalšího technického vybavení, ale také do aplikovaného výzkumu, jehož výsledky (pokud je financován z veřejných zdrojů) jsou často veřejně přístupné, a tak tyto poznatky jsou přenositelné i do jiných institucí, které se nacházejí ve srovnatelných podmínkách. Projekty, které se realizují v různých informačních institucích a které mají zatím spíše experimentální charakter (i v těch nejvyspělejších zemích), a konečně i každodenní praxe potvrzují složitost této problematiky. Jejím projevem je křehkost a proměnlivost jako charakteristické znaky digitálních dokumentů, se kterými jsme konfrontováni nejen při jejich archivaci, ale i v dalších činnostech vykonávaných informačními institucemi. V oblasti archivace se dnes střetávají dvě strategie (emulace a migrace), z nichž ani jedna není považována za ideální řešení, jak zabránit tomu, aby morální stárnutí digitálních informačních technologií mělo fatální vliv na integritu digitálních dokumentů, pro jejichž čitelnost jsou nezbytnými instrumenty. Dá se předpokládat, že dokud nebude v širším měřítku prokázána efektivita emulace, jak je dosud teoreticky popsána a experimentálně ověřena (zejména J. Rothenbergem), zůstane migrace primární strategií.

 

POUŽITÁ LITERATURA:

  1. FRESKO, Marc; TOMBS, Kenneth. Digital preservation guidelines : the state of the art in libraries, museums and archives. Luxembourg : European Commission DG XIII/E-4, 1998. 80 s, iii, 39 s. příl. Dostupné též na WWW: <ftp://ftp.cordis.lu/pub/ist/docs/digicult/study.zip>.
  2. HEDSTROM, Margaret, MONTGOMERY, Sheon. Digital Preservation Needs and Requirements in RLG Member Institutions [online]. Mountain View (Calif.) : Research Libraries Group, December 1998 [cit. 2001-03-19]. Dostupné na WWW: <http://www.rlg.org/preserv/digpres.html>.
  3. KUNNY, Terry. The digital ages? Challenges in the preservation of electronic information. International Preservation News [online]. May 1998, no. 17 [cit. 2001-03-10]. Dostupné na WWW: <http://www.ifla.org/VI/4/news/17-98.htm>.
  4. Preserving digital information : report of the Task Force on Archiving of Digital Information [online]. Commissioned by the Commission on Preservation and Access and the Research Libraries Group. Mountain View (Calif.) : Research Libraries Group, 1996-05-01 [cit. 2001-03-16]. Dostupné na WWW: <http://www.rlg.org/ArchTF/tfadi.index.htm>.
  5. ROTHENBERG, Jeff. An experiment in using emulation to preserve digital publications [online]. Haag : Koninklijke Bibliotheek, April 2000, rev. 2000-05-11 [cit. 2001-03-19]. Dostupné na WWW: <http://www.kb.nl/coop/nedlib/results/emulationpreservationreport.pdf>. ISBN 90-62-59-1442.
  6. ROTHENBERG, Jeff. Avoiding technological quicksand : finding a viable technical foundation for digital preservation : report to the Council on Library and Information Resources [online]. Washington, D. C. : CLIR, January 1999 [cit. 2001-03-16]. vi, 35 s. Dostupné na WWW: <http://www.clir.org/pubs/reports/rothenberg/pub77.pdf>. ISBN 1-887334-63-7.
  7. ROTHENBERG, Jeff. Using emulation to preserve digital documents. Hague : Koninklijke Bibliotheek, July 2000. 69 s. ISBN 90-6259145-0. Dostupné též na WWW: <http://www.konbib.nl/kb/pr/fonds/emulation/usingemulation.pdf>.
  8. RUSSELL, Kelly. Digital preservation : ensuring access to digital materials into the future. [online] University of Leeds, June 1999 [cit. 2001-03-19]. Dostupné na WWW: <http://www.leeds.ac.uk/cedars/Chapter.htm>.

 

PŘÍLOHA č. 1: Narušení integrity statického HTML dokumentu z formálního a obsahového hlediska (chybějící externí soubory definující kaskádové styly a javascripty)

  

PŘÍLOHA č. 2: Ztráta integrity textového souboru z formálního hlediska (konverze RTF ® TXT)

 

PŘÍLOHA č. 3: Emulace webového prohlížeče Netscape 1.0 v operačním systému Windows 98

 

 

PŘÍLOHA č. 4: Neúspěšná migrace souboru ve formátu .SAM (AmiPro 3.0) do formátu .DOC (MS Word 97)

 

 

PŘÍLOHA č. 5: Migrace téhož souboru ve formátu .SAM (AmiPro 3.0) do formátu .WPD (WordPrefect 8) s přijatelným výsledkem (integrita byla částečně porušena z formálního hlediska)

 


Mgr. Filip Vojtášek (1972) absolvoval Vyšší školu informačních služeb (1996) a Ústav informačních studií a knihovnictví FF UK (2000), kde obhájil diplomovou práci na téma digitalizace historických fondů. V roce 1997 stál se třemi dalšími kolegy u zrodu elektronického časopisu Ikaros (www.ikaros.cz), kde dosud působí jako redaktor. K jeho profesním zájmům patří design webovských informačních systémů, zpracování a archivace elektronických dokumentů a digitalizace. V současnosti učí na VOŠIS předměty Elektronické publikování a Public relations se zaměřením na neziskový sektor, podílí se na řešení programového projektu výzkumu a vývoje “Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet” (Národní knihovna ČR, 2000–2001) a pracuje ve společnosti Albertina icome Praha v oblasti public relations.

 

Logo STUDIO aha! Grafický design 
© 2001 Studio aha!
Digital Art Studio Úvodní animace 
© 2001 Digital Art Studio

Copyright © 2001 Albertina icome Praha s.r.o.
INFORUM® a IN® jsou registrované obchodní známky.
Všechna práva vyhrazena. Na vaše připomínky se těší webmaster. Aktualizováno 27.05.2001