Digitalizace sbírek a digitální přístup k dokumentům

Předseda: Adolf Knoll, Národní knihovna ČR

23.5.2002

8:30 - 11:00

Posluchárna D

WebArchiv - trvalé zpřístupnění českých elektronických zdrojů

Ludmila Celbová, Národní knihovna České republiky, Praha

Filip Vojtášek, Albertina icome Praha s.r.o.

V letech 2000-2001 řešila Národní knihovna ČR v rámci programu výzkumu a vývoje pilotní projekt, jehož cílem bylo připravit podmínky pro zpracování české národní bibliografie dálkově přístupných elektronických zdrojů a s tím související trvalé uchování a zpřístupnění těchto registrovaných zdrojů. Tato činnost předpokládá spolupráci vydavatelů, resp. tvůrců elektronických online publikací a knihoven jako depozitních a zpracovatelských pracovišť. Je třeba zajistit legislativu pro akvizici, archivaci i zpřístupňování těchto dokumentů. Řešení klade značné nároky na vývoj a aplikaci informačních a komunikačních technologií pro sběr dokumentů z webu, digitální archivaci a údržbu archivovaných zdrojů zajišťující jejich trvalou dostupnost, zajištění identifikace zdrojů aj.
Řešení pilotního projektu představovalo principiálně testování dvou metod, které by v optimálním případě měly být aplikovány paralelně s cílem umožnit dlouhodobé uchovávání a využívání elektronických zdrojů:
1/ shromažďování a archivace vybraných domácích internetových dokumentů jako legitimní součásti národní publikační produkce podle stanovených kritérií výběru a jejich registrace v České národní bibliografii v souladu s knihovnickými pravidly a formáty záznamu;
2/ shromažďování a archivace domácích zdrojů z Internetu v relativní úplnosti (automatizovaný proces) a zjednodušená registrace.
Projekt je prezentován na serveru WebArchiv - http://webarchiv.nkp.cz.



1. ÚVOD

Na konferenci INFORUM 2000 (23.-25. května 2000) byl pod názvem Registrace a zpřístupňování elektronických zdrojů publikovaných v síti Internet - nový program v České národní bibliografii poprvé veřejně představen projekt, řešený v Národní knihovně ČR v období duben 2000 - prosinec 2001 v rámci programu výzkumu a vývoje Ministerstva kultury ČR. Z těchto uvedených dat je patrné, že realizace zmíněného projektu stála teprve na začátku. Přednáška proto tehdy vycházela hlavně ze studia výsledků řešení podobné problematiky ve světě a z představ řešitelů o cílech projektu. Tehdy ještě informace nezaujaly výjimečnou pozornost, ale také zcela nezapadly, když v anketě registrovaných účastníků konference prezentace obsadila v sekci Trendy a technologie 6. místo.

Řešením tohoto projektu se Česká republika zařadila mezi nejvyspělejší země, které v poslední době oprávněně věnují archivaci elektronických (zejména online přístupných) dokumentů značnou pozornost. Během dvouletého řešení pilotního projektu se tato problematika dostala mezi problémy řešené rovněž na půdě mezinárodních institucí -v této souvislosti jmenujme např. společnou iniciativu CENL (Conference of European National Librarians) a FEP (Federation of European Publishers), jejímž výsledkem je deklarace upravující vztahy mezi vydavateli elektronických zdrojů a depozitními institucemi International declaration on the deposit of electronic publications(český překlad Mezinárodní deklarace k odevzdávání elektronických dokumentů do konzervačního fondu je dostupný na http://webarchiv.nkp.cz/CENL_FEP.pdf). Problém trvalého uchování národního bohatství v podobě elektronických publikací, zejména síťových, tedy už přestává být experimentem “pokrokovějších” zemí, ale stává se obecně naléhavou výzvou pro knihovny i nakladatele, neboť objem digitálních informací narůstá obrovským tempem a politice ochrany těchto dokumentů a k tomu sloužícím technologiím se dosud věnovala minimální nebo nulová podpora. Mnohé z elektronických zdrojů, které neexistují souběžně v tradiční (tištěné nebo analogové) formě (digital born), byly již trvale ztraceny, neboť jejich tvůrci nebo vydavateléodstranili z webu své elektronické publikace, aniž by zajistili jejich trvalou archivaci. Naléhavost řešení tohoto problému dokládávyjádření IFLA, která usiluje rovněž o dohody s IPA (International Publishers Association): “I když náklady na dlouhodobou archivaci jsou vysoké, náklady na nicnedělání v této oblasti by byly katastrofální.”

Registrace, archivace a trvalé zpřístupňování internetových zdrojů je velmi komplexní problematika, kterázahrnuje aspekty knihovnické, legislativní a technologické. Všechny tyto oblasti jsou ovšem vzájemně propojeny a řešení dílčí problematiky je podmíněno řešením v ostatních oblastech. Po celou dobu řešení pilotního projektu, který dostal pracovní název WebArchiv (http://webarchiv.nkp.cz), spolupracovala řešitelská instituce, Národní knihovna České republiky, s pracovníky Ústavu výpočetní techniky Masarykovy univerzity v Brně v oblasti problematiky informačních a komunikačních technologií; na řešení okruhu problémů knihovnických a legislativních se podíleli externí spolupracovníci - odborníci v oblasti elektronického publikování (časopis Ikaros - Ikaros, o. s.).

 

2. VÝSLEDKY ŘEŠENÍ

Řešení pilotního projektu představovalo principiálně testování dvou metod, které by v optimálním případě měly být v praxi aplikovány paralelně s cílem umožnit dlouhodobé uchování a využívání elektronických zdrojů:

  • shromažďování, registrace a archivace vybraných domácích elektronických online dostupných dokumentů jako legitimní součásti národní publikační produkce podle stanovených kritérií výběru pro účely České národní bibliografie; tato činnost klade značné nároky na intelektuální práci zpracovatelů;
  • shromažďování a archivace domácích zdrojů z Internetu v relativní úplnosti (automatizovaný proces).

Informace o řešení jsou dále rozděleny do dvou částí: na oblast problematiky knihovnické, resp. vydavatelské a právní a na oblast problematiky informačních technologií.

 

2.1 Oblast problematiky vztahů knihoven, vydavatelů a legislativy

a) Legislativa

Mnoho pozornosti bylo věnováno legislativním otázkám, týkajícím se jednak autorského práva (archivace a zpřístupňování, resp. kopírování archivovaných dokumentů), jednak práva depozitní knihovny/instituce na povinný "výtisk" elektronického zdroje, resp. jejího oprávnění archivovat internetové zdroje v depozitáři, tedy v digitálním archivu (obdoba konzervačního fondu klasických dokumentů). V některých zemích je již v platnosti zákon o povinném výtisku (Dánsko, Norsko, Slovensko), ovšem znění zákonů jsou příliš obecná a bez upřesňujících směrnic ne příliš v praxi použitelná. Přesnější znění zákonů jsou připravena ke schválení v Austrálii, Finsku a Švédsku. Některé země (Nizozemí, Velká Británie, Německo) aplikovaly dohody mezi depozitními knihovnami a vydavateli, umožňující dočasné řešení legislativních otázek získávání, archivace a zpřístupňování zdrojů publikovaných v síťovém prostředí. Velkým přínosem pro řešení této problematiky v dalších zemích by měla být spolupráce mezi CENL (Conference of European National Librarians) a FEP (Federation of European Publishers). Také v České republice byly v rámci projektu připraveny podmínky k uplatnění dohod depozitní knihovny s vydavateli elektronických zdrojů a k postupné přípravě zákona týkajícího se odevzdávání povinného výtisku vydavateli online přístupných elektronických zdrojů (monografických i seriálových) do digitálního archivu.

b) Využití metadat

Jelikož metadata hrají při dlouhodobé archivaci a zpřístupnění webových zdrojů zásadní roli, byla této otázce věnována značná pozornost také při řešení projektu. Pro tyto účely byl zvolen Dublin Core Metadata Element Set (zkráceně označovaný Dublin Core), který je všeobecně považován za nejperspektivnější metadatový formát, i když je rozšířen méně, než se původně předpokládalo. K hlavním přednostem Dublin Core patří rozšiřitelnost a jednoduchost, což znamená, že základní sadu prvků a jejich atributů (kvalifikátorů) je možné doplnit nebo upravit tak, aby vyhovovala potřebám využití tohoto formátu v konkrétních podmínkách.

Využití Dublin Core v projektu se opírá o překlad Dublin Core Metadata Element Set (v poslední verzi 1.1 schválené v červenci 1999) a kvalifikátorů (schválené v dubnu 2000) do češtiny. Tento překlad byl publikován v červnu 2000 (dostupný na http://www.ics.muni.cz/dublin_core/DC-czech-1.1.html); jeho garantem je Ústav výpočetní techniky MU.

Vzhledem k tomu, že pro vyhledávání dokumentů má nesporně značný význam věcný popis, nejzásadnější změna Dublin Core provedená v rámci projektu WebArchiv v lokalizované verzi generátoru metadatových záznamů podle tohoto standardu se týkala prvku Předmět (Subject). Původní tzv. kvalifikátory schématu umožňující věcný popis pomocí v zahraničí používaných řízených předmětových slovníků a systematických třídění byly nahrazeny, resp. doplněny slovníky a tříděními používanými v domácích veřejných a odborných knihovnách:

Generátor metadat Dublin Core byl v průběhu řešení testován vybranými vydavateli různých typů elektronických zdrojů a průběžně upravován pro praktické využití. I nadále se počítá s jeho vývojem.

c) Kritéria výběru

Při formulaci kritérií, podle nichž budou vybírány ty zdroje, které budou zařazovány do České národní bibliografie, se vycházelo ze strategií archivace webových zdrojů přijatých v rámci obdobných zahraničních projektů (zejména projektu National Library of Australia PANDORA), ovšem s přihlédnutím ke specifické situaci v České republice. Kritéria jsou výsledkem diskusí, které provázely experimentální zpracovávání webových zdrojů podle Dublin Core (ve spolupráci s kolegy z odborných knihoven a vydavateli elektronických seriálů) v druhé fázi řešení projektu. Na tomto místě je třeba zdůraznit, že i nadále platí, že míra úspěšnosti projektů, které budou zaměřeny na rutinní zpracování webových zdrojů, bude odvozena od ochoty vydavatelů těchto zdrojů integrovat Dublin Core do svých publikačních aktivit.

Kritéria:

  1. podle domény (místa uložení zdroje)
  2. Primárně jsou brány v úvahu zdroje přístupné na serverech s doménou prvního stupně .cz. V této souvislosti však vyvstává problém, jak správně vymezit tzv. národní web (tj. zda uplatňovat pouze teritoriální hledisko nebo také jazykové hledisko podobně, jako je tomu u tradičních bohemikálních dokumentů). Faktem zůstává, že není možné výše uvedenou podmínku za všech okolností striktně dodržet, protože v některých případech čeští vydavatelé záměrně nebo nuceně (obvykle z důvodu předchozí registrace žádané domény ze strany spekulantů) využívají servery s doménami .com, .net a výjimečně také .org (např. oficiální prezentace Městského úřadu v Hořicích na www.horice.org, fotografický průvodce New Yorkem od M. Baňkové na www.nycmap.com - aj.). V těchto případech je třeba identifikovat vlastníka domény druhého stupně pomocí specializovaných služeb. Stejné zkušenosti byly získány při automatickém sběru švédských webových zdrojů v rámci projektu Kulturarw3 - bylo zjištěno, že až 40 % zdrojů je uloženo na serverech mimo národní doménu .se.

  3. podle obsahu zdroje
  4. Jsou brány v úvahu zdroje odborného nebo uměleckého charakteru, u nichž se předpokládá, že mají informační hodnotu pro větší okruh budoucích uživatelů. Záměrně jsou pominuty zdroje, které jsou výsledkem soukromých, firemních nebo ryze reklamních publikačních aktivit, i když s vědomím, že i v této oblasti se mohou vyskytovat zdroje, které mohou být pro některé uživatele zajímavé, resp. zdroje, které nejsou jiným způsobem zveřejněny.

  5. podle typu zdroje
  6. Repertoár typů zdrojů (vzorek viz http://webarchiv.nkp.cz/dc.php) je poměrně pestrý a je do jisté míry ovlivněn předchozím kritériem. Při jejich výběru se vychází z běžných klasifikací dokumentů. Jde především o seriály, konferenční příspěvky, výzkumné a jiné zprávy, studie vzniklé např. jako výstupy vědeckých a výzkumných projektů, akademické práce, dokumenty veřejné správy. Je příznačné, že tyto zdroje spadají do kategorie tzv. šedé literatury.

  7. podle formy
  8. Jsou brány v úvahu ty zdroje, které jsou publikovány pouze v elektronické formě, aby se zabránilo duplicitě zpracování webových zdrojů a tradičních (tištěných) dokumentů s identickým obsahem.

  9. podle přístupu
  10. Jsou brány v úvahu pouze ty zdroje, které jsou volně přístupné, to znamená, že nejsou k dispozici v rámci placených informačních služeb.

  11. podle formátu

Z pragmatických důvodů jsou preferovány formáty, které jsou všeobecně podporovány producenty aplikačního softwaru (zejména webových prohlížečů), nikoliv tedy proprietární formáty, pro jejichž korektní zobrazení je třeba zvláštní aplikační software. K tomu je třeba dodat, že některé z těchto formátů se staly - díky dominantnímu postavení producenta na trhu - standardy elektronického publikování de facto (např. Adobe - pdf, Microsoft - doc). Archivaci webových zdrojů usnadňuje empiricky dokázaný fakt (harvesting - automatické stahování -českého, švédského, nizozemského a finského webu), že navzdory velkému množství formátů, se kterými se na webu můžeme setkat, je většina webových zdrojů (85 až 90 procent) uložena v malém počtu formátů (resp. MIME podtypů) - html/htm (k tomu připojme asp a php v případě dynamických webových informačních systémů), jpeg, gif (pro statickou grafiku) a txt. Zastoupení zdrojů ve formátech pdf, doc, rtf a ps (PostScript) na českém webu není výrazné (viz příloha č. 9 závěrečné zprávy projektu), ale jejich informační hodnota je obvykle vyšší než u zdrojů ve formátu html.

d) Elektronické seriály

Zvláštní pozornost byla v rámci projektu soustředěna na elektronické seriály (periodika), u nichž lze očekávat serióznější záměry vydavatele ve srovnání s jednotlivými webovými zdroji. K 5. dubnu 2002 České středisko ISSN registrovalo celkem 253 seriálů přístupných online, které mají různé zaměření: odborné, populárně-naučné, zábavní a zpravodajské. Z teritoriálního hlediska mezi nimi figurují celoplošné i lokální seriály. V jednom případě (Carolina) byla přidělena dvě ISSN (pro českou a anglickou verzi). Ne všechny seriály jsou dosud vydávány (237 titulů). Z uvedeného počtu byl k uvedenému datu pouze časopis Ikaros systematicky excerpován v celostátním měřítku (v databázi knihovnické literatury KKL Národní knihovny ČR od srpna 1999 a v článkové polytematické databázi ANL, která je součástí České národní bibliografie, od května 1999). S některými vydavateli byla zahájena spolupráce (Ikaros, Česká škola, Elektrorevue). Vydavatel časopisu Ikaros vyvíjí nový publikační systém, který bude umožňovat generování metadatových záznamů ve struktuře Dublin Core do zdrojového kódu článků.

Registrované seriály lze rozdělit do tří skupin:

  • seriály vycházející výhradně v elektronické formě

Početně největší skupina, do níž jsou zařazeny zpravodajské servery a další dynamické webové informační systémy, které jsou zpravidla aktualizovány průběžně a které tradiční klasifikace seriálů nezná - např. Česká škola, Živě, root.cz, Svět Namodro, Instantní Astronomické noviny aj. Kromě nich jsou v této skupině zastoupeny seriály, které do značné míry napodobují tradiční vydavatelský model - mají předem stanovenou periodicitu. Patří k nim např. Ikaros, Chirurgie aj.

  • online přílohy tištěných seriálů

Rostoucí skupina seriálů, jejichž charakteristickým znakem je částečná obsahová nezávislost na “originálu” a které mají z technického hlediska rovněž podobu dynamických databází - např. EkoList po drátě, iDNES, iHNed aj.

  • elektronické verze tištěných seriálů

Těmito seriály nemá smysl se z praktického i metodického hlediska zabývat, protože jde o zpřístupnění téhož dokumentu jiným způsobem. Často mají tyto seriály sloužit k marketingové podpoře svých tištěných protějšků, někdy elektronické verze nejsou volně přístupné.

 

2. 2 Oblast informačních a komunikačních technologií

Pro testování vyvíjených, resp. aplikovaných a lokalizovaných softwarových nástrojů sloužil PC suplující server, pracující pod operačním systémem Linux. V konečné fázi řešení se rovněž využíval páskový robot sloužící již dříve v Národní knihovně ČR pro řešení příbuzné problematiky digitalizace tradičních druhů dokumentů.

Softwarovými nástroji se podrobněji zabývá přednáška ing. Petra Žabičky publikovaná rovněž v tomto sborníku; proto uvádím pouze stručný přehled těchto nástrojů, které jsou dostupné pro uživatele na webové prezentaci projektu WebArchiv (http://webarchiv.nkp.cz).Pro vývoj softwarových nástrojů byla navázána spolupráce se severskými zeměmi a bylo použito nástrojů, které byly výsledkem řešení projektů NEDLIB a Nordic Metadata I a II. Řešitelé českého projektu přispěli k dalšímu rozvoji těchto nástrojů.

V současné době jsou k dispozici následující softwarové nástroje:

  • Generátor metadat Dublin Core, kterýslouží pro tvorbu metadatových záznamů DC v různých výstupních formátech (viz příloha č. 1);
  • Generátor URN pro přidělování jednoznačného čísla národní bibliografie pro elektronické dokumenty (URN:NBN - viz příloha č. 2);
  • Kalkulátor MD5, použitelný pro zjištění, jak je daný dokument v archivu zastoupen nebo zda se liší od zdánlivě stejného dokumentu na jiné adrese (viz příloha č. 3);
  • Nedlib Harvester, sloužící k automatickému doplňování digitálního archivu.

 

3. ZÁVĚR

V rámci pilotního projektu, v podmínkách testování, byly vytvořeny předpoklady pro postupné zajišťování problematiky registrace, ochrany a zpřístupňování online dostupných elektronických zdrojů v provozních podmínkách. Konkrétně byly připraveny podklady pro právní zabezpečení získávání, archivace a zpřístupňování domácích elektronických zdrojů publikovaných v síti Internet, softwarové nástroje pro provádění těchto činností a byla navázána spolupráce s vybranými vydavateli síťových elektronických zdrojů pro simulaci těchto činností v praxi. Data získaná v rámci automatizovaného stahování zdrojů z webu mohou být využívána rovněž pro registraci elektronických zdrojů dostupných online v České národní bibliografii.

Od vytvoření základních předpokladů v podmínkách testování k provoznímu řešení problematiky trvalého zajištění ochrany a zpřístupnění síťových elektronických zdrojů je však ještě dlouhá a náročná cesta, vyžadující značné finanční prostředky zejména na investiční vybavení (hardware) a jeho průběžné obnovování i na průběžnou aktualizaci softwarových nástrojů. Proto je třeba tyto činností koordinovat s řešením podobných činností, jako digitalizace tradičních dokumentů a jejich zpřístupňování či analytické zpracování a zpřístupňování plných textů článků z elektronických časopisů. Rovněž je třeba počítat s nároky na lidskou práci související jak s tvorbou bibliografické databáze, tak s řízením výpočetní a komunikační techniky.

Pilotní projekt skončil v prosinci 2001 a po zrušení ročního programu VaV na rok 2002 Zpřístupňování a ochrana knihovních fondů formou digitalizace s využitím mezinárodní sítě Internet v souvislosti s vytvářením informační společnosti, vypsaného Ministerstvem kultury ČR se zdálo, že nebude mít pokračování. Pro rok 2002 se situace alespoň částečně vyřešila schválením nového projektu v rámci programu VISK3. Součástí jeho řešení by měl být odhad věcných a finančních předpokladů (hardware a software) pro průběžnou tvorbu a zpřístupňování webového archivu a pro “údržbu" archivovaných zdrojů (technologie migrace dat, emulace aj. - v souvislosti s morálním stárnutím nástrojů interpretace elektronických zdrojů). Na základě této analýzy bude třeba hledat finanční zdroje na provozní zpracování online dostupných elektronických zdrojů, a to v kontextu s problematikou digitalizovaných dat, s níž má zejména po technické stránce mnoho společného, tj. jako komplex digitální knihovny.

 

Použitá literatura:

Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet : závěrečná zpráva za léta 2000-2001 [online]. Praha : Národní knihovna ČR, leden 2002 [cit. 2002-04-08]. Dostupný na WWW: <http://webarchiv.nkp.cz/zprava2001/zprava2001.pdf>.

 

Příloha č. 1

 

Příloha č. 2

 

Příloha č. 3


O autorovi:

V NK ČR pracuje od roku 1992 jako výzkumný pracovník v oddělení analýzy a projekce, později jako vedoucí oddělení zpracování speciálních dokumentů a v současné době se zabývá problematikou elektronických zdrojů, zejména dostupných online. V letech 2000-2001 hlavní řešitelka projektu Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet, řešeného v rámci programu VaV Ministerstva kultury ČR.

  

AiP logo © 2002 Albertina icome Praha s.r.o.
INFORUM® a IN® jsou registrované ochranné známky. 
Všechna práva vyhrazena.
Aktualizováno 20.05.2002

Grafický design Logo STUDIO aha!

Zpracování dat Digital Art Studio