Inforum 2002 - papers

Digitalizace sbírek a digitální přístup k dokumentům

Předseda: Adolf Knoll, Národní knihovna ČR

23.5.2002

8:30 - 11:00

Posluchárna D

Infrastruktura Webarchivu v roce 2002

Petr Žabička, Moravská zemská knihovna v Brně

Příspěvek účastníky konference blíže seznámí s infrastrukturou, vyvinutou v rámci tohoto projektu. Zároveň budou představeny plány na další rozvoj. Budou popsány hlavní části této infrastruktury i jejich vzájemná interakce:

Dublin Core Metadata Generator a s ním svázané nástroje: generátor jednoznačného identifikátoru NBN, kalkulátor kontrolních součtů MD5 a dalších souvisejících nástrojů.
Nedlib Harvester a s ním spojená oblast stahování a archivace elektronických online zdrojů.
Zpřístupnění harvesterem získaných dat archivu.

Na konci loňského roku byla odevzdána závěrečná zpráva projektu výzkumu a vývoje “Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet”. [1] Ačkoli byl projekt tímto aktem oficiálně ukončen, bylo díky výzkumnému záměru CEZ:J07/98:143300004 “Digitální knihovny” Ústavu výpočetní techniky Masarykovy univerzity možné bez přerušení pokračovat v dalším vývoji infrastruktury, jejíž základy projekt ukončený projekt položil.

Výsledky výzkumného projektu

Softwarová část projektu byla od počátku zaměřena dvěma hlavními směry. První z nich se soustředil na podporu získávání a tvorby metadat, popisujících elektronický zdroj, zatímco druhý se zaměřil na problematiku archivace online elektronických zdrojů. Třetí důležitý směr, tedy samotné zpřístupnění archivovaných elektronických zdrojů, byl zatím jen předběžně analyzován.

V současné době nejdůležitějším prvkem vybudované infrastruktury je Nedlib Harvester - softwarový robot, procházející vymezenou část webu a ukládající všechny na něm nalezené dokumenty do archivu. Tento archiv, jehož velikost bude muset být v ostrém provozu počítána v terabajtech, je nyní budován na páskovém robotu Národní knihovny, který hostí i data z mnoha dalších, především digitalizačních projektů. Z praktického hlediska má však tento archiv zatím jednu nevýhodu - tou je již zmíněná absence nástrojů pro jeho indexaci a zpřístupnění. Je nutné si uvědomit, že o co snadnější je v současné době vytvořit v podstatě jakkoli velký sklad digitálních dokumentů, o to obtížnější je takový sklad dlouhodobě rutinně provozovat. Výhodou pro řešitele projektu byla právě existence vyzkoušené technologie pro archivaci velkého objemu dat přímo v NK.

Pomineme-li první pokusy na poli zpřístupňování archivu, jsou další skupinou programy zaměřené na metadata - Generátor metadat Dublin Core, Generátor jednoznačného identifikátoru URN a Kalkulátor kontrolního součtu MD5 [2].

Při řešení celého projektu byly s výhodou využity mnohé softwarové nástroje na bázi otevřeného kódu, operačním systémem Linux počínaje a výše zmíněnými programy včetně Harvesterem využívané databáze MySQL konče. To řešitelskému týmu umožňuje mimo přímých finančních úspor i snadnou lokalizaci, drobné úpravy funkčnosti a operativní opravy nalezených chyb. Díky možnosti přístupu ke zdrojovým textům programů je také snadnější propojovat jednotlivé získané nástroje do větších funkčních celků a spolupracovat se zahraničními týmy, řešícími ekvivalentní problematiku s využitím stejných nebo podobných nástrojů.

Metadatové nástroje

Nejdůležitějším zástupcem skupiny metadatových nástrojů je již zmíněný Dublin Core Metadata Generator. Tento nástroj, veřejně přístupný na serveru projektu (http://webarchiv.nkp.cz), umožňuje autorům webových stránek poloautomaticky nebo ručně vytvořit a ve zvolené syntaxi uložit metadata respektující pravidla kvalifikovaného Dublin Core [3, 4]. Pokud již dokument nějaká metadata Dublin Core obsahuje, nebo na ně standardním způsobem odkazuje ( <link rel="meta" href="URL_souboru_s_metadaty.rdf" /> ), může uživatel zvolit jejich načtení do formuláře a je mu tak umožněna i jejich další editace, případně konverze do jiného formátu.

Dublin Core Metadata Generator byl původně společně s dalšími nástroji převzat s minimálními úpravami od Helsinské univerzitní knihovny, která jej vyvinula v rámci projektů Nordic Metadata I a II (http://www.lib.helsinki.fi/meta/). Na základě výsledků zkušebního provozu byl program postupně upravován až do dnešní podoby. Ačkoli se část úprav týkala spíše zpřehlednění programu a generovaného kódu html, došlo i k mnoha změnám funkčním. Původní program například obsahoval nepříjemnou chybu znemožňující korektně analyzovat již uložená pole DC metadat, pokud se v daném dokumentu vyskytovala opakovaně. Analytická část byla také rozšířena o podporu formátu pdf a ve vývoji je integrace volně dostupných komponent pro podporu analýzy textových formátů firmy Microsoft. Významným pokrokem bylo také zavedení již zmíněné podpory extrakce metadat ve formátu RDF/XML.

Výstupní formát HTML byl upraven tak, aby vygenerovaná metadata byla kompatibilní s XHTML 1.0, zatímco výstup ve generovaný ve formátu XML/RDF byl zpřehledněn a byla aktualizována použitá syntaxe.

I samotný formulář pro vkládání metadat doznal určitých změn, z nichž nejvýznamnější je volba kvalifikátorů prvku Subject tak, aby odpovídaly u nás používaným systémům věcného třídění a také doplnění funkce automatického vložení jedinečného čísla národní bibliografie ve formátu URN přímo do pole Identifier, pokud bylo toto pole předtím prázdné:

To zajišťuje uživateli větší pohodlí a výrazně zmenšuje riziko chyb, hrozících jinak při kopírování nebo přepisu identifikátoru. Doufáme, že právě cesta získávání URN autory dokumentů během tvorby metadat popisujících tyto dokumenty v budoucnosti učiní používání samostatného formuláře pro přidělování URN zbytečným.

Zmíněné přidělení jednoznačného identifikátoru je umožněno propojením Dublin Core generátoru s generátorem URN. Ten byl nejprve také převzat jen s minimálními úpravami (překlad z finštiny) a právě kvůli propojení s DC generátorem musel být mírně upraven. Již nyní ale uvažujeme o tom, že systém přidělování URN přepracujeme tak, aby program přidělující URN fungoval zcela nezávisle na konkrétním způsobu, kterým uživatelé URN získávají. Budou zveřejněny funkce pro získání URN, napsané v často používaných programovacích jazycích, které umožní snadnou integraci této funkce přímo do publikačních systémů vydavatelů online zdrojů. Díky tomu by se přidělování URN stalo zcela automatickým procesem.

Řadu pomůcek dostupných na serveru webarchivu doplnil i kalkulátor MD5. Ten umožňuje spočítat kontrolní součet MD5 zadaného textového řetězce (podrobnosti viz [2]). Pokud je tímto řetězcem platné URL nějakého dokumentu, může kalkulátor tento dokument stáhnout a spočítat jeho kontrolní součet. Protože jsou tyto kontrolní součty používány pro identifikaci dokumentů, archivovaných Harvesterem, je jedna z možností využití Kalkulátoru zřejmá: může sloužit jako pomůcka při analýze práce Harvesteru i při zkoumání archivu samotného.

Jeho využití je však mnohem širší a nemusí s projektem vůbec souviset: za dodržení jistých předpokladů jej může kdokoli využít například pro ověření autenticity dokumentu, jehož původní kontrolní součet zná.

Nástroje pro archivaci a zpøístupnìní

Základním softwarovým prostředkem projektu zůstává nadále Nedlib Harvester. Jde o nástroj, který je optimalizován pro plošné stahování a archivaci online dostupných dokumentů. Protože velikost tvořeného archivu snadno dosahuje obrovských rozměrů, jedno kolo stahování v našich podmínkách představuje stovky GB, nejsou archivované dokumenty ukládány do databáze ale přímo do souborového systému serveru. Dalším důvodem pro toto rozhodnutí je i snadnější migrace archivu na nové platformy - je nutné si uvědomit, že budovaný archiv by měl být trvale dostupný i ve vzdálené budoucnosti. Protože žádný souborový systém se nedokáže rozumně vypořádat s velkým množstvím malých dokumentů, jsou nově získané dokumenty před uložením do archivu spojovány programem tar do balíků po několika tisících a poté ještě komprimovány programem gzip. Spolu s každým dokumentem jsou do archivu uložena i metadata, popisující jeho vlastnosti, okolnosti jeho stažení a v případě html dokumentu i všechna metadata, která v něm byla obsažena.

Ač byl předchůdcem programu NEDLIB Harvester robot pro indexaci webových stránek, v současnosti je Harvester samostatným produktem, optimalizovaným právě pro archivaci ve velkém. Samozřejmě je, tak jako jiné webové roboty, omezen jen na “viditelný web”, ten se ale pokouší stáhnout a archivovat v co největší úplnosti, k čemuž přispívá i podpora stahování stránek zabezpečených heslem (samozřejmě za předpokladu, že heslo bylo předem do programu zadáno). Harvester se snaží být vůči stahovaným webovým serverům “přátelský” - stahování souborů z každého serveru se snaží rozložit na delší časové období, přičemž bere ohled na rychlost odezvy daného serveru tak, aby jej jednostranně nepřetěžoval a neblokoval tak jeho internetové připojení.

Tato vlastnost, ač by se dala hodnotit jako velmi “přátelská”, s sebou nese i riziko zavlečení nekonzistencí do archivu: mohlo by se totiž stát, že mezi stažením vlastního html dokumentu a stažením do něj vložených grafických prvků uplyne taková doba, že mezitím dojde k jejich změně. Proto je harvester nastaven tak, aby se při stahování webových stránek choval podobně jako běžné prohlížeče a vloženou grafiku stáhnul co nejdříve po stažení vlastního dokumentu.

Nejnovější distribuovaná verze harvesteru, se kterou pracuje i náš tým, je verze 1.2. Do ní již byly zahrnuty i opravy těch chyb předchozí verze, které jsme odstraňovali během testování v loňském roce. Nová verze přinesla mimo větší stability i několik novinek: podporuje protokol HTTP 1.1 a může díky tomu využívat trvalejšího spojení se servery než v minulosti. To se pak zpětně odrazilo ve změně architektury harvesteru, který se nyní snaží optimalizovat sklízení tak, aby stahování několika velkých serverů neblokovalo sklizeň serverů o několik řádů menších. Původně společná fronta URL ke stažení byla proto rozdělena tak, že každý server má nyní frontu vlastní.

Ani tato verze však neumožňovala snadno měnit konfiguraci - některé docela zásadní parametry systému (název databáze, cesty k pracovním adresářům a další) byly zakompilovány přímo v programu a nebylo proto snadné je operativně měnit. To je potřeba především proto, aby mohlo na jednom serveru běžet paralelně více sklizní s různými, uživatelem nastavenými a průběžně měněnými parametry. Proto byla standardní verze harvesteru upravena tak, že je nyní možné pomocí jednoduchého webového rozhraní konfigurovat a spouštět libovolné instance harvesteru.

Ačkoli bude toto rozhraní dále zdokonalováno, je již nyní možné nastavovat všechny důležité parametry sklizně: seznam výchozích URL, hloubku zanoření stahovaných souborů v rámci serveru, čímž se zamezí vzniku nekonečných smyček, respektování souboru robots.txt, podpora protokolu ftp a logování zamítnutých URL. Dále je možné zakázat nebo povolit přístup k serverům na základě příslušnosti k určité doméně, určitému serveru, části cesty k souboru, nebo jejich kombinace. Správnost nastavených omezení lze testovat zadáním URL, které je pak proti těmto omezením ověřeno.

V nejbližší době bude toto rozhraní zdokonaleno tak, aby umožňovalo ještě větší automatizaci činností spojených s plánováním a konfigurací sklízení jednotlivých webových periodik. Protože každé webové periodikum má jiný rozsah a je jinak často aktualizováno, bude vytvořena databáze parametrů pro sklizně jednotlivých periodik, na jejímž základě se bude v průběhu roku automaticky aktivovat jejich stahování. Součástí tohoto systému bude muset být i určitá zpětnovazebná nástavba, která na základě analýzy probíhajícího stahování upozorní správce harvesteru na nutnost změny některých parametrů.

Základem takové nástavby je již vytvořený modul pro získávání základních statistik o probíhající sklizni. Je však nutno dodat, že tento nástroj je v současné době operativně použitelný právě jen pro rozsahem omezené sklizně, jeho nasazení při analýze plošné sklizně je zatím znemožněno dlouhá doba odezvy, která při složitějších dotazech nad celou pracovní databází harvesteru způsobuje vypršení časového limitu dotazu. Před tímto chováním však varují i autoři harvesteru, kteří doporučují provádět analýzu archivu pomocí jiných prostředků, než je pracovní databáze generovaná harvesterem. Jediným přiměřeně funkčním nástrojem pro zkoumání probíhající sklizně je URL lokátor, program, který umožňuje zobrazení v databázi uložených dokumentů stažených ze zadaného URL.

Procházet všemi archivovanými balíky dokumentů a prohlížet v nich uložené dokumenty i s nimi svázaná archivační metadata pak dokáže jednoduchý parser.

Další vývoj

Jednotlivé prvky zatím vyvinuté infrastruktury poskytly ve zkušebním provozu jasný obraz toho, jak náročnou ale i důležitou činností je dlouhodobá archivace online elektronických zdrojů. Práce na projektu také naznačily, kterými směry by se měl ubírat další vývoj infrastruktury projektu.

V oblasti metadatové bude nutné zajistit logování metadat vytvořených pomocí Dublin Core Metadata Generatoru a jejich další zpracování. Přímo se zde nabízí automatické předávání zadaných platných URL jako podkladu pro nové sklizně harvesteru. Zároveň by mohla tato metadata sloužit jako jeden z podkladů pro výběrové analytické zpracování v rámci článkové bibliografie. Bude pravděpodobně možné vyvinout pro jejich předávání ke zpracování takový postup, který by byl kompatibilní s postupem, používaným nyní v procesu analytického zpracování článků z Anopressu.

Jako další logický krok se nejen proto nabízí rozšíření nabídky exportních formátů metadatového generátoru o UNIMARC a MARC21, které usnadní například i katalogizaci českých webových periodik. Vývoj Metadata generátoru tedy bude muset odrážet jednak změny v nárocích uživatelů a jednak změny technického rázu (podpora dalších vstupních a výstupních formátů, proměny kvalifikátorů a možná i samotného standardu Dublin Core).

Generátor URN bude muset být přizpůsoben pro automatizované předávání čísel národní bibliografie jiným softwarovým produktům kdekoli na síti, jinak se ve větší míře neprosadí. Ze stejného důvodu by měla být zaručena funkčnost tohoto systému v režimu co nejbližším ideálnímu 24x7.

Vývoj NEDLIB Harvesteru bude s velkou pravděpodobností nadále podporován finskou národní knihovnou. Stejně pravděpodobné je, že dokud budeme tento produkt používat, budeme i my, stejně jako týmy při dalších národních knihovnách, které jej používají, přispívat určitým dílem k jeho vývoji.

Mimo již popsané problematiky konfigurace harvesteru se pozornost vývojového týmu zaměří i na tu část harvesteru, která se zabývá ukládáním stažených dokumentů do archivu. V budoucnu by právě odsud mohly být zatím neexistujícímu indexačnímu nástroji předávány první informace o nově získaném dokumentu.

Koncem letošního roku byl na MFF UK vypsán ročníkový týmový vývojový projekt na vytvoření indexační a vyhledávací aplikace pro Webarchiv. Tato aplikace by měla zpřístupnit stažené dokumenty v jejich kontextu, tedy s vloženou grafikou ze stejné doby a s odkazy vedoucími primárně opět do archivu na dokumenty ze stejného období. Vyhledávání v archivu by mělo být umožněno nejen na základě URL nebo kontrolního součtu dokumentu, ale i na základě z dokumentu extrahovaných metadat nebo fulltextového vyhledávání. Tato aplikace by měla podporovat (byť nutně omezené) vyhledávání přes Z39.50 s využitím některého volně dostupného Z39.50 serveru a měla by být otevřená tak, aby bylo možné k ní kdykoli připojit další moduly pro indexování jiných, než textových typů souborů. Jakkoli se to může zdát na první pohled nereálné, nástroje tohoto typu již existují a jeden z nich, Convera Retrievalware, je dokonce v NK zkušebně provozován. Jedním z cílů projektu bude proto pokus o jeho využití pro indexování některých typů souborů obsažených v archivu.

Je bohužel zřejmé, že stávající hardwarová platforma je pro ostrý provoz takového nástroje nevyhovující. To je dáno jednak nemožností souběhu harvestingu a indexace na jednom serveru, který navíc není na tuto činnost dimenzován. Kapacitní problémy se ovšem týkají celé hardwarové infrastruktury, která naráží velmi často na finanční strop. Proto bude jedním z důležitých úkolů snažit se přizpůsobovat nabízené možnosti softwaru parametrům v daném okamžiku dostupných hardwarových prostředků.

Závěr

Jakkoli je vytvořená infrastruktura vyhovující pro archivaci českého webu již v současné podobě, její vývoj, jako vývoj v podstatě všech softwarových produktů, nemůže být nikdy zcela ukončen. Zde nejde jen o hledisko potřeb uživatele nebo provozovatele, ale i o hledisko technického vývoje nebo legislativní problematiku. S tím, jak bude stoupat podíl čistě elektronické produkce, bude růst i význam její dlouhodobé archivace z hlediska ochrany národního kulturního dědictví.

Literatura

[1] Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet : závěrečná zpráva za léta 2000-2001 [online]. Praha : Národní knihovna ČR, leden 2002 [cit. 2002-04-09]. Dostupný na WWW: <http://webarchiv.nkp.cz/zprava2001/zprava2001.pdf>.

[2] Žabička, Petr. Nástroje pro tvorbu metadat Dublin Core. In Automatizace knihovnických procesů - 8. Vyd. první. Praha : ČVUT - Výpočetní a informační centrum, 2001, 2001. AKP, ISBN 80-01-02-366-4, s. 86-91.

[3] Soubor metadatových prvků Dublin Core, verze 1.1: referenční popis [online]. Brno : Ústav výpočetní techniky Masarykovy univerzity v Brně, červen 2000 [cit. 2002-04-09]. Dostupný na WWW: <http://www.ics.muni.cz/dublin_core/DC-czech-1.1.html>.

[4] Kvalifikátory Dublin Core [online]. Brno : Ústav výpočetní techniky Masarykovy univerzity v Brně, červen 2000 [cit. 2002-04-09]. Dostupný na WWW: <http://www.ics.muni.cz/dublin_core/DC-kvalif.html>.

[5] Žabička, Petr. NEDLIB Harvester - technika "sklizně" informací. Ikaros. ISSN 1212-5075, 2000, vol. 4, no. 10, [cit. 2002-04-09]. Dostupný na WWW: <http://www.ikaros.cz/2000/c10/harvest.htm>.

O autorovi:

Ing. Petr Žabička (1970) vystudoval VUT v Brně a od roku 1995 pracuje v Moravské zemské knihovně v Brně. V současnosti studuje na FI MU doktorský obor matematická informatika.


	© 2002 Albertina icome Praha s.r.o. INFORUM^® a IN^® jsou registrované ochranné známky. Všechna práva vyhrazena. Aktualizováno 20.05.2002	Grafický design	Zpracování dat