Memoriae mundi series Bohemica

	Memoriae mundi series Bohemica
	Stanislav Psohlavec, AiP Beroun s.r.o., Beroun
	Příspěvek dokládá výhody promyšlené koncepce u dlouhodobých projektů. Orientace na uznané standardy, špičková digitalizace, tvorba popisných dat, spojování do digitální knihy. Rutinní elektronická reedice vzácných dokumentů.

obsah:

Proč SGML,HTML,DOBM, Internet, XML.

O popisech rukopisů, nové možnosti.

Fulltext, UNIMARC, DOBM, různé způsoby záznamu významu textu.

Závěr

Vážené dámy, vážení pánové,

Dovolte, abych Vás ve svém příspěvku podrobněji informoval o metodice uchovávání digitálních dat v tomto projektu, o současném stavu a dalších perspektivách, které přináší rozmach Internetu do těchto oblastí.
Ve druhé části se dotknu související problematiky - důležitosti uchování významu (role) textových dat při záznamu informace.
Cílem projektu je hromadné zpřístupnění historických dokumentů v digitální formě, náhrada originálů umožňující přístup k informacím pro širokou badatelskou veřejnost.

Proč SGML,HTML,DOBM

Základní a nejzávažnější úkol vyplynul hned na počátku z poznání, že rozsáhlejší pořizování digitálních dat tohoto typu se musí vypořádat s požadavkem nadčasovosti těchto dat i jejich identifikace.
Z mnoha důvodů jsme došli k závěru, že tento požadavek mohou splnit pouze data svázaná s textem (metadata) opatřená identifikátory – tagy. Toto splňovaly v době našich počátků pouze dokumenty HTML, používané pro komunikaci na Internetu, z principu nezávislé na počítačích a na konkrétních programech.
Forma HTML však nenabízí dostatečné prostředky pro identifikaci významových objektů.
Proto byl arzenál prostředků pro rozpoznávání významových objektů vlastních pro HTML rozšířen na stejných principech o identifikaci významových objektů specifických pro oblast rukopisů a starých tisků.
Protože HTML je definováno pomocí SGML, bylo i toto specifické rozšíření popsáno pomocí SGML.
Tím vznikla forma dědící vlastnosti HTML, a dovolující tedy práci s dokumenty v běžném internetovském prostředí. Tuto formu SGML dokumentů popisujících digitalizované dokumenty, především knihy a rukopisy, jsme nazvali DOBM (digitization old books materials). Okruh zaznamenaných informací je z části tvořen standardními tagy zděděnými z HTML, pevnou množinou dat obsahujících standardní informace o dokumentech a případně další připojitelné informace, které jsou již volně definovatelné.
Projekt běží v Národní knihovně již čtvrtý rok na těchto principech.

Internet

Další vývoj a rozšiřování Internetu i dokončování dalších souvisejících projektů v NK ukazuje, že v krátké budoucnosti bude možné mnohem více pracovat s historickými dokumenty po Internetu, a to i formou kterou jsme tak brzo neočekávali. Co tento fakt přináší? Dokumenty vytvářené v projektu MMSB jsou prvotně tvořeny ve formě vhodné pro komunikaci po Internetu. Něco jiného je však vystavit několik rukopisů na WWW stránky, a něco jiného je vytvoření skutečně nového badatelského prostředí. Badatelské prostředí vyžaduje komunikaci, sdílení a publikování informací, tedy živá data, ke kterým badatel nejen přistupuje a která využívá, ale která sám také spoluvytváří.

Nyní připravujeme v Národní knihovně import doposud vytvořených dokumentů do systému SAFE, kde se tyto dokumenty uloží v databázi řízené SQL serverem, na magnetopáskových kazetách v robotické knihovně.
Do tohoto systému, který bude zpřístupňovatpředevším staré noviny a časopisy budou importovány také dosud digitalizované vzácné rukopisy a tisky. Import bude ale možný i z jiných zdrojů schopných poskytnout v jednoznačné formě potřebné informace.Také export bude možný ve více formách. Nyní bude základním výstupem forma DOBM, protože zatím zůstává její výhodou plná kompatibilita se současným Internetovským prostředím a běžně dostupnými softwarovými prostředky a platformami. V době kdy se stanou běžnými prostředky využívající XML, bude možno poskytovat tatáž data i ve formě XML.

XML

V posledním roce se začíná o XML hodně hovořit, proto se zmíním o vztahu naší koncepce a XML.Potřeba vzniku XML vznikla z neschopnosti dosud standardizovaných prostředků (především HTML) pokrýt požadavky záznamu obecných digitálních dat, tedy ze stejných důvodů, proč jsme pro naši specializovanou oblast definovali DOBM. DOBM vzniklo, protože ještě nebylo XML, naštěstí (nebo zákonitě?) na stejných principech. V současnosti XML již pokrývá plně naši relativně velmi jednoduchou problematiku.
XML je mocný nástroj, od počátku vyvíjený jako obecný standard. Stane se nepochybně budoucí generací ukládání a přenosu digitálních informací především na Internetu. Plně bude využitelný až s další generací software, ale lze očekávat, že ovlivní počátek třetího tisíciletí, které bude záležitostí globalizace a Internetu. Potřeba mohutného nástroje dovolujícího standardizovanou komunikaci je evidentní.
DOBM popisuje pouze vybraný, velmi specializovaný segment digitálních dokumentů, je však postaven na identických formálních principech. V současnosti je významné, že nabízí plné využití vlastností současných browserů a lze oprávněně předpokládat plnou kompatibilitu i do budoucnosti. Obě formy představují záznam dat a popis jejich role (strukturu) nezávisle na prostředcích, kterých bude použito k jejich interpretaci.
Importem do systému poskytujícího informace dynamicky se z původního dokumentu extrahují data a metadata. Role metadat však v systému již není nesena konkrétními tagy, ale strukturou uložení těchto dat. Export pak umožní naplnění různých forem.

O popisech rukopisů

První fáze provozu systému SAFE bude nejprve zajišťovat zpřístupnění existujících dat.
Po zvládnutí tohoto kroku předpokládáme integrování nové formy organizace popisu dokumentů.
Dalším krokem bude nepochybně vznik nového badatelského prostředí, poskytujícího možnosti komunikace mezi badateli a vznik badatelských skupin neomezených hranicemi.

Ohlédněme se pro ilustraci na měnící se přístup k popisu dokumentů. První přístup k popisu digitálních dokumentům byl vyzkoušen ještě před definicí DOBM a vycházel z představy prvotní existence digitálních obrazů rukopisu a z jejich popisu na počítači. Tímto způsobem byly vytvořeny jen dva popisy- Sedlecký Antifonář a Tirschovo dílo Codex pictoricus Mexicanus. V obou případech šlo o podrobný popis díla, který trval měsíce. Oba tyto příklady ukázaly, že je nutno rozdělit základní identifikační popis a následnou badatelskou práci s tímto materiálem. Druhý přístup, který se praktikuje doposud, vychází z toho, že je nejprve vytvořen podle originálu základní popis umožňující následné přiř azení obrazu. Tato příprava probíhá na třech nezávislých pracovištích, která kapacitně odpovídají možnostem digitalizačního pracoviště využitého. Teprve jsou-li tato metadata připravena, je zahájena digitalizace. Tento postup umožňuje dobré využití techniky, která prakticky nemá prostoje. Po spojení metadat s obrazovými daty vzniká digitální dokument, který je ihned použitelný pro zpřístupnění místo originálu. Tímto způsobem je zpřístupněno cca 500 rukopisů. Metadata jsou i nyní obvykle již dosti propracovaná, protože kromě automatizovaně generovaných prostředků tvořících strukturu elektronické knihy, je k dispozici obvykle i dosti podrobný rozpis obsahu. Zde již může záviset na názoru popisovatele, do jaké hloubky se ve své práci pustí i jaké má odborné zaměření. Přesto je tento popis prvotně určen jen pro identifikaci a usnadnění přístupu k obsahu dokumentů

Nové možnosti

Vývoj techniky a rozšiřování Internetu a jeho možností dovoluje nástup třetí generace přípravy popisů a jejich využívání. Představa je taková, že základem zůstane elementární popis zjednodušený tak, aby zachycoval fyzickou podobu dokumentu a jednoznačnou identifikaci. Tento popis bude už spojen s obrazem a bude po Internetu zpřístupněn vybranému okruhu ‚popisovatelů‘, který může být výrazně obsáhlejší a nejen z okruhu lidí v blízkosti pražského Klementina. Tito popisovatelé, kteří již mohou být kdekoli na Internetu, vytvoří podrobnější rozpis obsahu a připojí základní popisné a identifikační informace dokumentu jako celku a případně i k jednotlivým významným stránkám. Teprve takovýto dokument vybavený potřebnými metadaty (nad nimiž bude možno vyhledávat), bude nabídnut k používání badatelské veřejnosti. Analyzují a připravují se prostředky, které dovolí na Internetu vznik a sdílení dalších nově vznikajících informací.

Fulltext a strukturovaná data

Troufám si říci, že kompatibilita našeho vývoje s celosvětovým trendem není náhodná, logicky vyplývá z přijetí a využití principů tagovaného záznamu dat. Protože při svých diskusích opakovaně setkávám s tím, že není zcela rozpoznáván zásadní význam těchto principů, dovolte a promiňte mi elementární vysvětlení.

Informace obsažené v písemné sdělení jsou dvojího druhu:
samotný text (Švestka) a role samotného textu
Role textu je velmi významná a je v textu obvykle snadno rozpoznatelná. Ze zkušenosti v konkrétním textu vždy poznáme zda jde o autora, ovoce, osadu či název knihy nebo hry Járy Cimrmanna. Problém spočívá v zaznamenatelnosti a přenositelnosti informace o roli textu.
Knihu nazvanou Mlat napsal pan Švestka v osadě Hrozno.
Svou prvotinu Švestka vytvořil student Hrozno na statku zvaném Mlat.
Má-li být informace strojově uspořádatelná, mezinárodně sdílitelná, je nutné stanovit pravidla o způsobu záznamu informací, které jinak extrahujeme na základě znalosti jazyka a porozumění logice textu.
Fulltext při velkém objemu dat není všelékem (jak naznačuje příklad i jak již bylo prokázáno prakticky). Není jím ani automatizovaná syntaktická analýza. Obojí jsou prostředky pro zpracování dat, kterým již při jejich vzniku chybí informace o ‚roli slov‘. V mnoha případech to může být dobrá pomoc, ale často půjde spíše o pomoc z nouze. Všude tam, kde ale tato informace primárně existuje a může být zaznamenána hned při ukládání prvotních dat, je vhodné tak učinit.
Toto připomenutí je samozřejmě elementární, rozpoznání této potřeby není novinkou.

UNIMARC

Typický příklad strukturovaného záznamu v knihovnách je retrokonverze katalogu z papírové lístkové formy do digitální formy záznamů v UNIMARCU.

Ostatně UNIMARC je dobrý příklad propracovaného způsobu záznamu textových informací se zásadním ohledem na významovou roli tohoto textu.
Záznam o knize v UNIMARCU

LAB -----nam 22----- 450
001 zb9427659
005 19941210
010 -- $a0-930042-31-X$bbrož.
020 -- $aCZ$bzb 9427659
100 -- $a19940621d1980 u u0czey0103 ba
101 1- $aeng$ccze
102 -- $aUS
105 -- $aa - 0|0yy
200 1- $aBaroque in Bohemia$fMilada Součková$gPostscript by Roman Jakobson $g[Přel. z češ.]
210 -- $aAnn Arbor$cUniversity of Michigan Press$d1980
215 -- $aVIII, 216 s.$cobr., fotogr.$d23 cm
225 2- $aMichigan Slavic materials$vNo. 17
307 -- $aOdkazy na lit.
307 -- $aPozn
410 -0 $aMichigan Slavic materials$12001
608 -- $amonografie
610 0- $abaroko
610 0- $ačeské umění
661 -- $au4v8
675 -- $a7.03$zcze
700 -1 $aSoučková$bMilada$f1899-1983$tr$4070
702 -1 $aJakobson$bRoman Osipovič$f1896-1982$tr$4080
801 -0 $aCZ$bABA001$c950228
964 -- $aumění české - baroko - monografie

Tento záznam je sice poněkud nepřehledný, ale velmi podrobně podle známých a veřejně dostupných pravidel stanovuje význam jednotlivých segmentů textu. Lze z něj snadno vytvořit jiné, čitelnější formy

tatáž data v textové, lidsky čitelné formě

Autor Součková, Milada, 1899-1983
Jakobson, Roman Osipovič, 1896-1982 (autor úvodu atd.)
Název Baroque in Bohemia
Edice Michigan Slavic materials
Místo vydání Ann Arbor
Nakladatel University of Michigan Press
Datum vydání 1980
ISBN 0-930042-31-X
MDT 7.03
Klíčová slova baroko
české umění
Formální označení monografie
Chronologické vymezení 1640..1789
Předmětová hesla (inverze) umění české - baroko – monografie

tatáž data ve formě ISBN

7.03
Součková, Milada, 1899-1983
Baroque in Bohemia / Milada Součková ; Postscript by Roman Jakobson ; [Přel.
z češ.]. -- Ann Arbor : University of Michigan Press, 1980. -- VIII, 216 s.
-- (Michigan Slavic materials ; No. 17)
ISBN 0-930042-31-X
1. umění české - baroko – monografie
I. Jakobson, Roman Osipovič, 1896-1982 II. Název

Obě tyto formy jsou mnohem lépe čitelné, ale obsahují méně informace než UNIMARC.
Z UNIMARCU lze data do této čitelné formy převést, OBRÁCENÝ PŘEVOD ALE NENÍ OBECNĚ MOŽNÝ.
Samozřejmě vše má svá omezení… forma definovaná tak jednoznačně a závazně jako UNIMARC nemůže postihnout všechny oblasti, kde by bylo třeba uchovat informace o knihách. Nicméně pro cíl, ke kterému byl vytvořen, je plně vyhovující.
Systém DOBM si klade za cíl obrazy originálu svázat v elektronickou knihu, která je pro podstatnou část badatelské veřejnosti náhradou za originál. Navíc nabízí možnost dalšího podrobnějšího popisu na stejných principech.

DOBM

Vraťme se zpátky k historickým dokumentům. DOBM definuje množinu možných rolí textu při popisu určitého typu dokumentu a dává prostředky jak rozpoznatelným způsobem stanovit role další, to vše v rámci konvencí dokumentu zobrazitelného běžným browserem.

Ukázky z tagovaného zápisu (DOBM)

<!DOCTYPE DOBM PUBLIC "-//AIP//DTD DOBM2.1//EN">
<DOBM SPEC="NKP//MANUSCRIPT 2.2" ctglabel="bibldescr" NAME="Bibliografický popis" lang="cs" ENCODING="ISO8859-2 ISO Latin 2">
<DOBM.REFERENCE HREF="book.htm" ctglabel="book" NAME="Kniha">
<DOBM.REFERENCE HREF="techdes.htm" ctglabel="techdescr" NAME="Technický popis">
<HTML>
<HEAD>
<META http-equiv="Content-Type" content="text/html;charset=ISO-8859-2">
<TITLE>[Graduale monasterii O. Praem. Lucensis prope Znojmo; pars aestivalis.]</TITLE>
</HEAD>
<BODY>
<A HREF="descr.htm#CONTENTS">Rozpis obsahu</A> …………………….
……..atd| ………
<DOBM.DX ctglabel="shelfno" NAME="Signatura" type="text" lang="cs">
M IV 1/ 2 I 1 = II a 1</DOBM.DX>

</DD>
<DT>Místo uložení</DT>
<DD>

<DOBM.DX ctglabel="library" NAME="Místo uložení" type="text" lang="cs">
Státní vědecká knihovna v Olomouci</DOBM.DX>

</DD>
<DT>Majitel</DT>
…….atd ještě dlouho

Tento pro člověka nepřehledný text obsahuje jednoznačně strojově rozpoznatelné informace a přitom je každým browserem nezávisle na jeho verzi interpretován takto:

Rozpis obsahu | Technický popis | Galerie | Kniha
První strana | Poslední strana
[Graduale monasterii O. Praem. Lucensis prope Znojmo; pars aestivalis.]
Bibliografický popis
Signatura
M IV 1/ 2 I 1 = II a 1
Místo uložení
Státní vědecká knihovna v Olomouci
Majitel
Státní vědecká knihovna v Olomouci
Hlavní název
[Graduale monasterii O. Praem. Lucensis prope Znojmo; pars aestivalis.]
Druh dokumentu
kniha, rukopis
Rok vydání / zhotovení
1499
Materiál
pergamen + papír ………atd

Různé způsoby záznamu významu textu

Roly textu lze samozřejmě v současných editorech vyjádřit například stylem textu. Ale… Byli jsme nedávno postaveni před úkol převést rozsáhlá data zaznamenaná ve formátu editoru AmiPro do Wordu a zároveň do databáze. Bylo nutno rozpoznat a zachovat styly, které vyjadřovaly roli – význam jednotlivých dat. Ačkoliv oba systémy deklarují export a import standardizovaného formátu RTF, úkol nebyl řešitelný bez náročné ruční úpravy konvertovaných dat, v exportu i v importu byly při složitější struktuře významné chyby.

Formáty založené na konkrétním SW, postrádající veřejně přístupný popis struktury pomocí standardizovaných prostředků, nejsou vhodné k dlouhodobému uchování dat.

Výše naznačená forma digitálního dokumentu ve formě DOBM dovoluje interpretaci vhodnou pro práci uživatele, ale nezobrazuje mnoho konkrétních informací, které jsou z hlediska integrity digitálního dokumentu významné, protože uživatel je právě nepotřebuje. Tyto informace jsou však snadnoa jednoznačně rozpoznatelné a využitelné ve vyšších systémech pracujících s těmito informacemi.

Jednoznačného a nezávislého definování role lze dosáhnout každou formou, která je vytvořena a veřejně popsána standardizovanými prostředky. Bezeztrátový přechod mezi formami toto splňujícími je pak jednoduchý a jednoznačný.

Akceptováním těchto principů je splněna první podmínka široké sdílitelnosti digitálních dat.
Druhou podmínkou je vytvoření spojení mezi různými zdroji.
Je totiž nutno zajistit, aby byly správně využity obsahy jednotlivých rozlišených polí, správná identifikace rolí. Protože si nedělám iluze o možnosti něco takového celosvětově prosadit, je nutno alespoň si tuto potřebu a odpovědnost jasně uvědomit a promyšleně zadefinovat, jaká role textu je v konkrétním projektu přiřazena. Přitom není tak důležité jaké slovo pro označení role použiji, ale co tím myslím významově.
Nepochybně vznikne určitá normalizace i v těchto konvencích. Jen ten, kdo s touto normalizací od počátku počítá a sám si její potřebu uvědomuje a ukázněně ji používá, bude schopen svá data snadno sdílet s ostatními.
Tato kázeň je jednou z programových vlastností projektu MMSB od jeho počátku.

Pro ilustraci…

MDT

Že je potřeba takovéto kázně ukázalo v minulosti volání po potřebně jazykově a lingvisticky nezávislého zařazení libovolného objektu, které vedlo ke vzniku Mezinárodního desetinného třídění (MDT).

Příklad:

Notace MDT: 091.31
Slovní vyjádření: Výzdoba rukopisů
Příklady: Rukopisy s miniaturami. Iluminované rukopisy

Notace MDT: 091.31
Slovní vyjádření: Manuscript decoration
Příklady: Manuscripts with miniatures. Illuminated manuscripts

Podstatné je, že nějakým jednoznačně definovaným způsobem vymezuji a označuji vlastnosti nějakého objektu. Není ani tak důležitá konvence, jako významový obsah. Stejný objekt lze vymezit různými slovy v různých řečech, ale musí být myšleno totéž.
Notaci 091.31 konvertuji na AJB.DB velmi snadno - transformační funkce je jednoznačná, ale jak ‚konvertovat‘například nepřesně zvolené slovní vyjádření ”Obrazy v rukopisech” na “Výzdoba rukopisů” což evidentně není to samé?

Závěr

Samozřejmě výčet vlastností (rolí textu) používaných při popisu rukopisů v projektu MMSB je podřízen cílům, pro které slouží a nelze jej srovnávat se záběrem MDT, stejně jako nelze srovnávat záběr XML a DOBM.
Svou jasnou deklarací je však používaný rozsah pojmů popisujících role textů nutnou podmínkou pro sdílení těchto informací s příbuznými podobně založenými systémy jinde ve světě, které si kladou obdobné cíle.
Při jasném stanovení podobného cíle, jsou totiž i potřebné prostředky ve svém informačním obsahu podobné.
Pokud je informační obsah používaných objektů ekvivalentní, je samotná forma méně důležitá, než se dosud zdálo. Naopak, i nejlepší prostředky mohou být k ničemu, pokud není jasně definován a popsán informační obsah a nebo pokud nejsou zavedené konvence důsledně používány.

Použito: Česká národní bibliografie, CD-ROM, AiP a NKČR
Mezinárodní desetinné třídění , CD-ROM, AiP a NKČR

AiP Beroun s.r.o.- dceřinná společnost Albertina icome Praha s.r.o.
U Stadionu 137, 26601 Beroun 1
stanislav.psohlavec@aip.cz