Digitalizace sbírek a digitální přístup k dokumentům

Předseda: Adolf Knoll, Národní knihovna ČR

23.5.2002

8:30 - 11:00

Posluchárna D

Digitální "knihovny": projekt ČTE!

Vítězslav Praks, Filosofická fakulta, Univerzita Karlova v Praze

Tereza Praksová, Internet Securities, Inc.

Příspěvek charakterizuje vybrané digitální knihovny v České republice a popisuje jejich relevantní okolí. Uvedena je především typologie existujících digitálních knihoven, trendy jejich vývoje, nástroje, funkce a srovnání existujících českých projektů a zahraničních. Speciální část se věnuje aktuálním otázkám autorského práva, které má zásadní vliv na elektronické publikování. Druhá polovina příspěvku popisuje projekt digitální knihovny ČTE! (České Texty Elektronicky), který provozují autoři příspěvku.



Motto: " Greatest value created by computers would not be computing, but would be the storage, retrieval, and searching of what was stored in our libraries.” (Michael S. Hart, zakladatel amerického digitalizačního projektu Gutenberg)

Motto Michaela S. Harta vyjadřuje přesvědčení, které nás roku 1999 vedlo k založení jedné z prvních veřejně přístupných elektronických knihoven v České republice. Toto přesvědčení (jinými slovy) říká toto: Technologický pokrok není samospasitelný: důležitější než vývoj samotných technologií je to, co tyto technologie lidem umožňují a hlavně zpřístupňují. Vedle informací zcela nových, které získává (s pomocí nových digitálních technologií) světu věda, se jedná o informace o lidské kultuře. A kultura znamená, jak pravil už Timothy Leary, především “být zapojen”, být integrován do světového společenství lidí. Role, kterou v tomto kulturním procesu hrají sdělovací technologie, elektronické dokumenty a hlavně elektronické knihovny, je proto jasná - a je ohromná.

Český “internet” se zpočátku od tohoto trendu jakoby chtěl držet stranou. Ještě donedávna (z volně dostupných informačních zdrojů) převažovaly na (českém) internetu hlavně jen katalogy firem. (Naproti tomu americký projekt Gutenberg vznikl již v roce 1971!)

Výjimku v českém elektronickém publikování (či lépe sdělování a sdílení kultury) zpočátku tvořily spíše jen hamletovsky mesianistické výjimky.

Ale pomiňme těžkou dobu zrodu a přenesme se přímo do současnosti. V současné době existuje na českém internetu několik velmi kvalitních elektronických archivů, které bezúplatně poskytují čtenářům (ten nejrychlejší a nejpřímější) přístup k základním dokumentům české, ale i světové literatury a tím potažmo kultury. V českém jazyce. Při svém výkladu několika (námi subjektivně vybraných serverů) přitom pomineme všechny otázky terminologické (jako například, jaký je rozdíl mezi archivem, knihovnou a infotékou; či jaký je rozdíl mezi knihou, dokumentem, jakož i pomineme obsáhlé výčty rozdílů mezi dokumentem elektronickým, digitálním a virtuálním). A to ne snad z toho důvodu, že bychom tyto otázky považovali za scholasticky akademické, nýbrž prostě proto, že již byly jinými (a kvalitněji) zpracovány. Zklamané zájemce odkazujeme mimo jiné ke starším sborníkům této konference.

Hned na začátku našeho výkladu uveďme server Česká čítanka, http://citanka.cz/ který je výjimečný nejen svou tematikou (starší česká beletristická literatura, většinou barokní; dále základní české historické spisy), nýbrž také svým mimořádně kvalitním softwarovým vybavením. Server poskytuje svým čtenářům kvalitní katalog, v němž je možné procházet i vyhledávat dostupné knihy, dokonce i s využitím technologie fulltextového prohledávání.) Za touto obrovskou a mimořádně kvalitní prací stojí pan Marek Kubita.

Dalším vynikajícím projektem je digitální archiv spravovaný člověkem, který si říká “Abalesa”. ( http://eknihy.host.sk/index.htm). Na stránkách této knihovny lze najít především české prvorepublikové literární klasiky: (Josef i Karel Čapek, Eduard Bass, Vladislav Vančura). Ale najdete zde i (české překlady děl) Edgara Allana Poea.

Hovoříme-li o první republice, nesmíme opomenout masarykovsky znějící název serveru “Atheneum” (http://atheneum.hyperlink.cz). Atheneum byl slavný Masarykův časopis, který měl propagovat realistickou politiku a jehož velkým a krásným cílem bylo působit obrodu v české vědě i kultuře. Dnes tedy pod tímto názvem naleznete (vedle Masarykova časopisu) ještě také jeden mimořádně kvalitní elektronický archiv.

V posledních několika letech se často hovoří o tom, že by knihovny měly vyjít vstříc veřejnosti, že by měly kooperovat s dalšími informačními institucemi, zejména se školami. Mimořádně krásným dokladem toho, že knihovny mohou při tomto usilování počítat s kladnou odezvou, je osobnost středoškolského učitele pana Mgr. Radka Sárköziho. Jeho server s jednoduchým názvem Česká literatura (http://www.ceskaliteratura.cz) nabízí čtenářům mnohé fundamentální texty z dějin české literatury - když už ne formou plných textů, tedy alespoň ukázek, dále pak sekundární literaturu ke studiu, i k zájmovému čtení české literatury. Charakteristickým rysem serveru je velká otevřenost a vstřícnost ke čtenáři, který je vtahován do aktivity promyšleným systémem aktivizace: Dotazníky, soutěže, apod. Že je Sárköziho cílem probouzet zájem o českou kulturu, nedokazuje jen jeho pedagogická praxe a jeho elektronická knihovna, nýbrž i, jak soudím, i jeho vlastní autorská poezie, posuďte sami alespoň krátkou ukázku:

 

"Alespoň žízeň kdyby v našich srdcích byla

Alespoň jazyk vyschlý šaty propocené Zoufalost

Ohnivý kotouč na dosah a všude kolem zima”

 

(Uprostřed pouště odpouštět, Slunce v Arles. Dokument je dostupný volně ke stažení, rovněž na: www.ceskaliteratura.cz)

Mezi největší české digitální archivy patří nepochybně server Palmknihy. (www.palmknihy.cz). Podle údajů v tisku se k dnešnímu dni server, spravovaný panem Jiří Vlčkem, honosí rekordními 200.000 downloadnutými knihami. Na serveru je uloženo cca 800 knih z české beletrie, které jsou roztříděny v katalogu dle kategorií. Databáze serveru roste rychlostí přibližně dvě knihy denně.

Ale zde už svůj výklad najednou přeruším, aby se z příspěvku nestal telefonní seznam. Na místě je nyní hodnocení: Co mají tyto (jak je z textu patrné) rozdílné projekty společného?

Jistě to není technologie užití metadat. Někteří užívají výhod poslední verze formátu XML, jiní nabízejí plné texty děl v nejjednodušším ASCII kódu.

Rovněž to není struktura katalogu: neboť někteří nabízejí čtenáři k užívání mistrně naprogramovaný katalog umožňující (i) fulltextové vyhledávání, zatímco jiní spoléhají na to, že si čtenář downloadne celou produkci serveru v komprimovaném formátu ZIP na svůj disk a pak už se sám v knihách nějak zorientuje.

A do třetice, společný není těmto serverům ani předmět digitalizace: výše jmenované servery se svou produkcí nekryjí, naopak představují velmi pestré spektrum zájmů profesních i soukromých.

Domnívám se, že spojujícím článkem všem těmto projektům (jakož i toho našeho, o němž jsme zatím ještě nemluvili, ale už brzo mluvit budeme) je snaha využít nových možností technologických k zpřístupňování a propagaci české kultury. Přičemž bych rád zdůraznil, že převedením dokumentu (z jeho tištěné verze) do elektronické podoby nezískáme jen absolutně rovnocennou kopii, nýbrž i obrovskou přidanou hodnotu: neboť získáváme dokument, který je čitelný nejen pro člověka, nýbrž i pro počítač. (“Books readable not only by the human, but the computer too”). V případě elektronické verze básní Máchova Máje to znamená, že máme k dispozici veškerý aparát kvantitativních analýz, kterých užili legendární vědci, jako např. Roman Jakobson či Jan Mukařovský ve svých nejslavnějších studiích. Tyto dříve tak nesmírně namáhavé metody dnes (právě nejen díky novým technologiím, ale právě i digitalizačním projektům, jako je ten náš) může použít každý student. A nejen na Máchovo dílo!

Promluvím proto nyní krátce o historii zrodu našeho projektu, naší elektronické knihovny “České texty elektronicky!” ČTE!

Tak jako projekt Gutenberg, tak i náš projekt vznikal doslova na koleně. Zpočátku měl podobu jednoduchého internetového katalogu, jehož technickým řešením byla klasická webovská stránka s odkazy. Teprve později, když nám daroval (!) svůj vlastní, vynikající software E-Library ředitel společnosti IDC Softwarehouse pan David Pašek (http://www.idc.cz/), jsme mohli začít hovořit o ČTE! jako o skutečně profesionálním webovském archivu. Další náš přítel, pan Vojtěch Kupča se postaral o vytvoření protokolu, který našemu serveru umožnil rozesílání tzv. mail alertů, tj. upozorňujících mailů na přírůstky naší elektronické knihovny.

Od správce školního serveru Univerzity Karlovy v Praze Ing. Vladimíra Horáka jsme získali zcela zdarma snadno zapamatovatelnou doménu (www.cuni.cz/cte) a dostatečnou kapacitu na školním serveru Univerzity Karlovy.

Paralelně s tím probíhaly naše práce digitalizační. Od roku 1999 prakticky do současnosti jsme na vysokoškolských kolejích v Brně zdigitalizovali několik set tisíc stran učebních materiálů. Při tomto obrovském pracovním nasazení (pracovali jsme skutečně často ve dne i v noci) jsme doslova uštvali tři skenery.

Technické otázky

Některé z dokumentů, které jsme digitalizovali, jsme převedli do čistého textu a publikovali na internetu. Rovněž jsme okamžitě zahájili spolupráci s občanskými sdruženími pro podporu nevidomých a slabozrakých se záměrem poskytovat digitální verze dokumentů k užívání takto zdravotně postiženým zájemcům o českou kulturu.

Některé dokumenty, např. ty, u nichž bylo takřka vyloučeno převedení na čistý text, jsme ponechávali v grafické podobě (ukládali jsme digitalizované stránky na CDROMy jako obrazové dokumenty). Zpočátku jsme užívali standardní grafický formát GIF, později jsme přešli na dokonalejší PNG, s mezifází JPG. V současné době používáme technologii firmy LizadTech Corporation, (kterou vyvinuly výzkumné laboratoře firmy AT&T) - formát DJVu.

Takto získané digitální verze knih jsme předali fakultní knihovně Masarykovy univerzity a dále ještě knihovně v Rožmitálu pod Radhoštěm.

Po celou dobu (až do současnosti) náš projekt fungoval bez jakýchkoliv vnějších finančních zdrojů. Výjimkou bylo stipendium, které mi za projekt ČTE! přidělil PhDr. Petr Osolsobě z katedry estetiky FF MU v Brně. Za těchto okolností jsme mohli pokračovat v provozu našeho projektu jen díky ohromné osobní i institucionální podpoře, kterou projektu poskytoval prof. Petr Karlík z katedry bohemistiky FF MU v Brně.

Od konce roku 2001 je nejdůležitějším a největším mecenášem celého našeho projektu katedra literární komparatistiky na FFUK. Zvláštní dík za to patří zejména jejímu řediteli panu doc. Martinu Putnovi a zástupci ředitele doc. Zdeňku Hrbatovi).

Strategie rozvoje projektu České texty elektronicky!

ČTE! nemělo být jen prostředkem k publikování námi zdigitalizovaných českých elektronických textů. Od počátku jsme usilovali o to, aby ČTE! byl katalogem také dalších volně přístupných elektronických textů na českém internetu. Měl být jakýmsi “seznamem”, “centrem” či “atlasem” pro české zájemce o literaturu a kulturu. Již od počátku jsme proto usilovali o IT řešení našeho projektu formou databáze.

V současné době řešíme ve ČTE! jako nejpalčivější problém tzv. “mrtvých odkazů”. Ačkoliv se snažíme tento problém řešit, počet “mrtvých odkazů” stále roste. Tento trend si vysvětlujeme tím, že český internet se v současné době nesmírně rychle vyvíjí. Každý den vznikají nové publikační možnosti, noví poskytovatelé připojení, nové služby. Změny v lokacích dokumentu jsou tedy velmi častým jevem.

Abychom tento problém vyřešili jednou provždy, pracujeme nyní na archivaci (a tzv. průběžném mirrorování) všech textů, které databáze ČTE! obsahuje.

Toto řešení má však jistá právní úskalí. V databázi ČTE! najdete i odkazy na díla tzv. “nevolných” autorů, tj. autorů, jejichž díla jsou dosud chráněna autorským právem. A neměla by být proto (bez souhlasu dědiců autorských práv) volně šířena. A to ani zadarmo, ba dokonce ani k obecně vzdělávacím a kulturním účelům.

Skutečnost, že v ČTE! najdete i odkazy na tuto kategorii autorů, neznamená, že bychom porušovali autorská práva. Autorský zákon totiž (a v tom jsou si zatím všechny země světa zajedno) totiž nepovažuje za trestné umístění odkazu (linku) na dokument autora, který dosud podléhá autorskoprávní ochraně. Ovšem mirrorováním (zálohováním) takového dokumentu v rámci databáze ČTE! bychom se však již možná dopustili jednání, které by mohlo být vykládáno jako vlastní publikování. Podobné problémy pravděpodobně musí řešit i známý elektronický katalog / vyhledávač Google. Krátce řečeno: umístění odkazu (linku) na dokument umístěný vně serveru publikováním není, naproti tomu zálohování dokumentů z vnějších serverů na serveru domovském, už publikování (ve smyslu šíření díla), pravděpodobně je.

Je škoda, že takové sporné právnické otázky mohou blokovat práce na našem projektu, ale je tomu skutečně tak. (Odpověď na tuto otázku se nám nepodařilo nalézt ani u největších autorit pro otázky autorskoprávní ochrany v České republice. (Telec, 1997; Knap, 1998; Kříž, 2000).

Další komplikace pro vznikání a rozvoj (nejen naší digitální knihovny) přinesla novelizace autorského zákona. Podle ní byla prodloužena ochrana autorských práv o dalších 20 let po smrti autora. V Čechách tak platí pravidlo, že tzv. “volnými” (volně publikovatelnými) se stávají díla až po uplynutí 70 let od smrti autora. Tento legislativní trend souvisí s přizpůsobováním práva ČR právu EU, která se zase v tomto případě přizpůsobuje legislativnímu stavu v USA. Zlí jazykové hovoří o tom, že toto prodloužení je motivováno snahou udržet vlastnictví autorských práv na Disneyho postavičky (např. Myšáka Mickeyho), resp. zabránit tomu, aby se tyto již téměř 70 let staré dokumenty staly volnými, všeobecně šiřitelnými díly.

“Česká cesta” novelizace autorského zákona je ovšem “zajímavá” tím, že je retroaktivní. To znamená, že u autorů, kteří již podle minulé zákonné normy byli “volní”, zpětně vznikla autorská práva! (Konkrétně se jedná o díla takových prvorepublikových veličin jako T.G. Masaryka, Josefa i Karla Čapka…)

Situace je ovšem tím složitější (a absurdnější), že titíž autoři, kteří nesmějí být šířeni v České republice, na Slovensku šířeni být mohou, protože na Slovensku český autorský zákon neplatí.

A Slovenská republika má přece stejnou právní kontinuitu za bývalou federací, jako ji má republika Česká. A ostatně: nejsou snad výše zmínění T. G. Masaryk a Karel Čapek (tvůrci samotné ideje československého národa) autoři českoslovenští?

Milí přátelé, co říci na závěr?

Co jiného, než že doufáme, že se všechny tyto (nejen právně) sporné problémy jednou vyřeší a že ČTE! bude mít i v budoucnu tolik spolupracovníků jako doposud.

 

 

Seznam použitých pramenů:

Čermák, Jiří. Internet a autorské právo. Linde. Praha, 2001. ISBN 80-7201-295-9.

Knap, Karel. Autorský zákon a předpisy související. Linde. Praha, 1998. ISBN 80-7201-126-X.

Kříž, Jan. Autorský zákon. Ifec. Praha, 2000. ISBN 80-86412-04-0.

Smejkal, Vladimír. Internet @ §§§. Grada. Praha, 1999.

Telec, Ivo. Autorský zákon. C.H. Beck. Praha, 1997. ISBN 80-7179-106-7.

Úplné znenie autorského zákona. 34/2001Z. z.

Úplné znění autorského zákona. 175/1996Sb.

Úplné znění autorského zákona. 121/2000Sb.


O autorovi:

Mgr. Vítězslav Praks je doktorským studentem komparatistiky na Univerzitě Karlově v Praze a současně doktorským studentem estetiky na Masarykově univerzitě v Brně. Magisterské studium absolvoval na Masarykově univerzitě v Brně (český jazyk, literatura a estetika). V současné době pracuje v Odborné knihovně Ministerstva financí České republiky.

  

AiP logo © 2002 Albertina icome Praha s.r.o.
INFORUM® a IN® jsou registrované ochranné známky. 
Všechna práva vyhrazena.
Aktualizováno 20.05.2002

Grafický design Logo STUDIO aha!

Zpracování dat Digital Art Studio