Technické, organizační a ekonomické aspekty virtuálních knihoven a informačních serverů.
Jaroslav Šilhánek, Vysoká škola chemicko-technologická, Praha
Během posledního roku došlo k velmi rychlému posunu v praktické realizaci virtuálních knihoven a webovských informačních serverů v pravém slova smyslu. Řada otázek, které byly v těchto souvislostech kladeny, tak dostala daleko konkrétnější podobu a začínají se rýsovat když ještě ne konečná řešení, tak alespoň různé modely přistupů, které jsou uvědeny v život a jsou tímto způsobem v praxi testovány. Referát se pokusí sumarizovat dosažený stav v jednotlivých aspektech a naznačit pravděpodobné směry dalšího vývoje.

Je pochopitelně zcela nemyslitelné, podat v jedné přednášce vyčerpávající souhrn hlavních aspektů problematiky virtuálních knihoven. Prakticky každý rok se setkáváme s novými koncepcemi, novými pojmy, novými prioritami a novými technickými i organizačními prvky. Pokusíme se proto demonstrovat tuto problematiku na několika vybraných případech, které budou representovat jak stránku technickou, tak i organizační a pokusíme se alespoň z některých úhlů pohledu naznačit související ekonomickou problematiku, která je nakonec tím hlavním faktorem, který rozhoduje o tom, do jaké míry a jak rychle budeme moci sledovat celkový vývoj nejenom z povzdálí, ale co nejblíže jeho středu.

Kdy je virtuální knihovna virtuální ?

Tato úvodní poznámka nemá za cíl vyvolat terminologické disputace, pouze upozornit, že pojmy virtuální, elektronická či digitální knihovna se používají nejčastěji jako synonyma, i když to tak úplně synonyma nejsou. On totiž elektronický dokument je v praxi dnes poměrně široký pojem a není elektronický dokument jako elektronický dokument, jak nedávno velmi případně upozornil Zdeněk Uhlíř1. Na jedné straně představuje digitalizovaný text zcela nový subjekt, který nabízí řadu dříve nerealizovatelných možností, ale zdaleka nevyužívá ten potenciál, který elektronický dokument jako takový implicitně nabízí. Dnes nejrozšířenější formát šíření dokumentů, formát pdf, je sice vynikajícím řešením převodu často velmi pestré i výtvarně hodnotné grafické representace tištěných dokumentů do elektronické podoby, ale zůstává právě jen vysoce univerzálním transportním formátem, ve kterém se právě ty nejatraktivnější možnosti elektronických dokumentů více či méně ztrácejí.

Takže budujeme-li nějakou sbírku elektronických dokumentů tím, že je převádíme do digitální formy a v této formě je zpřístupňujeme či rozšiřujeme, je to spíše knihovna digitální, i když z pohledu jejího uživatele, který se nezajímá o to, že to, co vidí na své obrazovce, se nachází v paměti nějakého počítače, který stojí v sousední místnosti nebo v patře nad ním, skutečně vytváří ilusi nereálné, jen myšlené a tedy virtuální knihovny. Naproti tomu systém, který se orientuje na to, aby na základě jednoho dokumentu vytvářel vazby s dalšími dokumenty, i když se fyzicky nacházejí kdekoliv, představuje zcela jinou kvalitu a termín virtuální je zde daleko více na místě. Termín “vytváření vazeb” sice implikuje především techniku hypertextu, ale možnosti jsou daleko větší (pokud ovšem pod termín “hypertext” nezahrneme jakoukoliv vazbu mezi součástmi obecných dokumentů). Jsou to právě inherentní možnosti elektronických dokumentů v jejichž objevování jsme stále na samém počátku a které představují hlavní vývojový trend moderních informačních technologií. Zmiňme se proto poněkud podrobněji právě o elektronických dokumentech.

 

Elektronický dokument

Pod pojmem elektronický dokument musíme chápat daleko komplexnější artefakt, než jen digitalizovaný text, který maximálně obsahuje nějaké obrázky či tabulky2. Multimedialita v pravém slova smyslu se uplatní jen v některých oborech, pravděpodobně asi daleko nejvíce v oblasti zábavy. U dokumentů vědeckého a odborného charakteru jsou důležitější aspekty typu grafů, tabulek, obrázků, schémat a hlavně velmi rozsáhlé využití v citačních částech vědeckých dokumentů, resp. v jakýchkoliv vzájemných vazbách takových dokumentů. Příčinou velmi rychlého přijetí síťové služby World Wide Webu, která velmi rychle vytlačila všechny předchozí obdobné síťové služby, spočívá právě v tom, že od samého počátku programově počítala s možností inkorporovat do jednoho elektronického dokumentu nejrůznější druhy informací, především informace grafické (obrazové), zvukové, tedy obecně multimediální. Další základní rys webovských aplikací, tj. hypertextový charakter, byl vlastní prakticky všem ostatním internetovským službám, ale jen Web programově počítal s druhovou pestrostí a multimedialitou. I když v současné době bezesporu dominuje pro distribuci elektronických dokumentů formát pdf (odhaduje se, že představuje cca 85 % všech přenášených dokumentů), je zřejmé, že budoucnost, a to velmi blízká, patří formátu HTML, resp. obdobným formátům, které zachovají funkční svébytnost elektronického dokumentu. Ilustrujme si alespoň některé v současnosti již prakticky využívané možnosti na konkrétních příkladech vědeckých dokumentů.

Především bibliografické části dokumentů nabízejí přirozené výchozí body pro vazby jak na autory, tak na další dokumenty nebo informační zdroje (Obr. 1).

 

Obr. 1 Úvodní bibliografická část dokumentu ve formátu HTML

 

 

Text může být strukturován a pro bližší studium voleny jen jeho části. Samozřejmé je rovněž vzájemné hypertextové propojení citací, odkazů v textu, odkazů na grafy, schémata, tabulky, rovnice, vzorce a pod. (Obr. 2).

 

 

Obr. 2 Ilustrace některých možností strukturování HTML dokumentu

 

 

Kromě pochopitelné možnosti prohledávání plných textů je to pak hlavně citační část, které v pravém slova smyslu otevírá bránu k dalším informacím, v současném stadiu vývoje spíše jen na sekundární zdroje, ale z technického hlediska naprosto nic nebrání velmi rozsáhlému propojení na plné texty citovaných zdrojů (Obr. 3). Tato možnost nepochybně vyvolá v nejbližší době nejenom velmi rozsáhlé propojení sekundárních a primárních informačních zdrojů, ale pravděpodobně i velmi citelně ovlivní celou současnou citační praxi.

 

Obr. 3 Ilustrace propojení citací na plné texty i sekundární zdroje

 

 

Velice atraktivní a zcela logická je skutečnost, že několik ročníků elektronického periodika představuje bázi dat, která může být velmi efektivně prohledávána jako báze dat plných textů včetně využití logických operátorů, popřípadě dalších nástrojů vyhledávání, resp. následného zpracovávání vytvořených množin relevantních dokumentů. Jinak řečeno, začíná se stírat rozdíl mezi sekundárním a primárním zdrojem informací3. Podobně přístup k elektronickým titulům periodik potlačuje jejich individualitu. Už v současné době probíhající jednání o konsorciálním přístupu k souboru periodik jednoho nakladatele zákonitě vede k tomu, že je možné prohledávat např. prostřednictvím klíčových slov celý soubor takových periodik a teprve dodatečně zjistit (jako svým způsobem podružnou informaci), ve kterém časopise se daná informace vlastně nachází. Lze tedy očekávat postupné potlačování individuality jednotlivých periodik a postupný přesun na soubor individuálních dokumentů, “vydávaných” ale obdobným procesem jako dosud, tj. se zárukou jejich kvality, tedy jako dokumenty prošlé určitou formou recensního řízení. Ale i tento faktor se může zcela zásadně změnit, Už dnes některé obory praktikují metodu předběžného publikování dokumentů jako tzv. “preprints”, které předloženy odborné veřejnosti k posouzení, vyjádření námitek, položení dotazů a upřesnění a jsou tak v určitém slova smyslu recenzovány a teprve potom buď vyřazeny z takového předběžného screeningu nebo naopak zařazeny jako oficiálně publikovaný dokument.

Některé velice atraktivní možnosti jsou specifické pro určitý obor. Tak pro chemii je nepochybně důležitý formách vzorců a schémat, které mohou být přímo přebírány z HTML dokumentů a dále zpracovávány4 Obr. 4).

 

 

Obr. 4 Záznam chemické reakce včetně reakčních podmínek z HTML dokumentu

 

Možnost prohledávat taková schémata a vzorce jak z hlediska podmínek v nich uvedených, tak v jejich grafické podobě již existuje, další vývoj závisí spíše na vzájemných dohodách o standardech a samozřejmě na vyřešení finančních otázek relací mezi přidanou hodnotou takových zdrojů a náklady na její implementaci.

Jednou z nejdůležitějších možností je strukturalizace dokumentů do složek prioritních, shrnujících podstatu problému a nalezených závěrů a do dokumentačních, ilustračních či jinak podpůrných částí. Ty nemusí být součástí zveřejněné části, ale mohou být dostupné (za různých podmínek) jen na vyžádání nebo i zcela volně, ale jako další krok (Obr. 5).

 

 

 

Obr. 5 Vazba HTML dokumentu na části přístupné jen na vyžádání

 

Můžeme se pokusit identifikovat následující nejdůležitější faktory, které budou ovlivňovat další vývoj elektronických dokumentů ve virtuálních knihovnách:

- rostoucí využívání multiformátových a multimediálních možností webovského prostředí

- využívání možností strukturování dokumentů, včetně alternativních verzí pro různé okruhy zájemců (“non-linear documents”)

- splývající hranice mezi primárními a sekundárními informačními zdroji

- s rostoucí přístupností k souborům elektronických periodik postupně klesající individualizace jednotlivých titulů

 

Shrneme-li tento stručný a bezpochyby jen částečný výčet možností, můžeme konstatovat, že elektronický dokument v pravém slova smyslu není v žádném případě jen digitalizovaná podoba jakéhosi tištěného originálu, kterou si např. do budoucna zajistíme současným odběrem tištěné verze časopisu. Samozřejmě, problém uchovávání elektronických dokumentů s jejich plnou funkcionalitou do budoucna není ani zdaleka vyřešen, což ale v žádném případě neznamená, že vývoj bude čekat, až tato otázka bude více či méně definitivně zodpovězena.

 

 

Organizační aspekty virtuálních knihoven

Jak ze zdůrazňovaného rychlého vývoje, tak z vlastní povahy už současných elektronických dokumentů vyplývá, že jejich organizování do podoby něčeho, čemu dnes běžně říkáme virtuální knihovny, není a nemůže být jednoduchá. Místo teoretických úvah a prognóz se pokusíme demonstrovat tuto problematiku na konkrétním případu (tedy “case study”) pravděpodobně v současné době nejrozsáhlejší elektronické knihovny fungující již několik let na VŠCHT v Praze. Jedná se elektronickou verzi referátového zdroje Chemical Abstracts, což je naprosto nezastupitelný informační zdroj nejenom pro chemické obory, ale i pro velmi široké spektrum oborů příbuzných. Představu o rozsahu této “virtuální knihovny” podává následující tabulka.

 

 

Období

Počet dokumentů

Velikost

Cena

1977 - 1981

2,601 773

6 x CD-ROM

13 100 USD

1982 - 1986

2,812 413

8 x CD-ROM

22 100 USD

1987 - 1991

3,052 700

8 x CD-ROM

26 400 USD

1992 - 1996

3 130 955

11 x CD-ROM

35 200 USD

1997

716 564

4 x CD-ROM

18 990 USD

1998

681 008

4 x CD-ROM

19 890 USD

1999

720 545

5 x CD-ROM

20 790 USD

2000

116 859 (únor)

?

21 690 USD

Celkem

13 832 817

46 x CD ROM

178 160 USD

     

~ 6,6 mil. Kč

 

K uvedeným číslům je ještě možno dodat, že elektronická knihovna nahrazuje 1 773 tištěných svazků, je zpřístupňována prostřednictvím více než 130 miliónů indexových hesel, obsahuje odkazy na cca 2 milióny patentů a je samozřejmě přístupná 24 hod. denně 365 dní v roce (výpadky celého systému byly zatím relativně jen velmi krátkodobé). Tento systém je v provozu dnes již čtvrtý rok, takže je možné formulovat některé závěry na základě relativně dlouhodobých zkušeností. Je nutné ještě dodat velmi důležitý aspekt, že totiž odběr tištěné verze tohoto zdroje vycházejícího nepřetržitě od r. 1907, byl nejenom na VŠCHT v Praze, ale ve všech institucích, které jej odebíraly ukončen a v současné době je přístup k této referátové službě možný jen prostřednictvím počítače.

 

Jaké jsou dosavadní zkušenosti s touto elektronickou knihovnou ?

Během několikaletého provozu se tento systém sice dále vyvíjel, ale základní koncepce založená na technologii CD-ROM pochopitelně zůstávala stejná. V případě některých producentů a hlavně v oblasti patentů došlo v r. 1999 k propojení odkazů na primární zdroje na jejich plné texty a je tedy již možné hovořit o virtuální knihovně v pravém slova smyslu. Na úroveň využívání to ale zatím mělo jen malý vliv, proto tento aspekt zatím nehodnotíme.

 

Funkční srovnání klasické a elektronické verze

Není zajisté překvapující, že možnosti, efektivita práce i uživatelský komfort jsou v případě elektronické verze mnohonásobně větší. Řada vyhledávacích prvků a postupů není pochopitelně v tištěné verzi vůbec možná. Bližší seznámení a hlavně dlouhodobé používání ale ukáže, že daná forma neobsahuje všechno, co by obsahovat mohla a některé funkce evidentně záměrně nejsou zpřístupněny. Některé takové chybějící možnosti souvisí s technologií CD-ROM, jiné pak s celkovou marketingovou strategií producenta, který svůj kapitál investovaný do zpracování primárních dat zpřístupňuje velmi obezřetně. V situaci, kdy producent nabízí více alternativních možností přístupů k elektronickým verzím je nutné velmi bedlivě zvážit jednotlivé možnosti a porovnávat jejich finanční náklady.

 

Organizační a technická stránka provozování elektronické knihovny na bázi CD-ROM serveru

Z hlediska technického a organizačního je realizace této digitální/virtuální knihovny monstrózním dílem. Umístit na jeden postupně rozšiřovaný server dnes již téměř 50 CD-ROM disků do v současné době 8 samostatných souborů, jejich správa, částečná aktualizace, připojování klientů, transport souborů na klientské stanice a řada dalších záležitostí představuje nezanedbatelné, i když zvládnutelné problémy. Vše samozřejmě vyplývá ze základní skutečnosti, že jako distribuční médium je použit CD-ROM. To mělo a má své pádné důvody na straně producenta, z hlediska konečného uživatele to ale představuje po počáteční spokojenosti i větší či menší euforii, stále více a více do očí bijící naprostá nelogičnost takového uspořádání. Proč je nutné postupně přistupovat k jednotlivým časovým obdobím, když se jedná o digitální dokumenty, které jsou fyzicky umístěny na jednom pevném disku a všechny ve stejném databázovém prostředí ?

Producent si je samozřejmě této situace dobře vědom a není proto překvapující, že nabízí již delší dobu alternativní možnosti. Přístup k ještě většímu souboru na vzdálený počítač ve webovském prostředí je již možný, ale za jiných finančních podmínek, jejichž výhodnost či nevýhodnost je nutné velmi pečlivě posoudit. V každém případě se ale zdá, že koncepce distribuce takových bází dat na médiu CD-ROM postupně končí a prosazuje se všeobecná tendence přechodu na síťový přístup ve webovském prostředí.

 

Uživatelské přijetí elektronické verze, dopady ukončení tištěné alternativy

V tomto ohledu lze konstatovat poněkud překvapující fakt, že totiž tak zásadní a vpravdě revoluční krok nevyvolal prakticky žádné mimořádné ani emocionální reakce. Naprostá většina uživatelů přijala tento krok jako logický a nevyhnutelný proces, se kterým je nutné se vyrovnat. Asi nejvýstižněji je možné situaci charakterizovat konstatováním, že podíl těch, kteří přijímají počítačový přístup s nadšením je pravděpodobně přibližně ekvivalentní podílu těch, kteří sice nadšení nejsou, protože musí měnit své zvyklosti, ale uvědomují si, že jim nic jiného nezbývá. V každém případě je ale nutné rovněž konstatovat, že přechod od tištěných zdrojů k elektronickým či virtuálním knihovnám představuje pro určitou část uživatelské populace problém a v některých případech i de facto zabraňuje v přístupu k informačním zdrojům, na které byla tato část uživatelů léta zvyklá a závislá.

Tento aspekt přístupu k elektronickým informačním zdrojům nepochybně existuje a neměl by být podceňován. V našem případě se snažíme situaci alespoň částečně řešit pořádáním kurzů, vydáním stručné příručky i poskytováním konsultací na místě a při vlastní práci. V těchto otázkách se otevírá velmi široká oblast aktivity pro pracovníky knihoven a informační specialisty, ovšem v jednotlivých případech je nutné najít přiměřené proporce mezi konsultační podporou přímo daného oboru, v daném případě široké oblasti chemie a pomocí v rovině obecně informační, resp. v oblasti práce s bázemi dat jako takovými. Není zajisté překvapující, že přijetí elektronické verze a vůbec práce s digitální/virtuální knihovnou je jednoznačně kladné u studentů.

 

 

Některé ekonomické aspekty virtuálních knihoven

 

Tyto otázky jsou samozřejmě z velké části obecné a týkají se problematiky financování informačních zdrojů v jakékoliv podobě, v případě elektronických i v pravém slova smyslu virtuálních knihoven jsou pak pochopitelně úzce svázány s otázkami technickými i organizačními. Obecnou rovinu této problematiky je pravděpodobně možné nejnázorněji charakterizovat následující vzájemnou vazbou tří hlavních aspektů:

 

 

Stále rostoucí objem informací

(stále snazší produkce informací)

 

 

Stále stoupající náklady Limitující možnosti


na šíření informací prakticky rozpočtů uživatelů


v jakékoliv podobě informací (knihoven)

 

 

V tomto trojúhelníku, který pochopitelně platí jak pro tištěné, tak pro elektronické formy informací, a tedy i pro virtuální knihovny, je nutné se rozumně pohybovat. Na rozdíl od tištěných zdrojů, kde několikasetletý vývoj je prakticky u konce a žádné alternativy, které by poskytovaly prostor pro řešení tohoto trojúhelníku již prakticky neexistují, nabízejí elektronické verze daleko více stupňů volnosti. Vyplývá to především z řady alternativních technických řešení, které se neustále velmi rychle vyvíjejí a otevírají tak brány alternativním technickým, organizačním a ekonomickým řešením.

Opět zde místo pokusu o přehledné zpracování této velmi rychle se měnící scény využijeme konkrétních zkušeností a budeme ilustrovat alternativní ekonomická řešení na příkladu výše uvedené digitální/virtuální knihovny Chemical Abstracts. Následující přehled sumarizuje alternativy přístupu a využívání tohoto sekundárního informačního zdroje volitelné v současné době:

 

 

Alternativní forma

Funkční a ekonomické aspekty

tištěné verze

jednorázové vysoké předplatné, dále zcela neomezené bezplatné využívání, obtížně sledovatelné využívání a zhodnocení efektivity, v současné době již v ČR ukončen odběr

verze na médiu CD-ROM (“CA on CD”)

koncepčně velmi podobná tištěná verzi, jednorázové předplatné (cca o 10 % vyšší než tištěné), částečně omezený přístup (4 současně pracující uživatelé), náklady na lokální instalaci a údržbu, možnost sledovat využívání, nevyřešené otázky dlouhodobé kumulace, neposkytuje všechny možnosti elektronické formy

přístup k celé bázi prostřednictvím databázových středisek (STN International, Dialog)

maximální možnosti využití elektronické verze včetně grafické formy chemických vzorců, ale nutnost zvládnout dotazovací jazyk, průběžné narůstání nákladů (systém “pay-as-you-go”), cena závisí na způsobu a objemu práce (cena za dotaz i zobrazené odkazy), vyhrazeno spíše pro profesionální rešeršéry

zjednodušená verze přístupu do databázového střediska, verze “STN Easy”

částečně kombinuje výhody síťového přístupu k celé bázi s uživatelsky přívětivým prostředím Webu (používání formulářů, předem připravené rešeršní možnosti), průběžné placení, ale dobře předem odhadnutelné, nelze využít plný potenciál elektronické formy

přístup k celé bázi ve webovském prostředí, “SciFinder”

maximálně pohodlná a efektivní forma přístupu ve webovském prostředí, jednorázové roční předplatné, ale značně vysoké a v základní verzi omezené na jednoho současně pracujícího uživatele, možnost využívat grafické strukturní representace chemických sloučenin

 

 

Jak z uvedeného přehledu vyplývá, v současné době existují čtyři základní koncepční verze přístupu k elektronické formě bází dat Chemical Abstracts, tedy čtyři různé formy elektronických, resp. virtuálních knihoven. Jejich vzájemné funkční a ekonomické porovnání není v žádném případě jednoduché, je ale možné se alespoň pokusit i získání přibližných relací.

 

* Akademická cena představuje uplatnění slev na starší pětileté rejstříky

 

Z uvedených údajů vyplývá, že i při relativně velkých počtech vstupů do této elektronické knihovny nejsou náklady na jeden vstup v žádném případě zanedbatelné. Je ovšem nutné mít na paměti, že cena je kalkulována na jeden vstup do jednoho nebo více modulů dané knihovny, přičemž skutečným výsledkem takového vstupu může být odpověď na rešeršní dotaz v podobě nulového výsledku nebo naopak jako několika desítek odkazů. Cena za získání jednoho relevantního odkazu je pak v každém případě nižší, a to i velmi podstatně, než 100 Kč, což je pro další úvahy důležitý výsledek.

 

V tomto případě je zřejmé, že i když náklady na získání jedné relevantní informace, tj. odkazu na primární zdroj jsou srovnatelné s přístupem do verze “CA on CD”, celkové náklady na rešerše budou neustále stoupat, a to až na desetitisícové či ještě vyšší částky, zatímco u verze “CA on CD” budou s vyšší frekvencí využití klesat. Pokud ale zájemce o informace nemá možnost zajistit vysokou úroveň využití a bude potřebovat tento informační zdroj využívat jen občas, budou jeho náklady u přímého vstupu do STN International celkově mnohem nižší než v případě investice do předplatného verze “CA on CD”.

Poměrně značně komplikujícím faktorem je ovšem relativně náročný způsob práce s vyhledávacím jazykem, hlavně z hlediska udržování přiměřené úrovně rutiny. Proto databázové středisko STN International nabídlo před několika lety “user friendly” přístup ve webovském prostředí pod označením “STN Easy”. Cenové kalkulace jsou zhruba následující a jsou velmi jednoduché.

 

Tato ekonomická kalkulace sice vypadá nevýhodně, ale bližší rozbor by ukázal, že v každém případě stojí za uvážení. Důvod je především v tom, že rešeršní strategie mohou být značně různorodé a velmi nízká a konstantní cena za postupně budovaný dotaz umožňuje při inteligentně formulovaných dotazech získat cenné odpovědi za přijatelné náklady. Ne vždy je ale možné takové rešeršní strategie uplatnit. V případech, kdy potřebujeme využívat virtuální knihovnu Chemical Abstracts méně často, může být cesta přes STNEasy tím správným řešením.

Poslední alternativou je přímý vstup do kombinovaných textových i strukturních bází Chemical Abstracts ve webovském prostředí prostřednictvím programu SciFinder. S jeho praktickou aplikaci zatím nemáme zkušenosti, protože je v každém případě značně nákladný. Na základě orientačních informací je ale možné odhadnout jeho ekonomické nároky.

 

 

Pro dokreslení celé situace připojme ještě náklady na tištěnou verzi, která byla dostupná v několika českých vědeckých knihovnách.

 

Uvedené ilustrativní příklady alternativních řešení ekonomických nákladů virtuálních knihoven umožňují formulovat několik závěrů:

 

Literatura:

  1. Uhlíř, Zdeněk. Mezi dobrými a špatnými zprávami. IKAROS 2000, č.4, URL:http://www.ikaros.cz/2000/c04/diskusze.htm
  2. Nieuwenhuysen, Paul and Vanouplines, Patric. Document+Program Hybrids on the Internet and their Impact on Information Transfer. Online & CD-ROM Rewiew, 1998, Vol.22, No.2, pp. 55-71.
  3. Leonard, Chris. Leave Us Alone! The Alchemist. 31.March 2000. http://chemweb.com/alchem/2000/news/nw_000331_publish.html
  4. Wiggins, Gary. J.Chem.Inf.Comput.Sci. 1998, Vol. 38, pp. 956-965.