Logo INFORUM 2001 - zpět na home
O konferenci
Program
Sponzoři
Výstava
Ceny Inforum
FotoForum
Anketa
Výbor konference
Archív - předchozí ročníky

Název sekce

Informační zdroje 2001

Informační skok od nového tisíciletí v České republice! A co dál ?

Jaroslav Šilhánek, Vysoká škola chemicko-technologická

V r. 2000 jsme byli v České republice svědky mimořádného kvantitativního i kvalitativního posunu vpřed v oblasti moderního přístupu k informacím. Prakticky celá akademická a nezisková sféra má dnes přístup k nejdůležitějším sekundárním zdrojům a počet dostupných periodik v jejich elektronických verzích včetně plných textů daleko překračuje stav, jaký zde vůbec kdy byl. Bude tento trend pokračovat ? Bude dále orientován spíše na kvantitu informací nebo bude kladen větší důraz na jejich kvalitu nebo na doplňkové služby ? Jsme schopni současnou nabídku informací využít ? Přednáška se pokusí vyhodnotit některé faktory a dosavadní zkušenosti s důrazem na predikci dalšího vývoje.

Úvod - celkem nedávná minulost

Pokud si vědecký pracovník chtěl vyhledat informace pro řešení nějakého problému, odebral se do nejbližší knihovny, předběžně si udělal základní představu o dané problematice z nějaké vhodné encyklopedie (pokud už ji neměl) nebo podobného přehledného díla a pak začal více či méně systematicky pracovat se sekundárními informačními zdroji příslušného oboru. Fyzik, elektronik nebo technik v širším slova smyslu vzal do ruky Inspect nebo Compendex, chemik Chemical Abstracts, biolog, lékař, biochemik Excerpta Medica, Biosis, Toxlit, Drug Reports atd. Někteří kombinovali i více takových zdrojů. Výsledkem tohoto kroku byl seznam odkazů na primární dokumenty, ve kterých, alespoň podle jejich záznamů v sekundárních zdrojích, především textů abstraktů, by měly být konkrétní informace k hledanému problému. S tímto seznamem se pak dotyčný badatel vydal mezi regály se svázanými svazky časopisů, pokud ovšem měl to štěstí a pracoval na instituci, která takovou, ve světě standardní praxi umožňovala a navíc ještě na oněch regálech se nacházel takový rozsah periodické literatury, aby byla rozumná šance najít pokud možno více než polovinu odkazů vyhledaných v sekundárních zdrojích. Jinak se musel do knihovny takové instituce vydat osobně. Většinou mu vždy něco zbylo, co nikde neměli, pak se obrátil buď přímo na autory hledaných primárních publikací, nebo na své kolegy, kteří měli větší možnosti a samozřejmě mohl využít i služeb knihoven nebo agentur, které za určité poplatky posílaly kopie jednotlivých článků. Tento více či méně poklidný obraz badatelské práce se sice v detailech i rozsahem lišil obor od oboru a v našich krajích měl zásadní problém v tom, že slušně vybavených knihoven bylo pramálo, ale v zásadě fungoval a samozřejmě funguje dodnes. Ovšem vývoj přinesl jiný a velice atraktivní scénář.

 

Prvé přískoky do současnosti

Že existují elektronické báze dat jako alternativa tištěných sekundárních zdrojů je již v podvědomí výzkumných pracovníků poměrně dlouhou dobu. Pokud možno co nejvíce bezbariérové zpřístupnění těchto zdrojů prostřednictvím Internetu nebo jejich instalací v lokálních sítích (tedy Intranetu) vede k rychle narůstajícími rozsahu využívání a práce se již stává běžnou rutinou. Kromě technických faktorů zde sehrál největší roli způsob finanční úhrady využívání založený na paušálním, nejčastěji ročním poplatku bez vazby na dobu připojení k bázi nebo počtu dotazů či zobrazených záznamů. K řadě výše uváděných sekundárních informačních zdrojů v jejich elektronických verzích má tak už i český badatel přístup na svém pracovišti, ve své laboratoři, zkrátka na svém PC. K výčtu takových oborově zaměřených sekundárních bází dat přibyla v r. 2000 jedna, která představuje jednak průřezový zdroj pokrývající prakticky všechny vědní obory, jednak je to báze dat s vysokou reputací jako zdroj skutečně kvalitních odborných a vědeckých prací. Jedná se, jak již každý tuší, o elektronickou verzi dlouhodobě vycházejícího Science Citation Indexu , Web of Science. A snad ještě důležitější je skutečnost, že díky pochopení příslušných orgánů vypisujících programy na podporu informačního zabezpečení vědy a výzkumu v České republice, se tak stalo v měřítku vskutku celostátním, čímž se do značné míry alespoň v tomto případě odstranily u nás značné rozdíly v možnostech především vysokoškolských institucí hradit přístup k moderním informačním zdrojům. Jedním z největších přínosů konsorciálního zpřístupnění Web of Science je skutečnost, že si dnes může práci s elektronickou bází dat v podstatě bibliografického charakteru vyzkoušet prakticky každý a pracovat s ní stejně snadno jako s webovskými vyhledávacími stroji typu AltaVista, Yahoo, WebCrawler a pod.

Sekundární informační zdroje přešly na elektronickou formu jako první, protože počítačové technologie nabídly už ve svých, s dnešního hlediska primitivních formách, velmi výrazné usnadnění vlastní práce spojené s přípravou referátových časopisů. Jakmile dospěla funkčnost sítí na přijatelnou úroveň, otevřela se možnost práce s elektronickou formou sekundárních zdrojů i uživatelům, kterým nabízí nejenom pohodlí přístupu, ale i velmi výrazně větší možnosti využívání. Není proto překvapující, že už došlo k ukončení odběru některých referátových časopisů v tištěné formě, v případě Chemical Abstracts po 91 letech nepřetržitého odběru. Shrneme-li tedy současnou situaci v oblasti sekundárních informačních zdrojů, pak můžeme konstatovat, že dnes již badatel pro práci s těmito zdroji do žádné knihovny chodit nemusí (také by je tam už v řadě případů nenašel), ale využívá je přímo na svém pracoviště (nebo i doma). Tento proces probíhal zhruba v druhé polovině devadesátých let a byl svým způsobem završen právě zpřístupněním Web of Science. Porovnáme-li ale výsledek práce (nikoliv vlastní práci) s tištěným referátovým časopisem s výsledkem práce s jeho elektronickým ekvivalentem, tedy sekundární bází dat, snadno nahlédneme, že je prakticky stejný, tj. dostáváme soupis odkazů na primární prameny, jen jsme jej získali daleko efektivněji a pravděpodobně je výsledek rešerše v elektronické verzi sekundárního zdroje relevantnější, protože jsme mohli využít upřesňování dotazu pomocí logických vazeb mezi prvky věcného popisu, popřípadě jiné nástroje, které tištěná verze poskytnou nemůže.

 

Skok do 21. století

Že vědecké a odborné časopisy mohou být zpřístupňovány v digitální podobě prostřednictvím sítí je již dávno skutečností, nicméně na skutečně rutinní využívání takové formy bylo nutné čekat na dořešení a vzájemné vyladění řady souvisejících problémů. I potom již naprosto plnohodnotná nabídka plných textů vědeckých publikací, které se i svou výslednou grafickou podobou nijak nelišily od tištěného originálu, působila jistou dobu jen jako zajímavá kuriosita s velkou budoucností, ale zatím nepříliš velkým praktickým významem. Přístup k elektronickým verzím jen těch časopisů, které instituce odebírá v tištěné podobě nebo přístup sice jen k elektronickým verzím, ale za prakticky stejné předplatné jako tištěné verze, nemohl zásadně ovlivnit přesun od tištěných k elektronickým formám. Zásadní zvrat nastal v okamžiku, kdy především největší vydavatelé dospěli k pevnějším obrysům své finanční politiky a hlavně přistoupili na koncepci konsorciálního přístupu k elektronickým verzím. Tato koncepce je většinou založena na kumulaci všech předplatných od jednotlivých institucí a zpřístupnění elektronických verzí nejenom těch titulů, které daná instituce předplácí, ale i těch, které předplácí ostatní členové konsorcia. Je pochopitelné, že tato koncepce je v některých případech velmi výhodná, v jiných méně a někteří vydavatelé mají představy zcela odlišné. Nicméně je velmi důležité, že opět především díky již shora zmiňovanému pochopení příslušných orgánů rozhodujících o alokaci finančních prostředků na podporu informačního zabezpečení vědy a výzkumu v České republice, bylo již možné realizovat velmi rozsáhlý takový konsorciální projekt, a to s nakladatelstvím Elsevier vedle trochu jinak koncipované nabídky nakladatelství Springer Verlag a částečně zahrnující i periodika Americké chemické společnosti. Vedle toho některé instituce, resp. knihovny si již dojednaly podobné konsorciální nebo individuální zpřístupnění elektronických verzí dalších velkých nakladatelství, především nakladatelstvím Wiley, Academic Press, Royal Society of Chemistry aj., nebo jsou taková jednání v chodu. Jenom kombinace titulů nakladatelství Elsevier a Springer Verlag představuje soubor přibližně 880 časopisů, principiálně by již bylo možné zpřístupnit na jedné instituci v České republice téměř 1000 periodik v elektronické verzi a co je snad ještě důležitější, s průměrnou čtyř až pětiletou retrospektivou.

Právě tento rozsah zpřístupnění, kterého bylo dosaženo v roce 2000, představuje ten výrazný krok a snad není velkou nadsázkou použít i slova skok vpřed, protože posunuje celou situaci z polohy jen demonstrační ukázky lákavé budoucnosti do podoby rutinního využívání. Je velký rozdíl, jestliže ze svého počítače mohu sice vstoupit do několika plných textů časopisů, ale pravděpodobnost, že jsou to právě ty, které jsem našel v bibliografické databázi, je jen malá a situací, kdy je takových titulů už skoro 1000. Pak už je to něco, co stojí za to brát naprosto vážně a kdy se vyplatí starat se o to, kde je seznam titulů, do jejichž elektronických verzí mám přístup z domény mé instituce. A snad nepádnější argument; jestliže se situace změnila tak výrazně během jednoho roku, opravňuje to k reálnému předpokladu, že vývoj bude tímto směrem pokračovat podobným tempem a místo hledání článků z odborných a vědeckých časopisů na regálech knihoven je budeme naprosto převážně hledat na sítích.

 

Idyla žhavé současnosti

Jestliže se vrátíme k metodice rešeršní práce popsané v prvé kapitole, můžeme nyní popsat zásadně odlišný scénář. Jeho prvá část byla již de facto charakterizována ve druhé kapitole jako práce s elektronickými sekundárními informačními zdroji, jinak také řečeno, s bibliografickými bázemi dat. Druhý krok, tedy získání přístupu k plným textům primárních článků může být nyní realizován stejnou technologií, tj. vyhledáním příslušného odkazu v seznamu jejich elektronických verzí a jeho otevřením nejčastěji ve formátu pdf, ale rovněž jako webovský dokument v html formátu. Toto propojení odkazu nalezeného v sekundární bázi dat s digitální formou plného textu v primárním periodiku může být realizováno samozřejmě “ručně” v pravém slova smyslu, tj. poznamenáním si citace, nebo elegantněji “elektronicky” s využitím myši a notoricky známé kombinace CTRL + C a CTRL + V do nějakého pomocného okna a porovnáním jeho obsahu pak vyhledat správnou citaci v otevřeném okně seznamu článků příslušného ročníku a čísla. Je rovněž možné využít vyhledávací funkce souboru elektronických verzí časopisů umožňující vyhledat konkrétní článek buď podle citace (v tomto případě je zpravidla nutné formát citace převzatý ze sekundárního zdroje nejjednodušeji opět “ručně” upravit na formát, kterému rozumí funkce “find” v plnotextové databázi článků), nebo přes autora.

Samozřejmě, že tento přenos citace může být různým způsobem automatizován a nabídnut jako služba sekundární bibliografické báze dat. Tak např. klientský program pro práci s bází Chemical Abstracts už od r. 1998 obsahuje ikonu “Full text”, která zajistí přenos citace přes webovské prohlížeče na dedikovaný server “ChemPort”, který přesměruje danou citaci na server vydavatele s plnými texty primárních dokumentů. Pokud tento server rozpozná, že požadavek přichází z domény, která má nějakou formou zaplacený legální přístup k plným textům, je požadovaný článek bez problémů otevřen. Podobnou funkci nabízí řada dalších sekundárních bibliografických bází dat, předpokladem fungování jsou ovšem uzavřené dohody mezi producenty bibliografických bází dat a vydavateli primárních časopisů a samozřejmě i vhodná technologie. Přímé propojení je sice nepochybně velmi efektivní, ale i bez něho nepředstavuje otevření plných textů primárních periodik žádný zásadní problém. Neboli scénář rešeršní práce nastíněný v prvém odstavci se zásadně mění v tom smyslu, že je dnes možné takovou rešerši provést ze své pracovny, laboratoře a v zásadě i z domova, mám-li příslušné připojení na síť. Je snad dostatečně zřejmé, že otázka pohodlí je sice také důležitá, ale daleko podstatnější je nesrovnatelně vyšší efektivita a rychlost celé práce vyhledávání informací a možnost daleko operativněji rozhodovat o dalších krocích ve výzkumné a tvůrčí činnosti. Jinak je také možné celou situaci charakterizovat tak, že standardní cyklus vyhledávání informací byl již celý převeden do elektronické podoby se vším, co z toho vyplývá.

 

Schematicky je možné celou dnešní situaci znázornit také následujícím způsobem:

 

Sekundární informační zdroje, bibliografické báze dat (Web of Science, Inspect,Compendex, Chemical Abstracts aj..)

Odkazy na primární práce

<---->

Citace

(DOI record)

<---->

Rozsáhlý soubor elektronických verzí odborných a vědeckých periodik s několikaletou retrospektivou v html nebo pdf formátech

 

Kromě klasické citace se při automatizovaném nebo i ručním přenosu odkazů již začínají uplatňovat čistě “počítačové” formy identifikace primárních dokumentů, resp. jejich elektronických verzí. Především je to systém DOI (“Document Object Identifier”), jehož identifikační záznam se již objevuje jako standardní součást bibliografického popisu dokumentu, a to i u volně přístupných soupisů názvů článků.

 

 

Co dál ?

Pokud tuto situaci, a opět je třeba zdůraznit, že rozsah zpřístupňovaných primárních zdrojů již dovoluje o ní hovořit jako o funkční realitě a nikoliv jen jako o propagační demonstraci, demonstrujeme odbornému nebo vědeckému pracovníku, projeví podle své nátury distingvovanou spokojenost nebo euforické nadšení, ale asi v každém případě prohlásí, že už prakticky nic víc nechce. Bude ovšem samozřejmě předpokládat, že zpřístupnění primárních zdrojů bude dále rozšiřováno, rychlost přístupu jak k sekundárním, tak i k plným textům bude ještě rychlejší a výpadky se prakticky nebudou vyskytovat. To je logický a pochopitelný předpoklad a nemá cenu o něm příliš diskutovat. Je ale nutné si tuto situaci uvědomit a položit si otázku, co má být dalším cílem budování informačních systémů pro potřeby vědy a výzkumu, nebo jinak řečeno, jakým směrem se bude ubírat vývoj v této oblasti a co můžeme očekávat v blízké budoucnosti (odhady pro vzdálenější budoucnost spadají v oblasti informačních technologií vždy do kategorie science fictions).

 

Programové propojovaní sekundárních bází dat a primárních dokumentů

I když výše naznačené možnosti snadného přenosu citačních odkazů od sekundárních bází dat do bází dat plných textů periodik jsou velmi jednoduché, většina producentů jak bibliografických bází dat, tak i časopisů intensivně pracuje (a vyjednává) na automatizovaném propojení. Jedná se o přirozenou snahu zajistit si další odběr (předplatné) pro své produkty maximálním vycházením vstříc potřebám konečných uživatelů. Principiálně jsou možné dva přístupy k řešení automatizovaného propojení bibliografických bází a elektronických verzí periodik:

  1. Sekundární báze dat, resp. její producent, respektuje licenční dohody, které má uživatel báze s jednotlivými vydavateli časopisů a zajišťuje jen technickou stránku věci. Jinými slovy, funkce “Full text” v sekundární bázi dat obstará odeslání odkazu (nebo identifikace DOI) na server vydavatele časopisu, kde proběhne autentifikace požadavku většinou na základě IP adresy, odkud požadavek přišel.
  2. Producent sekundární báze dat sám dojedná podmínky, za kterých majitelé copyrightu primárních zdrojů jsou ochotni poskytnout plné texty v elektronické formě uživatelům bibliografické báze automatizovanou formou. Ověření práva přístupu pak může zůstat na straně producenta sekundární báze.

Obě cesty mají v současné době hledání vhodných způsobů jak technických, tak i právních a organizačních, své klady a zápory a je asi jedině možné je přejímat tak, jak jsou nabízeny a současně vyhodnocovat všechny aspekty zpřístupňování. Na obou stranách jsou patrné intensivní snahy nabídnout daleko více, než jen pouhé otevření vybraného dokumentu. Producenti bibliografických bází zdokonalují vyhledávací algoritmy, všeobecně přecházejí do webovského prostředí a snaží se nabídnout takové nástroje pro vyhledávání informací, které by umožnily maximální využití obsahu sekundární báze bez nutnosti zvládnou sofistikované dotazovací jazyky. Vydavatelé primárních periodik se snaží nabídnout celou plejádu dalších služeb ke svým souborům elektronických verzí časopisů jako např. automatizované upozorňování na nové články vybraného oboru, možnost předvolby jen omezeného souboru titulů pro efektivní prohledávání novinek, možnost vyhledávání v plných textech, ukládání rešeršních profilů, možnost volby mezi pdf a html formátem a nabídka bude určitě dále rozšiřována. V každém případě je automatizované propojení mezi odkazem nalezeným v sekundárním zdroji a jeho plným textem v elektronické podobě tak samozřejmou, logickou a atraktivní možností, že nemůže být nevyužita a rozpracovávána do stále efektivnější podoby.

 

Přetrvá systém sekundárního zpracovávání primárních dokumentů ?

 

Obligátním a většinou neselhávajícím pedagogickým trikem, jak demonstrovat studentům, že vyhledávat odborné a vědecké informace není v žádném případě triviální záležitost je, přivést je do knihovny s volným přístupem k fondům, postavit je před plné regály se svázanými svazky periodik a sdělit jim, že v některém z těchto svazků na některé stránce jsou popsány přesně ty informace, které budou potřebovat např. do své diplomové práce. Evidentní nemožnost realizovat tento úkol prohlížením jednotlivých svazků celkem spolehlivě ozřejmí problematiku věcného popisu primárních dokumentů i existenci dalších regálů s mnoha svazky referátových časopisů a jejich rejstříků. Zpřístupnění velkého počtu primárních časopisů (v blízké budoucnosti to bude naprostá většina) v elektronické podobě plných textů v mnohaletých retrospektivách ale umožňuje v pravém slova smyslu prohledávat “plné regály” periodik stránku po stránce bez nutnosti jakéhokoliv předběžného věcného zpracování a vytváření rejstříků. Že funkce “find”, kterou najdeme na většině souborů elektronických periodik a která umožňuje vyhledávání textových řetězců kdekoliv v plných textech jednotlivých článků, je někdy dosti primitivní, nebo že umožňuje prohledávat např. jen ročníkové řady jednotlivých titulů nebo soubory periodik užších oborů, není v žádném případě podstatné. Někteří vydavatelů již nabízejí možnost prohledávat soubory několika set titulů s několikaletou retrospektivou a je jen otázkou vzájemných dohod, kdy bude možné tímto způsobem prohledávat tisíce titulů najednou, a to i v pokročilém režimu (s využitím proximitních operátorů).

Je ovšem zřejmé, že plnotextové vyhledávání v odborném textu představuje přece jen odlišnou problematiku, než vyhledávat řetězce v plnotextových bázích dat novinových článků nebo článků z oblasti humanitních disciplín. Na druhé straně je ale právě velmi lákavé vyzkoušet možnosti plnotextového vyhledávání specifických odborných termínů, vzorců, numerických dat doplněných rozměry, frází běžně využívaných při popisech standardních experimentálních podmínek, ale i odborných klišé, které se jen s malou pravděpodobností stávají součástí rejstříků. Také v tomto aspektu je zpřístupnění rozsáhlých souborů elektronických verzí vědeckých a odborných časopisů velkým krokem vpřed, protože i když práce s plnými texty je vcelku běžná již delší dobu, většinou vyžadovala jak nutnost úpravy materiálu pro vyhledávání, tak i nástroje pro plnotextové vyhledávání. V současné době představuje možnost vyhledávat v plných textech periodik spíše doplnění než alternativu práce se sekundárními bázemi dat, ale v každém případě je to možnost získávat velmi cenné zkušenosti, např. se strukturou textu a jejím využitím pro získávání relevantních informací.

 

 

Závěr

Rozsáhlé soubory dokumentů elektronické podobě, především v oblasti odborných a vědeckých článků, v současné době převážně ve formátu pdf, jsou a v nejbližší době ještě výrazněji budou svázány s komerčními vydavateli. Zvláště v případě, pokud budou realizovány jejich ambiciózní plány na zpřístupnění prakticky všeho, co bylo dosud publikováno v tištěné podobě. Tato situace nepochybně velmi podstatně ovlivní celou metodiku práce s vědeckými a odbornými informacemi. Ať již v tom smyslu, že umožní maximálně efektivně nacházet odpovědi na kladené otázky prakticky okamžitým zpřístupněním velké většiny autentických primárních informací, nebo nabídkou prohledávání ohromnému množství těchto informací bez zprostředkující funkce sekundárních služeb. Nejpravděpodobnější scénář pro nejbližší období bude asi zahrnovat využití obou přístupů. V každém případě je realizace rozsáhlých souborů plnotextových primárních zdrojů pro akademickou sféru v České republice velmi symbolickým krokem či rovnou skokem do nového tisíciletí.


 

Logo STUDIO aha! Grafický design 
© 2001 Studio aha!
Digital Art Studio Úvodní animace 
© 2001 Digital Art Studio

Copyright © 2001 Albertina icome Praha s.r.o.
INFORUM® a IN® jsou registrované obchodní známky.
Všechna práva vyhrazena. Na vaše připomínky se těší webmaster. Aktualizováno 27.05.2001