INFORUM 2002 Hlavní stránka   O konferenci Program Sponzoři Výstava Ceny INFORUM
Fotoforum Anketa Organizační výbor Přihláška

 

Trendy a novinky v nabídce elektronických informačních zdrojů

Předseda: Jiří Kadleček, Albertina icome Praha s.r.o.

22.5.2002

13:30 - 17:00

Nová aula

Databáze ANL FULL v systému TOPIC

Ivana Anděrová, Národní knihovna ČR, Oddělení analytického zpracování, Praha

Databáze ANL FULL představuje novou formu zpřístupnění vybraných článků z českých novin a časopisů zpracovávaných v Kooperačním systému článkové bibliografie. Báze vzniká v rámci linky automatické indexace bibliografických záznamů z plných textů získaných z databáze TAM TAM za současného generování metadat Dublin Core ve formátech HTML, XHTML, XML v kvalifikované a nekvalifikované formě. Báze je provozována v systému TOPIC (pojmově orientovaný vyhledávací systém). Pro interní uživatele NKČR jsou přístupné plné texty i metadata. Pro externí uživatele jsou běžně přístupná pouze metadata, plné texty zatím zkušebně na 7 dnů. Na serveru full.nkp.cz je též zpřístupněn portál českých periodik strukturovaný oborově a regionálně. Technologie zpracování a zpřístupnění článků v systému TOPIC vychází z a navazuje na již vyvinutou technologii firmy Anopress, s.r.o.



1. Relevance, pertinence a funkce informačního systému v komunikačním procesu. Selekční jazyk. Efektivnost informačního systému

Intenzivní propojení systémů z hlediska konceptu komunikačního procesu mezi systémem tvorby informací, jejich zpracováním a zpřístupněním a dále pak se systémem potřeby a využívání informací pomocí jejich vzájemných vazeb je předpokladem zpřístupnění relevantních, resp. pertinentních informací uživateli. Cílem celého procesu je schopnost poskytnou informace, které jsou relevantní jak z hlediska formálního, tak věcného a zároveň vyhovují uživateli z hlediska jeho potřeb, jsou pertinentní. Relevance, pertinence přesnost (precision) a úplnost (recall) vyhledávání jsou ústředními body, kolem kterých se proces zpřístupňování informací odehrává a které jsou měřítkem efektivnosti komunikační funkce informačních systémů.

Zpřístupnění relevantních, resp. pertinentních informací uživateli předpokládá jasná pravidla pro zpracování dokumentu a dotazů jak na úrovni strukturální, tak na úrovni sémantické. Důležitou úlohu hraje jazyk komunikace. Je možno hovořit o třech úrovních relevance: syntaktické, sémantické a pragmatické.

Z hlediska operací a procesů probíhajících v informačním systému je možno rozlišit relevanci akvizice k informačnímu fondu a relevanci obou vzhledem k funkci informačního systému, relevanci z hlediska vstupního zpracování (relevanci z hlediska indexace dokumentu), tj.relevanci selekčního obrazu k dokumentu, relevanci z hlediska výstupního zpracování (relevanci obsahové analýzy vzhledem k dotazu), tj. relevanci selekčního dotazu a předpisu.

Informační systém je efektivní pouze tehdy, když dostatečně plní svůj účel, tj. své celkové poslání. Spočívá k zajištění informovanosti uživatelů. Efektivnost informačního systému nezáleží pouze na něm, ale i na jeho okolí. Faktory podílející se na efektivnosti: společenská potřeba informačního útvaru, tematické pokrytí, organizace v příslušné tematické oblasti, selekční systém (metody ukládání a vyhledávání informací), typy výstupů neboli informačních služeb, jejichž efektivnost je závislá na struktuře uživatelské skupiny, šíření a distribuce informací, informační hodnota zpracovávaných dokumentů.

Kritéria efektivnosti: ekonomická efektivnosti (zisk, nákladovost, rentabilita), kritéria selekční efektivnosti (poskytnutí relevantních informací), kritéria časová a schopnost se přizpůsobit změnám.

2.Vymezení rámce systému zpřístupňování plných textů z hlediska reálných možností i perspektiv

Zdroje plných textů : plné texty volně přístupné na Internetu (elektronické časopisy, elektronická vydavatelství/nakladatelství/informační agentury - archivy a databáze), plné texty získané od autora/vydavatele/nakladatele/distributora, automatický sběr dat. Zpracování bibliografických záznamů a plných textů : tradiční v integrovaném knihovnickém systému (ALEPH apod.), v lince zpracování bibliografických záznamů z plných textů (extrakce, automatická indexace doplněna ručně nebo zcela automatická) za současné tvorby URL a metadat ve formě UNIMARC/MARC 21, DC, XHTML, XML/RDF a/nebo pomocí webovského formuláře. Identifikace plných textů: URL, URN, SICI, DOI. Propojení: ruční/automatické, on-line/off-line, statické/dynamické, uzavřené/otevřené. Vyhledání a zpřístupnění plných textů: "subjects gateways", témata, předmětové kategorie, OPAC - bibliografické záznamy (UNIMARC/MARC 21) s URL adresou, pojmové vyhledávání a fulltextové vyhledávání (TOPIC) v kombinaci s rejstříky, metatagy DC, jazyky XHTML XML/RDF, protokoly HTTP, Z 39.50, SFX, internetové vyhledávače. Uložení plných textů: archivy, databáze - servery (nakladatelé/vydavatelé, informačních agentury, digitální knihovny). Výstupy: seznam článků (řazení dle relevance, do skupin - clustering aj.), formáty (citace/DC/abstrakt/plný text, UNIMARC/MARC21 XHTML, XML/RDF), tisk. Export metadat a plných textů. Uživatelé: lokální/interní, externí, registrovaní, neregistrovaní, zkušební registrace. Služby : neplacené, placené v rámci konzorcia nebo mimo, přes IP, login, heslo nebo volně. Platby: mikroplatby, paušál, předplatné.

V České republice jsou poměrně dobře zpřístupňovány plné texty novin, týdeníků aj. časopisů. V Národní knihovně se řeší kromě jiných dva projekty VaV financované z rozpočtu MKČR, které se zabývají zpřístupněním českých plných textů - výzkumný záměr Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů a programový projekt Souborná databáze Kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat.

Náplní projektů je propojení analytických záznamů s plnými texty a optimalizace integrace a správy heterogenních dat souborné databáze Kooperačního systému článkové bibliografie. Bibliografické záznamy článků, publikovaných v českém periodickém tisku a zpracovávané spolupracujícími knihovnami, jsou postupně propojované s elektronickou podobou článku a takto prezentované na Internetu. Obě části souborné databáze - vznikající databáze plných textů ANL FULL a báze bibliografických záznamů ANL ve formátu UNIMARC - vyžadují permanentní kvalitní SW a HW podporu.

3. Zpracování článků v ČR. Kooperační systém článkové bibliografie (KOSABI). Báze ANL, ANL FULL

Zpracování článků v ČR je poměrně rozsáhlé co do zdrojů, které se analyticky zpracovávají, tak co do typů institucí, které tuto činnost provozují a má dlouhou tradici. Systém zpracování článků se vyvíjel paralelně po linii oborové, regionální a národní. Automatizace umožnila určitý průnik systémů a v roce 1992 vzniká automatizovaný Kooperační systém článkové bibliografie, Výsledkem kooperace KOSABI je souborná centralizovaná databáze ANL v systému ALEPH, do které přispívají instituce participující v KOSABI. Některé instituce zároveň budují své lokální báze.

Součástí širšího kooperačního systému článkové bibliografie po linii oborové je zpracování článků lékařské a zdravotnické literatury Národní lékařskou knihovnou. Kromě toho se zpřístupňují informace o článcích v některých vysokoškolských a vědeckých institucích. Na úrovni městských knihoven je funkční systém LANIUS a jeho produkt Souborný katalog článků.

Nově jsou některé báze kooperačního systému zpřístupňované z jednotného rozhraní, které poskytuje projekt Jednotná informační brána. Báze ANL vychází jako řada ČNB - Články v českých novinách, časopisech a sbornících. Pro zpřístupňování plných textů z databáze TAMTAM (Anopress) bylo založeno konzorcium.

Obsah báze ANL a ANL FULL

(počty jsou přibližné)

Počet zpracovaných dokumentů : ANL - 708 000 bibliografických záznamů, ANL FULL - 92 000 plných textů s metadaty .

Počet zpracovávaných titulů: ANL - 210 v NKČR, 469 ve spolupracujících institucích; ANL FULL - 30 titulů.

Časové pokrytí: báze ANL 1990/91 - , báze ANL FULL 1997-.

Obory: filozofie, psychologie, knihovnictví, náboženství, politika, ekonomika, ekonomie, sociologie, právo, pedagogika, matematika a přírodní vědy, lékařství (okrajově), technika a průmysl (omezeně), hudba, film, výtvarné umění, sport (omezeně), jazykověda a literatura, historie, geografie a všeobecnosti.

Zpracovávané typy titulů a výběr článků z hlediska úplnosti: v kooperačním systému jsou zpracovávány články a statě české novinové, časopisecké a periodické sborníkové produkce (sborníky vysokých škol, muzeí, archivů, materiály z konferencí, ročenky, odborné i polytematické časopisy, kulturně-politické časopisy a populárně-naučné časopisy).

A: Seriály vydávané AVČR a vysokými školami v ČR (časopisy, sborníky, ročenky)
B: Seriály (časopisy, sborníky, ročenky) vydávané ostatními institucemi v ČR
C: Noviny (ústřední i regionální) a kulturně-polické časopisy
D: Populárně-naučné časopisy

1=excerpce je prováděna v úplnosti (100-80% počtu článků)
2=excerpce je prováděna částečně (80-25% počtu článků)
3=excerpce je prováděna výběrově (25%- počtu článků)

A: 1
B: 1 (sborníky ročenky), 1-2 (odborné časopisy)
C: 2,3
D: 3

Báze ANL - kategorie A-D, báze ANL FULL zatím kategorie C, z kategorie B periodikum Národní knihovna (též samostatná aplikace ve formátech HTML, PDF).

Typy článků: faktograficky přínosné články, články odborné, články s dokumentární a uměleckou hodnotou, oficiální dokumenty (projevy, vyhlášení, komuniké, usnesení), zprávy a informace o kulturních, sportovních, politických, vědeckých aj. akcích (konferencích, seminářích, festivalech, jednáních, zasedáních, výstavách, divadelních, rozhlasových a televizních inscenacích, besedách, sportovních soutěžích), souhrnné a hodnotící články, závažné polemiky, diskuze a komentáře. Dále jsou zachyceny reportáže, biografické články (životopisné, jubilejní, nekrology, rozhovory, profily osobností, vzpomínky), literární texty (básně, povídky aj. ještě nepublikované, nové překlady), fejetony, sloupky, úvodníky (pouze hodnotné), recenze publikací různého zaměření, gramofonových desek, kompaktních desek, filmů apod. Obě báze jsou výběrové.

Metodika popisu báze ANL a ANL FULL

Obě báze obsahují záznamy, které respektují UNIMARC a pravidla popisu AACR2, pro oblast systematické indexace MDT-MRF, verbální věcná indexace kombinuje klíčová slova, věcné obecné kategorie a předmětová hesla. Vyváženost vazby mezi jednotlivými vrstvami popisu je klíčovým momentem. Báze ANL FULL obsahuje navíc Dublin Core (14 prvků) a Anl Core (20 prvků) ve formátech HTML, XHTML, XML. V rámci kooperačního systému byla stanovena pravidla pro výběr titulů k popisu (na základě územní gesce - tituly regionální a celostátní provenience a dále pak na základě odborného zaměření). Dále byly stanoveny zásady výběru článků co do úplnosti i co typů.

Vzájemné srovnání bází ANL a ANL FULL

Bibliografické záznamy báze ANL jsou propojeny s plnými texty báze ANL FULL. Báze ANL FULL je doplněna portálem volně přístupných textů na Internetu (po linii regionální a oborové - cca 100 titulů). Bázi doplňuje samostatná aplikace pro zpřístupnění periodika Národní knihovna v HTML a PDF.

Báze ANL naopak obsahuje navíc přímé linky na některé volně přístupné plné texty na Internetu navíc (Ikaros, U nás, Bulletin SKIP, Daidalos, Knihovní obzor, Lesnická práce, Psychiatrie, Psychologie dnes, Vesmír, Harmonie, Collection of Czechoslovak Chemical Communications, Veřejná správa). K článkům pojednávajícím o zákonech jsou připojována plná znění zákonů.

4. Architektura systému pro zpřístupňování plných textů. Linka zpracování. Systém TOPIC a pojmové vyhledávání. Báze ANL FULL v systému TOPIC

4.1 Architektura systému, ve kterém vzniká báze ANL FULL a částečně báze ANL - datový a funkční model

Báze vzniká v rámci linky zpracování bibliografických záznamů z plných textů získaných z databáze TAMTAM za současného generování metadat Dublin Core ve formátech HTML, XHTML, XML v kvalifikované a nekvalifikované formě. Báze je provozována v systému TOPIC (pojmově orientovaný vyhledávací systém). Pro interní uživatele NKČR jsou přístupné plné texty i metadata. Pro externí uživatele jsou běžně přístupná pouze metadata, plné texty zatím zkušebně na 7 dnů. Technologie zpracování a zpřístupnění článků v systému TOPIC vychází z a navazuje na již vyvinutou technologii firmy Anopress, s.r.o.

  • On-line získávání dokumentů z databáze TamTam přes vstupní filtr pro linku zpracování - aplikace TT NK_Special (TamTam NK_Special), textové dokumenty vstupují do linky se strukturovanou hlavičkou, kde jsou dohodnutými znaky a návěštími označeny příslušné údaje (v budoucnu možná další úprava vstupních filtrů podle charakteru získávaných dokumentů z jiných zdrojů). Pozn.: off-line získávány retrospektivně starší dokumenty.
  • Zpracování plných textů (extrakce dat z hlavičky dokumentu, doplnění a generování DC, UNIMARC, výstup v ANSEL, UNICODE, UNICODE-UTF 8) - aplikace TTDE (TamTam Data Extractor) na lokálních pracovních stanicích.
  • Konverze, generování dat URL, SICI, DC v HTML, XHTML+-, XML+-, indexace, uložení a vyhledání informací (vyhledávání pomocí textu dotazu, formulářů, topiků, rejstříků) - aplikační a datový server: VIS 3.6 TOPIC ( v budoucnu Portal One SE) - fulltextový vyhledávací systém, server Dell PoweEdge 6300 (0,5 GB RAM, 50 GB, Pentium III). MKINDEX - indexace, generování XML- a XML+, jednorázové aplikace/moduly (TTEXPORT-TamTamExport, TTXMLGen -TamTam XML generator, TTDT-TamTam Data Tester, TTDF-TamTam Data filter, TTDC- TamTam Data Convertor, MKDOC.PHP - propojení bibliografického záznamu s plným textem).
  • Zobrazení a zpřístupnění informací - Internet Information Server pro Win v. 4.0 (v budoucnu Win 2000) - komunikace v síti, zobrazování dat a metadat v uživatelských formátech (citace bez/s odkazy, výsledky jednoduché, se souhrnem, seskupené) a pracovních formátech (klíčová slova, DC v HTML, XHTML+ -, XML+ -), tisk. Obecné základní informace, nápovědy, autorizace, statistika zobrazených informací přes Internet aj.

Poznámky:

  • Program pro import bibliografických záznamů do ALEPHu mimo aplikaci
  • Export dat z ANL FULL pro uživatele - bude řešen

4.2 Linka zpracování bibliografických záznamů z plných textů a propojení bibliografických záznamů a plných textů

Pracovník oddělení analytického zpracování NK nejprve vybere a vyhledá příslušné články ke zpracování v této databázi. Stažení vybraných článků na počítač příslušného pracovníka v podobě komprimovaného souboru. Po jeho dekompresi je text článku naimportován do příslušného adresáře. Po otevření formuláře ke zpracování se objeví v levém části formuláře pro editaci seznam názvů článků. Po kliknutí na článek se automaticky objeví extrahované údaje z hlavičky článku v příslušných rubrikách formuláře a hlavičkách TTDE.

Poznámka: částečná podoba strukturovaných údajů v textu dokumentu, který vstupuje do linky zpracování, je uvedena v kapitole 5.

  1. Rozšířený formulář je nástroj vyvinutý pro editaci a doplnění extrahovaných dat. Data je možno upravovat také v hlavičce ANIMARC-A, UNIMARC. Automaticky se generují údaje v rozsahu minimálního záznamu stanoveného pro popis článků (kromě notace MDT), tj. údaje zejména jmenného popisu a kódované údaje. Automaticky se generuje souhrn článku (první věty textu). Pokud je zvolena příslušná funkce, je možno automaticky generovat klíčová slova. Další údaje věcného popisu - předmětové kategorie doplněné MDT, hesla se doplňují. Automaticky se generuje URL, SICI, téměř celé pole LKR (k propojení se zdrojovým dokumentem - vazba up and down na analytický záznam - experimentálně zatím vazby zkoušeny u deníku Právo, Magazín Práva, Reflex, Respekt, Týden).
  2. Formulář má tři strany. První obsahuje jmenné a věcné údaje, druhá pouze věcné, třetí jmenné a věcné údaje.

  3. UNIMARC-A hlavička je hlavička s bibliografickými údaji pro importní vstupní soubor záznamů do ALEPHu (řádkový UNIMARC), do které se automaticky generují tatáž data jako do formuláře pro editaci a úpravy zanesené do tohoto formuláře. Tato hlavička je také přístupná pro editaci samostatně. Jde o řádkový UNIMARC.
  4. UNIMARC hlavička, hlavička pro klasický UNIMARC s týmiž vlastnostmi jako hlavička UNIMARC-A - slouží k eventuelnímu importu pro systémy, které jsou založeny na UNIMARCU - řádkový UNIMARC. Do hlavičky jsou generované tytéž údaje jako do výše jmenované hlavičky.
  5. DUBLIN hlavička s týmiž vlastnostmi jako předchozí dvě hlavičky sloužící ke generování metadat Dublin Core - vychází z poslední verze Dublin Set Elements, z 15 jeho prvků aplikuje 14 (pro jemnější vyhledávání jsou určeny tzv. prvky Anl Core).
  6. Zobrazovací hlavička slouží k zobrazení údajů v hlavičce plného textu.
  7. Indexovací hlavička slouží k indexaci uložených údajů v databázi ANL FULL.

Po odrážce různé je možno nastavit tvar výstupní hlavičky pro UNIMARC-A nebo UNIMARC a spustit ruční vstup dat, nastavit kód výstupních dat (ANSEL, UNICODE, UTF-8). Standardně nastaven výstup UNIMARC-A v kódu ANSEL.

Následuje odeslání záznamů pomocí volby odeslat na dolní liště, import do ALEPHu (program vyvinutý v NK), import na server FULL.NKP.CZ. Pro propojení plných textů s bibliografickými záznamy v systému ALEPH (doplnění URL adres do záznamů) byl vytvořen skript MKDOC.PHP. Propojení probíhá ne základě dynamicky generovaného odkazu na dokument. Program vyhledá požadovaný dokument dle identifikace (identifikační číslo), provede statistiku a kontrolu autorizace a na jejím základě zobrazuje plný text, abstrakt a citaci dokumentu v rámci databáze ANL FULL na serveru FULL.NKP.CZ.

4.3. Systém TOPIC a pojmové vyhledávání

Systému TOPIC (pojmově orientovaný vyhledávací systém, concept based retrieval) je systém třetí generace založený na následujících principech: rozklad pojmu na podpojmy, vážení jednotlivých podpojmů (větví pojmového stromu), neostré vyhodnocování dotazů.

Dotaz v systému třetí generace reprezentuje pojem, resp. ideu vyhledávaného tématu. Jádrem dotazu je stromová hierarchická struktura, která rozkládá hledané téma na podtémata a přiřazuje jednotlivým částem váhy, které vyjadřují do jaké míry příslušné téma přispívá k celkovému určení tématu. Systém dále vypočítá míru relevance vyhledaných dokumentů. Oproti běžně používaným operátorům TOPIC používá operátor ACCRUE se specifickými vlastnostmi. Tento operátor sbližuje operátory and a or. Každý topik obsahuje tedy tři základní charakteristiky - strukturu, váhy a operátory (viz dále).

Podstata systému TOPIC

Topik je předem definovaný strukturovaný dotaz.

Jednotlivá slova do topiku vkládáme pomocí operátorů a modifikátorů. Určujeme tím, v jakých vztazích k dalším pro dané téma typickým výrazům se mají tato slova v textech vyskytovat a jaký mají pro daný dotaz význam, resp. váhu. K tvorbě topiků se používá editor a dotaz v něm má strukturu členěné osnovy nebo stromu. Systém vyhledá všechny dokumenty, v nichž se v určených souvislostech vyskytují alespoň některá ze zadaných slov. Přihlíží i k pádovým koncovkám. Každému nalezenému dokumentu program přiřadí ohodnocení relevance v podobě čísla a to formou číselného skóre, kdy vychází jednak z četnosti výskytu zadaných slovních kombinací a jednak zohledňuje váhy, které jsme přisoudili jednotlivým větvím. Fulltextové vyhledávání pomocí tropiků se vyznačuje úplností, značnou přesností a vysokou mírou přizpůsobivosti individuálním potřebám uživatelů.

Úplnost (recall) znamená, že systém zachytí prakticky všechny dokumenty, které se v té či oné míře týkají daného tématu. Přesnost (precision) vyhledávání souvisí s hodnotou skóre: platí, že text, který obsahuje větší počet slovních kombinací typických pro určité téma, se k tomuto tématu váže.

Soubor vytvořených topiků je možno organizovat do znalostní báze. Každý TOPIC má své jméno a popis.

Určování důležitosti dokumentů

Zda nějaký dokument dotazu vyhovuje či ne záleží na tom, jakými operátory jsou jednotlivá slova spojena. U běžných fulltextových technologií je možné klíčová slova spojovat operátory and nebo or.

AND - dokument obsahuje všechna klíčová slova, která požadujeme, tj. přesné vyhledávání .

OR - dokument obsahuje alespoň jedno klíčové slovo, tj. úplné vyhledávání (vyhledány všechny potenciálně možné dokumenty).

Oba operátory lze kombinovat pomocí operátoru ACCRUE (zapisuje se jako čárka při vyhledávání) a je založen na principu " čím více různých klíčových slov je nalezeno, tím je dokument důležitější". Na prvním místě jsou dokumenty obsahující všechna slova, na dalších dokumenty obsahujíc méně a méně různých klíčových slov. Pro přesné vyhodnocení důležitosti (relevance) dokumentu se berou v úvahu uvedené váhy slov a četnost jejich výskytu. Důležitý je operátor Near/nn, který umožňuje vyhledání jen takových dokumentů, kde je určitá množina slov ve vzdálenosti definována číslem nn.

U systému TOPIC odpadá tedy dilema mezi přesností a úplností, řeší je operátor ACCRUE.

Kvantifikace obsahu dokumentů

Pomocí široké škály operátorů lze stanovit způsob vyhodnocování důležitosti dokumentů vzhledem k dotazu. Toto číslo se nazývá relevance a nabývá hodnot 0,001 až 1.00.

Shlukování (clustering) - funkce, která umožňuje vyhledané dokumenty shlukovat podle možného společného kontextu. Shlukování je založeno na statistické analýze obsahu prováděné při jeho indexaci. Pro každý dokument je vybrána řada slov (Významový vektor), která s určitou pravděpodobností vystihuje obsah dokumentu, a na základě něj se vytváří automatická anotace v podobě nejvýznamnější vět z dokumentu (summary).

 

 

Příklad topiku (zjednodušená osnova):

¨VýzkumVesmíru <Accrue><

0.70¨ VýzkumVesmíru-Kosmonautika <Accrue><

0.80¨ VýzkumVesmíru-PozorováníHvězd <Accrue><

0.60¨<Stem>dalekohled

0.60¨<Stem>hvězdář

0.60¨<Stem>observatoř

Topik lze také znázornit ve stromové struktuře a znakové situaci.

4.4 Báze ANL FULL v systému TOPIC. Jak se zaregistrovat. Jak vyhledávat. Výsledky vyhledávání a zobrazení

Bližší charakteristika báze ANL FULL obsah, zdroje, registrace (viz též bod 3 dříve)

Databáze ANL FULL obsahuje vybrané plné texty celostátních deníků a některé kulturně politické a ekonomické časopisy s přibližnou retrospektivou od r. 1997 (Profit, Reflex, Respekt, Strategie, Týden, Kapitál, Úspěch, Bankovnictví, Ekonom). Velmi výběrově obsahuje některé regionální tituly. Obsahuje též periodikum Národní knihovna.

Báze je průběžně aktualizována v rámci linky zpracování bibliografických záznamů z plných textů od května 2001. Do konce března 2002 bylo v lince zpracováno celkem cca 13 000 plných textů. Je také průběžně doplňována off-line. Ve zdrojových kódech plných textů jsou obsaženy všechny již zmíněné hlavičky (DC, UNIMARC aj.). DC ve formátu XML je generován do zvláštní databáze.

Vyhledávání je možné z každého slova z textu, pomocí slov i frází, pomocí bibliografických údajů, dále pak tzv. topiků (definovaných dotazů, resp. témat v rámci jednotlivých oborů) a pomocí rejstříků.

Topiky jsou uspořádány do 7 tematických oblastí, ty se dělí do 20 tematických skupin a skupiny obsahují zatím 114 detailních témat.

Tematické oblasti:

  • - Ekonomika, obchod, finance
  • - Hospodářství, výroba
  • - Humanitní a společenské vědy
  • - Matematika a přírodní vědy
  • - Lékařství, zdravotnictví, technika
  • - Sport, volný čas

Při zobrazení jsou texty vybaveny citací (bibliografický popis, resp.metadata), automaticky tvořeným souhrnem (začátek článku).

4.4.1 Jak se zaregistrovat

Externí uživatelé se mohou zatím zaregistrovat pomocí formuláře v nabídce Registrace na dobu 7 dnů. Po vyplnění povinných údajů bude těmto uživatelům zasláno e-mailem potvrzení registrace s aktivačním odkazem a heslem - po odeslání tohoto odkazu je registrace aktivována a prostřednictvím přiděleného hesla zajištěn bezplatný zkušební přístup na dobu sedmi dnů. Rutinní zpřístupňování plných textů bude možné po vyřešení autorskoprávních, popř. ekonomických otázek souvisejících se zpřístupňováním plných textů.

Nabídka Přihlášení slouží k autentifikaci registrovaného uživatele. Ve formuláři pro přihlášení je třeba vyplnit jméno a přidělené heslo.

4.4.2 Jak vyhledávat. Druhy dotazů v databázi ANL FULL a systému TOPIC

Báze ANL FULL obsahuje jak bibliografický popis v různé míře podrobnosti podle vývoje systému, tak plný text, přičemž obě tyto části jsou indexovány a lze z nich paralelně vyhledávat a docílit tím větší míru relevance výsledku vyhledávání k položenému dotazu. Systém umožňuje velmi sofistikované kladení dotazů vyžadující určitou zkušenost. Na druhé straně je možné položit dotaz velmi jednoduchým způsobem. Systém umožňuje tři způsoby hledání: vyhledávání (searching) pomocí formulářů a pole dotaz, pomocí topiků - předem strukturovaných dotazů v rámci rozšířeného formuláře, prohlížení (browsing) rejstříků.

A. Formuláře - tři základní formuláře podle pokročilosti vyhledávání.

Základní formulář

Nabídky:

Dotaz - hledat v textu (formulace dotazu)

Období pro vyhledání od do

Typ seznamu výsledků (článků):

jednoduchý (pouze název s nabídkou zobrazovacích formátů)

se souhrnem (plus souhrn, který je tvořený počátečními větami článku)

seskupený (skupiny článků uspořádané podle shody v klíčových slovech).

Rozšířený formulář

Nabídky:

Obsahuje stejné nabídky jako základní formulář, navíc pak vyhledávání podle imlicitních polích ve struktuře formuláře. Je možno zvolit, zda vyhledávat v těchto implicitních polích způsobem <contains> nebo způsobem =. Pro seznam výsledků je možno navíc navolit oproti základnímu formuláři skóre relevance, od které zobrazovat články, zobrazit určitý počet článků na stránku, dále třídit dle skóre relevance, názvu, zdroje, data vydání, stran, a to sestupně či vzestupně.

Hledat v textu - odpovídá poli Dotaz v základní formuláři (formulace dotazu)

Období pro vyhledání od do

Implicitní pole:

název, autor (s nabídkami pro jednotlivé údaje)

číselné údaje (s nabídkami pro jednotlivé údaje)

předmět (s nabídkami pro jednotlivé údaje)

další nabídky: typ článku (s nabídkami pro jednotlivé typy článků)

zdrojový dokument (s nabídkami zdrojových dokumentů)

Způsob vyhledání řetězců (v implicitních polích):

<contains> (postačí výskyt řetězce v poli)

= je požadováno přesné zadání i porovnání řetězce

Typ seznamu výsledků (článků):

jednoduchý (pouze název s nabídkou zobrazovacích formátů)

se souhrnem (plus souhrn, který je tvořený počátečními větami článku)

seskupený (skupiny článků uspořádané podle shody v klíčových slovech)

Skóre (relevance, od které zobrazovat články)

Výsl./str. (počet článků na stránku)

Třídění: dle skóre (relevance)

dle názvu

zdroje

data (vydání)

stran

a to sestupně nebo vzestupně.

Rozšířený formulář s tématy

Nabídky:

Tento formulář má stejné nabídky pro vyhledávání jako rozšířený formulář, umožňuje vyhledávat navíc podle témat, resp. topiků, resp. dotazů. Pro bázi ANL FULL jsou nadefinovány některé topiky, rozdělené do tří úrovní.Topik slouží k tomu, že hledaný výraz vyplněný do textu dotazu a různě zpřesňovaný je navíc upřesněn topikem, tj. tématem. Např. hledáme-li v bázi výraz hvězdy, výsledek obsahuje několik tisíc dokumentů. Specifikujeme-li tento výraz pro vyhledávání v rámci astronomie, najdeme pouze několik set dokumentů.

B. Dotazy - druhy dotazů se liší náročností formulace a možností ovlivnit výsledek vyhledávání .

Prostý dotaz

Obsahuje slova nebo fráze oddělené čárkami nebo logickými spojkami, formulace mohou obsahovat různé konvence. Při vyhledávání se všechna slova skloňují a mají stejnou váhu.

Formulářový dotaz

Obsahuje kromě možnosti pro zadání hledaného slova nebo fráze jako u prostého dotazu i pole pro zadání podmínek pro jednotlivé položky strukturované části textové databáze. Jde o rozšíření prostého dotazu.

Tematický dotaz, resp. topik - definujeme jednotlivá témata.

Topik je typ dotazu, na jehož základě se vyhledají dokumenty, které se týkají určitého tématu, oboru nebo problému.

Topiky jsou rozděleny v bázi do tří úrovní. Lze zatím vyhledávat podle některých nadefinovaných topiků (označeny šipkou vlevo). Topiky viz dříve.

C. Metodika vyhledávání pomocí formulářů, pole dotaz, topiků

Uživatel zvolí typ vyhledávacího formuláře popř. změní jeho implicitní parametry. Vlastní dotaz potom je možné zadat kombinací výše uvedených prostředků.

Pole

Pole dotaz, resp. text dotazu - obsaženo ve všech formulářích.

Nejjednodušší dotaz tvoří jediné slovo, fráze.Pro zadávání složitějších nebo víceslovných dotazů je možno použít logické operátory (and, or, not a další), případně další konvence, např. zástupné znaky. Uvedením návěští se vyhledávání omezuje na příslušné pole.

Základní operátory:

and - v poli jsou obsaženy všechny hledané výrazy

or - pole obsahuje alespoň jeden hledaný výraz

not - hledaný výraz nesmí být v poli přítomen

Konvence pro všechny formuláře - pole dotaz, resp. text dotazu (ukázka):

Př. 1

hvězdy

Vyhledají se dokumenty, které obsahují různé gramatické tvary zadaného slova (hvězdy, hvězdám...).

Př. 2

hvězdy, asteroidy, planetky

Vyhledá dokumenty, které obsahují různé gramatické tvary slov ”hvězdy” nebo ”asterioidy” nebo ”komety” (čárky lze nahradit operátorem or nebo <accrue>, který je přesnější).

Př. : 3

”meteorický roj” or ”padající hvězdy” .

Vyhledá dokumenty, které obsahují různé gramatické tvary frází ”meteorický roj

nebo ”padající hvězdy”.

Př.: 4

komety <near> kolize

Vyhledá dokumenty, které zároveň obsahují různé gramatické tvary slov ”komety” i ”kolize”, a seřadí je podle textové vzdálenosti mezi těmito slovy.

Př.:5 - vyhledávání pomocí nadefinovaných prefixů

zdr=Respekt and naz=Rafinovaný odraz skutečnosti

src=Respekt and ti=Rafinovaný odraz skutečnosti

dc.source=Respekt and dc.title=Rafinovaný odraz skutečnosti

Implicitní pole - obsažena v rozšířeném formuláři a v rozšířeném formuláři s tématy (viz dříve) .

Téma - jedno nebo více témat je možno vybrat označením v seznamu v pravém pruhu od formuláře (maximálně 3 témata pomocí klávesy Ctrl). Témata lze kombinovat vzájemně mezi sebou i s dotazem v poli dotazu, resp. textu dotazu.

Relace mezi tématy a poli je možné zaškrtnutím voleb příslušných voleb v pravé dolní části formuláře (volba and, or).

 

D. Rejstříky

V rejstřících je možno listovat a vybrat výraz, podle kterého chceme vyhledávat. Tyto výrazy jsou hypertextově propojeny v citacích s metadaty, resp. údaji bibliografického popisu. Podle rejstříků doporučujeme vyhledávat údaje zejména týkající se předmětu dokumentu (předmětové kategorie, hesla - věcná a geografická, osoby, korporace, akce, klíčová slova, dokument/dílo). Rejstřík se zobrazuje v levém okně, v pravém okně se zobrazují vyhledané články.

Bylo nadefinováno 17 rejstříků: autoři, název zdroje, zdroj ročník číslo, datum vydání, předmětové kategorie, předmět, místo, hesla (věcná a geografická), osoby, korporace, akce, klíčová slova, dokument/dílo, typ článku, MDT, geografické vymezení, časové vymezení.

4.4.3 Výsledky vyhledávání, zobrazení výsledků

A. Způsoby zobrazení seznamu výsledků (názvů vyhledaných článků)

záhlaví seznamu výsledků uveden počet vyhledaných článků. Počet vyhledaných dokumentů na stránku je dán volbou v poli Výsl./str. V závislosti na této volbě se potom zobrazuje počet stran s možností listování.

U jednotlivých článků zobrazeno vždy, resp. standardně (zleva): tři formáty pro zobrazení údajů o článku, skóre relevance, datum vydání, název článku, velikost plného textu.

  • jednoduchý (standardní zobrazení)
  • se souhrnem (standardní zobrazení plus souhrn)
  • seskupený (standardní zobrazení plus články uspořádané do skupin podle shody v klíčových slovech podle společného kontextu, clustering)

B. Třídění seznamu výsledků (názvů vyhledaných článků)

Skóre (relevance, od které zobrazovat názvy článků)

Výsl./str. (počet článků na stranu)

Třídění: dle skóre (relevance)

dle názvu

zdroje

data (vydání)

stran

a to sestupně nebo vzestupně.

C. Zobrazení údajů o článku - formáty zobrazení

Uživatelské formáty

  • Citace článku, souhrn - bibliografické údaje o článku, resp. metadata s odkazy pro další hledání
  • Citace článku, plný text - bibliografické údaje o článků, resp. metadata s odkazy pro další hledání a plný text článku
  • DC/HTML - Dubline Core Metadata
  • Název článku hypertextově aktivní - zobrazení citace a plného textu bez odkazů

Pracovní formáty

V záhlaví plného textu jsou navíc různé pracovní formáty - klíčová slova, UNIMARC (komunikativní formát), Dublin Core - formát pro zpřístupňování elektronických dokumentů a jeho aplikace, které obsahují metadata (DC/HTML/META, DC/XHTML kvalifikovaný a nekvalifikovaný, DC/XML kvalifikovaný a nekvalifikovaný). Jsou určeny pro budoucí vývoj systému a zpřístupnění plných textů.

Metadata

Ve všech variantách zobrazení je obsažena citace, resp. biliografické údaje, resp. metadata.

( Dublin Core a Anl Core).

Př.6:

Název:  

Cesta mezi hlavou a rukou

Podnázev:  

Když některé věci nenapíšu, nikdy se je nedozvím, říká publicista a spisovatel Pavel Kosatík

Hlavní autor:  

Pavel Kosatík

Další autor:

Karel Hvížďala

Zdroj:  

Mladá fronta Dnes

Zdroj-příl.:

Ekonomika

ISSN:  

1210-1168

Roč.  

12, č. 204 (1.9.2001), s. C/5

Rubrika:  

Kultura - Pohledy

Předmět. ktg.:  

politika: politici

 

literatura: česká literatura

 

hromadné sdělovací prostředky: novináři

MDT:  

323-051, 070-051, 821.162.3-051

Osoba jako předmět:  

Masaryk, Jan, 1886-1948

 

Peroutka, Ferdinand, 1895-1978

 

Kohout, Pavel, 1928-

ma jako předmět:  

politici-Československo-stol. 20.

 

novináři-Československo-stol. 20.

 

spisovatelé-Československo-stol. 20.

Typ dokumentu:  

rozhovory

5. Další možný vývoj prezentovaného systému a zpřístupňování plných textů

  • Marc 21.
  • Testování možnosti spojení automatické sklizně dat a automatické indexace v kombinaci s linkou zpracování metadat z plných textů a zvážení efektivity tohoto spojení.
  • Předpoklad automatické indexace - existence homogenního nástroje k věcné indexaci.
  • Budování digitální knihovny na základě propojování citací.
  • Testování možnosti spojení automatické sklizně dat a automatické indexace textů v kombinaci s linkou zpracování metadat z plných textů a zvážení efektivity tohoto spojení (projekt Webarchiv).
  • Řešení legislativně právních otázek a otázek plateb (jasné oddělení textů poskytovaných zdarma a za úplatu)
  • Rozšíření linky zpracování na další instituce a aplikace moderních metod zpracování a zpřístupnění na KOSABI
  • Orientace na další typy periodik.

Kvalitní a dostatečně rychlé zpřístupňování plných textů českých odborných a vědeckých periodik včetně periodik vydávaných vysokými školami by se mělo stát prioritou v aktivitách, které se soustřeďují na zpřístupnění těchto textů.

  • Spolupráce s autory, nakladateli, vydavateli.


Popsaná linka zpracování automatické indexace je použitelná po úpravě vstupním filtrem i na data existující v jiné databázi, event. v komunikaci mezi autorem, nakladatelstvím, bibliografickou agenturou, knihovnou/informační institucí a naopak.

Předpokládá však do jisté úrovně strukturovaný vstupní text, ze kterého data mohou být extrahována.

V této struktuře mohou být zachyceny údaje nejen jmenné povahy (autor apod.), ale i povahy věcné (klíčová slova, abstrakt).Ty je potom možno převést pomocí vstupního filtru do linky automatické indexace k dalšímu zpracování.

  1. Pro identifikaci článků ve struktuře textu pro další zpracování v lince jsou důležité následující údaje z možných 15 prvků DC:

1. Název(Title)

  1. Tvůrce (Creator)
  2. Zdroj / Vztah (Source/Relation) - tj., název zdroje, roč., číslo, datum, strany
  3. Nakladatel (Publisher)
  4. Předmět (Subject) - klíčová slova nebo hesla nebo výrazy tezauru
  5. Popis (Description) ve formě abstraktu
  6. Práva (Rights)
  7. Identifikátor (Identifier)

2) Pro konverzi či zápis údajů obsažených v hlavičce textu dokumentu je možno použít schéma definované na základě pokynů pro přispěvatele do časopisů (v běžném editoru), je možno použít i speciálních maker.

Výsledek konverze:

#NAZ#Název článku#/NAZ#

#ATR#Hlavní autor#/ATR#

#AT2#Další autor#/AT2#

#ZDR#Název zdroje#/ZDR#

#ROC#Ročník#/ROC#

#CIS#Číslo#/CIS#

#DAT#Datum vydání zdroje#/DAT#

#STR#Počáteční strana#/STR#

#VYD#Vydavatel#/VYD#

#KEY#klíčové slovo, klíčové slovo#/KEY#

#SUM#Abstrakt#/SUM#

#COP#Práva#/MIS#

#ISN#ISSN#/ISN#

#IDE#Identifikační číslo#/IDE#

 

4) Zobrazení metadat po konverzi do DC v lince zpracování

<META name="DC.Title" content="Název">

<META name="DC.Creator.personalName" content="Hlavní autor">

<META name="DC.Contributor.personalName" content="Další autor">

<META name="DC.Source" content="Název zdroje, roč. X , č. X (datum), s. X">

<META name="DC.Publisher" content="Vydavatel">

<META name="DC.Date.issued" scheme="W3C-DTF" content="Datum vydání">

<META name="DC.Subject" content="klíčové slovo">

<META name="DC.Subject" content="klíčové slovo">

<META name="DC.Description.abstract" content="Abstrakt">

<META name="DC.Rights" content="Práva">

<META name="DC.Source" scheme="ISSN" content="ISSN">

<META name="DC.Identifier"content="Identifikátor">

5) V rámci linky zpracování se potom údaje mohou dále editovat a následně konvertovat do HTML podoby a příslušných formátů.

Závěr

Strukturovat nestrukturované informace a užívat takových vyhledávacích systémů, které mají kvalitní nástroje k uchopení nestrukturovaných plných textů nebo semistrukturovaných textů, protože tyto ve velké míře převažují.

Použitá literatura:

1. ANDĚROVÁ, I. Kooperační sytém článkové bibliografie a propojení analytických záznamů s plnými texty - východiska a současný stav. Národní knihovna : knihovnická revue. 2001, roč. 12, č. 1, s. 26-37. Též dostupný z: <http://full.nkp.cz/nkdb/index.html>.

2. CÍGLER, I., Königová, M., Lukavec, P., Vacek, V. Hodnocení efektivnosti informačních systémů. Systémová analýza v informatice. ČVTS, 1974. S. 98-115.

3. JONÁK, Z. Inteligence systémů zpracování textů. Ikaros [online]. 2000, č. 1 [ cit. 2000-01-05]. Dostupný z: <http://www.ikaros.cz/ikaros/2000/c01/isko/z_jonak.htm>.

4. JONÁK, Z. Reflektuje teorie informace a komunikace dostatečně na zvýšený zájem společenských věd o semiotické a komunikační aspekty života? Ikaros [online]. 1999, č. 3 [cit. 1999-03-01]. Dostupný z: <http://www.ikaros.cz/1999/c03/veda2.htm>.

5. PAPÍK, R. Trendy v rozvoji informačních služeb. Ikaros [online]. 1999, č. 8 [cit. 1999-09-01]. Dostupný z: <http://www.ikaros.cz/ikaros/1999/c08/usti/usti_papik.htm>.

6. Saracevic, T. The concept of relevance in information science : a historical review. Introduction to Information Science. New York : Academic Press, 1976. S. 79-137.

7. Topic : systém pro inteligentní vyhledávání dokumentů.  Praha : Tovek, 19?.

8. Vejlupek, T. SPEIS - koncept jednotného využívání a jednotné nabídky informačních zdrojů a informačních služeb od různých poskytovatelů. Praha , 2001. 18 s.

9. Zemanová, I. Problematika relevance a pertinence. Vývoj a současný stav. Diplomová práce.

Praha. FFUK , 1977. 164 s.

Informace prezentované v článku jsou přístupné na adrese http://full.nkp.cz .

e-mail: ivana.anderova@nkp.cz


O autorovi:

Dosažené vzdělání: FFUK - obor knihovnictví a vědecké informace, rigorózum 1977, 1977-1979 oddělení knižní bibliografie (NKČR), 1979-1993 oddělení článkové bibliografie (NKČR), od r. 1993 vedoucí Oddělení analytického zpracování NKČR (implementace ALEPH - návrh databáze v ALEPHu, aplikace formátu UNIMARC a AACR2R v analytickém popisu, konverze Výměnný formát UNIMARC, vedení Pracovní skupiny pro analytické zpracování, hlavní koordinace Kooperačního systému článkové bibliografie, správa souborné databáze Kooperačního systému článkové bibliografie, metodická a standardizační činnost v rámci analytického popisu, hlavní řešitelka projektu RISK Zpřístupnění analytického zpracování prostřednictvím Internetu v roce 1997, hlavní řešitelka výzkumného záměru VaV Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů (MK ČR, 1999-2003), hlavní řešitelka programového projektu VaV Souborná databáze kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat (MK ČR, 2000-2004).

  

AiP logo Copyright © 2002 Albertina icome Praha s.r.o.
INFORUM® a IN® jsou registrované ochranné známky. 
Všechna práva vyhrazena. Připomínky oceníme na adrese webmastera.
Aktualizováno 20.05.2002

Grafický design 
Logo STUDIO aha!

Zpracování datDigital Art Studio