Inforum 2000-Prednasky/Presentations

	Rešeršní systém Tornádo
	Stanislav Psohlavec, AiP Beroun s.r.o., Beroun
	Systém pro publikování velkých objemů dat. Ukázky aplikace na bibliografických bázích dat, patentovém třídění. Možnosti automatizované aktualizace. Návaznost na systém AiP*Safe.

TORNÁDO
nová generace vyhledávacích nástrojůod firmy Albertina icome Praha s.r.o.

Hlavní vlastnosti:

Modularita a flexibilita, snadná instalace a aktualizace, kombinace zdrojů, automatizovaná indexace

Prostředí:

Struktura, jazyky, hypertext, práce s obrazem, Internet

Vyhledávání:

Zadání dotazu, indexy

Možnosti aplikace:

Publikace rozsáhlých dat, specializované bibliografické databáze, alternativní přístup k ‚živým‘ databázím

Pravděpodobně Vás napadlo, proč v době globalizace, jednotících se SW prostředků a Internetu soukromá firma vydává prostředky na vývoj vyhledávacích nástrojů. Samozřejmě jsme porovnávali efektivitu, výkon, hardwarové požadavky, cenu jiných koupitelných nástrojů i náklady na vývoj chybějících komponent.

Výsledkem je, že Vám představujemesystém Tornádo přicházející po WiniFret. (Genezi původně pouze pracovního názvu hledejte, prosím, ve filmu ‚Limonádový Joe‘, nikoli v katastrofách dvacátého století).

Nabízíme Vám však nikoli pouze systém. Využití tohoto systému může být součástí komplexní služby – zpřístupnění Vašich dat. Vaše data můžeme zpracovat například až do formy publikovatelné na Internetu nebo můžeme kompletně zajistit jejich klasické vydání na CD-ROM discích.

Hlavní vlastnosti

SystémTornádo je určen již výhradně pro 32-bitové prostředí, (W95..NT,2000). Kombinuje výhody fulltextové a strukturované databáze. Principielně nepřekonatelná je vynikající rychlost vyhledávání, která je prakticky nezávislá na množství dat. Tato rychlost je vykoupena náročnou indexací.Tornádo je proto mimořádně vhodný systém pro publikování rozsáhlých dat na CD-ROM a DVD. Klade velmi nízké nároky na výkon počítače. Dovoluje i na málo výkonných počítačích dosáhnout vynikající rychlosti vyhledávání.

Systém je ryze český, bez dalšího licenčního zatížení.

Modularita a flexibilita

Systém Tornádo je koncipován jako stavebnice modulů a proto dovoluje vytvářet prostředí plně přizpůsobené zákazníkovi a typu dat. Je možná i implementace hotových modulů zákazníka, například pro kódování dat, tvarosloví češtiny.

Ins talace

Oproti předchozí verzi (WiniFret) je radikálně zjednodušena instalace. Dokonce lze využít i možnosti pracovatzcela bez instalace se zachováním plného výkonu. Lze vytvořit aplikaci spouštěnou výhradně z media - bez zásahu na pevný disk uživatele. Ukázkou může být např. Mezinárodní patentové třídění a Mezinárodní desetinné třídění.

Akt ualizace

Spojení dat na CD-ROM nebo DVD s jejich aktualizací je velice snadné. Aktualizace je totiž tvořena jediným souborem. Stačí například stáhnout tento souboru na Internetu a sdělit systému, kde tento soubor leží a tím je aktualizace provedena. Aktualizaci lze i svěřit programu, může sám pravidelně testovat, zda aktualizace existuje a sám si ji stáhnout. Aktualizace znamená , že dojde ke splynutí původního zdroje dat s balíčkem nových, včetně prolnutí indexů. Je možná nejen přírůstkové aktualizace, ale i nahrazování neplatných dat na pevném mediu – např na CD-ROM.

Lze integrovat možnost pracovat s více aktualizacemi téže databáze současně. Jednotlivá aktualizace pak může představovat kvantum dat, které je zpracovatelné dle potřeby každou hodinu nebo i každou sekundu. Tím systém může zpřístupňovat aktuální data.

Aktualizace přesto stále tvoří samostatný ‚řez‘ z celé databáze. Uživatel si může volit, s kterými řezy chce pracovat.

Kom binace vícezdrojů dat

Stejný princip jako pro aktualizace lze využít k společnému zpřístupnění více tématicky příbuzných databází, které ani nemusí být shodné struktury a přesto na ně lze pohlížet jako na jednotlivé ‚řezy‘ téže databáze. Pak lze v jednom prostředí, ve společných indexech a jediným dotazem vyhledat informace v příbuzných zdrojích.

Automat izovaná indexace

Podobně jako dříve u systému WiniFret, i u Tornáda počítáme s možnostíautomatizovaného zpracování dat.

Systém tak dovolí u zákazníka nainstalovat prostředky, které samostatně zpracují určená data, a například umožní jejich vystavení na Internetu.

Prostře dí

je sestavitelné dle požadavků zadavatele prakticky bez omezení.

Vysoká je variabilita zobrazení - data se mohou prezentovat v nejrůznějších formách, připravených podle zadání zákazníka, který si ale může tuto formu i sám vytvořit nebo modifikavat. Totéž platí i o exportu a tisku.

Je možno vytvořit více šablon, do nichž jsou data ‚usazena‘ a nabídnout uživatelijejich volbu přepínáním.

Uživatel má k dispozici tři pohledy na databázi – kompletní data, vyhledané záznamy a označené záznamy. Hromadné exporty a tisky jsou spojitelné s těmito volbami. Je k dispozici i tzv. rychlý export jednotlivých záznamů do předpřipraveného souboru. Forma hromadného i individuálního exportu a tisku je nezávisle nastavitelná na stylu aktuálního zobrazení.

V systému mohou být prezentována i multimediální data nebo data, využívajícíhypertext.

Struktu ra

Struktura databáze není principielně omezena, může ji tvořit neomezené množství záznamů členěné do libovolného množství položek. Ani velikost jednotlivého záznamu ani položky není omezena. Kvality systému vyniknou především na databázích obsahujících extrémní množství záznamů.

Data mohou být uložena v jiné formě než jsou prezentována. Dobrým příkladem je Česká národní bibliografie – základní data u většiny databází jsou v UNIMARCu, ale jejich prezentace je možná v šesti jiných obvyklých formátech.

Data mohou být dokonce zcela oddělena od indexů – např. data na Internetu, vyhledávací SW a indexy na lokálním HD nebo na CD.

Jazy ky

Systém je od počátku koncipován jako mnohojazyčný.

Zdrojová data mohou být v libovolných kódových tabulkách, lze pracovat současně s daty z celé Evropy i s azbukou.

Data v různých jazycích se mohou vyskytovat současně ve společném indexu.
Exporty mohou být v kterémkoli z více než šedesátí kódů (které tvoří sbírku ing. Šibravy) případně v GISMO konvenci.

Protože máme plně pod kontrolou definici role jednotlivých znaků ve zpracovávaném textu, přicházíme v novém vydání Mezinárodního desetinného třídění (MDT) s individuální definicí významných znaků tvořících ‚slovo MDT‘. To dovolilo indexovat a standardně vyhledávat notaci MDT (významné znaky tvořící ‚slovo‘ jsou: =,(,',.,-,),/,`,0,1,2,3,4,5,6,7,8,9,A,Z).

Hyp ertext

Okno v němž je zpřístupněn výsledek vyhledání dovoluje zařazení jakýchkoli multimediálních dat – obrazu, videa nebo zvuku. Dovoluje i zařazení hypertextových odkazů. Typickým příkladem je MDT nebo Mezinárodní patentové třídění. Tato data mají typickou stromovou strukturu a pro heslo existují související hesla vyšší i nižší úrovně. Přechod mezi těmito hesly umožňují hypertextové skoky, stejně jako odkazy na jiná volně související hesla. V podstatě se lze v této struktuře pohybovat jen s využitím hypertextu. Komfortní vyhledávání však nabízí možnost najít správná výchozí hesla a tím podstatně zefektivňuje práci.

Pr áce s obrazem

Okno výsledku může zobrazovat obsahovat i obrazovou informaci. Navíc je možno zajistit kvalitní zobrazení obrazových dat svázaných se záznamem v samostatném okně. Zde jsou pak k dispozici i nástroje pro úpravu obrazu, navigátor pro orientaci v rozsáhlejších obrazech, možnost uložení více nastavení prohlížeče.

I nternet

Modularita systému dovoluje zpřístupnění databází zpracovaných v Tornádu na WWW stránkách.

Je možno využít všech možností vyhledávání, vyjma práce s indexem.

Vy hledávání

Jak již bylo řečeno, vyhledávání je extrémně rychlé. Konkrétní dotaz poskytne množinu všech výskytů ihned, zcela nezávisle na tom, zda databáze obsahuje 10, 10.000 nebo 10.000.000 záznamů. Při zpracování dat - indexaci – se uchovává mnoho informací zrychlujících vyhledávání. Tím se podstatně zjednodušuje a zrychluje práce počítače při pozdějším hledání. To přináší řádově nižší zatížení počítače (případně i sítě) při práci se systémem Tornádo ve srovnání s jinými systémy. Proto lze dosahovat vynikající rychlosti vyhledání i na méně výkonných počítačích.

Zadávání d otazu

Formulář pro zadání dotazu je buď vytvořen dle přání zadavatele nebo lze použít standardní.

Slova lze zadávat klasickými konvencemi s využitím hvězdičky zprava i zleva a otazníku (příkl*, p??klad, *tel). Pro otazník lze určit zda je pevnou náhradou zaznak nebo zda tento znak může i chybět. Lze vyhledávat slova, skupiny slov, hesla, datumy a čísla. Datumy a čísla lze zadávat i formou vyjadřující určité období, rozsah.

Pro vyjádření vztahu mezi operandy dotazu lze využívat logické i proximitní operátory, včetně ‚od..do‘.

Forma kladení dotazu je dosti volná, je akceptováno mnoho pravděpodobných forem zápisu dotazu.

Při vyhledávání sekvence dvou i více blízko sebe ležících slov lze určit významnost pořadí v této sekvenci i tolerovanou vzdálenost.

Dotazy mohouna sebe navazovat, vyhledávat lze v již vyhledaném, lze zde i přidávat nebo vylučovat.

Tvorbu dotazu velmi usnadňují indexy vyskytujících se dat.

In dexy

Indexy mohou být textové, heslové, datumové a číselné a to i současně nad jednou položkou.

Lze vytvářet i společné indexy nad více položkami, které je například z hlediska prezentace dat vhodné rozdělit, ale

z hlediska vyhledávání mohou být spojené. Může tedy existovat i globální index.

Indexy mohou být filtrované - při indexaci lze aplikovat slovníky nezajímavých slov nebo naopak indexovat jen významná slova. Z indexu mohou být vyloučeny vybrané části zdrojových dat.

Dotaz lze formulovat či kontrolovat s účinnou pomocí indexu. Otevřený index reaguje na zápis dotazu, je v něm zvýrazněno, co již případný dotaz vyhledá.

Při psaní dotazu s otevřeným indexem lze napsat jen to, co skutečně existuje nebo použít ‘?’,’*’.

Při neúspěšném pokusu o zápis nabídne slovník vždy nejbližší alternativu.

Index lze přepnout do režimu, kdy v indexu zůstává jen výběr slov odpovídajících připravovanému dotazu (‘Výběr’). Příkladně zapíšu-li v tomto režimu ‘A???’ zbydou v indexu jen čtyřznaková slova začínající na ‘A’.

Otevření indexu nad již hotovým dotazem dovoluje kontrolu, zda výraz na který ukazoval kurzor existuje. Výraz se modifikuje podle možností existujících v indexu – je umožněna snadná kontrola a modifikace neúspěšného dotazu.

M ožnosti aplikace
Publikace rozsáhlých dat

Systém je využitelný pro publikaci libovolných zdrojů dat na pevných mediích. Zvláště výhodný je pro zpřístupnění velkých objemů dat a kombinaci s jejich aktualizacemi, případně i společné prostředí pro více souvisejících zdrojů dat.

Specializované bibliografické databáze

Je již dobře propracována metodika indexace a konverzí dat z UNIMARCu i z ISISu. Proto lze s nízkými náklady vydat data uložená touto formou. Vzorem nabízených možností je Česká národní bibliografie.

Alternativní přístup k velkým ‚živým‘ databázím

Rychlost a možnosti vyhledání, nízké nároky na výkon počítačů provádějících vyhledání, možnost automatizované produkce a distribuce databáze i jejích aktualizací…a v neposlední řadě i nízká cena, to vše nabízí možnost efektivního alternativního přístupu k rozsáhlým živým datům, a to i ‚off-line‘.

Naše firma Vám nabízí pomoc při hledání optimálního způsobu zpřístupnění Vašich dat i kompletní služby při realizaci Vašich záměrů.

ing. Stanislav Psohlavec, AiP