Logo INFORUM 2001 - zpět na home
O konferenci
Program
Sponzoři
Výstava
Ceny Inforum
FotoForum
Anketa
Výbor konference
Archív - předchozí ročníky

Název sekce

Informace pro podnikovou sféru a Competitive Intelligence

Od fulltextových a analytických dotazů k vizualizaci vztahů

Jan Žbirka, Economia Online, a. s.

Příspěvek předvádí práci analytika nad otevřenými informačními zdroji (Hospodářské noviny, Ekonom, Obchodní věstník) pomocí nejmodernějších fulltextových a vizualizačních technologií, včetně jejich vzájemného propojení. Přitom postupuje od jednoduchého fulltextového dotazu a jednoúrovňového váženého dotazu k víceúrovňovému analytickému dotazu s rozlišením rozpoznávacích a hodnotících vah. Poté ukazuje konsolidaci získaných vah do kalendáře a její grafické znázornění. V další etapě je předveden rozklad tématu na podtémata a možnosti zobrazení i pohybů v kontextové matici. V následné etapě vizuální analýzy jsou rozlišeny fáze úvodního hrubého náhledu (syntéza), vlastní vizuální analýzy vazeb (analýza), výsledného zobrazení hlavních vazeb (syntéza). V závěru je zdůrazněna nutnost propojení a předvedeny metody propojení obrazových (grafických) a textových informací

Úvod

Pro vytvoření a provoz systémů v oblasti Competitive Intelligence je třeba vytvořit systém s vyváženými informačními zdroji, nástroji, znalostmi a dovednostmi.

Úvod k úvodu

První dvě složky: informační zdroje (otevřené i interní) a nástroje (vyhledávací a analytické) jsou vyzrálé, neboť mají za sebou delší vývoj, a proto mohou být poměrně dobře propracovány.

Naproti tomu složka znalostí je mladá, atraktivní, má budoucnost, ale je nezralá, a proto je pochopitelnou lákavou výzvou nejen pro odborníky.

V jejím stínu se pak ztrácí složka praktických dovedností (a trpělivého výkonu), které patří přítomnost a zároveň je spolehlivým mostem do budoucnosti. Přesto je opomíjenou Popelkou. Právě proto ji však rád věnuji pozornost.

Tento příspěvek je tedy určen těm, kdo dokáží takovou Popelku ocenit.

Dokončení úvodu

Postupně se zde seznámíme s typickými potřebnými a používanými dovednostmi.

Přitom budeme postupovat od jednoduchého fulltextového dotazu a jednoúrovňového váženého dotazu k víceúrovňovému analytickému dotazu s rozlišením rozpoznávacích a hodnotících vah.

Poté si ukážeme konsolidaci získaných vah do kalendáře a její grafické znázornění.

V další etapě bude předveden rozklad tématu na podtémata a možnosti zobrazení i pohybů v kontextové matici.

V závěrečné etapě vizuální analýzy budou rozlišeny fáze úvodního hrubého náhledu (syntéza), vlastní vizuální analýzy vazeb (analýza), výsledného zobrazení hlavních vazeb (syntéza).

Ukažme si tedy nyní krok za krokem výstup po pyramidě potřebných dovedností.

Fulltextové dotazy

Jednoduchý dotaz

Přestože zejména fulltextové vyhledávání ve WWW stránkách na mé tváři většinou vyloudí shovívavý úsměv (pole pro zadání dotazu zpravidla do dvaceti znaků), rozhodně se nestydím zadávat jednoduché dotazy.

Výsledek jednak umožní téměř obratem uživateli předat první výstup, nad kterým je teprve schopen jasněji formulovat, co nechtěl příp. chtěl, a zadruhé umožní připravit podklady (cca 5-10 dokumentů) pro kvalifikovanější zadání dotazu.

Jednoúrovňový vážený dotaz

Jednoúrovňový vážený dotaz může být kompromisem mezi rychlostí zpracování dotazu a přesností vyhledaných výsledků. Hlavní hledané výrazy jsou vedle sebe na jedné úrovni. Nejrelevantnějším je zvýšena váha, nejméně relevantním je snížena (např. Extáze – má příliš široké sémantické pole).

Víceúrovňový analytický dotaz

Dotaz má hlubší strukturu, na úrovni listů rozlišuje, větvemi u kořene hodnotí.

Konsolidace naměřených hodnot

Naměřené hodnoty z fulltextového vyhledávání (zejména skóre relevance, ale i např. délku zpráv můžeme konsolidovat (sloučit) s kalendářem.

Nad grafickým vyjádřením potom můžeme analyzovat vlny zájmu o danou problematiku (zejména v řezech podle času a zdrojů).

Kontextové analýzy

Uživateli zpravidla nestačí ohodnocení článků pomocí skóre relevance, ale potřeboval by vědět, které hlavní složky a do jaké míry k tomuto ohodnocení přispívají. Zpracovatel přitom pro první sloupec použije kompletní téma (zde uvedené v podkapitole Víceúrovňový analytický dotaz) a pro další sloupce potom vybraná podtémata téhož dotazu. Uživatel se po takto namapovaném prostoru může samostatně pohybovat (zde např. setřídit podle relevance ve sloupci prevence).

Uživatel si rovněž může sám klasifikovat vyznění článku (neutrální, kladné, záporné, nehodnoceno) vůči tématu i podtématům (na výše uvedeném obrázku vlevo dole) a na závěr dostane sumarizace těchto hodnocení.

Vztahové analýzy

U vztahové analýzy se mi osvědčilo jasně rozlišovat fáze úvodního hrubého náhledu (syntéza), vlastní vizuální analýzy vazeb (analýza), výsledného zobrazení hlavních vazeb (syntéza).

Jako ve všech jiných oborech i zde je nutná počáteční jasná intuice. Dovednosti pro tuto fázi nejsou předmětem tohoto příspěvku. Atributy této fáze jsou rychlost a lehkost.

Naproti tomu druhá fáze vlastní analýzy se vyznačuje značnou pracností a vyžaduje velkou trpělivost. Výsledkem je potom vztahová mapa (mapy) pro formulaci hypotéz, jejich ověřování, a dále pak formulace závěrů.

Například výše uvedený diagram se zabýval společnostmi, které posílají ČKD do konkurzu. Jednu obklopují izolované informace, druhé dvě jsou některými dokumenty provázány a za jednou z nich je široký vějíř dalších informací.

Další analýza byla zaměřena ve směru tohoto vějíře a ukázala další souvislosti.

Někteří uživatelé k některým případům považují za postačující takovéto namapování problému, neboť pod ikonami se skrývají analytické karty s vybranými dokumenty. Hypotézy a závěry si chtějí učinit sami.

Závěrečnou fází je pak syntetické zobrazení pouze hlavních vztahů (s rozlišením prokázaných a hypotetických). Atributem této fáze je vysoká zodpovědnost.

Závěr

Příspěvek se pokusil předvést práci analytika (se zaměřením na potřebné dovednosti) nad otevřenými informačními zdroji (Hospodářské noviny, Ekonom, Obchodní věstník) pomocí nejmodernějších fulltextových a vizualizačních technologií, včetně jejich vzájemného propojení.

Základem této práce je formulace víceúrovňového analytického dotazu, i když pro ad hoc dotazy (resp. pro dotazy v časové tísni) lze použít i jednoúrovňový vážený dotaz příp. jednoduchý dotaz.

Víceúrovňový analytický dotaz potom nemusí sloužit pouze pro vyhledávání, ale s výhodou jej lze použít též pro konsolidace naměřených hodnot do kalendáře a kontextové analýzy.

Týž dotaz může být také podkladem k filtraci dat pro vztahové analýzy. U nich je pak třeba rozlišovat tři základní fáze zpracování a v diagramech potom odlišit zejména prokázané vazby od hypotetických. Součástí diagramu musí být též klíčové dokumenty, uložené v analytických kartách pod ikonami.

Při vztahových analýzách si analytik musí být vědom jak vysoké zodpovědnosti, tak možné nebezpečnosti takové práce.


 

Logo STUDIO aha! Grafický design 
© 2001 Studio aha!
Digital Art Studio Úvodní animace 
© 2001 Digital Art Studio

Copyright © 2001 Albertina icome Praha s.r.o.
INFORUM® a IN® jsou registrované obchodní známky.
Všechna práva vyhrazena. Na vaše připomínky se těší webmaster. Aktualizováno 27.05.2001