Program

Přehled příspěvků podle jmen autorů

Prezentace kulturního dědictví: integrace - agregace - kontextualizace
Koordinátor: Zdeněk Uhlíř,  Národní knihovna ČR, Praha
Kdy a kde: 25. 5. 2004, 14:00 - 17:00, Posluchárna D

ACT - počítačové zpracování psaného kulturního dědictví

Autor: Kiril Ribarov,  Univerzita Karlova - Ústav formální a aplikované lingvistiky, Praha

Spoluautoři: Jiří Bubník, Jiří Čelák, Vojtěch Janota, Alexandr Kára, Václav Novák, Tomáš Vondra, Matematicko-fyzikální fakulta UK

Plné texty

Soubor PDF  Soubor PDF

Abstrakt

Cílem této práce je prezentace nástroje ACT (Annotated Corpora of Text) - skupina modulů pro lexikální a korpusové zpracování (evropských) psaných kulturních památek.

ACT umožňuje zpracování jazykových variant vyskytujících se na různých jazykových úrovních, např. slovních nebo větných. Centrální jednotkou není povrchová slovní forma z rukopisů, nýbrž množina jejich možných interpretací/rozepisování. Každá rozepsaná jednotka může být označkována morfologickými značkami, heslovými slovy (i různých redakcí), překladovými ekvivalenty, komplexy (víceslovné celky), a korelacemi s jinými zdroji. ACT umožňuje definice vlastních třídění a vlastních morfologických značek; značkování je na všech úrovních automatizováno.

ACT dále umožňuje:

  • komplexní vyhledávání přes jeden či více zdrojů
  • vytváření různých dokumentů jako index verborum, retrográdní indexy, indexy konkordancí, frekvenční indexy a jiné, z jednoho či více zdrojů v nejběžnějších výstupních formátech
  • on-line přístup k textům a obrázkům pomocí www stránky (ACT-Web)

Značkování lze provádět i v tzv. "odlehčené" verzi (ACT-light), která umožňuje off-line práci s vybranou množinou dokumentů.

Poslední z modulů je ACT-Distiller, nástroj pro převádění lexikálních kartotéčních lístků do korpusu; implementovaný algoritmus pro vázání kontextů umožňuje zpětnou rekonstrukci původních textů.

Věříme, že systém přispěje k vybudování kontextualizovaného a inteligentního informačního rámce pro zpracování psaných kulturních zdrojů. ACT je v současné době používán pro zpracování staroslověnských a církevněslovanských rukopisů.

O autorovi

RNDr. Kiril Ribarov se narodil 1971 v Ochridu v Makedonii. Své studium započal v roce 1989 na Elektrotechnické fakultě ve Skopji v Makedonii. Od r. 1992 působí v České republice. V roce 1996 ukončil studium informatiky na Matematicko-fyzikální fakultě na Karlově univerzitě v Praze (UK). Od r. 1996 se specializuje na matematickou lingvistiku a pracuje v Ústavu formální a aplikované lingvistiky, dále pak v Centru komputační lingvistiky UK. Je vyučujícím na Matematicko-fyzikální fakultě UK, externím vyučujícím na Českém vysokém učení technickém a na Anglo-americké vysoké škole v Praze. Jeho publikace se týkají oblasti automatických metod zpracování přirozeného jazyka, oblasti počítačového zpracování psaného kulturního dědictví a vztahů nelineárních systému a přirozeného jazyka. Je autorem koncepce počítačového zpracování textů staroslověnských a církevněslovanských památek, pomocí které vznikl první anotovaný korpus zmíněných rukopisů. Od roku 2003 spolupředsedá Komisi pro počítačové zpracování středověkých rukopisů a prvotisků při Mezinárodním komitétu slavistů.


Ostatní příspěvky v sekci:

Soumrak knihovny

Autor: Torsten Schaßan, University of Cologne, Německo


Vize sémantických procesů - aktuální trendy

Autor: Nerutė Kligienė, Institute of Mathematics and Informatics, Litva


Konceptuální rámec virtuálního badatelského prostředí

Autor: Zdeněk Uhlíř, Národní knihovna ČR, Praha


Manusriptorium - základ virtuálního badatelského prostředí

Autor: Stanislav Psohlavec, AiP Beroun s.r.o., Beroun


Digitalizační centrum Akademie věd ČR

Autor: Martin Lhoták, Knihovna Akademie věd ČR, Praha


Zpět na program