Přejít na obsah

Detail publikace

Citace

Jakub Kanis and Lucie Skorkovská : Comparison of Different Lemmatization Approaches through the Means of Information Retrieval Performance . Lecture Notes in Artificial Intelligence, LNAI, vol. 2010, p. 93-100, Springer, Heidelberg, 2010.

PDF ke stažení

PDF

Abstrakt

This paper presents a quantitative performance analysis of two different approaches to the lemmatization of the Czech text data. The first one is based on manually prepared dictionary of lemmas and set of derivation rules while the second one is based on automatic inference of the dictionary and the rules from training data. The comparison is done by evaluating the mean Generalized Average Precision (mGAP) measure of the lemmatized documents and search queries in the set of information retrieval (IR) experiments. Such method is suitable for efficient and rather reliable comparison of the lemmatization performance since a correct lemmatization has proven to be crucial for IR effectiveness in highly inflected languages. Moreover, the proposed indirect comparison of the lemmatizers circumvents the need for manually lemmatized test data which are hard to obtain and also face the problem of incompatible sets of lemmas across different systems.

Abstrakt v češtině

Tento článek prezentuje kvantitativní porovnání dvou různých přístupů k lematizaci českého textu. První přístup je založen na použití ručně vytvořeného slovníku lemmat a množiny derivačních pravidel a druhý pak na automatickém odvození slovníku a pravidel z trénovacích dat. Porovnání je provedeno vyhodnocením míry střední zobecněné průměrné přesnosti (angl. mean Generalized Average Precision - mGAP) lematizovaných dokumentů a hledaných dotazů v sérii experimentů zaměřených na vyhledávání informací. Taková to metoda je vhodná pro efektivní a spolehlivé porovnání výkonnosti lematizace, neboť jak bylo prokázáno, správná lematizace je rozhodujícím faktorem při efektivním vyhledávání informací ve vysoce inflektivních jazycích. Navrhované nepřímé porovnání lematizátorů navíc obchází nutnost existence obtížně získatelných ručně lematizovaných testovacích dat a také řeší problém nekompatibilních množin lemmat napříč různými systémy.

Detail publikace

Název: Comparison of Different Lemmatization Approaches through the Means of Information Retrieval Performance
Autor: Jakub Kanis ; Lucie Skorkovská
Název - česky: Porovnání různých lematizačních přístupů prostřednictvím výkonnosti při vyhledávání informací
Jazyk publikace: anglicky
Datum vydání: 1.9.2010
Rok vydání: 2010
Typ publikace: Článek z časopisu
Název časopisu / knihy: Lecture Notes in Artificial Intelligence
Svazek: LNAI
Číslo vydání: 2010
Strana: 93 - 100
ISSN: 0302-9743
Nakladatel: Springer
Místo vydání: Heidelberg
/ 2012-05-25 14:28:41 /

Klíčová slova

lemmatization, information retrieval

Klíčová slova v češtině

lematizace, vyhledávání informací

BibTeX

@ARTICLE{JakubKanis_2010_Comparisonof,
 author = {Jakub Kanis and Lucie Skorkovsk\'{a}},
 title = {Comparison of Different Lemmatization Approaches through the Means of Information Retrieval Performance},
 year = {2010},
 publisher = {Springer},
 journal = {Lecture Notes in Artificial Intelligence},
 address = {Heidelberg},
 volume = {2010},
 pages = {93-100},
 series = {LNAI},
 ISSN = {0302-9743},
 url = {http://www.kky.zcu.cz/en/publications/JakubKanis_2010_Comparisonof},
}