Přejít na obsah

Detail publikace

Citace

Kanis, J. and Müller, L. : Automatic lemmatizer construction with focus on OOV words lemmatization . Lecture Notes in Artificial Intelligence, Lecture notes in artificial intelligence, no. 3658, 3658, p. 132-139, Springer, Berlin, 2005.

PDF ke stažení

PDF

Abstrakt

This paper deals with the automatic construction of a lemmatizer from a Full Form - Lemma (FFL) training dictionary and with lemmatization of new, in the FFL dictionary unseen, i.e. out-of-vocabulary (OOV) words. Three methods of lemmatization of three kinds of OOV words (missing full forms, unknown words, and compound words) are introduced. These methods were tested on Czech test data. The best result (recall: 99.3 % and precision: 75.1 %) has been achieved by a combination of these methods. The lexicon-free lemmatizer based on the method of lemmatization of unknown words (lemmatization patterns method) is introduced too.

Abstrakt v češtině

Tento článek se zabývá automatickou konstrukcí lematizátoru z Plný tvar - Lema trénovacího slovníku a lematizací nových, v trénovacím slovníku neviděných, tj. OOV slov. Jsou představeny tři metody pro lematizaci tří různých typů OOV slov (chybějící plné tvary, složená a neznámá slova). Tyto metody byly testovány pro češtinu a nejlepší výsledek dosažený jejich kombinací je precision: 99.3 % a recall: 75.1 %. Dále je také představen bezslovníkový lematizátor založený na metodě pro lematizaci neznámých slov (lematizace pomocí vzorů).

Detail publikace

Název: Automatic lemmatizer construction with focus on OOV words lemmatization
Autor: Kanis, J. ; Müller, L.
Název - česky: Automatická konstrukce lematizátoru se zaměřením na lematizaci OOV slov
Jazyk publikace: anglicky
Datum vydání: 12.9.2005
Rok vydání: 2005
Typ publikace: Článek z časopisu
Název časopisu / knihy: Lecture Notes in Artificial Intelligence
Edice: Lecture notes in artificial intelligence, no. 3658
Svazek: 3658
Strana: 132 - 139
ISBN: 0302-9743
ISSN: 0302-9743
Nakladatel: Springer
Místo vydání: Berlin
Datum: 12.9.2005 - 16.9.2005
/ 2012-05-25 14:30:58 /

Klíčová slova

lemmatization, OOV words

Klíčová slova v češtině

lematizace, OOV slova

BibTeX

@ARTICLE{KanisJ_2005_Automaticlemmatizer,
 author = {Kanis, J. and M\"{u}ller, L.},
 title = {Automatic lemmatizer construction with focus on OOV words lemmatization},
 year = {2005},
 publisher = {Springer},
 journal = {Lecture Notes in Artificial Intelligence},
 address = {Berlin},
 pages = {132-139},
 series = {3658},
 ISBN = {0302-9743},
 ISSN = {0302-9743},
 url = {http://www.kky.zcu.cz/en/publications/KanisJ_2005_Automaticlemmatizer},
}