Publikace
Detail publikace
Citace
: Exploiting linguistic knowledge in language modeling of Czech spontaneous speech . Proceedings of LREC 2006 , p. 2600-2603, ELRA, Paris, 2006.
Abstrakt
In our paper, we present a method for incorporating available linguistic information into a statistical language model that is used in ASR system for transcribing spontaneous speech. We employ the class-based language model paradigm and use the morphological tags as the basis for world-to-class mapping. Since the number of different tags is at least by one order of magnitude lower than the number of words even in the tasks with moderately-sized vocabularies, the tag-based model can be rather robustly estimated using even the relatively small text corpora. Unfortunately, this robustness goes hand in hand with restricted predictive ability of the class-based model. Hence we apply the two-pass recognition strategy, where the first pass is performed with the standard word-based n-gram and the resulting lattices are rescored in the second pass using the aforementioned class-based model.
Abstrakt v češtině
V článku představujeme metodu, která umožňuje využití lingvistické informace v jazykovém modelu, který je pak zapojen do systému rozpoznávání spontánní řeči. Využíváme přitom princip třídového jazykového modelu - pro rozdělení slov do tříd používáme morfologické značky. Vzhledem k tomu, že počet různých značek je minimálně o jeden řád nižší než počet různých slov ve slovníku středního rozsahu, značkový model může být robustně natrénován i z relativně malého množství dat. Bohužel, tato robustnost je vykoupena omezenou prediktivní silou třídového modelu. Proto aplikujeme dvouprůchodovou strategii rozpoznávání, kde první průchod je realizován s klasickým slovním n-gramem a výsledné mřížky jsou pak ve druhém průchodu reskórovány zmíněným třídovým modelem.
Detail publikace
| Název: | Exploiting linguistic knowledge in language modeling of Czech spontaneous speech |
|---|---|
| Autor: | Ircing, P. ; Hoidekr, J. ; Psutka, J. |
| Název - česky: | Využití lingvistických znalostí v jazykovém modelování spontánní mluvené češtiny |
| Jazyk publikace: | anglicky |
| Datum vydání: | 22.5.2006 |
| Rok vydání: | 2006 |
| Typ publikace: | Stať ve sborníku |
| Název časopisu / knihy: | Proceedings of LREC 2006 |
| Strana: | 2600 - 2603 |
| ISBN: | 2-9517408-2-4 |
| Nakladatel: | ELRA |
| Místo vydání: | Paris |
| Datum: | 22.5.2006 - 28.5.2006 |
Klíčová slova
speech recognition, language modeling, class-based language models
Klíčová slova v češtině
rozpoznávání řeči, jazykové modelování, třídové jazykové modely
BibTeX
@INPROCEEDINGS{IrcingP_2006_Exploitinglinguistic,
author = {Ircing, P. and Hoidekr, J. and Psutka, J.},
title = {Exploiting linguistic knowledge in language modeling of Czech spontaneous speech},
year = {2006},
publisher = {ELRA},
journal = {Proceedings of LREC 2006 },
address = {Paris},
pages = {2600-2603},
ISBN = {2-9517408-2-4},
url = {http://www.kky.zcu.cz/en/publications/IrcingP_2006_Exploitinglinguistic},
}


ZČU
