Publikace
Detail publikace
Citace
p. 64-71, Springer, Heidelberg, 2011. : Automatic Topic Identification for Large Scale Language Modeling Data Filtering . Text, Speech and Dialogue, Lecture Notes in Computer Science, vol. 6836,
PDF ke stažení
Další informace
Abstrakt
The paper presents a module for topic identification that is embedded into a complex system for acquisition and storing large volumes of text data from the Web. The module processes each of the acquired data items and assigns keywords to them from a defined topic hierarchy that was developed for this purposes and is also described in the paper. The quality of the topic identification is evaluated in two ways - using classic precision-recall measures and also indirectly, by measuring the ASR performance of the topic-specific language models that are built using the automatically filtered data.
Abstrakt v češtině
Tento článek představuje modul pro identifikaci tématu, který je součástí komplexního systému pro získávání, zpracování a ukládání velkého množství textových dat z webových stránek. Modul zpracovává získaná data a přiřazuje jim klíčová slova z hierarchie témat, která byla vytvořena pro tyto účely. Kvalita identifikace tématu je vyhodnocena dvěma způsoby - za použití klasických měr přesnosti a úplnosti, ale také nepřímo, měřením úspěšnosti ASR systému s použitím tématicky orientovaných jazykových modelů vytvořených z takto automaticky filtrovaných dat.
Detail publikace
Název: | Automatic Topic Identification for Large Scale Language Modeling Data Filtering |
---|---|
Autor: | Skorkovská, L. ; Ircing, P. ; Pražák, A. ; Jan Lehečka |
Název - česky: | Automatická identifikace tématu pro filtraci velkého množství dat pro jazykové modelování |
Jazyk publikace: | anglicky |
Datum vydání: | 1.9.2011 |
Rok vydání: | 2011 |
Typ publikace: | Článek z časopisu |
Název časopisu / knihy: | Text, Speech and Dialogue |
Svazek: | Lecture Notes in Computer Science |
Číslo vydání: | 6836 |
Strana: | 64 - 71 |
ISBN: | 978-3-642-23537-5 |
ISSN: | 0302-9743 |
Nakladatel: | Springer |
Místo vydání: | Heidelberg |
Datum: | 1.9.2011 - 5.9.2011 |
Klíčová slova
topic identification, language modeling, automatic speech recognition
Klíčová slova v češtině
identifikace tématu, jazykové modelování, automatické rozpoznávání řeči
BibTeX
@ARTICLE{SkorkovskaL_2011_AutomaticTopic, author = {Skorkovsk\'{a}, L. and Ircing, P. and Pra\v{z}\'{a}k, A. and Jan Lehe\v{c}ka}, title = {Automatic Topic Identification for Large Scale Language Modeling Data Filtering}, year = {2011}, publisher = {Springer}, journal = {Text, Speech and Dialogue}, address = {Heidelberg}, volume = {6836}, pages = {64-71}, series = {Lecture Notes in Computer Science}, ISBN = {978-3-642-23537-5}, ISSN = {0302-9743}, url = {http://www.kky.zcu.cz/en/publications/SkorkovskaL_2011_AutomaticTopic}, }