Přejít na obsah

Detail publikace

Citace

Kolář, J. and Švec, J. and Psutka, J. : Automatic punctuation annotation in Czech broadcast news speech . SPECOM´2004, p. 319-325, SPIIRAS, Saint-Petersburg, 2004.

PDF ke stažení

PDF

Abstrakt

This paper reports our initial experiments with automatic punctuation annotation from speech. We have focused on Czech broadcast news speech. We employed two statistical models - prosodic model and language model. The prosodic model expresses relationships between prosodic quantities (such as pitch, speaking rate or loudness) and punctuation marks. We tested two implementations of this model -- decision tree and multi-layer perceptron. Hidden-event N-gram models were employed for language modeling. Instead of using an ordinary word-based model, we replaced infrequent word forms by their morphological tags and trained a mixed model. Scores from both models can be combined. The model combining language model with the decision tree yielded superior results. Testing on true words we achieved classification accuracy 95.2% and F-measure 78.2%.

Abstrakt v češtině

Tento článek se zabývá našimi počátečními experimenty s automatickou anotací interpunkce v mluvené češtině. Použili jsme 2 statistické modely - prozodický a jazykový. Byly otestovány 2 implementace prozodického modelu - CART a MLP. Pro jazykové modelováni byl použit N-gramový model se skrytými událostmi. Kombinovaný model dosáhl na referenčních přepisech přesnosti 95.2% a F-measure 78.2%.

Detail publikace

Název: Automatic punctuation annotation in Czech broadcast news speech
Autor: Kolář, J. ; Švec, J. ; Psutka, J.
Název - česky: Automatická anotace interpunkce v řečových nahrávkách českých zpráv
Jazyk publikace: anglicky
Datum vydání: 20.9.2004
Rok vydání: 2004
Typ publikace: Stať ve sborníku
Název časopisu / knihy: SPECOM´2004
Strana: 319 - 325
ISBN: 5-7452-0110-X
Nakladatel: SPIIRAS
Místo vydání: Saint-Petersburg
Datum: 20.9.2004 - 22.9.2004
/ 2008-04-18 14:21:45 /

Klíčová slova

automatic punctuation, prosody, hidden-event n-gram model, sentence boundary, broadcast news, tag-based models

Klíčová slova v češtině

automatická interpunkce, prozódie, prosodie, hranice vět, rozhlasové zprávy, morfologické značkování

BibTeX

@INPROCEEDINGS{KolarJ_2004_Automaticpunctuation,
 author = {Kol\'{a}\v{r}, J. and \v{S}vec, J. and Psutka, J.},
 title = {Automatic punctuation annotation in Czech broadcast news speech},
 year = {2004},
 publisher = {SPIIRAS},
 journal = {SPECOM?2004},
 address = {Saint-Petersburg},
 pages = {319-325},
 ISBN = {5-7452-0110-X},
 url = {http://www.kky.zcu.cz/en/publications/KolarJ_2004_Automaticpunctuation},
}