Přejít na obsah

Detail publikace

Citace

Byrne, W. and Doerman, D. and Franz, M. and Gustman, S. and Hajič, J. and Oard, D. and Picheny, M. and Psutka, J. and Ramabhadran, B. and Soergel, D. and Ward, T. and Zhu, W. : Automatic recognition of spontaneous speech for access to multilingual oral history archives . IEEE transactions on speech and audio processing, vol. 4, p. 420-435, 2004.

Abstrakt

The paper presents initial results from experiments with speech recognition, topic segmentation, topic categorization, and named entity detection using a large collection of recorded oral histories. The work leverages a massive manual annotation effort on 10 000 h of spontaneous speech to evaluate the degree to which automatic speech recognition (ASR)-based segmentation and categorization techniques can be adapted to approximate decisions made by human annotators. ASR word error rates near 40% were achieved for both English and Czech for heavily accented, emotional and elderly spontaneous speech based on 65-84 h of transcribed speech. Topical segmentation based on shifts in the recognized English vocabulary resulted in 80% agreement with manually annotated boundary positions at a 0.35 false alarm rate. Categorization was considerably more challenging, with a nearestneighbor technique yielding F = 03.

Abstrakt v češtině

Je známo mnoho o návrhu automatických systémů rozpoznávání rozhlasových zpráv, ale pouze nedávno se stalo možné aplikovat podobné postupy na velké soubory spontánní řeči. Tento článek uvádí počáteční výsledky experimentů s rozpoznáváním řeči, segmentací tématu výpovědi, kategorizací tématu a s detekcí dalších entit při zpracování velkého souboru zaznamenaných hlasových výpovědí o historii. Práce investuje masivní anotační úsilí na zpracování 10 000 hodin spontánní řeči, aby bylo možno ohodnotit stupeň, pro nějž mohou být přizpůsobeny segmentační a kategorizační techniky založené na automatickém rozpoznávání řeči tak, aby aproximovaly rozhodovací činnost lidských anotátorů. Výsledky chybovosti systémů rozpoznávání řeči blízké 40% byly dosaženy jak pro angličtinu, tak pro češtinu, a to v úloze, kdy jde o spontánní řeč charakteristickou velkým akcentem a emocionalitou lidí pokročilejšího věku. Řečový materiál pro trénování systémů byl 65 až 84 hodin přepsané řeči.

Detail publikace

Název: Automatic recognition of spontaneous speech for access to multilingual oral history archives
Autor: Byrne, W. ; Doerman, D. ; Franz, M. ; Gustman, S. ; Hajič, J. ; Oard, D. ; Picheny, M. ; Psutka, J. ; Ramabhadran, B. ; Soergel, D. ; Ward, T. ; Zhu, W.
Název - česky: Automatické rozpoznávání spontánní řeči pro přístup do mnohajazykového řečového archivu výpovědí o historii
Jazyk publikace: anglicky
Datum vydání: 1.1.2004
Rok vydání: 2004
Typ publikace: Článek z časopisu
Název časopisu / knihy: IEEE transactions on speech and audio processing
Číslo vydání: 4
Strana: 420 - 435
ISBN: 1063-6676
/ /

Klíčová slova

Automatic speech recognition (ASR), information retrieval, multilingual ASR, oral history, spoken document retrieval, spontaneous speech.

Klíčová slova v češtině

Automatické rozpoznávání řeči (ASR), vyhledávání informací, výcejazyčné ASR, vyhledávání mluvných dokumentů, spontánní řeč.

BibTeX

@ARTICLE{ByrneW_2004_Automaticrecognition,
 author = {Byrne, W. and Doerman, D. and Franz, M. and Gustman, S. and Haji\v{c}, J. and Oard, D. and Picheny, M. and Psutka, J. and Ramabhadran, B. and Soergel, D. and Ward, T. and Zhu, W.},
 title = {Automatic recognition of spontaneous speech for access to multilingual oral history archives},
 year = {2004},
 journal = {IEEE transactions on speech and audio processing},
 volume = {4},
 pages = {420-435},
 ISBN = {1063-6676},
 url = {http://www.kky.zcu.cz/en/publications/ByrneW_2004_Automaticrecognition},
}