Publikace
Detail publikace
Citace
p. 420-435, 2004. : Automatic recognition of spontaneous speech for access to multilingual oral history archives . IEEE transactions on speech and audio processing, vol. 4,
Abstrakt
The paper presents initial results from experiments with speech recognition, topic segmentation, topic categorization, and named entity detection using a large collection of recorded oral histories. The work leverages a massive manual annotation effort on 10 000 h of spontaneous speech to evaluate the degree to which automatic speech recognition (ASR)-based segmentation and categorization techniques can be adapted to approximate decisions made by human annotators. ASR word error rates near 40% were achieved for both English and Czech for heavily accented, emotional and elderly spontaneous speech based on 65-84 h of transcribed speech. Topical segmentation based on shifts in the recognized English vocabulary resulted in 80% agreement with manually annotated boundary positions at a 0.35 false alarm rate. Categorization was considerably more challenging, with a nearestneighbor technique yielding F = 03.
Abstrakt v češtině
Je známo mnoho o návrhu automatických systémů rozpoznávání rozhlasových zpráv, ale pouze nedávno se stalo možné aplikovat podobné postupy na velké soubory spontánní řeči. Tento článek uvádí počáteční výsledky experimentů s rozpoznáváním řeči, segmentací tématu výpovědi, kategorizací tématu a s detekcí dalších entit při zpracování velkého souboru zaznamenaných hlasových výpovědí o historii. Práce investuje masivní anotační úsilí na zpracování 10 000 hodin spontánní řeči, aby bylo možno ohodnotit stupeň, pro nějž mohou být přizpůsobeny segmentační a kategorizační techniky založené na automatickém rozpoznávání řeči tak, aby aproximovaly rozhodovací činnost lidských anotátorů. Výsledky chybovosti systémů rozpoznávání řeči blízké 40% byly dosaženy jak pro angličtinu, tak pro češtinu, a to v úloze, kdy jde o spontánní řeč charakteristickou velkým akcentem a emocionalitou lidí pokročilejšího věku. Řečový materiál pro trénování systémů byl 65 až 84 hodin přepsané řeči.
Detail publikace
Název: | Automatic recognition of spontaneous speech for access to multilingual oral history archives |
---|---|
Autor: | Byrne, W. ; Doerman, D. ; Franz, M. ; Gustman, S. ; Hajič, J. ; Oard, D. ; Picheny, M. ; Psutka, J. ; Ramabhadran, B. ; Soergel, D. ; Ward, T. ; Zhu, W. |
Název - česky: | Automatické rozpoznávání spontánní řeči pro přístup do mnohajazykového řečového archivu výpovědí o historii |
Jazyk publikace: | anglicky |
Datum vydání: | 1.1.2004 |
Rok vydání: | 2004 |
Typ publikace: | Článek z časopisu |
Název časopisu / knihy: | IEEE transactions on speech and audio processing |
Číslo vydání: | 4 |
Strana: | 420 - 435 |
ISBN: | 1063-6676 |
Klíčová slova
Automatic speech recognition (ASR), information retrieval, multilingual ASR, oral history, spoken document retrieval, spontaneous speech.
Klíčová slova v češtině
Automatické rozpoznávání řeči (ASR), vyhledávání informací, výcejazyčné ASR, vyhledávání mluvných dokumentů, spontánní řeč.
BibTeX
@ARTICLE{ByrneW_2004_Automaticrecognition, author = {Byrne, W. and Doerman, D. and Franz, M. and Gustman, S. and Haji\v{c}, J. and Oard, D. and Picheny, M. and Psutka, J. and Ramabhadran, B. and Soergel, D. and Ward, T. and Zhu, W.}, title = {Automatic recognition of spontaneous speech for access to multilingual oral history archives}, year = {2004}, journal = {IEEE transactions on speech and audio processing}, volume = {4}, pages = {420-435}, ISBN = {1063-6676}, url = {http://www.kky.zcu.cz/en/publications/ByrneW_2004_Automaticrecognition}, }