Publikace
Detail publikace
Citace
Katedra kybernetiky, fakulta aplikovaných věd, Západočeská univerzita v Plzni (práva k šíření předána Linguistic Data Consortium, University of Pe, 2004. : Czech Broadcast News Corpus .
Abstrakt
There are 286 transcripts, corresponding to the 286 audio files (approximately 50 hours of broadcast news). The transcripts contain approximately 196K words and 27K unique words. The news does not contain weather forecasts, sports news, or traffic announcements. The transcripts were created by native Czech speakers working at the Department of Cybernetics, University of West Bohemia in Pilsen, under the direction of Vlasta Radova. The transcription was done using software provided by the LDC (Transcriber 1.4.1). Those parts of the audio recordings that do not contain speech or where the signal was disrupted were not transcribed. As a consequence, the corpus contains about 23 hours of transcribed speech. The transcriptions are provided both in the ISO-8859-2 and Windows-1250 character set.
Abstrakt v češtině
Softwarový produkt obsahuje 286 audio záznamů (přibližně 50 hodin rozhlasového a televizního vysílání zpráv). Transkripty obsahují přibližně 196k běžných slov a 27k slov ve slovníku. Záznamy neobsahují předpovědi počasí, sportovní zprávy a dopravní hlášení. Transkripty byly vytvořeny na katedře kybernetiky, Západočeské univerzity v Plzni, pod vedením Vlasty Radové. Transkripce byly provedeny manuální anotací využitím speciálního software opatřeného Linguistic Data Consortium (Transcriber 1.4.1). Ty části audiozáznamů, které neobsahují řeč anebo kde je signál zarušen, nebyly transkribovány. V důsledku toho obsahuje korpus asi 23 hodin řeči. Transkripty jsou opatřeny pro znakové sady ISO-8859-2 a Windows-1250.
Detail publikace
Název: | Czech Broadcast News Corpus |
---|---|
Autor: | Radová, V. ; Psutka, J. ; Psutka Josef V. ; Müller, L. ; Ircing, P. ; Matoušek, J. ; Byrne, W. |
Název - česky: | Český korpus rozhlasových a televizních zpráv |
Jazyk publikace: | anglicky |
Datum vydání: | 1.1.2004 |
Rok vydání: | 2004 |
Typ publikace: | Prototyp, uplatněná metodika, autorizovaný software |
Nakladatel: | Katedra kybernetiky, fakulta aplikovaných věd, Západočeská univerzita v Plzni (práva k šíření předána Linguistic Data Consortium, University of Pe |
Klíčová slova
speech corpus, large vocabulary continuous speech recognition, acoustic modeling
BibTeX
@MISC{RadovaV_2004_CzechBroadcastNews_2, author = {Radov\'{a}, V. and Psutka, J. and Psutka Josef V. and M\"{u}ller, L. and Ircing, P. and Matou\v{s}ek, J. and Byrne, W.}, title = {Czech Broadcast News Corpus}, year = {2004}, publisher = {Katedra kybernetiky, fakulta aplikovan\'{y}ch v\v{e}d, Z\'{a}pado\v{c}esk\'{a} univerzita v Plzni (pr\'{a}va k \v{s}\'{i}\v{r}en\'{i} p\v{r}ed\'{a}na Linguistic Data Consortium, University of Pe}, url = {http://www.kky.zcu.cz/en/publications/RadovaV_2004_CzechBroadcastNews_2}, }