Publikace
Detail publikace
Citace
Katedra kybernetiky, Fakulta aplikovaných věd, Západočeská univerzita v Plzni, Johns Hopkins University v Baltimore, Shoah Visual History Foundati, 2003. : Czech Malach Speech Corpus .
Abstrakt
Visual History Foundation collected recently at least 52 thousand testimonies of holocaust survivors pronounced at 32 different languages. The Czech collection is created by about 570 testimonies with the total length of about 1,200 hours. The corresponding Czech Malach Speech Corpus was annotated with the goal to build the large vocabulary continuous speech recognition system. For this purpose it was selected and manually transcribed 336 15-minute speech segments of individual speakers (for training purposes) and whole testimonies of 10 different survivors (about 20 hours of speech) for tests. All manual annotations were performed in the orthographic form of the words. This means that the eventual colloquial words were neither transformed to standard (formal, non-colloquial) forms nor written phonetically. Czech colloquial words are usually not considered to be phonetic variants of standard Czech words therefore they are written in their colloquial orthographic form.
Abstrakt v češtině
Visual History Foundation shromáždila v minulých létech cca 52 tisíc výpovědí svědků holocaustu namluvených ve 32 jazycích. Českých výpovědí je k dispozici cca 570 s celkovou délkou asi 1 200 hodin. Korpus českých výpovědí projektu Malach byl připraven pro konstrukci systému automatického rozpoznávání spontánní řeči, který bude využit pro automatické hledání klíčových slov a topiků ve výpovědích. Pro trénování systému bylo zpracováno a speciálním způsobem anotováno celkem 336 patnáctiminutových segmentů výpovědí (celkem 84 hodin), pro testy bylo zpracováno 10 celých výpovědí od různých řečníků (celkem cca 20 hodin). Všechny manuální anotace byly provedeny v ortografickém tvaru slov. Znamená to, že případná hovorová slova nebyla ani transformována do standardních (tj. nehovorových) tvarů ani nebyla zapsána foneticky. Hovorová slova nejsou v češtině obvykle uvažována, že jsou to fonetické varianty standardních českých slov, proto tato slova jsou zapsána ve svém ortografickém tvaru.
Detail publikace
Název: | Czech Malach Speech Corpus |
---|---|
Autor: | Psutka, J. ; Psutka, J. ; Radová, V. ; Ircing, P. ; Matoušek, J. ; Müller, L. |
Název - česky: | Anotovaný korpus českých výpovědí svědků holocaustu |
Jazyk publikace: | anglicky |
Datum vydání: | 1.1.2003 |
Rok vydání: | 2003 |
Typ publikace: | Prototyp, uplatněná metodika, autorizovaný software |
Nakladatel: | Katedra kybernetiky, Fakulta aplikovaných věd, Západočeská univerzita v Plzni, Johns Hopkins University v Baltimore, Shoah Visual History Foundati |
Klíčová slova
spontaneous speech corpus, large vocabulary continuous speech recognition
BibTeX
@MISC{PsutkaJ_2003_CzechMalachSpeech, author = {Psutka, J. and Psutka, J. and Radov\'{a}, V. and Ircing, P. and Matou\v{s}ek, J. and M\"{u}ller, L.}, title = {Czech Malach Speech Corpus}, year = {2003}, publisher = {Katedra kybernetiky, Fakulta aplikovan\'{y}ch v\v{e}d, Z\'{a}pado\v{c}esk\'{a} univerzita v Plzni, Johns Hopkins University v Baltimore, Shoah Visual History Foundati}, url = {http://www.kky.zcu.cz/en/publications/PsutkaJ_2003_CzechMalachSpeech}, }