Czech Malach Speech Corpus

Psutka, J.; Psutka, J.; Radová, V.; Ircing, P.; Matoušek, J.; Müller, L.

Publikace

Všechny publikace

Detail publikace

Citace

Psutka, J. and Psutka, J. and Radová, V. and Ircing, P. and Matoušek, J. and Müller, L. : Czech Malach Speech Corpus . Katedra kybernetiky, Fakulta aplikovaných věd, Západočeská univerzita v Plzni, Johns Hopkins University v Baltimore, Shoah Visual History Foundati, 2003.

Abstrakt

Visual History Foundation collected recently at least 52 thousand testimonies of holocaust survivors pronounced at 32 different languages. The Czech collection is created by about 570 testimonies with the total length of about 1,200 hours. The corresponding Czech Malach Speech Corpus was annotated with the goal to build the large vocabulary continuous speech recognition system. For this purpose it was selected and manually transcribed 336 15-minute speech segments of individual speakers (for training purposes) and whole testimonies of 10 different survivors (about 20 hours of speech) for tests. All manual annotations were performed in the orthographic form of the words. This means that the eventual colloquial words were neither transformed to standard (formal, non-colloquial) forms nor written phonetically. Czech colloquial words are usually not considered to be phonetic variants of standard Czech words therefore they are written in their colloquial orthographic form.

Abstrakt v češtině

Visual History Foundation shromáždila v minulých létech cca 52 tisíc výpovědí svědků holocaustu namluvených ve 32 jazycích. Českých výpovědí je k dispozici cca 570 s celkovou délkou asi 1 200 hodin. Korpus českých výpovědí projektu Malach byl připraven pro konstrukci systému automatického rozpoznávání spontánní řeči, který bude využit pro automatické hledání klíčových slov a topiků ve výpovědích. Pro trénování systému bylo zpracováno a speciálním způsobem anotováno celkem 336 patnáctiminutových segmentů výpovědí (celkem 84 hodin), pro testy bylo zpracováno 10 celých výpovědí od různých řečníků (celkem cca 20 hodin). Všechny manuální anotace byly provedeny v ortografickém tvaru slov. Znamená to, že případná hovorová slova nebyla ani transformována do standardních (tj. nehovorových) tvarů ani nebyla zapsána foneticky. Hovorová slova nejsou v češtině obvykle uvažována, že jsou to fonetické varianty standardních českých slov, proto tato slova jsou zapsána ve svém ortografickém tvaru.

Detail publikace

Název:	Czech Malach Speech Corpus
Autor:	Psutka, J. ; Psutka, J. ; Radová, V. ; Ircing, P. ; Matoušek, J. ; Müller, L.
Název - česky:	Anotovaný korpus českých výpovědí svědků holocaustu
Jazyk publikace:	anglicky
Datum vydání:	1.1.2003
Rok vydání:	2003
Typ publikace:	Prototyp, uplatněná metodika, autorizovaný software
Nakladatel:	Katedra kybernetiky, Fakulta aplikovaných věd, Západočeská univerzita v Plzni, Johns Hopkins University v Baltimore, Shoah Visual History Foundati

/ /

Klíčová slova

spontaneous speech corpus, large vocabulary continuous speech recognition

BibTeX

@MISC{PsutkaJ_2003_CzechMalachSpeech,
 author = {Psutka, J. and Psutka, J. and Radov\'{a}, V. and Ircing, P. and Matou\v{s}ek, J. and M\"{u}ller, L.},
 title = {Czech Malach Speech Corpus},
 year = {2003},
 publisher = {Katedra kybernetiky, Fakulta aplikovan\'{y}ch v\v{e}d, Z\'{a}pado\v{c}esk\'{a} univerzita v Plzni, Johns Hopkins University v Baltimore, Shoah Visual History Foundati},
 url = {http://www.kky.zcu.cz/en/publications/PsutkaJ_2003_CzechMalachSpeech},
}

Pozice katedry v rámci univerzity

Oddělení katedry

Publikace

Detail publikace

Citace

Abstrakt

Abstrakt v češtině

Detail publikace

Klíčová slova

BibTeX