Přejít na obsah

Detail publikace

Citace

Psutka, J. and Psutka Josef V. and Müller, L. and Matoušek, J. and Radová, V. and Ircing, P. : Russian Malach Speech Corpus . Katedra kybernetiky, Fakulta aplikovaných věd, Západočeská univerzita v Plzni, Johns Hopkins Univ. v Baltimore, Shoah Visual History Foundation, 2005.

Abstrakt

Visual History Foundation collected recently at least 52 thousand testimonies of holocaust survivors pronounced at 32 different languages. The Russian collection is created by about 7050 testimonies with the total length of about 16,000 hours. The corresponding Russian Malach Speech Corpus was annotated with the goal to build the large vocabulary continuous speech recognition system. For this purpose it was selected and manually transcribed 400 15-minute speech segments of individual speakers (for training purposes) and whole testimonies of 10 different survivors (about 25 hours of speech) for tests. All manual annotations were performed in the orthographic form of the words.

Abstrakt v češtině

Visual History Foundation shromáždila v minulých létech cca 52 tisíc výpovědí svědků holocaustu namluvených ve 32 jazycích. Ruských výpovědí je k dispozici cca 7 050 s celkovou délkou asi 16 000 hodin. Korpus ruských výpovědí projektu Malach byl připraven pro konstrukci systému automatického rozpoznávání spontánní řeči, který bude využit pro automatické hledání klíčových slov a topiků ve výpovědích. Pro trénování systému bylo zpracováno a speciálním způsobem anotováno celkem 400 patnáctiminutových segmentů výpovědí (celkem 100 hodin), pro testy bylo zpracováno 10 celých výpovědí od různých řečníků (celkem cca 25 hodin). Všechny manuální anotace byly provedeny v ortografickém tvaru slov.

Detail publikace

Název: Russian Malach Speech Corpus
Autor: Psutka, J. ; Psutka Josef V. ; Müller, L. ; Matoušek, J. ; Radová, V. ; Ircing, P.
Název - česky: Anotovaný korpus ruských výpovědí svědků holocaustu
Jazyk publikace: anglicky
Datum vydání: 1.1.2005
Rok vydání: 2005
Typ publikace: Prototyp, uplatněná metodika, autorizovaný software
Nakladatel: Katedra kybernetiky, Fakulta aplikovaných věd, Západočeská univerzita v Plzni, Johns Hopkins Univ. v Baltimore, Shoah Visual History Foundation
/ 2011-06-09 12:43:12 /

Klíčová slova

Russian spontaneous speech corpus, large vocabulary continuous speech recognition

Klíčová slova v češtině

korpus ruské spontánní řeči, rozpoznávání souvislé řeči s velkým slovníkem

BibTeX

@MISC{PsutkaJ_2005_RussianMalachSpeech,
 author = {Psutka, J. and Psutka Josef V. and M\"{u}ller, L. and Matou\v{s}ek, J. and Radov\'{a}, V. and Ircing, P.},
 title = {Russian Malach Speech Corpus},
 year = {2005},
 publisher = {Katedra kybernetiky, Fakulta aplikovan\'{y}ch v\v{e}d, Z\'{a}pado\v{c}esk\'{a} univerzita v Plzni, Johns Hopkins Univ. v Baltimore, Shoah Visual History Foundation},
 url = {http://www.kky.zcu.cz/en/publications/PsutkaJ_2005_RussianMalachSpeech},
}