Přejít na obsah

Detail publikace

Citace

Vaněk J. and Trmal J. and Psutka J. V. and Psutka J. : Optimized Acoustic Likelihoods Computation for NVIDIA and ATI/AMD Graphics Processors . IEEE TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 6, vol. 20, p. 1818-1828, Institute of Electrical and Electronics Engineers ( IEEE ), 2012.

Další informace


IEEEXplore Digital Library

Abstrakt

In this paper, we describe an optimized version of a Gaussian-mixture-based acoustic model likelihood evaluation algorithm for graphical processing units (GPUs). The evaluation of these likelihoods is one of the most computationally intensive parts of automatic speech recognizers, but it can be parallelized and offloaded to GPU devices. Our approach offers a significant speed-up over the recently published approaches, because it utilizes the GPU architecture in a more effective manner. All the recent implementations have been intended only for NVIDIA graphics processors, programmed either in CUDA or OpenCL GPU programming frameworks. We present results for both CUDA and OpenCL. Further, we have developed an OpenCL implementation optimized for ATI/AMD GPUs. Results suggest that even very large acoustic models can be used in real-time speech recognition engines on computers equipped with a low-end GPU or laptops. In addition, the completely asynchronous GPU management provides additional CPU resources for the decoder part of the LVCSR. The optimized implementation enables us to apply fusion techniques together with evaluating many (10 or even more) speaker-specific acoustic models. We apply this technique to a real-time parliamentary speech recognition system where the speaker changes frequently.

Abstrakt v češtině

V tomto článku je popsán výpočet pravděpodobností akustického modelu založeného na směsích Gausovských rozložení optimalizovaný pro grafické karty (GPU). Vyhodnocení těchto pravděpodobností patří k výpočetně nejnáročnějším částem systému automatického rozpoznávání řeči. Tato část však muže být paralelizována a výpočet přenesen na grafickou kartu počítače. Náš přístup přináší výrazné zrychlení oproti dříve publikovaným přístupům, jelikož využívá vlastností GPU procesoru mnohem efektivněji. Všechny dosud publikované přístupy byly určeny pouze pro karty NVIDIA, naprogramované pomocí technologií CUDA nebo OpenCL. V tomto článku prezentujeme výsledky pro obě tyto technologie. Navíc jsme vyvinuli také OpenCL variantu pro grafické karty ATI/AMD. Výsledky ukazují, že i ty největší akustické modely mohou být nyní použity v systémech pracujících v reálném čase a to i při použití levných grafických karet či na přenosných počítačích. Dále kompletně asynchronní zadávání výpočtu nezatěžuje CPU počítače a to je pak plně k dispozici pro výpočty ostatních částí systému rozpoznávání řeči. Tato optimalizovaná implementace nám umožňuje dokonce vyhodnocovat několik (10 i více) specifických akustických modelů najednou a kombinovat jejich výstupy. Tuto techniku jsme použili pro rozpoznávání řeči v reálném čase u přenosů z poslanecké sněmovny, kde se často mění řečníci.

Detail publikace

Název: Optimized Acoustic Likelihoods Computation for NVIDIA and ATI/AMD Graphics Processors
Autor: Vaněk J. ; Trmal J. ; Psutka J. V. ; Psutka J.
Název - česky: Oplimalizovaný výpočet pravděpodobností akustického modelu na grafických kartách NVIDIA a ATI/AMD
Jazyk publikace: anglicky
Datum vydání: 20.8.2012
Rok vydání: 2012
Typ publikace: Článek z časopisu
Název časopisu / knihy: IEEE TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING
Název kapitoly: 6
Číslo vydání: 20
Strana: 1818 - 1828
DOI: 10.1109/TASL.2012.2190928
ISSN: 1558-7916
Nakladatel: Institute of Electrical and Electronics Engineers ( IEEE )
/ 2014-11-12 12:24:33 /

Klíčová slova

Automatic speech recognition, parallel algorithms, parallel architectures, software performance, GPU, CUDA, OpenCL

Klíčová slova v češtině

automatické rozpoznávání řeči, paralelní algoritmy, paralelní architektury, GPU, CUDA, OpenCL

BibTeX

@ARTICLE{VanekJ_2012_OptimizedAcoustic,
 author = {Van\v{e}k J. and Trmal J. and Psutka J. V. and Psutka J.},
 title = {Optimized Acoustic Likelihoods Computation for NVIDIA and ATI/AMD Graphics Processors},
 year = {2012},
 publisher = {Institute of Electrical and Electronics Engineers ( IEEE )},
 journal = {IEEE TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING},
 volume = {20},
 pages = {1818-1828},
 chapter = {6},
 ISSN = {1558-7916},
 doi = {10.1109/TASL.2012.2190928},
 url = {http://www.kky.zcu.cz/en/publications/VanekJ_2012_OptimizedAcoustic},
}