Publikace
Detail publikace
Citace
p. 3562-3566, 2017. : Speaker Diarization Using Convolutional Neural Network for Statistics Accumulation Refinement . Interspeech, 18th Annual Conference of the International Speech Communication Association,
PDF ke stažení
Abstrakt
The aim of this paper is to investigate the benefit of information from a speaker change detection system based on Convolutional Neural Network (CNN) when applied to the process of accumu- lation of statistics for an i-vector generation. The investigation is carried out on the problem of diarization. In our system, the output of the CNN is a probability value of a speaker change in a conversation for a given time segment. According to this probability, we cut the conversation into short segments that are then represented by the i-vector (to describe a speaker in it). We propose a technique to utilize the information from the CNN for the weighting of the acoustic data in a segment to refine the statistics accumulation process. This technique enables us to represent the speaker better in the final i-vector. The experi- ments on the English part of the CallHome corpus show that our proposed refinement of the statistics accumulation is beneficial with the relative improvement of Diarization Error Rate almost by 16 % when compared to the speaker diarization system with- out statistics refinement.
Abstrakt v češtině
Cílem této práce je vyšetřit vlil informace z konvoluční neuronové sítě (CNN) při akumulaci statistik pro odhad i-vektoru. Výstup CNN použité v našem disrizačním systému je pravděpodobnost změny řečnáíka ve vstupní nahrávce. Nahrávku rozdělíme v místech signifikantních změn, navíc je informace z CNN využita pro vážení vlivu statistik. Tato technika umožňuje lépe popsat řečníka v daném segmentu nahrávky, zlepšení EER bylo až 16% relativně oproti původnímu systému.
Detail publikace
Název: | Speaker Diarization Using Convolutional Neural Network for Statistics Accumulation Refinement |
---|---|
Autor: | Zajic Zbynek ; Hruz Marek ; Muller Ludek |
Název - česky: | Diarizace pomocí konvoliční neuronové sítě s vylepšenou akumulací statistik |
Jazyk publikace: | anglicky |
Rok vydání: | 2017 |
Typ publikace: | Prezentace na kongresech a seminářích v zahraničí |
Název časopisu / knihy: | Interspeech, 18th Annual Conference of the International Speech Communication Association |
Strana: | 3562 - 3566 |
DOI: | 10.21437/Interspeech.2017-51 |
Klíčová slova
Convolutional Neural Network, Speaker Change Detection, Speaker Diarization, i-vector, Statistics Accumulation
Klíčová slova v češtině
konvoluční neuronová siť, detekce změny řečníka, i-vektor, diarizace, akumulace statistik
BibTeX
@INPROCEEDINGS{ZajicZbynek_2017_SpeakerDiarization, author = {Zajic Zbynek and Hruz Marek and Muller Ludek}, title = {Speaker Diarization Using Convolutional Neural Network for Statistics Accumulation Refinement}, year = {2017}, journal = {Interspeech, 18th Annual Conference of the International Speech Communication Association}, pages = {3562-3566}, doi = {10.21437/Interspeech.2017-51}, url = {http://www.kky.zcu.cz/en/publications/ZajicZbynek_2017_SpeakerDiarization}, }