Zajic Zbynek and Hruz Marek and Muller Ludek : Speaker Diarization Using Convolutional Neural Network for Statistics Accumulation Refinement . Interspeech, 18th Annual Conference of the International Speech Communication Association, p. 3562-3566, 2017.

The aim of this paper is to investigate the benefit of information from a speaker change detection system based on Convolutional Neural Network (CNN) when applied to the process of accumu- lation of statistics for an i-vector generation. The investigation is carried out on the problem of diarization. In our system, the output of the CNN is a probability value of a speaker change in a conversation for a given time segment. According to this probability, we cut the conversation into short segments that are then represented by the i-vector (to describe a speaker in it). We propose a technique to utilize the information from the CNN for the weighting of the acoustic data in a segment to refine the statistics accumulation process. This technique enables us to represent the speaker better in the final i-vector. The experi- ments on the English part of the CallHome corpus show that our proposed refinement of the statistics accumulation is beneficial with the relative improvement of Diarization Error Rate almost by 16 % when compared to the speaker diarization system with- out statistics refinement.

Cílem této práce je vyšetřit vlil informace z konvoluční neuronové sítě (CNN) při akumulaci statistik pro odhad i-vektoru. Výstup CNN použité v našem disrizačním systému je pravděpodobnost změny řečnáíka ve vstupní nahrávce. Nahrávku rozdělíme v místech signifikantních změn, navíc je informace z CNN využita pro vážení vlivu statistik. Tato technika umožňuje lépe popsat řečníka v daném segmentu nahrávky, zlepšení EER bylo až 16% relativně oproti původnímu systému.

Název: Speaker Diarization Using Convolutional Neural Network for Statistics Accumulation Refinement
Autor: Zajic Zbynek ; Hruz Marek ; Muller Ludek
Název - česky: Diarizace pomocí konvoliční neuronové sítě s vylepšenou akumulací statistik
Jazyk publikace: anglicky
Rok vydání: 2017
Typ publikace: Prezentace na kongresech a seminářích v zahraničí
Název časopisu / knihy: Interspeech, 18th Annual Conference of the International Speech Communication Association
Strana: 3562 - 3566
DOI: 10.21437/Interspeech.2017-51
Convolutional Neural Network, Speaker Change Detection, Speaker Diarization, i-vector, Statistics Accumulation

konvoluční neuronová siť, detekce změny řečníka, i-vektor, diarizace, akumulace statistik


 author = {Zajic Zbynek and Hruz Marek and Muller Ludek},
 title = {Speaker Diarization Using Convolutional Neural Network for Statistics Accumulation Refinement},
 year = {2017},
 journal = {Interspeech, 18th Annual Conference of the International Speech Communication Association},
 pages = {3562-3566},
 doi = {10.21437/Interspeech.2017-51},
 url = {http://www.kky.zcu.cz/en/publications/ZajicZbynek_2017_SpeakerDiarization},