Divide and Conquer: A Deep CASA Approach to Talker-Independent Monaural Speaker Separation
介绍
受到CASA的启发,提出了一种deep casa方法,用于两个说话人的分离。不依赖说话人的分离问题需要解决置换问题(permutation problem)。主要通过PIT和DC两种主要方法来解决置换问题。
本文提出的方法在simultaneous grouping阶段,利用具有密集连接层 的 UNet 卷积神经网络 (CNN) 来提高帧级分离的性能。为了克服逆STFT中噪声相位的影响,探索了新的复值STFT训练目标函数和time domain训练函数来进行train。在sequential grouping阶段,使用TCN网络来改善性能(在说话人跟踪方面表现较好)。
Deep CASA
Simultaneous Grouping Stage
这一阶段用于将每一帧的频谱分离为两个说话人。 对应第c个说话人的STFT估计。训练过程遵循tPIT准则。Dense-UNet网络的输出成估计 不同说话人的T-F masks,然后将混合的频谱与mask相乘,就可以实现说话人分离![image-20220406101124843](Divide and Conquer A Deep CASA Approach to Talker-Independent Monaural Speaker Separation.assets/image-20220406101124843.png)
Sequential Grouping Stage
这一阶段的主要目的在于track所有帧级别的频谱估计 将他们分配给不同的说话人。
将混合的频谱和说话人频谱的估计共同作为网络的输入。NN网络通过训练,可以将每一个帧级别的输入变为一个D维的embedding vector V(t)。Target label A(t)用来表示tPIT输出的分配。之后提出了这一阶段的训练目标函数:![image-20220406102010224](Divide and Conquer A Deep CASA Approach to Talker-Independent Monaural Speaker Separation.assets/image-20220406102010224.png)
通过训练这一函数,对应于相同分配的V(t),变得更近,不同分配的V(t)变得更远。因此在inference阶段,用K-means算法来对V(t)进行聚类,在每一帧产生binary label,用于组织Simultaneous Grouping Stage的帧级输出。
原创文章,作者:端木书台,如若转载,请注明出处:https://blog.ytso.com/245339.html