鲁棒SV–解纠缠的说话人embedding
DISENTANGLED SPEAKER EMBEDDING FOR ROBUST SPEAKER VERIFICATION
摘要
-
speaker features和冗余features的纠缠使得SV在unseen-domain表现差;
-
为了解决这个问题,本文提出InfoMax domain separation & adaptation network ,基于domain适应技术来解开domain相关和domain不变的说话人特征之间的纠缠;
-
本文提出一个帧级的相互信息神经估计器来最大化帧级特征与输入声音特征之间的相互信息--可以储存更多有用信息;
-
采用triplet-loss来克服标签mismatch问题;
-
实验结果显示,在VOiCES Challenge 2019上,可以学习更多更有区分性更鲁棒的说话人特征;
Index Terms:域适应、自监督、triplet-loss
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
二维码