基于时域的基频感知语音分离方法

王凯; 李鸣鹤; 黄志华; 黄浩

doi:10.13568/j.cnki.651094.651316.2021.01.07.0002

新疆大学学报（自然科学版中英文） ›› 2022, Vol. 39 ›› Issue (02) : 182 -188. DOI: 10.13568/j.cnki.651094.651316.2021.01.07.0002

基于时域的基频感知语音分离方法

王凯, 李鸣鹤, 黄志华, 黄浩

作者信息 +

Author information +

文章历史 +

PDF

摘要

传统的单通道语音分离方法主要采用混音作为输入，对其进行分离得到目标说话人的语音．最近的研究表明，将预估计的基频信息注入到原始混音信号中能够提高分离效果，但这种方法最初应用于时频域．近年来，基于时域的语音分离方法已经被验证优于早期的时频域分离方法．基于上述出发点，本文提出基于辅助基频的时域语音分离方法．该方法首先将时域信号输入预分离模块生成预分离语音，并从预分离语音中提取基频；然后将提取的基频与原始混音拼接，作为后分离模块的输入进行第二次分离．本文评估了不同的基频提取方法和训练策略．语音分离实验结果表明：在训练后分离模块时，先使用理想基频与混音融合训练一个理想分离网络，然后用RAPT方法对预分离源提取估计基频注入混音，再进行理想分离网络的微调，能够获得最佳的语音分离性能，比Conv-TasNet基线方法提高了0.5 dB．这说明显式地注入辅助基频信息不仅在时频域语音分离中表现出了有效性，同时也适用于时域语音分离．