PDF
摘要
口音转换(Accent Conversion, AC)旨在将源口音语音转换为目标口音语音,并保持源说话人音色和语音内容不变。现有的AC模型缺乏对训练数据分布以外的语音口音转换的泛化性。本文提出基于内容特征k-邻近(kNN)回归的零样本AC模型。一方面,采用WavLM第23层提取源和目标口音语音的内容特征,并利用kNN回归将源口音语音内容特征置换为目标口音语音及其最邻近的内容特征以实现口音转换;另一方面,为了保持转换后语音中源说话人音色,构建多说话人声码器对含有目标口音的语音内容特征和源说话人音色特征进行融合,以合成目标口音语音。该模型无需源口音语音参与训练,即可实现多种源口音到目标口音的转换。实验结果表明,该模型取得了比并行或非并行AC模型更好的客观与主观评价结果。
关键词
口音转换
/
kNN回归
/
零样本学习
/
语音转换
/
声码器
Key words
基于内容特征kNN回归的零样本口音转换模型[J].
华东理工大学学报(自然科学版), 2025, 51(04): 497-504 DOI:10.14135/j.cnki.1006-3080.20241009001