基于X-codec探究不同特征下的语音生成效果

何应来

信息记录材料 ›› 2025, Vol. 26 ›› Issue (05) : 160 -163+244.

PDF
信息记录材料 ›› 2025, Vol. 26 ›› Issue (05) : 160 -163+244. DOI: 10.16009/j.cnki.cn13-1295/tq.2025.05.074

基于X-codec探究不同特征下的语音生成效果

    何应来
作者信息 +

Author information +
文章历史 +
PDF

摘要

为探究X-codec对大语言模型音频生成性能的影响,本研究基于LibriSpeech数据集分析语料特征(时长、音色)对基于X-codec的大语言模型(large language model, LLM)在音频生成任务中的表现。相似性目标(similarity objective, Sim-O)得分和全体平均意见得分(user test mean opinion score, UTMOS)指标测定结果表明:当语料时长超过10 s(即长语料)且音色为男声时,Sim-O得分和UTMOS在算术平均数上均显著高于相应特征分类中的其他组,同时在标准差上均显著低于相应特征分类中的其他组。因此,男声的长语料更有可能使应用了X-codec的LLM性能达到最佳状态。本研究结果可为优化音频编解码器设计提供理论支持。

关键词

X-codec / 大语言模型 / 相似性目标 / 全体平均意见得分

Key words

引用本文

引用格式 ▾
基于X-codec探究不同特征下的语音生成效果[J]. 信息记录材料, 2025, 26(05): 160-163+244 DOI:10.16009/j.cnki.cn13-1295/tq.2025.05.074

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

48

访问

0

被引

详细

导航
相关文章

AI思维导图

/