基于音频匹配的藏语驱动视觉语音合成算法研究

韩西, 梁凯, 岳宇

吉林大学学报(信息科学版) ›› 2024, Vol. 42 ›› Issue (03) : 509 -515.

PDF
吉林大学学报(信息科学版) ›› 2024, Vol. 42 ›› Issue (03) : 509 -515. DOI: 10.19292/j.cnki.jdxxp.2024.03.008

基于音频匹配的藏语驱动视觉语音合成算法研究

    韩西, 梁凯, 岳宇
作者信息 +

Author information +
文章历史 +
PDF

摘要

为解决唇部轮廓检测精度较低、视觉语音合成效果不好的问题,提出了基于音频匹配的藏语驱动视觉语音合成算法。该算法从藏语驱动视觉语音信号中提取短时能量和过零率,并建立语音信号的短时自相关函数。首先,提取语音信号中的特征信息,以此获得藏语语音信号的基音轨迹,即音频特征;其次,建立了唇部时空分析模型,分析唇部轮廓在发音过程中变化趋势,采用主成分分析法提取唇部轮廓特征;最后,通过输入输出隐马尔可夫模型获取音频特征与唇部轮廓特征之间的关联,在音频匹配的基础上合成藏语驱动视觉语音。实验结果表明,该方法具有较高的唇部轮廓检测精度,视觉语音合成效果较好。

关键词

音频匹配 / 短时自相关函数 / 时空分析模型 / 主成分分析法 / 视觉语音合成

Key words

引用本文

引用格式 ▾
基于音频匹配的藏语驱动视觉语音合成算法研究[J]. 吉林大学学报(信息科学版), 2024, 42(03): 509-515 DOI:10.19292/j.cnki.jdxxp.2024.03.008

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

99

访问

0

被引

详细

导航
相关文章

AI思维导图

/