采用线性注意力机制的语音驱动三维人脸动画技术

童程凯, 叶阳

小型微型计算机系统 ›› 2025, Vol. 46 ›› Issue (06) : 1400 -1408.

PDF
小型微型计算机系统 ›› 2025, Vol. 46 ›› Issue (06) : 1400 -1408. DOI: 10.20009/j.cnki.21-1106/TP.2024-0202

采用线性注意力机制的语音驱动三维人脸动画技术

    童程凯, 叶阳
作者信息 +

Author information +
文章历史 +
PDF

摘要

语音驱动三维人脸动画技术,旨在通过输入语音,驱动三维人脸模型生成视觉对应的人脸表情动画.当前的常用方法是基于Transformer结构以自回归形式完成人脸动画生成,但是这些方法在面对长语音生成动画时的二次运算复杂度限制了其性能瓶颈,在数据集稀疏情况下的过拟合问题也使得其在生成动画的准确性以及泛化性上存在不足.为了解决以上问题,本文提出一种基于线性注意力的语音驱动三维人脸动画方法.该方法采用一种新的端到端网络模型,通过语音自监督表示学习构建编码器提取语音特征,并利用线性注意力变体的结构RWKV构建人脸表情映射解码模块生成人脸动画.实验结果表明,本文的方法在人脸表情生成的准确度和时效性上都优于目前的相关方法,三维人脸网格顶点平均误差在标准化条件下上较sota方法降低了0.15,单帧人脸预测时延上也比基于传统Transformer的方法快了4倍左右.

关键词

语音驱动 / 自监督 / 线性注意力 / 人脸动画

Key words

引用本文

引用格式 ▾
采用线性注意力机制的语音驱动三维人脸动画技术[J]. 小型微型计算机系统, 2025, 46(06): 1400-1408 DOI:10.20009/j.cnki.21-1106/TP.2024-0202

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

54

访问

0

被引

详细

导航
相关文章

AI思维导图

/