采用线性注意力机制的语音驱动三维人脸动画技术

童程凯; 叶阳

doi:10.20009/j.cnki.21-1106/TP.2024-0202

小型微型计算机系统 ›› 2025, Vol. 46 ›› Issue (06) : 1400 -1408. DOI: 10.20009/j.cnki.21-1106/TP.2024-0202

采用线性注意力机制的语音驱动三维人脸动画技术

童程凯, 叶阳

作者信息 +

Author information +

文章历史 +

PDF

摘要

语音驱动三维人脸动画技术，旨在通过输入语音，驱动三维人脸模型生成视觉对应的人脸表情动画.当前的常用方法是基于Transformer结构以自回归形式完成人脸动画生成，但是这些方法在面对长语音生成动画时的二次运算复杂度限制了其性能瓶颈，在数据集稀疏情况下的过拟合问题也使得其在生成动画的准确性以及泛化性上存在不足.为了解决以上问题，本文提出一种基于线性注意力的语音驱动三维人脸动画方法.该方法采用一种新的端到端网络模型，通过语音自监督表示学习构建编码器提取语音特征，并利用线性注意力变体的结构RWKV构建人脸表情映射解码模块生成人脸动画.实验结果表明，本文的方法在人脸表情生成的准确度和时效性上都优于目前的相关方法，三维人脸网格顶点平均误差在标准化条件下上较sota方法降低了0.15,单帧人脸预测时延上也比基于传统Transformer的方法快了4倍左右.