基于归一化流的情感可控语音驱动三维面部动画生成

刘文静; 谢文军; 韩汇东; 李琳; 刘晓平

doi:10.20009/j.cnki.21-1106/TP.2025-0124

小型微型计算机系统 ›› 2026, Vol. 47 ›› Issue (3) : 622 -630. DOI: 10.20009/j.cnki.21-1106/TP.2025-0124

基于归一化流的情感可控语音驱动三维面部动画生成

刘文静, 谢文军, 韩汇东, 李琳, 刘晓平

作者信息 +

Author information +

文章历史 +

PDF

摘要

当前的语音驱动面部动画生成方法主要关注唇音同步和身份保持，而对于面部动画的情感表达和情感控制等更具表现力的元素关注不足.为此，提出了一种基于两阶段归一化流的情感可控语音驱动三维面部动画生成方法EmoFlowTalk.首先，设计了时序优化的归一化流架构的面部动态参数生成器，改进仿射耦合层以显式建模面部动画序列的时序依赖关系，将不同情感表达的面部表情映射至混合分布的多情感类潜在空间.其次，设计了基于解耦的情感引导随机采样机制，融合音频、情感和风格特征，从混合分布中采样潜在表示，实现唇音同步与情感表达的精细化控制.实验表明，本方法在降低唇部顶点误差的同时，显著提升了情感动画的多样性和自然度.