基于时空注意力的多视角人脸表情识别算法

杜睿山 ,  王紫珊

吉林大学学报(工学版) ›› 2025, Vol. 55 ›› Issue (06) : 2097 -2102.

PDF (2150KB)
吉林大学学报(工学版) ›› 2025, Vol. 55 ›› Issue (06) : 2097 -2102. DOI: 10.13229/j.cnki.jdxbgxb.20240582
计算机科学与技术

基于时空注意力的多视角人脸表情识别算法

作者信息 +

Multi perspective facial expression recognition algorithm based on spatiotemporal attention

Author information +
文章历史 +
PDF (2200K)

摘要

首先,利用肤色分割技术定位学生图像中的脸部区域,并将定位的脸部区域输入到时空注意力模块中,以获得脸部多视角的关键信息。其次,通过带权重衰减的自适应梯度下降算法对卷积神经网络中的参数展开优化,并将脸部关键信息输入到优化后的网络中,以确定学生脸部表情类型,完成多视角人脸表情识别。实验结果表明,应用本文算法可以精准地提取人脸的关键信息,且表情识别准确率为100%,即本文算法可以有效识别人脸,并提高人脸表情识别精度。

Abstract

Firstly, skin color segmentation technology was used to locate facial regions in student images, and the located facial regions were input into the spatiotemporal attention module to obtain key information from multiple perspectives of the face. Secondly, the parameters in the convolutional neural network were optimized using an adaptive gradient descent algorithm with weighted decay, and key facial information was input into the optimized network to determine the types of facial expressions of students and complete multi view facial expression recognition. The experimental results show that the proposed algorithm can accurately extract key information of the face, and the accuracy of facial expression recognition is 100%. Therefore, the proposed algorithm can effectively recognize faces and improve the accuracy of facial expression recognition.

Graphical abstract

关键词

时空注意力 / 人脸表情识别 / 肤色分割 / 人脸定位 / 卷积神经网络

Key words

spatiotemporal attention / facial expression recognition / skin color segmentation / facial localization / convolutional neural networks

引用本文

引用格式 ▾
杜睿山,王紫珊. 基于时空注意力的多视角人脸表情识别算法[J]. 吉林大学学报(工学版), 2025, 55(06): 2097-2102 DOI:10.13229/j.cnki.jdxbgxb.20240582

登录浏览全文

4963

注册一个新账户 忘记密码

0 引 言

人脸表情识别技术是指通过分析和解读人脸图像中的表情信息,来理解和推断人的情感状态。该技术已广泛应用于人机交互、智能监控、医疗诊断和远程教育等多个领域1。然而,由于人脸表情的变化复杂多样,并且表情识别经常受到光照、遮挡以及姿态变化等环境因素的干扰,导致人脸图像的清晰度较低,从而影响了表情识别的精度2,为此,亟需对人脸表情识别技术展开研究。

文献[3]首先通过人脸对齐网络定位人脸表情区域;然后,基于欧拉视频放大技术获取面部动作变化,并对光流信息展开提取以得到视频序列特征;最后,利用双分支分类网络实现表情识别。但是,该算法中人脸对齐网络的泛化能力有限,增大了人脸定位的误差。文献[4]首先构建包含不同年龄段人脸表情的数据库,并根据该数据库获取人脸、眼睛和嘴巴区域,其次对这些区域展开特征提取,最后根据特征对表情识别的影响计算各特征权值,通过对特征展开加权融合完成表情识别。但是该算法构建数据库的计算成本较大,影响了人脸定位的效率。文献[5]对K5_Light_ShuffleNet网络展开分析和剪裁以优化网络性能,将轻量化通道空间关键权重推断模块加入网络中,利用该网络获取人脸特征,最后采取标签平滑学习算法实现人脸识别。但是,该算法中K5_Light_ShuffleNet网络受环境因素干扰较大,导致特征提取的性能较低。

由于人脸是3D生物体征,而大多数人脸识别系统基于2D图像进行识别,当人脸角度与事先采集的数据库中的人脸角度相差较大时,识别效果可能会受到影响。因此,本文提出基于时空注意力的多视角人脸表情识别算法,通过考虑多视角,利用时空注意力模型获取人脸在不同角度下的特征信息,从而提高识别的准确度。

1 人脸区域定位

由于人脸是一个3D对象,当人脸的角度相对于摄像头发生变化时,人脸在图像中的形状、大小和纹理等特征都会发生变化。特别是当人脸偏转角度较大时,表情特征不完整,会增加识别的难度。由于肤色特征在不同视角下变化较小,且人脸肤色和图像中的其他区域颜色相差较大6,通过肤色分割可以在预处理阶段快速定位人脸区域,降低后续特征提取和识别的计算复杂度。因此,通过肤色区域的分割7来实现人脸区域定位。

YcbCr颜色空间是一种亮度和色度分离的空间,该空间能够限制学生脸部肤色的分布区域,提高脸部肤色的聚类特性。因此,将采集到的课堂学生图像从RGB空间转换到YcbCr空间,并在YcbCr空间完成脸部定位。

将课堂学生图像从RGB空间转换到YcbCr空间8的过程为:

YCbCr1=λRGB1

式中:Y为亮度;CbCr分别为蓝色和红色色度分量;λ为像素范围;RGB分别为红色、绿色和蓝色分量。

在实际应用中很难保证所有视角下的光照条件和遮挡情况都相同。肤色高斯分布模型在一定程度上可以克服光照和遮挡对识别结果的影响,所以利用肤色高斯分布模型9对YcbCr空间中的课堂学生图像展开转换。学生脸部肤色的高斯分布模型W(q,V)为:

q=RcV=R(c-q)(c-q)Y

式中:c=(Cr,Cb)Y为YcbCr空间中学生图像的任意像素;qV分别为YcbCr空间中学生图像像素的平均值和协方差。

图像中像素点c属于学生脸部皮肤区域的概率为A(Cb,Cr),该概率值反映了灰度图像中像素点c和学生脸部肤色的相似程度,其表达式为:

A(Cb,Cr)=r-0.5(c-q)YV-1(c-q)

式中:r为固定值。

设置概率阈值α,将A(Cb,Cr)α的像素点判定为学生脸部肤色像素点,A(Cb,Cr)<α的像素点判定为非脸部肤色像素点,以此获得学生脸部肤色和非脸部肤色分离后的二值图像。

在不同视角下,人脸的角度和位置可能有所不同,膨胀处理能够增强人脸区域的连通性,使其更易于被识别和定位。同时,人脸的某些细节特征可能会变得模糊或不可见,而腐蚀处理能够减少这些不必要的细节信息,突出人脸的主要特征。因此,对A(Cb,Cr)α时的二值图像展开形态学10的膨胀与腐蚀处理,得到学生脸部区域面积S,由此完成人脸区域定位。人脸区域面积可以表示为:

S=A(Cb,Cr)Z×ENc,u

式中:Z为人脸区域的长度;E为人脸区域的宽度;Nc,u为像素点坐标(c,u)处的像素值。

2 脸部关键点信息提取

人脸表情识别通常依赖于脸部关键点(如眼睛、鼻子、嘴巴等)的准确位置。然而,由于人脸是三维的,在多视角环境下,人脸会因为角度、距离等因素而发生形变,面部特征的可见性和形状也会发生变化,影响关键点定位的准确性,导致表情识别算法的性能下降。时空注意力机制能够综合考虑图像的空间和时间信息11,通过自动学习并关注不同视角下的关键特征12,从而提高对视角变化和表情复杂性的鲁棒性,使得即使在复杂的光照条件下,也能稳定地提取出脸部关键点。

2.1 空间注意力信息

设学生脸部区域S的维度为M×U×Q,其中MUQ分别为通道数量、课堂学生图像序列的帧数以及脸部图像的数量,Si=1,2,,Qd为定位到的学生脸部图像,其中d为脸部图像的维数,Sd=S1d,S2d,,SQdRM×U×Q,将Si=1,2,,Qd输入到空间注意力模块中。设g为空间注意力中的高斯函数,将Si=1,2,,Qd嵌入到g中,得到第i张和第j张学生脸部图像之间的相关性oid为:

oid=g(Si=1,2,,Qd)M(Sid,Sjd)

式中:M( · )为归一化因子;SidSjd分别为第i张与第j张学生脸部图像。

由此得到的学生脸部图像的空间注意力信息pid为:

pid=Epdoid

2.2 时间注意力信息

Si=1,2,,Uy为连续的学生脸部图像序列,且Sy=S1y,S2y,,SUyRM×Q×U,其中y为时间步长,将Si=1,2,,Uy输入到时间注意力模块中,对其展开和空间注意力模块同样的操作,得到学生脸部图像的时间注意力信息piyRM×U×Q

将空间注意力模块和时间注意力模块中的学生脸部关键点信息pidpiy进行融合,得到学生脸部的关键点信息pi为:

pi=pid+piy+Si

由此可知,时空注意力可以根据多视角人脸图像之间的相关性动态地控制对于不同时间点的关注度,从而提取出多视角人脸图像中的重要信息,完成脸部关键点信息提取。

3 多视角人脸表情识别

脸部关键点信息提取后,由于人脸表情的变化非常复杂,不同人表达相同表情的方式可能存在差异,而同一个人在不同时间、不同情境下表达相同表情的方式也可能不同,增加了表情识别的难度。卷积神经网络13可以通过学习不同视角下的图像数据,自动适应不同视角下的特征差异。在训练过程中,卷积神经网络会学习到如何从不同角度的图像中提取出有用的特征,并将其与对应的表情类型进行关联。

已知学生脸部的关键点信息是pi,对应的表情类型为ai,利用piai建立卷积神经网络的训练集D=(p1,a1),(p2,a2),,(pm,am),其中m为学生脸部关键点信息的数量,则卷积神经网络的决策函数k(p)为:

k(p)=lm=1nϑ(pm,am)

式中:k(p)为学生脸部特征;p属于各种表情类型的概率分布;l为表情阈值;ϑ为模型参数。

为了提高上述卷积神经网络的泛化能力,降低网络的训练成本,通过带权重衰减的自适应梯度下降算法14对该网络中的参数ϑ展开训练。

假设xbm个学生脸部关键点信息的平均梯度,其表达式为:

xb=Xξ · ϑb-1m

式中:b为迭代次数;X为损失函数;ξ为权重衰减系数,且ξ=ξnorme/TI,其中ξnorm为标准权重衰减系数,e为批量大小,T为每个迭代周期的学生脸部关键点信息的数量,I为迭代总次数。

人脸是一个柔性体,不同脸型、不同性别和不同年龄的人的表情很难用一个精确的模型来表征。通过计算xb的一阶矩和二阶矩可以分析这些关键点的位置、方向和形状变化,从而推断出学生的表情和头部姿态,进而提取出每个学生的个性化特征。xb的一阶矩wb与二阶矩fb为:

wb=χ1wb-1+(1-χ1) · xbfb=χ2fb-1+(1-χ2) · xb2

式中:χ1χ2分别为对应的指数衰减速率。

基于上述一阶矩和二阶矩,获得卷积神经网络参数ϑ的优化量Δϑb为:

Δϑb=-ιw˜bf˜b+ϕ

式中:ι为学习率15w˜bf˜b分别为一阶矩与二阶矩的偏差补偿量,且w˜b=wb/(1-χ1b)f˜b=fb/(1-χ1b)

根据优化量Δϑb对卷积神经网络的参数ϑ展开更新,将更新后的参数ϑ'=ϑ+Δϑb代入决策函数k(p)的表达式中,则k'(p)为:

k'(p)=lm=1nϑ'(pm,am)

将学生脸部关键点信息pi代入式(12)中,得到对应的表情类型概率分布k(pi)。当k(pi)>l时,学生面部表情为兴奋;当k(pi)=l时,学生面部表情为专注;当k(pi)<l时,学生面部表情为疲劳。由此,完成多视角人脸表情识别。

4 实验分析

4.1 实验设置

为了验证基于时空注意力的多视角人脸表情识别算法的整体有效性,以某学校阶梯教室中采集到的课堂学生图像作为实验对象,具体如图1所示。

图1中学生脸部图像序列共120帧;灰度图像大小为48×48;学生多角度表情图像共40张。实验过程中相关参数的设置如表1所示。

在上述设置的基础上,使用基于时空注意力的多视角人脸表情识别算法对学生脸部展开精准定位,结果如图2所示。

图2中方框内为定位到的学生脸部区域。根据图2可知,利用本文算法能够将图像中所有学生的脸部区域精准定位。因此,本文算法可以有效分割背景区域和人脸区域,更利于后续的关键信息提取。

4.2 结果与分析

4.2.1 关键信息提取

学生脸部关键信息是识别学生脸部表情的重要依据,关键信息提取效果越好,表情识别的精度越高。在图1中选取低头男孩、转头女孩和正视戴眼镜(有遮挡)女孩的图像,利用基于时空注意力的多视角人脸表情识别算法、文献[3]算法和文献[4]算法对其眼部、鼻子和嘴部的关键信息展开提取。提取结果如图3所示。

通过图3能够发现,本文算法提取到的眼部关键信息和实际图像中眼部的关键信息完全吻合,文献[3]算法提取的关键信息中存在冗余信息,这会影响表情识别的精度,而文献[4]算法的提取结果出现部分关键信息未提取的问题。因此,本文算法的关键信息提取效果最好。

4.2.2 表情识别

为了更直观地比较本文算法、文献[3]算法和文献[4]算法的学生脸部表情识别准确性,在图1中随机选取10名学生,利用上述3种算法对这10名学生的脸部表情展开识别,定义表情类型为兴奋、专注、疲劳3种,并将这3种类型分别通过1、2、3来表示,3种算法的表情识别结果如表2所示。

分析表2可得,实际情况中,共有4名学生表情为兴奋,2名学生表情为专注,4名学生表情为疲劳,本文算法识别出的学生表情和实际情况完全一致,识别准确率为100%。文献[3]算法和文献[4]算法的识别结果分别存在3处和4处误差,表明本文算法的人脸表情识别准确性更高。

5 结束语

为了提高多视角人脸的表情识别精度,本文提出了一种基于时空注意力的多视角人脸表情识别算法。实验结果表明,该算法能够有效提高人脸定位和关键信息提取的效果,且具有较高的表情识别精度。这表明通过时空注意力机制,算法能够精确地定位人脸并提取出与表情相关的关键信息,从而提高识别精度。

参考文献

[1]

王军杰, 王泉, 蒋平, 一种孤立中心损失方法及其在人脸表情识别中的应用[J]. 西安交通大学学报, 2022, 56(4): 119-126.

[2]

Wang Jun-jie, Wang Quan, Jiang Ping, et al. An isolated central loss method applied in facial expression recognition[J]. Journal of Xi'an Jiaotong University, 2022, 56(4): 119-126.

[3]

周丽芳, 刘俊林, 李伟生, 深度二值卷积网络的人脸表情识别方法[J]. 计算机辅助设计与图形学学报, 2022, 34(3): 425-436.

[4]

Zhou Li-fang, Liu Jun-lin, Li Wei-sheng, et al. Facial expression recognition based on deep binary convolutional network[J]. Journal of Computer-Aided Design & Computer Graphics, 2022, 34(3): 425-436.

[5]

李召峰, 朱明. 基于视频放大和双分支网络的微表情识别[J]. 液晶与显示, 2022, 37(3): 386-394.

[6]

Li Zhao-feng, Zhu Ming. Micro-expression recognition based on video magnification and dual-branch network[J]. Chinese Journal of Liquid Crystals and Displays, 2022, 37(3): 386-394.

[7]

虞苏鑫, 贺俊吉. 基于子区域加权的不同年龄段人脸表情识别[J]. 计算机工程与科学, 2022, 44(8): 1426-1432.

[8]

Yu Su-xin, He Jun-ji. Facial expression recognition of different age groups based on face sub-region weighting[J]. Computer Engineering & Science, 2022, 44(8): 1426-1432.

[9]

唐宏, 向俊玲, 陈海涛, 多区域融合轻量级人脸表情识别网络[J]. 激光与光电子学进展, 2023, 60(6): 71-79.

[10]

Tang Hong, Xiang Jun-ling, Chen Hai-tao, et al. Multi region fusion lightweight facial expression recognition network[J]. Progress in Laser and Optoelectronics, 2023, 60(6): 71-79.

[11]

黄兴禄, 芶小珊, 陈希. 基于混合特征与信息熵的人脸微表情识别算法[J]. 计算机仿真,2023, 40(6): 197-201.

[12]

Huang Xing-lu, Gou Xiao-shan, Chen Xi. Face micro-expression recognition algorithm based on hybrid features and information entropy[J]. Computer Simulation, 2023, 40(6): 197-201.

[13]

戴嫣然, 戴国庆, 袁玉波. 基于肤色学习的多人脸前景抽取方法[J]. 计算机应用, 2021, 41(6): 1659-1666.

[14]

Dai Yan-ran, Dai Guo-qing, Yuan Yu-bo. Multi-face foreground extraction method based on skin color learning[J]. Journal of Computer Applications, 2021, 41(6): 1659-1666.

[15]

王超, 刘文超, 翟海祥, 基于色彩空间和暗原色先验图像融合去雾算法[J]. 电光与控制, 2022, 29(10): 44-50.

[16]

Wang Chao, Liu Wen-chao, Zhai Hai-xiang, et al. An image fusion defogging algorithm based on color space and dark primary color priori[J]. Electronics Optics & Control, 2022, 29(10): 44-50.

[17]

朱帅康, 董龙雷, 官威, 基于高斯混合模型的非高斯振动疲劳频域求解方法[J]. 振动与冲击, 2022, 41(16): 93-99.

[18]

Zhu Shuai-kang, Dong Long-lei, Guan Wei, et al. A frequency method for fatigue life estimation under non-Gaussian random loading based on a Gaussian mixture model[J]. Journal of Vibration and Shock, 2022, 41(16): 93-99.

[19]

花胜强, 陈意, 郑慧娟, 和声搜索改进的形态学分析在库区漂浮物体量预估中应用的研究[J]. 水力发电, 2022, 48(9): 108-113.

[20]

Hua Sheng-qiang, Chen Yi, Zheng Hui-juan, et al. Research on the estimation of floating objects in the reservoir based on harmony search improved morphological analysis[J]. Water Power, 2022, 48(9): 108-113.

[21]

彭向东, 潘从成, 柯泽浚, 基于并行架构和时空注意力机制的心电分类方法[J]. 浙江大学学报: 工学版, 2022, 56(10): 1912-1923.

[22]

Peng Xiang-dong, Pan Cong-cheng, Ke Ze-jun, et al. Classification method for electrocardiograph signals based on parallel architecture model and spatiol-temporal attention mechanism[J]. Journal of Zhejiang University (Engineering Science), 2022, 56(10): 1912-1923.

[23]

张云峰, 张超, 吕钊. 基于关键点的残差全连接网络动态手势识别方法[J]. 安徽大学学报: 自然科学版, 2022, 46(2): 30-38.

[24]

Zhang Yun-feng, Zhang Chao, Lv Zhao. Research on continuous gesture recognition based on residual fully connected network in vehicle scenes[J]. Journal of Anhui University (Natural Science Edition), 2022, 46(2): 30-38.

[25]

张蕾, 窦宏恩, 王天智, 基于集成时域卷积神经网络模型的水驱油田单井产量预测方法[J]. 石油勘探与开发, 2022, 49(5): 996-1004.

[26]

Zhang Lei, Dou Hong-en, Wang Tian-zhi, et al. A production prediction method of single well in water flooding oilfield based on integrated temporal convolutional network model[J]. Petroleum Exploration and Development, 2022, 49(5): 996-1004.

[27]

葛泉波, 张建朝, 杨秦敏, 带有微分项改进的自适应梯度下降优化算法[J]. 控制理论与应用, 2022, 39(4): 623-632.

[28]

Ge Quan-bo, Zhang Jian-chao, Yang Qin-min, et al. Adaptive gradient descent optimization algorithm with improved differential term[J]. Control Theory & Applications, 2022, 39(4): 623-632.

[29]

高涛, 杨朝晨, 陈婷, 深度多尺度融合注意力残差人脸表情识别网络[J]. 智能系统学报, 2022, 17(2): 393-401.

[30]

Gao Tao, Yang Chao-chen, Chen Ting, et al. Deep multiscale fusion attention residual network for facial expression recognition[J]. Journal of Intelligent Systems, 2022, 17(2): 393-401.

基金资助

黑龙江省教育科学规划重点项目(GJB1320039)

国家重点研发计划项目(2022YFE0206800)

AI Summary AI Mindmap
PDF (2150KB)

143

访问

0

被引

详细

导航
相关文章

AI思维导图

/