一种头部姿态估计的课堂注意力参数分析方法

王慧敏 ,  刘洪甜 ,  张建伟

信息工程大学学报 ›› 2025, Vol. 26 ›› Issue (02) : 168 -174.

PDF (3195KB)
信息工程大学学报 ›› 2025, Vol. 26 ›› Issue (02) : 168 -174. DOI: 10.3969/j.issn.1671-0673.2025.02.007
计算机科学与技术

一种头部姿态估计的课堂注意力参数分析方法

作者信息 +

The Parameter Analysis Method of Classroom Attention for Head Pose Estimation

Author information +
文章历史 +
PDF (3271K)

摘要

针对研讨型或纵深较大的讲授型教室中头部姿态估计方法存在的误检、漏检问题,提出一种课堂注意力测量方案。首先,采用级联神经网络结构对课堂视频进行头部检测,精确获取学生头部的位置和数量。其次,构建全局人脸检测器和头部姿态分类器,结合人脸检测与姿态分类,准确判定凝视与非凝视状态。接着,引入活跃参数,通过前后帧头部位置匹配算法计算头部姿态变化次数,并结合凝视状态改变次数表征抬头率,得到新的抬头率计算公式。最后,结合抬头率和活跃参数,通过注意力模型分析得出总体表征课堂注意力的数值——注意力K值。实验结果显示,头部检测器在多尺度课堂中的准确率超95.6%,头部姿态分类器分类精确率达94.6%。实际课堂验证表明,该方案能真实反映学生注意力情况,为教学反思和教学能力评价提供重要参考。

Abstract

A classroom attention measurement scheme is proposed to address false and missed detections in head pose estimation within seminar or large-depth lecture classrooms. Firstly, a cascaded neural network is employed to detect heads in classroom videos in order to accurately locate and count student heads. Secondly, a global face detector and head pose classifier are developed to precisely determine gaze and non-gaze states by combining face detection and pose classification. Subsequently by introducing active parameters are introduced, and a head position matching algorithm is used to calculate head pose changes between frames. A new formula for head-up rate is derived based on gaze state changes. Finally, an attention model is analyzed to obtain an overall numerical value, the attention K-value, which combines head-up rate and active parameters. Experimental results indicate that the accuracy of the head detedor exceeds 95.6% in multi-scale classrooms, and the precision of the head classifier reaches 94.6%. Verification in real classrooms shows that the scheme accurately reflects student attention, providing valuable insights for teaching reflection and evaluation.

Graphical abstract

关键词

计算机视觉 / 课堂视频 / 头部姿态估计 / 注意力模型 / 抬头率 / 活跃参数

Key words

computer vision / classroom video / head pose estimation / attention model / head-up rate / active parameters

引用本文

引用格式 ▾
王慧敏,刘洪甜,张建伟. 一种头部姿态估计的课堂注意力参数分析方法[J]. 信息工程大学学报, 2025, 26(02): 168-174 DOI:10.3969/j.issn.1671-0673.2025.02.007

登录浏览全文

4963

注册一个新账户 忘记密码

在信息化教学环境下,为了实现有效教学、不断提升教学质量,课堂视频逐渐成为课堂教学评价研究的热门对象。关于课堂教学的分析和研究方法已有很多,如S-T(Student-Teacher)教学分析法、弗兰德斯互动分析系统等[1],这些方法大多依赖于人工对课堂学生行为的编码和分析,如Xu等[2]使用目标检测的方法确定举手姿势的位置并判断学生是否举手。然而,这些行为与课堂教学效果之间并无明确的对应关系。相比之下,对课堂注意力的研究更容易直接反映课堂教学效果的好坏。
随着人工智能技术的快速发展,将计算机视觉技术应用于课堂注意力的测量逐渐成为一种趋势。目前,计算机视觉技术对课堂注意力的研究通常有两种方法。一种是识别学生的脸部表情,该方法多用于人数较少的在线课堂教学,如张立山等[3]通过识别学生的表情来预测学生在课堂上的参与度,李玉荣[4]通过研究学生的面部表情来判断学生课堂的专注度。另一种是分析脸部或头部的姿态,该方法更适用于真实的课堂教学,分为头部姿态估计方法和目标检测方法。例如:Zheng等[5]利用轨迹参数对头部姿态进行评估;Li等[6]利用卷积神经网络直接从图像中得到欧拉旋转角(平动角、转动角、滚动角),进而估计头部姿态;Tang等[7]使用微软公司的Kinect设备采集课堂上学生的骨骼姿态数据,但是Kinect设备只能同时采集不超过6个学生的骨骼姿态数据。以上头部姿态估计方法需要完成非常复杂的运算,而且对运行环境依赖程度很高。而在课堂上检测学生头部姿态常用方法就是人脸检测方法,如白馨烨等[8]采用人脸检测的方法来估计抬头的学生人数,得到学生的注意力情况。然而该方法存在两个问题,一是正在低头的学生很可能会被检测为正在抬头,二是无法满足课堂学生人数发生动态变化时的情况。Xiao等[9]对人脸进行了自动检测和跟踪,并通过计算人脸轨迹的参数来判断头部的姿态,该方法依赖于对头部运动轨迹的精确分析和测量,难以适用于复杂场景。
无论是姿态估计方法还是基于目标检测方法,都需要将样本总数计算出来,例如课堂中学生的总人数。近些年来,研究者采用卷积神经网络提取图像特征的方法来解决上述问题。例如,代青等[10]提出了一个端到端的卷积神经网络,实现对极端密集人群人数的评估。Wang等[11]使用深度卷积神经网络来估算开放场景中密集人群的人数。Li等[12]解决了在不同场景下人群计数算法的普遍性问题,这些方法仅是对人群中的人数进行粗略估计,不能满足精确估计教室中学生人数的需求,尤其是纵深较大的教室的后排检测。Fang等[13]通过单次多框检测器(Single Shot Multibox Detector, SSD)模型检测学生面部,实现对教室中学生人数统计的目的。Xue等[14]根据学生头发的颜色来设置HSV(Hue, Saturation, Value)中V通道的阈值,从而实现头部区域的检测,得到教室内学生的人数。王龙博等[15]分别使用头部检测和密度估计的方法对教室内的学生人数进行统计,但是在真实课堂场景下的测试准确率并没有给出。本文使用头部检测方法计算学生的人数,并验证在SCUT-HEAD测试数据集上的平均准确率能够满足实际需求。
本文的主要创新点为:1)提出一种级联的神经网络结构,用于统计教室中学生头部的数量和位置,解决纵深较大的教室后排检测不到的问题。2)设计一种全局人脸检测器,将整个图像中人脸图像作为输入参数、凝视状态的概率作为输出参数的头部姿态分类器,解决了研讨型课堂无法检测的问题。3)引入活跃参数,提出一种前后帧头部位置匹配算法,计算出头部姿态变化次数。4)采用凝视状态的改变次数表征抬头次数,得到了新的抬头率计算公式。

1 课堂注意力模型构建

本文构建的课堂注意力模型总框架如图1所示。模型共包括3部分:头部检测部分、头部姿态估计部分和注意力模型分析部分。其中:头部检测部分用于捕获图像中学生头部的数量和位置;头部姿态估计部分需要经过两个阶段,首先经人脸检测器检测整个图像中的人脸,再经头部姿态分类器确定这些人脸的头部姿态;最后将头部检测器的检测结果和头部姿态分类器的分类结果进行抬头率计算和活跃参数计算,两者计算结果相乘得到一个总体表征课堂注意力的数值——注意力K值,实现对课堂注意力这一抽象概念的可视化,进而呈现出学生上课期间注意力的总体态势。

1.1 头部检测部分

头部检测部分用于捕获图像中学生头部的数量和位置,由于头部比人脸具有更丰富的信息,因此通过检测头部来计算学生的总人数会更加准确,如图2所示,头部检测器比人脸检测器更能准确地获得学生的人数。

本文的头部检测器采用了级联的神经网络结构,既能保证检测和处理的运行时间,也能保证检测结果的准确性,如图3所示。

该网络结构由3个卷积神经网络组成,依次用矩阵 A 、矩阵 B 和矩阵 C 表示。其中:矩阵 A 用于快速生成候选区域;矩阵 B 对候选区域进行粗略识别,剔除掉大量的非头部区域;矩阵 C 对头部候选区域进行精细化处理,输出最终的头部位置。

1.2 头部姿态估计部分

头部姿态估计部分将头部姿态区分为两种状态,分别是凝视状态和非凝视状态。具体来说,凝视状态是指学生面对老师,而非凝视状态则相反。与仅利用眼睛几何位置关系的方法相比,该部分在真实场景中具有更强的鲁棒性。

头部姿态估计部分需要经过两个阶段:1)首先经人脸检测器检测整个图像中的人脸。本文设计了一种作用于课堂视频的全局人脸检测器。2)然后再经头部姿态分类器确定这些人脸的头部姿态。本文根据每个学生的人脸位置,设计了一种将整个图像中人脸图像作为输入参数、凝视状态的概率作为输出参数的头部姿态分类器,如图4所示。

为了训练头部姿态分类器,本文从高校的真实课堂视频中精心挑选出已做标记的25 624张人脸图像作为研究的数据集,命名为Class-Head。

1.3 注意力模型分析部分

1.3.1 抬头率计算

抬头率表示某时刻抬头人数C与课堂总人数N的比值,用于量化描述某时刻学生抬头的总体态势,这里的抬头状态可用面部的凝视状态(正视教学信息源)来表示。

为检测到整个图像中处于凝视状态的人脸,采用F表示人脸边界框,然后计算出头部位置边界框B中有多少张凝视状态的人脸,用Ci,j 表示该参数变量,最后根据如下计算过程决定某一张人脸Fj 是否属于BiCi,j 的计算如下:

Ci,j=areaFjareaBiFj

对于某一张人脸Fj,用Cj 代表集合Ci,j,如果Ci,k =max(Cj )且数值一旦超过设定的阈值(本文设置0.8),则Fj 属于Bk

对于每一个Bi,如果人脸检测器不能检测到任何一张人脸或者检测到的人脸被判定为非凝视状态,那么该学生将被认定为非凝视状态。否则,该学生被认定为凝视状态。

最后计算出某时刻的抬头率Rt

Rt=1NtjiCj

式中,Nt 表示t时刻的课堂总人数。

由于抬头率是某时刻的计算值,而一堂课(总时间为T)不同时刻的抬头率显然是不同的,因此,选取一堂课的抬头率平均值R¯T作为抬头率的最终输出,其计算公式为

R¯T=1TNTtTjiCjt

式中:Cjt 表示t时刻第j张凝视状态人脸的数量;NT 表示T时间段内课堂总人数。

1.3.2 活跃参数计算

本文提出的活跃参数用于量化描述课堂的活跃氛围,而这种活跃氛围与每位学生的头部姿态变化息息相关。为了跟踪每个学生头部姿态的变化,需要不断地确定和更新每个学生的头部位置信息,并且统计学生头部姿态变化的次数。因此,本文首先提出一种前后帧头部位置匹配算法,然后给出计算头部姿态变化次数的方法。

1)前后帧头部位置匹配算法。定义B为头部的位置边界框,Bpre为上一帧检测结果的头部位置边界框,Bnow为当前帧检测结果的头部位置边界框,I表示相邻两帧中头部位置边界框的重叠程度。

令上一帧和当前帧中某位学生的头部位置边界框记为BjpreBinow,而位于BjpreBinow之间的Ii,j 可计算为

Ii,j=areaBjpreareaBinowareaBjpre+areaBinow-areaBjpreareaBinow

式中,areaBjpreareaBinow代表BjpreBinow的重叠面积。对于Binow,用Ii 代表集合Ii,j,如果Ii=maxIi,且maxIi数值一旦超过设定的阈值(本文设置0.8),那么Bkpre可由Bjpre替代。

2)求解头部姿态变化次数。在注意力模型中,用Sti表示t时刻第i个学生头部姿态所处的状态。当学生处于凝视状态时,Sti的值为1,否则Sti的值为0。如果Sti的值从0变换到1,则说明第i个学生的状态产生了正向切换(非凝视变为凝视)。本文使用fit决定第i个学生在t时刻是否发生正向切换,fit定义如下:

fit=Sti-St-1i

式中:t=1, 2, , T; i=0, 1, ,Nt。当fit)值为1时,说明了第i个学生的状态发生了正向切换。

G¯T表示在一堂课T时间段内每个学生的平均凝视次数,其计算公式为

G¯T=1Ntt=0T i=0NtSti

PT 表示在一堂课T时间段内每个学生头部姿态发生正向切换的平均次数。结合fit的计算结果,PT 可用如下公式进行计算:

PT=1Nt=0t=1T t=0Nt=0fit

式中,Nt=0表示在时刻t=0时的学生人数。

2 课堂注意力模型测试

本文首先在相关的数据集中评估了头部检测器和头部姿态分类器的性能,然后通过课堂注意力模型比较了不同教室中学生的注意力情况。

2.1 头部检测器测试

头部检测器在SCUT-HEAD数据集上进行了训练和测试。SCUT-HEAD数据集包含两部分,A部分包含从大学课堂视频中采样的2 000张图像,B部分包含从互联网上爬取的2 405张图片,经头部检测器检测后得到的测试结果如表1所示。

另选取了18个课堂视频,分别是6个大型课堂(172人)、6个中型课堂(140人)、6个小型课堂(72人)。使用头部检测器对这些视频中的学生数量进行统计计算,结果如表2所示。

显然,头部检测器在多尺度课堂中的准确率能够满足实际应用需求。

2.2 头部姿态分类器测试

2.2.1 测试数据集

为了训练头部姿态分类器,建立一个已做好标记的Class-Head数据集。该数据集包含了来自3门不同课程的14个视频中的25 624张人脸图像,然后将图像中头部姿态所处的状态人为划分为3类:凝视状态、非凝视状态和不可识别状态。则该数据集中凝视状态的学生人数为13 066人,非凝视状态的学生人数为11 353人,不可识别状态的学生人数为1 205人,其中将凝视状态的人脸图像作为正样本,非凝视状态和不可识别的人脸图像作为负样本,数据集中的正负样本如图5所示。

2.2.2 测试结果评估

对于头部姿态分类器,从Class-Head数据集中选取了20 987张人脸图像作为训练数据,其中包含10 131个正样本和10 856个负样本,而在Class-Head数据集中剩余的4 637个图像作为测试数据,最后使用10%的训练数据作为验证数据集。经过测试,绘制了训练过程中的损失曲线和验证过程中的准确率曲线,如图6所示。

图6中的横轴表示训练的迭代次数,两个纵轴分别表示损失率和准确率,经过5 000次的迭代后,损失率和准确率趋于稳定。

为验证头部姿态分类器分类性能的好坏,选用受试者工作特征(Receiver Operating Characteristic, ROC)曲线、精准率和召回率(Precision and Recall, PR)曲线进行评估。经过对头部姿态分类器在测试集上的评估,得到了测试集中每个样本属于凝视状态的概率,并在0.001~0.999之间每隔0.001取一个阈值,对于每一个阈值,可以得到相应的误报率、准确率和召回率,进而绘制出如图7所示的ROC曲线和PR曲线。选取曲线下面积最大的模型,通过H值(精准率和召回率的调和均值)找到适合该分类器的最佳阈值。

图7中,图中的红色圆点表示头部姿态分类器H值最高点的位置,其相应的数值如表3所示。可以看出,头部姿态分类器在测试集上分类效果良好。

2.3 实际课堂场景测试

2.3.1 注意力模型的可视化

可视化的注意力模型由序列图和散点图组成,定义P = PTT = 1 min)为每位学生每分钟头部姿态状态正向切换的平均次数。定义G = GTT =1 min)为每位学生每分钟的平均凝视次数。定义PG 是一个点的集合,(xiyi )是PG 中的任一个点,i = 1,2,…,n;xi 是第i分钟的G值;yi 是第i分钟的P值。根据每分钟的PG值,可以绘制出序列图,同时根据PG 中的点,可以绘制出散点图。

2.3.2 多尺度讲授型课堂对比测试

选取18个课堂视频进行测试,分别包括6个大型课堂(172人)、6个中型课堂(140人),6个小型课堂(72人),并选择3个具有代表性的课堂进行演示,结果如图8所示。

图8中左图是课堂的场景,右图是相应的序列图。为了显示方便,采用最大归一化方法对数据进行处理。经过对不同尺度课堂的仿真分析发现,在图8中,随着课堂尺度的不断缩小,GP曲线之间的分离性逐渐凸显,意味着平均凝视次数与头部姿态正向切换次数之间差异性不断增加,而且平均凝视次数逐渐大于头部姿态正向切换次数,反映了小型课堂的学生更加能够专注于听课,大型课堂的学生活跃程度更高,中型课堂前半段时间平均凝视次数占主导作用,后半段时间头部姿态正向切换次数占主导作用,这与实际授课时不同类别课程设置在不同尺度教室中是一致的,证实了课堂注意力模型能够适用于多尺度课堂。

2.3.3 讲授型和研讨型教室对比测试

通过注意力模型的可视化手段,对讲授型和研讨型教室场景中学生的注意力情况进行对比,该段时间内学生注意力情况的差异可利用序列图和散点图之间的差异来反映,具体通过对比PG参数来说明。例如:对于同一位教师所教的同门课程,当分别在讲授型教室1和研讨型教室2时,得到PG的测试结果如图9所示。

图9(a)比较了讲授型教室1和研讨型教室2中P值的趋势,很明显,红色曲线的变化范围大于蓝色曲线,波动的幅值小于蓝色曲线,反映了学生在教室1中的正向切换平均次数小于教室2,这和实际中的研讨型教室学习氛围和教学效果好保持一致。图9(b)比较了讲授型教室1和研讨型教室2中G值的趋势,同样红色曲线的变化范围大于蓝色曲线,波动的幅值小于蓝色曲线,反映了学生在教室1中的平均凝视次数小于教室2,这和实际中学生在研讨型教室中参与度高、兴趣度强相一致。而且图9(a)图9(b)中的两条曲线有着明显的区别,蓝色曲线有明显的谷点,通过对存在谷点所对应的课堂视频进行分析,发现学生使用手机的学习软件来回答问题,导致讲授型教室的PG的值都较小,总体表征活跃参数小。图9(c)中,蓝色圆点代表教室1,红色叉点代表教室2,蓝色圆点分布较为松散,红色叉点相对密集,说明教室1中注意力水平的波动性高于教室2。此外,图9(c)中的左下角,有一些蓝色的圆点更接近零点,说明在教室1中存在一些注意力水平较低的时间段,这和实际中学生在研讨型教室中参与度高、兴趣度强相一致。因此,本文提出的课堂注意力模型能够很好地量化评估研讨型课堂的注意力情况。

3 结束语

提出了一种基于头部检测、头部姿态估计和注意力模型分析的课堂注意力测量方案。首先对课堂视频进行头部检测,得到头部的位置和数量,然后经人脸检测和头部姿态分类,得到凝视状态和非凝视状态参数,最后经过注意力模型参数(抬头率和活跃参数)分析,得到一个总体表征课堂注意力的数值。经过数据集的训练和测试,头部检测器在多尺度课堂中的准确率均在95.6%以上,头部姿态分类器分类的精确率为94.6%,并在实际课堂场景中进行了验证,结果表明该测量方案能够真实有效反映学生的课堂注意力情况,为广大教员开展教学反思和评价专家组织教学能力考察提供重要参考依据。

参考文献

[1]

ZHANG Y Y. Construction of a smart classroom for image processing courses in colleges and universities based on artificial intelligence: taking fundamentals of photoshop as an example[C]∥Proceedings of the 2023 IEEE 3rd International Conference on Social Sciences and Intelligence Management. Piscataway, USA: IEEE, 2023: 84-88.

[2]

XU XTENG X. Classroom attention analysis based on multiple Euler angles constraint and head pose estimation[C]∥Proceedings of the International Conference on Multimedia Modeling. Cham, Switzerland: Springer, 2020: 329-340.

[3]

张立山,冯硕,李亭亭. 面向课堂教学评价的形式化建模与智能计算[J]. 现代远程教育研究202133(1):13-25.

[4]

李玉荣. 基于计算机视觉技术的智能化课堂管理系统研究[J]. 通信与信息技术2024(2):130-136.

[5]

ZHENG ZWANG PLIU W, et al. Distance-IoU loss: faster and better learning for bounding box regression[C]∥Proceedings of the AAAI Conference on Artificial Intelligence. Washington, USA: AAAI, 2020:12993-13000.

[6]

LI WWANG H YWANG R, et al. Reform and application of teaching design of experimental design course based on flipping classroom[C]∥Proceedings of the 2021 International Conference on Education,Information Management and Service Science. Piscataway, USA: IEEE, 2021:257-260.

[7]

TANG C KLIN H JZHANG L G, et al. Electrical specialty experiment teaching reform method with flipped classroom[C]∥Proceedings of the 2020 IEEE International Conference on Signal Processing, Communications and Computing. Piscataway,USA: IEEE. 2020:DOI:10.1109/ICSPCC50002.2020.925492 .

[8]

白馨烨,李云皓,王娟,课堂学习行为对学习效果的影响:基于计算机视觉识别方法[J]. 教育信息技术2024():85-89.

[9]

XIAO S HSANG NWANG X P, et al. Leveraging ordinal regression with soft labels for 3D head pose estimation from point sets[C]∥Proceedings of the 2020 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, USA: IEEE, 2020:1883-1887.

[10]

代青,白炳泉,贾继兵,基于层次分析法和证据理论的课堂教学质量综合评价[J].信息工程大学学报201011(6):664-667.

[11]

WANG Q LWU B GZHU P F, et al. ECA-net: efficient channel attention for deep convolutional neural networks[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,USA: IEEE, 2020:11531-11539.

[12]

LI LYAO D F. Emotion recognition in complex classroom scenes based on improved convolutional block attention module algorithm[J]. IEEE Access202311:143050-143059.

[13]

FANG C XLIU Y FDENG M. Research on team teaching model based on deep learning theory[C]∥Proceedings of the 2021 IEEE 3rd International Conference on Civil Aviation Safety and Information Technology. Piscataway,USA:IEEE, 2021:1234-1238.

[14]

XUE C HZHAO WYUAN T T, et al. Study on the classroom attention mechanism of deaf students based on three-in-one education model[C]∥Proceedings of the 2020 International Conference on Modern Education and Information Management. Piscataway,USA: IEEE, 2020:838-841.

[15]

王龙博,刘建辉,张贝贝,利用注意力机制融合的YOLOv5遥感图像目标检测[J].信息工程大学学报202324(4):438-446.

基金资助

军事院校军事教育科研课题(2023QN04)

AI Summary AI Mindmap
PDF (3195KB)

594

访问

0

被引

详细

导航
相关文章

AI思维导图

/