多尺度注意力机制的双路人群计数网络

石祥滨; 吕浩杰

doi:10.3969/j.issn.2095-1248.2023.03.003

沈阳航空航天大学学报 ›› 2023, Vol. 40 ›› Issue (3) : 16 -27. DOI: 10.3969/j.issn.2095-1248.2023.03.003

信息科学与工程

多尺度注意力机制的双路人群计数网络

石祥滨 ,
吕浩杰

作者信息 +

Two-way crowd counting network with amulti-scale attention mechanism

Author information +

文章历史 +

PDF (2442K)

摘要

针对密集人群计数任务中人群尺度变化大、背景干扰以及特征融合导致的语义失调问题，提出了一种多尺度注意力机制的双路人群计数网络。网络主要由骨干网络、尺度增强模块、多尺度模块、上下文注意模块、注意力掩膜分支网络组成。首先，尺度增强模块通过捕捉不同尺度下的人群特征，并学习图像上每个特征的重要性，从而增强对尺度快速变化的适应性。其次，多尺度模块通过使用不同膨胀率的空洞卷积在保持原有特征图大小的前提下，对特征图进行多尺度变换，使得网络能够适应不同密度的人群场景。再次，上下文注意模块通过自适应地加权局部和全局上下文信息，实现了特征的融合与优化，以缓解不同级别特征存在的语义失调问题。最后，注意力掩膜分支网络通过生成与输入图像尺度相关的掩膜，降低背景干扰对网络性能的影响。通过这4个模块的相互配合，有效地提高了密集人群计数任务的准确性和稳定性，在多个数据集上的实验结果表明，该方法取得了较好的效果。

Abstract

A two-way crowd-counting network with a multiscale attention mechanism was proposed for the problem of semantic dissonance caused by large-scale variation of the crowd， background interference， and feature fusion in dense crowd-counting tasks.The network consisted of a backbone network， a scale enhancement module， a multi-scale module， a context attention module， and an attention mask branch network. Firstly， the scale enhancement module captured the crowd features at different scales and learns the importance of each feature on the image，the refore，adaptation to rapid scale changes arreenhanced. Secondly， the multi-scale module transformed the feature map at multiple scales while maintaining the original size of the feature map， so that different crowd densities can be adapted by network. Thirdly， the context attention module adaptively weighted local and global context information to optimize feature fusion and mitigate semantic inconsistency caused by features at different levels. Finally， the attention mask branch network generates masks related to the input image scale，the influence of background interference on network performance was reduced. The coordinated use of these four modules effectively，the accuracy and stability of dense crowd counting tasks are improved. Experimental results on multiple datasets demonstrate the effectiveness and feasibility of the proposed method.

关键词

密集人群计数 / 双路人群计数网络 / 多尺度 / 损失函数 / 注意力机制

Key words

dense crowd-counting / two-way crowed counting network / multi-scale / loss function / attention mechanism

引用本文

引用格式 ▾

[Author(id=1168546103277839091, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908633803940539, orderNo=0, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=497168499@qq.com, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1168546103382696693, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908633803940539, authorId=1168546103277839091, language=EN, stringName=Xiang-bin SHI, firstName=Xiang-bin, middleName=null, lastName=SHI, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=College of Computer Science，Shenyang Aerospace University，Shenyang 110136，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1168546103470777078, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908633803940539, authorId=1168546103277839091, language=CN, stringName=石祥滨, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=沈阳航空航天大学计算机学院，沈阳 110136, bio={"content":"

石祥滨(1963-),男,辽宁沈阳人,教授,博士,主要研究方向:计算机视觉,E-mail:497168499@qq.com。

"}, bioImg=null, bioContent=

石祥滨(1963-),男,辽宁沈阳人,教授,博士,主要研究方向:计算机视觉,E-mail:497168499@qq.com。

, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1168546103143621359, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908633803940539, xref=null, ext=[AuthorCompanyExt(id=1168546103168787184, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908633803940539, companyId=1168546103143621359, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=College of Computer Science，Shenyang Aerospace University，Shenyang 110136，China), AuthorCompanyExt(id=1168546103193953009, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908633803940539, companyId=1168546103143621359, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=沈阳航空航天大学计算机学院，沈阳 110136)])]), Author(id=1168546103550468856, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908633803940539, orderNo=1, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1168546103655326458, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908633803940539, authorId=1168546103550468856, language=EN, stringName=Hao-jie LYU, firstName=Hao-jie, middleName=null, lastName=LYU, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=College of Computer Science，Shenyang Aerospace University，Shenyang 110136，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1168546103730823931, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908633803940539, authorId=1168546103550468856, language=CN, stringName=吕浩杰, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=沈阳航空航天大学计算机学院，沈阳 110136, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1168546103143621359, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908633803940539, xref=null, ext=[AuthorCompanyExt(id=1168546103168787184, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908633803940539, companyId=1168546103143621359, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=College of Computer Science，Shenyang Aerospace University，Shenyang 110136，China), AuthorCompanyExt(id=1168546103193953009, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908633803940539, companyId=1168546103143621359, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=沈阳航空航天大学计算机学院，沈阳 110136)])])] 石祥滨,吕浩杰. 多尺度注意力机制的双路人群计数网络[J]. 沈阳航空航天大学学报, 2023, 40(3): 16-27 DOI:10.3969/j.issn.2095-1248.2023.03.003

登录浏览全文

4963

注册一个新账户忘记密码

密集人群计数的目的是统计拥挤场景中人的数量，通常当人的聚集密度达到5.26人/m²及以上时称为密集人群。密集人群计数广泛应用于公共场所大规模人群踩踏、暴乱等重大事故的预警。然而，由于密集人群存在人的目标比较小、互相遮挡、尺度变化大等问题，通常难以准确计数，需要设计相应的算法，通过生成密度图对人数进行估计。

密集人群计数方法分为传统方法和基于卷积神经网络的方法。主要包括基于检测的方法和基于回归的方法。基于检测的方法通过检测人群中的每个行人来解决人群计数问题，这种方法具有一定效果，但在人群密集和严重遮挡的场景下效果较差。而基于特征回归的方法需要事先人为地构建人群图像特征，对特征的有效性要求较高，同时忽略了空间信息，导致局部区域的计数结果不准确。近年来，基于卷积神经网络的方法成为主流，然而，由于密集人群存在严重的重叠遮挡、尺度变化、视角扭曲、旋转、光照变化和天气变化等问题，单幅图片的人群计数仍是一项非常具有挑战性的任务。为了解决这些问题，研究者开展了大量的工作。为了解决极度密集人群图像计数问题，Wang等^［1］提出了一种端到端的深度卷积神经网络（Convolutional Neural Network，CNN）回归模型。该模型能够自动从图像中提取特征，提高了计数的准确性和效率。为解决人群尺度变化带来的性能下降问题，研究者提出了各种多分支结构，Zhang等^［2］提出了一种使用多列卷积神经网络进行人群计数的方法，不同的列使用不同大小的卷积核，分别处理大、中、小3种不同尺度的人群。然而，由于计算量大且不能有效利用各分支学习的特征，导致不能获得令人满意的计数效果。为了降低网络的复杂度，Li等^［3］采用单列卷积神经网络结合空洞卷积的形式，有效扩展了接受域，以捕获上下文信息。然而，空洞卷积的特性带来训练过程中信息不连续的问题，导致该方法没有达到最理想的效果。为了应对背景干扰问题，Zhu等^［4］提出了一种基于视觉注意力机制的人群计数模型，通过生成注意力掩膜图指导网络进行密度图估计，从而有效地应对背景干扰。然而，该模型存在双列子网络参数量冗余、缺少显式模块来处理尺度变化等问题。Hossain等^［5］尝试使用注意力机制来引导网络自动聚焦人群所在区域，然而该方法的模型参数量和计算复杂度过高，在高密集区域的场景中效果依旧不佳。此外，研究者还从多任务学习、非监督学习等角度进行了人群计数研究，但人群尺度变化大和背景干扰问题仍是影响人群计数的关键因素。

综上，本文提出多尺度注意力机制的双路人群计数网络（two-way crowd counting network with a multi-scale attention mechanism，TWCNMA），旨在解决人群尺度变化大、背景干扰、特征融合导致的语义失调。TWCNMA由4个部分组成：第一部分是以尺度增强模块（Scale Enhancement Module，SEM）和多尺度模块（Multi-scale Module，MSM）为核心的特征提取网络，可以捕获并融合不同尺度的特征，增加对人群尺度变化大的适应性；第二部分是多尺度注意力特征融合网络，通过构建以上下文注意模块（Context Attention Module，CAM）为核心的特征金字塔形式的多尺度注意力特征融合网络来促进不同语义级别特征之间的流动，同时缓解不同级别特征存在的语义失调问题；第三部分是注意力掩膜分支网络，通过生成注意力掩膜来抑制密度图回归过程中存在的背景干扰问题；第四部分是密度图生成，通过融合注意力掩膜和相应的密度图，网络能够生成高质量的密度图，从而使得全局人数估计更加准确。

1 多尺度注意力机制的双路人群计数网络

为了解决人群尺度变化大、背景干扰、特征融合导致的语义失调3个问题，提出多尺度注意力机制的双路人群计数网络（TWCNMA），模型的具体结构如图1所示，包括4个模块：特征提取网络、多尺度注意力特征融合网络、注意力掩膜分支网络、密度图生成。在TWCNMA中，使用VGG16^［6］主干网络作为特征提取器，提取人群图像不同尺度的特征，然后通过多尺度注意力特征融合网络实现不同尺度特征的融合，得到人群密度图和背景密度图。同时，使用注意力掩膜分支网络生成注意力掩模图和背景密度图。最后，将相应的密度图和掩模图融合，得到最终的人群计数密度图。

1.1 特征提取网络

TWCNMA采用在ImageNet数据集上预训练的VGG16网络作为基线网络，用于特征提取。得益于其出色的特征提取能力和便于迁移学习的特性，能够避免训练数据样本不足导致的过拟合。特征提取网络VGG16的5个子模块Block_1、Block_2、Block_3、Block_4、Block_5生成的特征，按照从下到上的顺序，分别表示为C1、C2、C3、C4、C5。由于浅层特征具有较多噪声，故选择C2、C3、C4、C5作为后续网络的输入。

此外，本节提出的尺度增强模块和多尺度模块，分别部署于C5和C4的后端，生成相应特征图，作为后续多尺度注意力特征融合网络的输入。

1.1.1 尺度增强模块

尺度增强模块（SEM）可以在多个感受野大小上明确提取特征，并学习图像上每个特征的重要性，从而增强对尺度快速变化的适应性。如图2所示，对于输入的特征图，首先按照4个级别进行平均池化。由于人群图像具有场景复杂、目标众多且人群规模和尺度变化大的特点，因此本文将4个级别的池化尺寸依次设置为1×1、2×2、3×3、6×6，通过多尺度池化操作，可以得到多个大小不同的子区域。之后，将各自比例的池化结果通过大小为1×1的卷积降维，并且通过双线性插值操作将其上采样，使得此时的特征图尺寸等于输入尺度增强模块的特征图尺寸。然后，将4个不同分支的特征先通过大小1×1的卷积，再通过Sigmoid函数得到不同分支的权值特征图。将权值特征图与之前各自分支特征图进行对应元素相乘，得到4个加权特征图。将4个加权特征图在通道维度上连接起来，得到与原始输入特征尺寸一致的特征图，随后与原始特征图拼接。最后，使用一个大小为1×1的卷积对拼接后的特征图进行跨通道融合并降维，从而产生模块的最终输出。

1.1.2 多尺度模块

多尺度模块（MSM）使用不同膨胀率的空洞卷积来提取目标对象的多尺度特征，并将这些特征级联在一起，以获取全局上下文信息。通过级联不同尺度的特征，MSM可以同时捕捉到目标对象的局部和全局特征，从而提高目标对象的识别和定位准确性。如图3所示，对于输入尺寸为H×W×C的特征图，在每个分支上，首先通过1×1的卷积将通道数降为输入特征图的1/4。接着，利用空洞卷积提取具有不同感受野的特征，生成尺寸为H×W×C/4的特征图。然后，将4个分支的特征图在通道维度上拼接起来，生成H×W×C的特征图。最后，使用1×1的卷积聚合信息，生成尺寸H×W×C的多尺度特征图。

1.2 多尺度注意力特征融合网络

多尺度注意力特征融合网络旨在解决密集人群计数任务中不同语义级别特征之间的流动问题以及特征融合导致的语义失调问题。网络采用特征金字塔的形式，由多个层次组成，其中每一层次都包括了不同尺度的特征图，使用特征金字塔生成不同尺度特征图的过程，如式（1）所示。在每个特征图层次中，引入了以上下文注意力模块（Context Attention Module，CAM）为核心的多尺度注意力机制，能够提取不同尺度特征图的全局和局部上下文信息，并通过注意力机制使得特征之间的流动更加顺畅。同时，CAM还能够缓解不同级别特征融合导致的语义失调问题。图4为CAM的结构示意图。

P i = C o n v 1 × 1 (C o n c a t (C i - 1, u p (P i + 1))), i = 3,4 C o n v 1 × 1 (C o n c a t (C i - 1, u p (C i))), i = 5

（1）

式中：

u p ()

为双线性插值函数；

C o n c a t ()

为将两个特征图在通道维度上进行连接；

C o n v 1 × 1 ()

为进行1×1卷积；

P i

为生成的特征图；

C i

为VGG16生成的不同尺度的特征图。

CAM首先对输入的特征C_in 和P_in 逐像素相加求和，并将结果传递给一个3×3的卷积层以获得联合特征表示。然后，将联合特征分别与不同级别的特征做逐像素的相减求差操作，以强调特征P _in和C _in的重要性。最后，将不同级别的特征通过多尺度注意力模块（Multi-Scale Attention Moudle，MSAM）来感知更多的空间细节信息，并生成相应的特征权重图。多尺度注意力模块包括两个子分支：全局上下文提取模块和局部上下文提取模块。在全局上下文提取模块中，输入特征首先通过全局平均池化层来聚合全局空间信息。然后，通过两个1×1的卷积捕获各通道间全局依赖关系，得到全局上下文特征。在局部上下文提取模块中，不使用全局平均池化层，而是使用一个3×3的卷积来捕获局部上下文特征。最后，将提取的全局和局部上下文信息进行融合，得到多尺度上下文语义特征P _out和C _out。

1.3 注意力掩膜分支网络

密集人群计数通过生成密度图并对其计数来得到人数。然而，在实际情况下，检测的图像往往会受到严重的背景干扰，导致生成的密度图受到背景噪声的影响，从而影响计数性能。为了减少背景干扰的影响，提升计数性能，设计了注意力掩膜分支网络。

如图5所示，注意力掩膜分支网络由5个结构组成。第一个结构是大小为3×3的卷积，通道数为256。接下来的3个结构与第一个结构类似，都是大小为3×3的卷积加双线性插值，区别是卷积核的通道数分别为256、128、64。最后一个结构是大小为3×3的卷积，通道数为32。注意力掩膜分支网络的输入为特征提取网路得到的C5特征图，经过注意力掩膜分支网络的处理得到32通道的R5特征图。然后，通过使用一个大小为1×1的卷积进行通道拼接并执行Sigmoid操作，得到人群注意力掩模图。最后，通过阈值筛选得到背景注意力掩膜图。

假设

f a t t

为R5特征图，则通过注意力掩膜分支网络生成的人群注意力掩膜图和背景注意力掩模图的过程分别如式（2）、（3）所示

M a t t = S i g m o i d (W ⊗ f a t t + b)

（2）

式中：

W

和

b

是1×1×1卷积层的权重和偏置；

⊗

为卷积运算；Sigmoid为Sigmoid激活函数。Sigmoid激活函数给出（0，1）概率得分，使得网络能够区分头部位置和背景

M a t t 2 (i) = 0 0.001 > M a t t (i) 1 0.001 ≤ M a t t (i)

（3）

式中：阈值设置为0.001；

i

是相应人群注意力掩模图中的一个坐标；

M a t t (i)

是相应人群注意力掩膜上像素点的值；

M a t t 2

是得到的背景注意力掩膜图。

1.4 密度图生成

在人群计数任务中，可以采用以下步骤来生成密度估计图。首先，将输入的图像经过特征提取网络提取多尺度特征。接着，通过多尺度注意力特征融合网络生成粗略的人群密度图和背景密度图，同时通过注意力掩膜分支网络生成相应的人群注意力掩膜图和背景注意力掩膜图。然后，将粗略的密度图和相应的注意力掩模图按位相乘，得到更精确的人群密度图和背景密度图。接下来，使用一个大小为1×1的卷积动态学习两者之间的关系，从而得到较为准确的人群密度图和背景密度图。最后，将人群密度图和背景密度图相加求和，得到最终输出的密度估计图，以上过程可以用式（4）、（5）表示

F 1 = (f d e n 1 ⊗ M A t t 1) F 2 = (f d e n 2 ⊗ M A t t 2)

（4）

F = C o n v 1 × 1 (F 1) + C o n v 1 × 1 (F 2)

（5）

式中：

f d e n 1

为人群密度图；

M A t t 1

为人群注意力掩膜；

f d e n 2

为背景密度图；

M A t t 2

为背景注意力掩膜；

⊗

为对应元素相乘；

F 1

为人群密度图；

F 2

为背景密度图；

C o n v 1 × 1 ()

为1×1卷积；

+

表示对应元素按位相加。

1.5 损失函数

对于密度图回归任务，使用均方误差损失函数进行优化，均方误差损失函数定义如式（6）所示。除了密度图回归任务外，在注意力掩膜分支网络中，使用两个交叉熵损失函数来监督生成人群注意力掩模图和背景注意力掩模图，交叉熵损失函数定义如式（7）所示

L d e n = 1 N ∑ i = 1 N | | F (X i, θ) - D i G T | | 2

（6）

L a t t = - 1 N ∑ i = 1 N (A i G T l o g 2 (P i) +

(1 - A i G T) l o g 2 (1 - P i))

（7）

式中：

F (X i, θ)

为估计的密度图；

θ

为该网络中一组可学习参数；

X i

为输入图像；

D i G T

为真值密度图；

N

为一个批次的图像个数；

A i G T

为注意力掩膜真值图；

P i

为预测的注意力掩膜图中每个像素被sigmoid函数激活的概率。

网络最终的损失函数包含3个单独的损失函数，分别为密度图回归损失、人群注意力掩模图的交叉熵损失和背景注意力掩模图的交叉熵损失。通过使用Cipolla等^［7］提出的使用同方差不确定性自动调整各损失函数权重的方法，取得了较好效果。具体来说，假设有

N

个任务，每个任务有一个损失函数

L i

，其中i = 1， 2， …， N，第i个损失函数的方差为

σ i 2

，噪音参数

α i = 1 / σ i 2

，这里的噪音参数表示该损失函数的可靠性。如果噪音参数过小，会导致该损失函数的权重过大，从而导致模型过拟合。如果噪音参数设置过大，会导致该损失函数的权重过小，从而导致模型欠拟合。优化过程是最大化一个高斯似然目标。具体是对模型权重

W

和噪声参数

α i

通过反向传播和随机梯度下降进行优化，使以下目标最小化

L (W, σ 1, σ 2) = 2 α 1 L 1 (W) +

2 α 2 L 2 (W) + l n σ 1 σ 2

（8）

式中：损失函数

L 1

、

L 2

分别属于第一任务和第二任务。通过最小化损失式（8）可以自适应地学习损失

L 1 (W)

和

L 2 (W)

的相对权重

σ 1

和

σ 2

，当

σ 1

增加时，意味着

L 1 (W)

的加权值降低，同时通过式（8）中的最后一项来限制

σ 1

和

σ 2

，起到正则化的作用，可以很好地平衡不同的回归和分类损失。网络最终的损失函数为

L = L d e n + L (W, σ 1, σ 2) = L d e n +

2 α 1 L 1 (W) + 2 α 2 L 2 (W) + l n σ 1 σ 2

（9）

式中：

L d e n

为均方误差损失函数；

L 1

为人群注意力掩膜损失函数；

L 2

为背景注意力掩膜损失函数；

α 1

和

α 2

分别为人群注意力掩膜任务和背景注意力掩膜任务的噪音参数。

2 算法实现

2.1 真实密度图以及注意力掩膜真值图生成

为了获得真实密度图

D i G T

，使用几何自适应的高斯核^［8］处理人群场景。假设在像素点

x i

处有一个点表示场景中的人头位置，则可以将该点用单位冲激函数

δ (x - x i)

表示，通过使用高斯核模糊每个人头标注计算出相应的真实密度图

D i G T

，即将

δ

函数与具有参数

σ i

标准差的高斯核函数进行卷积。密度图

D i G T

的生成可以表示为

D i G T = ∑ i = 1 N δ (x - x i) G σ (x)

（10）

式中：

N

为总人数；在实验中，ShanghaiTech数据集设置

σ

为5；UCF_CC_50数据集设置

σ

为15；UCF-QNRF数据集

σ

的设置通过最近邻来得到。

根据已有的标注信息及密度图可进一步生成注意力掩膜真值图。首先，使用高斯核函数生成人群真实密度图，然后基于阈值0.001^［4］对相应密度图真实值进行二值化处理，生成注意力掩膜真值图。相应公式如下

A (i) = 0 0.001 > D (i) 1 0.001 ≤ D (i)

（11）

式中：

i

为相应人群真实密度图中的一个坐标；

D (i)

为人群真实密度图上像素点的值；

A

为注意力掩膜真值图。

2.2 数据预处理和数据增强

在训练过程中，首先处理短边小于512的图像，将图像的短边调整为512，对于UCF-QNRF数据集图像分辨率过大导致计算量过大的问题，将图像大小调整为固定的1024×768。其次按比例［0.8，1.2］随机变化，将图像随机裁剪成固定大小（400×400）的图像块，然后以0.5的概率随机水平翻转，并使用参数［0.5，1.5］以0.3的概率进行伽马对比度变换处理，以进行数据增强。对于ShanghaiTech A这种带有灰色图像的数据集，以0.1的概率随机地将彩色图像改为灰色。为了与网络的输出尺寸相匹配，密度图和注意力掩膜图的真值图分辨率大小都被调整为输入图像的一半。

2.3 训练过程中的超参设定

采用前13层预训练的VGG-16作为前端特征提取器，其余的网络参数由均值为0、标准差为0.01的高斯分布随机初始化。对于ShanghaiTech、UCF_CC_50数据集采用学习率为1e-4、权重为5e-3权重衰减的Adam优化器对模型进行训练，对于UCF-QNRF数据集采用学习率为1e-5、默认权重衰减的Adam优化器对模型进行训练，在训练过程中使用批量大小为4，以稳定训练损失的变化。本文所有实验皆在Ubuntu 18.04系统下、使用python 3.6在Pytorch深度学习框架下完成，采用RTX 2070 SUPER显卡来加速训练。

3 实验及结果分析

3.1 评价指标

与大多数基于卷积神经网络的密集人群计数方法相同，本文设计的方法也使用平均绝对误差（Mean Absolute Error，MAE）和均方误差（Mean Square Error，MSE）作为评估准则。MAE反映了模型的准确性，而MSE反映了模型的稳健性，这些指标定义如下

M A E = 1 N ∑ i = 1 N | C i - C i G T |

（12）

M S E = 1 N ∑ i = 1 N | C i - C i G T | 2

（13）

3.2 ShanghaiTech数据集实验

ShanghaiTech数据集^［2］包含1 198张标注图像，共计330 165人。该数据集由A和B两部分组成。A部分包含482张从互联网上随机下载的高度拥挤的场景图像，图像场景中人数变化范围从33到3 139，其中300张图像构成训练集，182张图像构成测试集。B部分包含716张来自上海繁华的街道上相对稀疏的人群场景，人数变化范围从12到578，其中400张图像构成训练集，316张图像构成测试集。

表1列出了本文提出的TWCNMA与其他代表性算法在ShanghaiTech数据集上的实验结果。可以发现，TWCNMA在两个数据集上都实现了最好的准确率，同时在鲁棒性指标MSE上也取得了较好的结果，说明该算法在不同密集程度的场景中具有较好的适应性。在ShanghaiTech_A数据集上，与计数性能第二的SFANet相比，TWCNMA在指标MAE和MSE上分别优化了4.3%和3.1%。在ShanghaiTech_B数据集上，TWCNMA的准确率和鲁棒性优于大部分网络，仅在鲁棒性指标MSE上次于SFANet^［4］和C2FNet^［9］。SFANet使用的也是包含前端特征提取和后端特征融合的结构，但SFANet在ShanghaiTech数据集上的MAE和MSE的表现很大程度是由于其使用了UCF-QNRF数据集预训练权重作为初始权重。C2FNet生成了由低分辨率到高分辨率的密度估计图，并通过分布式监督促进密度图融合，实现了更低的MSE。

图6展示了ShanghaiTech数据集中部分测试图像的可视化结果，第一、二行是ShanghaiTech_B上的估计结果，第三、四行是ShanghaiTech_A上的估计结果，第一列是人群图片，第二列是真值密度图，第三列是预测密度图。可以发现TWCNMA在人群密集的场景及相对稀疏的城市街道场景下均展现了较好的结果，其生成的密度图也与真实密度图一样能正确反映人群的分布情况。

3.3 UCF_CC_50数据集实验

UCF_CC_50^［15］数据集内涵盖音乐会、抗议活动、体育场和马拉松比赛等不同场景，包含50幅不同视角不同分辨率的图片。每幅图片标注的人数范围从94到4 543不等，平均人数达到了1 280，这使其成为了人群计数任务中最有挑战性的数据集。

表2列出了TWCNMA与其他代表性算法在UCF_CC_50数据集上的实验结果。可以发现，TWCNMA的准确率和鲁棒性优于大部分网络，仅在鲁棒性指标MSE上次于CAN^［10］和LA-Batch^［13］。CAN同样使用VGG16作为前端特征提取网络，同时提出了一种基于上下文感知卷积神经网络的方法来自适应地学习和利用不同尺度的上下文信息。但由于UCF_CC_50数据集样本较少，并且全部为灰度图，因此该方法在该数据集上的预测误差均较大，验证效果可能偏弱，不能很好地说明模型效果。与计数性能第二的C2FNet相比，TWCNMA在指标MAE和MSE上分别优化了3.2%和7.9%。

图7展示了UCF_CC_50数据集中部分测试图像的可视化结果，可以发现TWCNMA算法能有效应对训练数据较少且人群极度密集的情况，生成接近真实人群分布的估计结果。

3.4 UCF-QNRF数据集实验

UCF-QNRF^［16］包含1 535张密集的人群图像，其中训练集有1 201张图像，测试集有334张图像。UCF-QNRF数据集拥有更多高计数的人群图像和注释，以及更广泛的场景，包含最多样化的视角、密度和照明变化。除了高密度区域外，该数据集还包含建筑、植被、天空和道路，因为它们出现在野外捕获的现实场景中，因此使得该数据集更加真实且获取难度大。

表3列出了TWCNMA与其他代表性算法在UCF-QNRF数据集上的实验结果，可以发现，TWCNMA在准确性指标MAE和鲁棒性指标MSE上达到了可竞争的水平，仅次于SFANet^［4］和C2FNet^［9］，但与性能最佳的算法仍有一定差距。性能最佳的C2FNet通过使用单列架构，在主干网络后串联多个相同的模块来充分挖掘深层抽象信息，并使用中继监督模块来优化密度图达到了最佳的效果。与C2FNet相比，TWCNMA避免了前者较为臃肿的结构，并通过注意力图来抑制背景噪声的影响。但在UCF-QNRF数据集上的表现不尽如人意，这可能是TWCNMA在某些情况下的泛化能力不足，同时也可能是因为没有在UCF-QNRF数据集上进行足够的超参数调整，优化器的参数不是最优的。

图8展示了UCF-QNRF数据集中部分测试图像的可视化结果，可以发现TWCNMA能有效应对背景噪声干扰、人群尺度变化大、人群极度密集等情况。

3.5 消融实验

为了验证本文所提出的多尺度注意力机制的双路人群计数网络（TWCNMA）的有效性，将从两个方面进行结构性消融实验并作相应的分析：（1）多尺度注意力机制的双路人群计数网络中不同模块的有效性分析；（2）注意力掩膜分支网络的有效性分析。

首先，为了验证和分析提出的多尺度模块（MSM）、尺度增强模块（SEM）及上下文注意模块（CAM）的有效性，从网络中移除某一模块，并在ShanghaiTech数据集的PartA部分进行训练并评估其性能表现。实验共包含3种设置，其中W/O MSM表示移除多尺度模块、W/O SEM表示移除尺度增强模块、W/O CAM表示移除上下文注意力模块。

表4展示了移除不同模块后的网络在ShanghaiTech数据集的PartA部分性能比较。结果表明，相比同时采用MSM、SEM、CAM的TWCNMA，单独移除一个模块后，模型的性能都有所下降。同时采用MSM、SEM、CAM能够获得最优的MAE和MSE指标，大幅提升模型性能。这表明，MSM、SEM和CAM模块在TWCNMA中都起到了重要的作用，有助于模型更好地捕获多尺度信息和上下文信息，提高了模型的性能。

其次，为了验证注意力掩膜分支网络的有效性，进行了另一个消融实验。实验包含两种设置，其中TWCNMA表示多尺度注意力机制的双路人群技术网络，W/O注意力掩膜分支网络表示移除注意力掩膜分支网络，结果如表5所示。通过在网络中添加注意力掩膜分支，生成用于指导网络生成更高质量密度图的注意力掩膜，可以提升网络的性能、抑制背景噪声的影响。相较于移除注意力掩膜分支，MAE和MSE分别提高6.38%和1.82%。

TWCNMA的部分可视化结果如图9所示。由图9可知，注意力掩模图可指示人群所在位置，在它的指示下，生成的预测密度图接近真实密度图。

4 结论

本文提出了一种多尺度注意力机制的双路人群计数网络TWCNMA用以解决密集人群计数领域中人群尺度变化大、背景干扰、特征融合导致的语义失调这3个问题。首先，提出了以多尺度模块和尺度增强模块为核心的特征提取网络，捕获不同尺度的特征，增强网络对人群尺度变化大的适应性；其次，提出了以上下文注意力模块为核心的多尺度注意力特征融合网络，有效感知并融合多尺度信息，缓解不同级别特征存在的语义失调问题；最后，使用注意力掩膜来抑制背景噪声的干扰。通过在一些公共数据集上与其他人群计数算法对比可知，提出的人群计数网络取得了较好的计数精度，同时在多个数据集上也展现出了很好的鲁棒性。尽管如此，提出的方法在UCF-QNRF数据集下表现欠佳，需要进一步提高算法的泛化性。未来，TWCNMA可以应用于预防公共场所中大规模踩踏事故的发生等场景，并可以进一步探索如何提高算法的泛化性，以便在更多的数据集和实际场景中得到更好的应用。

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	Wang C， Zhang H， Yang L，et al.Deep people counting in extremely dense crowds［C］//Proceedings of the 23rd ACM international conference on Multimedia.Brisbane，Australia.New York，USA：ACM，2015：1299-1302.

[2]	Zhang Y Y， Zhou D S， Chen S Q，et al.Single-image crowd counting via multi-column convolutional neural network［C］//2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.Las Vegas，USA：IEEE，2016：589-597.

[3]	Li Y H， Zhang X F， Chen D M.CSRNet：dilated convolutional neural networks for understanding the highly congested scenes［C］//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake，USA：IEEE，2018：1091-1100.

[4]	Zhu L， Zhao Z J， Lu C，et al.Dual path multi-scale fusion networks with attention for crowd counting［EB/OL］.（2019-02-04）［2023-01-06］.

[5]	Hossain M， Hosseinzadeh M， Chanda O，et al.Crowd counting using scale-aware attention networks［C］//2019 IEEE Winter Conference on Applications of Computer Vision （WACV）.Waikoloa，USA：IEEE，2019：1280-1288.

[6]	Simonyan K， Zisserman A.Very deep convolutional networks for large-scale image recognition［EB/OL］.（2014-09-04）［2023-01-06］2014：arXiv：1409.1556.

[7]	Cipolla R， Gal Y， Kendall A.Multi-task learning using uncertainty to weigh losses for scene geometry and semantics［C］//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake，USA：IEEE，2018：7482-7491.

[8]	Sam D B， Surya S， Babu R V.Switching convolutional neural network for crowd counting［C］//2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.Honolulu，USA：IEEE，2017：4031-4039.

[9]	Sun Z Y.Coarse-to-fine network for crowd counting［C］//2022 IEEE International Conference on Electrical Engineering，Big Data and Algorithms （EEBDA）.Changchun，China：IEEE，2022：1342-1346.

[10]	Liu W Z， Salzmann M， Fua P.Context-aware crowd counting［C］//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.Long Beach，USA：IEEE，2020：5094-5103.

[11]	Kalyani G， Janakiramaiah B， Narasimha Prasad L V，et al.Efficient crowd counting model using feature pyramid network and ResNeXt[J].Soft Computing，2021，25(15)：10497-10507.

[12]	Zhuge J C， Ding N N， Xing S J，et al.An improved deep multiscale crowd counting network with perspective awareness[J].Optoelectronics Letters，2021，17(6)：367-372.

[13]	Zhou J T， Zhang L， Du J W，et al.Locality-aware crowd counting[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2022，44(7)：3602-3613.

[14]	吴奇元，王晓东，章联军，融合注意力机制与上下文密度图的人群计数网络[J].计算机工程，2022，48(5):235-241，250.

[15]	Idrees H， Saleemi I， Seibert C，et al.Multi-source multi-scale counting in extremely dense crowd images［C］//2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland，USA：IEEE，2013：2547-2554.

[16]	Idrees H， Tayyab M， Athrey K，et al.Composition loss for counting，density map estimation and localization in dense crowds［C］//European Conference on Computer Vision.Cham，Switzerland：Springer，2018：544-559.

[17]	杜培德，严华.基于多尺度空间注意力特征融合的人群计数网络[J].计算机应用，2021，41(2):537-543.

[18]	Oh M H， Olsen P， Ramamurthy K N.Crowd counting with decomposed uncertainty[J].Proceedings of the AAAI Conference on Artificial Intelligence，2020，34(7)：11799-11806.