PDF
摘要
针对细粒度图像分类易受背景干扰、关键区域定位不准确以及模型参数量大的问题,提出了一种注意力机制和多尺度特征融合的分类网络(networks of combine attention mechanisms and multi-scale features, AM-Net)。首先,以YOLOv7网络为基础,使用Ghost BottleNeck模块重新搭建轻量级主干网络,并使用GhostConv替换颈部网络中的Conv,实现模型的轻量化。其次,引入无参的SimAM注意力机制,通过考虑空间和通道维度的相关性推断特征图的三维注意力权重,表征局部显著特征,抑制无用特征,提高目标区域信息的有效性。最后,构建可特征选择的金字塔池化模块(fast spatial pyramid pooling with feature selection and convolutions, SPPFC),帮助网络模型更好地捕捉和处理目标的多尺度特征,提高模型的感知能力。通过实验可知,AM-Net在Stanford Dogs数据集上的准确率、精确率、召回率和F1分数分别达到88.9%、83.6%、85.7%和84.6%,模型参数量为26.53 MB,每秒帧率达到89.3帧,在Stanford Cars数据集上的准确率、精确率和召回率分别达到95.2%、93.7%和94.9%。实验结果表明,AM-Net可以在轻量化网络的同时提高细粒度图像的分类精度,相比于其他网络模型性能有较大提升。
关键词
人工智能
/
细粒度分类
/
特征提取
/
注意力机制
/
多尺度特征融合
Key words
注意力机制和多尺度特征融合的细粒度图像分类[J].
重庆理工大学学报(自然科学版), 2024, 38(12): 155-164 DOI: