Transformer结构与注意力机制融合的无人机图像小目标识别方法

王国帅, 黄贻望, 刘建晓, 毛志, 刘声

南京大学学报(自然科学) ›› 2025, Vol. 61 ›› Issue (02) : 214 -222.

PDF
南京大学学报(自然科学) ›› 2025, Vol. 61 ›› Issue (02) : 214 -222. DOI: 10.13232/j.cnki.jnju.2025.02.003

Transformer结构与注意力机制融合的无人机图像小目标识别方法

    王国帅, 黄贻望, 刘建晓, 毛志, 刘声
作者信息 +

Author information +
文章历史 +
PDF

摘要

目前无人机(Unmanned Aerial Vehicle,UAV)航拍图像中存在较多密集和尺寸较小的实例,识别效果往往较差.针对此问题,在YOLOv5的骨干网络中使用带有Transformer结构的C3TR模块替换原有的C3 (CSP Bottleneck with 3Convolutions)模块来增强骨干网络的特征提取能力,之后,在SPPF层后加入CA (Coordinate Attention)模块来增强模型对小目标区域的关注度.其次,在颈部网络中使用ConvNeXtBlock模块替换C3模块,ConvNeXtBlock的深层卷积能够进一步增强对小目标细节的识别,提高目标检测的准确性.最后,使用ECIoU损失函数替换CIoU损失函数来进一步提升模型的收敛速度和精度.实验结果表明,在VisDrone2019公开数据集上,与基线模型YOLOv5l相比,改进模型的mAP0.5和mAP0.5∶0.95分别提升9.5%和6.3%,和其他模型相比也有比较好的效果.

关键词

无人机 / YOLOv5 / 小目标 / Transformer / 注意力机制

Key words

引用本文

引用格式 ▾
Transformer结构与注意力机制融合的无人机图像小目标识别方法[J]. 南京大学学报(自然科学), 2025, 61(02): 214-222 DOI:10.13232/j.cnki.jnju.2025.02.003

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

92

访问

0

被引

详细

导航
相关文章

AI思维导图

/