基于Swin Transformer和双层路由注意力的多标签图像分类算法

张震, 王贺, 宋宏旭

测试技术学报 ›› 2024, Vol. 38 ›› Issue (04) : 413 -419.

PDF
测试技术学报 ›› 2024, Vol. 38 ›› Issue (04) : 413 -419.

基于Swin Transformer和双层路由注意力的多标签图像分类算法

    张震, 王贺, 宋宏旭
作者信息 +

Author information +
文章历史 +
PDF

摘要

图像分类是图像处理中一项基础而又重要的工作。单一标签的图像分类已经无法满足人们的需求,研究者们开始关注于多标签图像分类。本文提出了一种Swin Transformer进行特征提取,由双层路由注意力模块进行特征处理的多标签图像分类框架。Swin Transformer通过分层结构提取多尺度信息,在多目标和更细粒度的图像识别方面优于Vision Transformer;双层路由注意力模块能够实现更灵活的计算分配和内容感知,可根据输入图像的特征自适应地调整注意力权重,灵活地控制注意力的强度和范围。模型在COCO数据集上平均精度均值为87.3,在VOC2007数据集上平均精度均值为96.7,一定程度上提高了多标签图像分类的精度。

关键词

深度学习 / 多标签分类 / Swin Transformer / 双层路由注意力模块

Key words

引用本文

引用格式 ▾
基于Swin Transformer和双层路由注意力的多标签图像分类算法[J]. 测试技术学报, 2024, 38(04): 413-419 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

51

访问

0

被引

详细

导航
相关文章

AI思维导图

/