基于循环结构的视觉Transformer

蒋磊, 王子其, 崔振宇, 常志勇, 时小虎

吉林大学学报(工学版) ›› 2024, Vol. 54 ›› Issue (07) : 2049 -2056.

PDF
吉林大学学报(工学版) ›› 2024, Vol. 54 ›› Issue (07) : 2049 -2056. DOI: 10.13229/j.cnki.jdxbgxb.20221141

基于循环结构的视觉Transformer

作者信息 +

Author information +
文章历史 +
PDF

摘要

针对视觉Transformer(Vision Transformer,ViT)性能的提升依赖于网络的参数量,从而导致其应用场景受限的缺点,本文从神经学得到启发,创新性地提出将人脑神经元之间的循环结构应用在ViT上。文中首次从黎曼几何的角度解释了循环结构生效的工作原理,之后以Token-to-Token Transformer(T2T Transformer)为主干框架提出了基于循环结构的ViT。实验结果表明:循环结构的引入能在视觉Transformer参数量基本不变化的情况下大幅提高其性能,使用循环结构后,在Imagenet分类数据集下网络仅增加0.14%的参数,但带来9%的分类精度提升;在目标检测任务中,增加0.1%的参数带来10.7%的性能提升。

关键词

视觉Transformer / 循环结构 / 黎曼几何

Key words

引用本文

引用格式 ▾
蒋磊, 王子其, 崔振宇, 常志勇, 时小虎 基于循环结构的视觉Transformer[J]. 吉林大学学报(工学版), 2024, 54(07): 2049-2056 DOI:10.13229/j.cnki.jdxbgxb.20221141

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

21

访问

0

被引

详细

导航
相关文章

AI思维导图

/