一种交互连接CNN和Transformer的肠道息肉图像分类网络

曹博, 叶淑芳, 饶钰君, 汤晓恒, 何熊熊, 李胜

小型微型计算机系统 ›› 2025, Vol. 46 ›› Issue (04) : 932 -939.

PDF
小型微型计算机系统 ›› 2025, Vol. 46 ›› Issue (04) : 932 -939. DOI: 10.20009/j.cnki.21-1106/TP.2023-0585

一种交互连接CNN和Transformer的肠道息肉图像分类网络

    曹博, 叶淑芳, 饶钰君, 汤晓恒, 何熊熊, 李胜
作者信息 +

Author information +
文章历史 +
PDF

摘要

利用内镜图像对结直肠息肉进行风险分类至关重要,能够提高临床诊断准确性并降低结直肠癌死亡率.然而,目前基于卷积神经网络(CNN)或视觉Transformer(ViT)的分类方法不能很好地区分类内尺度大和类间相似性高的息肉图像,针对息肉风险的分类任务亟需改善.CNN中的卷积算子擅长提取局部特征.ViT通过级联自注意力模块可以捕获长距离依赖关系和全局特征.本文提出一个交互连接模块,以交互式的方式将CNN和ViT相连接,以整合多尺度特征;所设计的交互混合模型,能最大限度地保留局部特征和全局表示,显著缓解息肉多分类的类内差异性大、类间相似性高的问题;在大规模自然图像数据集中进行预训练;通过微调模型结构,使用预训练的交互混合模型参数初始化主干网络,并迁移至结直肠息肉数据集中再次训练,实现息肉多分类.在结直肠息肉私有数据集和Kvasir公共数据集上评估所提出模型,实验结果显示总体分类准确率分别达到了85.83%和96.84%,优于本文比较的其他算法;且引入迁移学习可以在降低训练成本的同时提升交互混合模型的分类性能和泛化性,在有限的训练数据集下有助于提高临床诊断效率.

关键词

卷积神经网络(CNN) / 视觉Transformer(ViT) / 结直肠息肉分类 / 多尺度特征 / 迁移学习

Key words

引用本文

引用格式 ▾
一种交互连接CNN和Transformer的肠道息肉图像分类网络[J]. 小型微型计算机系统, 2025, 46(04): 932-939 DOI:10.20009/j.cnki.21-1106/TP.2023-0585

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

46

访问

0

被引

详细

导航
相关文章

AI思维导图

/