基于KAN增强视觉Transformer的OCT疾病分类方法

张艳珠; 刘雪晴; 李婷雪; 黄月

沈阳理工大学学报 ›› 2026, Vol. 45 ›› Issue (3) : 55 -61.

张艳珠, 刘雪晴, 李婷雪, 黄月

作者信息 +

Author information +

文章历史 +

PDF

摘要

光学相干断层扫描(optical coherence tomography, OCT)具有无创、分辨率高的特点，在视网膜疾病的早期诊断中发挥了重要作用。视觉Transformer(vision Transformer, ViT)模型中传统多层感知机(MLP)模块在处理复杂医学图像时依赖于全局静态的激活函数，难以自适应地聚焦于图像中高度局部化的关键区域(如肿瘤边缘、微钙化点),导致一些细微但至关重要的结构信息在特征提取过程中被模糊化或丢失，为此引入Kolmogorov-Arnold网络(KAN)替代传统MLP,以增强模型对局部结构和非线性特征的建模能力，并与Transformer模型中的注意力机制互为补充，有效提升细粒度病灶识别效果。在由公开数据集OCT-C4扩充得到的混合OCT分类数据集上进行实验，结果表明，KAN模块对提升模型的整体性能具有积极作用，对OCT数据集的分类准确率为95.6%、精确率为95.8%、召回率为95.4%、F1分数为95.6%,优于Resnet-50和EfficientNet等主流基线模型，研究结果可为细粒度医学图像分类提供参考。