面向草分类的粗细粒度结合模型——基于CLIP的实现

李鹏飞; 杨文淞; 裴生雷; 罗涛

doi:10.13763/j.cnki.jhebnu.nse.202601003

河北师范大学学报（自然科学版） ›› 2026, Vol. 50 ›› Issue (02) : 109 -116. DOI: 10.13763/j.cnki.jhebnu.nse.202601003

面向草分类的粗细粒度结合模型——基于CLIP的实现

李鹏飞, 杨文淞, 裴生雷, 罗涛

作者信息 +

Author information +

文章历史 +

摘要

计算机视觉技术在智慧农业的应用中，经常面临开放环境下的分布外(out-of-distribution, OOD)样本识别差、细粒度分类能力不足等问题，比如草的图像分类问题.然而，传统基于CNN架构在开放场景下表现不佳，遇到与训练分布偏离的样本，不能够识别出OOD样本，并将其分配给类内标签，这会显著降低模型的稳定性.为此，提出一种基于视觉语言模型的分类方法，利用预训练好的CLIP(contrastive language-image pretraining)模型中的视觉编码器与文本编码器提取图像与文本的特征嵌入向量结合，通过特征相似度对比实现跨模态，匹配提升分类效果.首先，基于提示词引导粗粒度判别，快速区分已知类别与OOD类别图像；其次，对判定为已知类别的图像引入CUM-CLIP(custom adapter-CLIP)模块，执行细粒度识别，进一步区分具体子类别，从而实现精细化、层次化分类.该方法在小样本条件下显着提升了训练效率与模型泛化能力.实验结果表明，CUM-CLIP与传统模型相比，该方法在训练时间、计算成本和分类精度方面均表现出显著优势，验证了其在开放场景下的鲁棒性和实用性.本研究为智慧农业领域的图像分类任务提供了一种高效、低成本的解决方案，可为相关研究提供有价值的参考.