PDF
摘要
【目的】针对烟草花叶病毒(tobacco mosaic virus,TMV)早期侵染引发的微弱光谱变化难以有效捕捉与可靠判别等问题,构建基于生理敏感特征优选与可解释性机器学习的TMV高光谱精准识别方法体系,为TMV的早期识别与精准防控提供技术支撑。【方法】采集健康与TMV早期侵染烟叶的高光谱(400~1 000 nm)反射数据,经白板校正、感兴趣区域提取等预处理后,计算归一化色素叶绿素指数(normalized pigment chlorophyll index,NPCI)、水分指数(water index, WI)等52个候选植被指数;采用递归特征消除(recursive feature elimination,RFE)筛选最优特征子集;在此基础上构建并对比评估K近邻(K-nearest neighbors,KNN)、支持向量机(support vector machine,SVM)等4类机器学习模型的性能,结合随机搜索与网格搜索优化超参数,并利用独立测试集验证模型泛化能力;进一步引入沙普利加性解释(shapley additive explanations,SHAP),对最优模型进行可解释性分析,量化关键特征对分类决策的贡献。【结果】经RFE筛选得到NPCI与WI双特征子集,证明色素与水分变化是TMV早期识别的关键信息,有效解决了高光谱数据的维数灾难问题。基于双特征子集构建的最佳识别模型KNN,其受试者工作特征曲线下面积(receiver operating characteristic-area under curve,ROC-AUC)、5折交叉验证准确率(accuracy,ACC)及F1分数(balanced F score,F1-score)分别为0.987,0.955和0.961;在独立测试集上,ROC-AUC仍达0.960,泛化性能良好。SHAP分析表明,NPCI与WI为驱动模型决策的核心因子,其值升高会正向推动样本被判定为“TMV侵染”,其变化与病毒侵染诱导的叶绿素降解及水分胁迫过程相一致。【结论】仅利用NPCI与WI 2个植被指数即可实现对TMV的早期高精度识别,显著降低了模型复杂度。所提出的“RFE特征优选+KNN+SHAP”方法体系在提升识别性能的同时,揭示了“色素变化为主、水分变化为辅”的早期光谱响应机理,为TMV的早期快速识别及低成本、便携式烟草TMV监测装备的研发提供了参考依据。
关键词
Key words
盛鑫, 郝兴安, 杨照, 李顺欣, 刘星, 冯明晨, 毛锐.
基于递归特征消除的烟草花叶病高光谱精准识别[J].
西北农林科技大学学报(自然科学版), 2026, 0(09): 67-77 DOI:10.13207/j.jnwafu.2026.09.007