牧草在农业和生态系统中扮演着重要角色,不仅为牲畜提供主要的营养来源,还在土壤保持和生态平衡中起着关键作用。然而,牧草种类繁多,不同种类的牧草营养价值和生态功能各异,牧草的精准分类对优化饲料管理、保护植物多样性以及提升农业生产效率具有重要意义。传统的分类方法主要依赖人工观察和实验室分析,不仅耗时费力,还易受主观因素影响,难以满足现代农业对高效性和准确性的需求。因此,开发高效、自动化的牧草植物分类技术成为重要研究方向。
近年来,近红外光谱(Near infrared spectrum,NIRS)技术因其无损检测、快速响应和高灵敏度的优势,在植物分类与成分分析中得到了广泛应用。李雪莹等
[1]提出了一种基于可见-近红外光谱的土壤分类模型转移方法,为光谱数据的跨环境适应性提供了新思路。张伏等
[2]结合可见/近红外光谱与灰狼优化支持向量机(GWO-SVM),实现了千禧番茄品种的高效分类。武斌等
[3]采用主成分分析(PCA)与模糊线性判别分析(FLDA)相结合的方法,对生菜的NIRS进行了分析,提高了分类精度。此外,涂白连等
[4]开发了一种便携式NIRS分类系统,成功应用于樟科植物的识别,而周敏等
[5]利用该技术实现了禽类粪便的分类检测,进一步验证了NIRS在农业领域的应用潜力。
在机器学习与深度学习的应用方面,NIRS结合智能分类算法已成为研究热点。传统机器学习方法如偏最小二乘判别分析(PLS-DA)和随机森林(RF)等在一定程度上提升了光谱分类效果,但在高维、复杂光谱数据处理中,存在特征提取能力受限和模型鲁棒性不足等问题。鲁玉杰等
[6]结合NIRS与极限学习机(ELM),构建小麦不同生长阶段米象的分类识别模型,采集未感染小麦和受米象感染小麦的近红外光谱数据,发现在多类别分类任务中仍存在光谱数据跨批次稳定性差、模型分类结果一致性和泛化能力不足的问题。随着研究的不断深入,深度学习方法在光谱分类任务中取得了突破。李学良等
[7]提出基于残差神经网络(ResNet)的NIRS异性纤维分类方法,实现了从光谱数据中自动提取高阶判别特征的能力,但对小样本数据的适应性仍需优化。宋金鹏等
[8]利用深度学习结合可见-近红外光谱,实现了对患腥黑穗病小麦籽粒的自动识别,但在复杂背景下的抗干扰能力仍有待提升。此外,郑钧文等
[9]研究了蔷薇科植物的光谱分类,指出在处理高维和复杂光谱数据时,采用系统聚类分析(HCA)等方法在特征选取和分类稳健性方面仍存在不足。李振宇等
[10]提出基于改进模糊推理分类器的NIRS木材分类方法,提高了模型分类的鲁棒性和准确性。Birkinshaw等
[11]基于中红外光谱信息,结合深度学习算法,对牧草饲料的成分进行了分类,进一步验证了深度学习在光谱数据处理中的优势。
尽管NIRS结合智能分类算法在植物分类领域取得了重要进展,但针对牧草的NIRS分类仍然面临以下挑战:(1)NIRS数据具有高维性和复杂性,传统机器学习方法难以有效提取深层次特征,影响分类性能;(2)不同牧草的光谱特征相似度较高,模型易受噪声影响,导致分类鲁棒性不足;(3)多类别分类任务对模型的泛化能力要求较高,现有深度学习模型在小样本数据条件下仍存在过拟合问题。
针对上述问题,本文提出一种基于深度学习的牧草分类方法,以老芒麦、甘草、麻叶荨麻、燕麦、漏芦、芦苇、扁穗冰草、马唐、苜蓿、牛筋草、无芒雀麦和羊草共12种牧草为研究对象,探索深度学习技术对高维光谱数据处理的潜力。本研究不仅为牧草的自动化分类提供了一种新方法,同时为优化饲料管理、保护牧草多样性及促进农业可持续发展提供技术支持。
1 数据采集和预处理
1.1 实验仪器
整套实验设备如
图1所示,左侧是电脑,中间为NIR-R210便携式近红外光谱仪,右侧为标准白板。NIR-R210便携式近红外光谱仪是一款反射型光谱设备,工作波长范围为900~1 700 nm,测量时间一般只需3 s甚至更短。其扫描配置为反射模式,波长步长为7.03 nm,曝光时间为0.635 ms,数字分辨率为228个通道,每次扫描重复6次。
1.2 实验环境
实验环境使用Windows 10操作系统,并配置CUDA 12.4。显卡选择NVIDIA GeForce RTX 3080 Ti,编程语言为Python 3.10。深度学习框架采用PyTorch 2.1.2,硬盘容量为80 GB,开发环境为PyCharm。
1.3 样品光谱采集
本实验样品来自内蒙古自治区呼和浩特市中国农业科学院草原研究所农牧交错区实验基地(111°47'E,40°35'N)。该地为典型的农牧交错区大陆性气候,以沙质典型草原类型为主。样品采集时间为2023年6—8月以及2024年6—8月,目标样品为12种不同牧草的叶片。在进行近红外光谱采集前,为减少测量干扰,清除叶片表面的灰尘和杂质。采集时,先录入标准白板的参考光谱,再采集叶片正面的光谱,以叶脉的主脉中点为分界线,分别采集叶片的上部、中部和下部的光谱。每片叶片采集6条光谱并取平均值。所采集的12种牧草如
图2所示,每种牧草采集100条光谱数据,共计1 200条光谱数据。本文的研究任务是对12种牧草进行分类。在模型的构建中,将数据集按7∶1.5∶1.5的比例进行划分,分别作为训练集、验证集和测试集。
1.4 光谱预处理
近红外光谱通常包含样本信息、噪声和背景信息,因此,光谱预处理被认为是多变量校准前的必要步骤,旨在消除与化学成分无关的光谱变化
[12-13]。本研究采用多种预处理方法,包括Savitzky-Golay平滑(SG)、多元散射校正(MSC)、标准值(Z-Score),以及组合方法(SG+MSC+Z-Score)。例如,甘草的原始光谱曲线以及4种预处理方法得到的光谱曲线如
图3所示。
2 材料和方法
2.1 基本原理
长短期记忆网络(Long short-term memory,LSTM)是一种用于处理时间序列数据的改进型递归神经网络,专门解决传统循环神经网络(Recurrent neural network,RNN)中梯度消失和爆炸的问题。LSTM单元结构如
图4所示,LSTM通过引入记忆单元和门控机制来管理长序列中的信息,避免早期信息丢失。每个门控机制具备不同的功能,以有效管理信息的记忆和遗忘。首先,遗忘门
通过sigmoid激活函数决定上一个时刻的细胞状态中保留多少信息;输入门
控制当前输入信息对细胞状态
的更新,与候选细胞状态
协同作用,生成新的细胞状态;输出门
决定细胞状态对隐藏状态
的输出程度;隐藏状态通过tanh激活函数处理后,与输出门
相乘,产生新的隐藏状态。
双向LSTM(Bi-LSTM)结构如
图5所示,其采用双向机制(前向和后向)处理序列数据,能够结合过去与未来的信息,从而比传统LSTM更全面地捕捉时间序列的上下文特征,在自然语言处理和语音识别等任务中表现更优。
2.2 模型建立和优化
2.2.1 BiMADCRNet模型
BiMADCRNet模型结构如
图6所示,包含4个主要部分:第一部分采用深层1D卷积层提取局部特征,第二部分采用残差连接保证梯度的稳定性和模型的训练深度,第三部分采用双向LSTM层捕捉序列数据中的双向长期依赖关系,第四部分采用多头注意力机制进一步提高模型对关键特征的关注。
BiMADCRNet模型由输入层、深度卷积层、残差连接、双向LSTM、多头注意力机制、全连接层及输出层组成。首先,数据集进入模型,经过输入层进行归一化处理,以消除光谱特征的尺度差异,提高数据的稳定性。随后,深层1D卷积层通过多个卷积层对光谱数据进行局部特征提取。该模块采用多个卷积核,第一层卷积核大小设为3,步长为1,通道数为64,经过ReLU激活后,提取低层次特征。第二层卷积核大小仍设为3,步长为1,通道数增至128,以增强模型对复杂光谱模式的识别能力。每层卷积后均采用ReLU激活函数,以引入非线性特征。此外,在每个卷积层后均采用批量归一化(Batch normalization,BN),以加速收敛并稳定训练过程。最大池化层的池化窗口设为2,步长为2,用于降维,同时降低计算复杂度并保留关键特征。卷积层的权重采用He初始化,以确保深层网络的稳定训练。为了提高深度网络的稳定性,采用残差连接,以确保梯度在深层网络中稳定传播。接下来,数据输入Bi-LSTM层,该层能够捕捉时间序列中的双向依赖关系,更好地建模光谱数据的动态变化特性。Bi-LSTM采用3层结构,每层包含256个隐藏单元,并使用tanh作为激活函数。在每层LSTM后加入Dropout层,以进一步减少过拟合风险。在LSTM层之后,引入多头注意力机制,对不同时间步的特征进行加权
[14],使得模型能够更加关注数据中的关键时间点和重要特征,从而增强分类效果。该模块采用8个注意力头,每个头的Key、Query和Value维度均为128。在计算过程中,注意力权重通过Softmax进行归一化,以确保不同时间步的注意力得分在0到1之间,避免出现梯度消失问题。在分类阶段,全连接层整合从LSTM和注意力机制提取的深度特征,输出12个类别的概率,并采用Softmax激活函数进行归一化,得到最终的分类结果。本文提出的BiMADCRNet模型能够有效地学习到牧草光谱数据中的关键特征,在不同规模的数据集上实现较高精度的分类。
2.2.2 光谱匹配与模型参数优化
本研究借助The Unscrambler X 10.4 (64-bit)、Matlab R2024a以及Origin 2024等软件完成了平均光谱计算、主成分分析、光谱预处理、模型建立与验证等工作
[15]。光谱匹配用于材料识别或验证,比较每个光谱与数据集中其他光谱的形状,使用匹配度最高的光谱识别未知样本。模型效果通过总不匹配值来评价,当其值为0时,说明样品之间可以完全区分。本研究建立了定性鉴定模型,并设定阈值为0.99,当扫描样品光谱与模型中光谱的匹配度达到该值时,可判定为对应样品
[16]。使用外部验证集对模型进行了验证,以检验其对未知样品的识别能力。为进一步提升BiMADCRNet模型在12种牧草分类任务中的表现,本研究进行了系统的参数优化并详细分析了其选择依据。选择Adam优化器是因为其结合了动量和自适应学习率的优点,能够在稀疏梯度和非平稳目标下实现更快速且稳定的收敛;初始学习率设置为0.000 3,实验中证明其在平衡收敛速度与稳定性方面表现优异。通过设置权重衰减系数为5E
04,可以有效抑制过拟合,提升模型泛化能力。同时,采用ReduceLROnPlateau学习率调度器,当验证集损失停止下降时,学习率会按0.1的比例动态减小,从而在训练后期实现精细优化;结合早停策略,当验证集损失连续5个epoch无改善时自动停止训练,以避免过拟合并缩短训练时间。训练批量大小设置为64,在效率和稳定性之间取得平衡,训练周期设置为50个epoch,以确保充分学习特征。通过这些优化策略,模型在牧草光谱分类任务中的性能显著提升。
3 结果与分析
3.1 原始光谱及建模波段分析
在12种牧草叶片的原始近红外光谱图中,各类光谱整体呈现出一致的变化趋势,见
图7。其中,在1 450 nm波长处,所有样品均显示出明显的强吸收特征。这种一致性表明牧草叶片在该波长附近其化学组成或结构特征的共性
[17]。然而,虽然整体变化趋势一致,不同牧草在特定波长下的吸光度仍存在显著差异。例如,在900~1 300 nm的波长范围内,甘草样品比其他11种牧草显示出显著较高的吸光度,这可能反映出其特定的生化特征或光谱响应特征。而无芒雀麦、羊草和老芒麦的光谱在900~1 700 nm范围内的吸光度相对较低,这可能表明其叶片的光谱特征在该范围内有所不同
[18]。
3.2 近红外光谱机器学习建模结果
在获得预处理后的光谱数据后,采用支持向量机(Support vector machine,SVM)和K最近邻(K-nearest neighbor,KNN)模型对12种牧草进行了分类建模分析。通过多次调整与实验,优化了数据预处理、特征选择和模型参数。在不进行数据降维的情况下,通过去除低方差特征、检测并剔除异常值、数据增强和交叉验证等方法优化了模型性能,并通过多项式特征扩展有效增强了模型对非线性特征的表达能力。对于SVM模型,测试了线性核、RBF核和多项式核函数,并使用网格搜索优化超参数,如设置惩罚系数
C=10和核参数
γ=0.1。在所有测试中,RBF核函数以测试集准确率79.7%的表现优于线性核的72.4%和多项式核的74.1%。这表明,RBF核函数在捕捉高维光谱数据的非线性特征方面具有显著优势。对于KNN模型,测试了不同的距离度量方法,包括欧氏距离、曼哈顿距离和闵可夫斯基距离。最终结果表明,当距离度量方法采用曼哈顿距离时,模型性能最佳,其测试集分类准确率达到80.7%。这说明曼哈顿距离更适合处理光谱数据中的分布特性。不同预处理分类方法准确率的对比结果如
表1所示,采用SG+MSC+Z-score预处理方法的SVM和KNN模型在训练集和测试集上的分类准确率显著提高,成为后续优化的基础。
在初步模型分析的基础上,为进一步提升分类性能,引入了主成分分析(PCA)、排序主成分分析(PCA Sort)和竞争自适应重加权抽样(CARS)3种数据降维方法。在PCA降维中,保留方差贡献度最高的前10个主成分,减少维度的同时尽量保留信息。PCA Sort不仅保留高方差主成分,还根据其对分类的贡献度进行排序,优先选择对分类任务最重要的主成分。CARS则结合线性回归和递归特征消除(RFE)筛选出10个最具区分性的特征。将降维后的数据应用于SVM和KNN模型,结果如
表2所示。在SVM模型中,PCA Sort的准确率在测试集上达到87.8%,优于传统PCA的85.8%和CARS的80.4%,表明PCA Sort提取的主成分能更好地反映光谱特征差异。KNN模型中,PCA Sort的测试集准确率为81.1%,同样优于PCA的79.7%和CARS的72.3%。因此,PCA Sort方法在SVM和KNN中均表现出最佳的降维效果,显著提升了分类精度和模型稳定性。
通过主成分分析,将高维数据投影到三维空间中,展示不同类别的牧草样本在PC1、PC2和PC3上的分布情况。如
图8所示,PC1和PC2捕捉了主要的方差信息,分别解释了86.19%和12.34%的总方差。部分牧草类别在PC1和PC2上表现出明显的聚类趋势,如扁穗冰草和老芒麦在PC1上的得分较高,表明它们在原始特征空间中可能具有相似的特征模式。然而,一些牧草类别如苜蓿和甘草在三维空间中存在重叠,表明PCA在区分这些类别时有一定局限性。
3.3 近红外光谱深度学习建模结果
通过比较多种基于深度学习的混合模型架构,探索特征高度相似或重叠条件下的复杂分类任务,结果如
表3所示。LSTM凭借其递归机制,能够捕捉数据的时序特征和细微差异,在区分相似类别(苜蓿和甘草)时表现出色,但其基础模型的测试集准确率仅为80.35%,尚有提升空间。而使用1D-CNN模型后,局部特征提取能力得到增强,测试集准确率提升至83.92%。进一步结合LSTM和1D-CNN后,测试集准确率达86.91%,充分体现了时序建模与局部特征提取相结合的优势。在引入注意力机制后,模型性能显著提高,其中LSTM+Attention+1D-CNN的测试集准确率为89.28%,而结合多头注意力机制和双向LSTM的Transformer+Bi-LSTM+1D-CNN的测试集准确率达到91.67%。最终,通过融合Bi-LSTM、多头注意力机制、D-1D-CNN和ResNet的BiMADCRNet模型,在测试集上实现了97.02%的最优分类准确率。这表明,结合多模块特性的深度学习混合模型能够充分发挥各组件的优势,显著提升分类性能。
为了评估BiMADCRNet各组件对模型性能的贡献,设计了一系列消融实验,如
表4所示,分别去除D-1D-CNN、Bi-LSTM、多头注意力机制和残差连接,并在相同数据集和超参数配置下进行分类性能对比。实验结果表明,D-1D-CNN对局部光谱特征提取至关重要,去除后分类准确率下降12.46%,模型无法有效捕捉光谱数据的空间结构信息。Bi-LSTM主要用于学习时序依赖关系,去除后分类准确率下降7.78%。去除多头注意力机制后,分类准确率下降5.24%,说明注意力机制能够有效增强关键特征提取,提高模型的类别区分能力。去除残差连接后,分类准确率下降2.4%,验证了残差连接在稳定梯度传播、提升深层网络的可训练性和泛化能力方面具有重要作用。
整体来看,BiMADCRNet模型整合了局部特征提取、时序建模与注意力分配的优势,实现了最高分类准确率(97.02%)。消融实验进一步验证了各模块在提升光谱分类性能方面的必要性,为模型优化设计提供了理论支持和实验依据。
在不同模型的训练过程中,训练精度和损失值随迭代次数的变化表现出显著差异。为防止过拟合,引入提前停止策略,监控验证集的损失值,当验证集损失在连续多个epoch内未能改善时,训练自动终止。该策略有效提高了训练效率,避免了过度拟合,同时保证模型在测试集上的泛化能力。从
图9可以看出,随着训练轮次的增加,各模型在测试集上的训练精度逐步提升。其中,BiMADCRNet模型在早期阶段便展现出快速收敛的趋势,最终训练精度达到98.49%,显著优于其他模型。而基础LSTM模型的训练精度仅为87.41%,且收敛速度较慢。这表明,通过引入多头注意力机制、深层卷积网络和残差网络,能够有效提升模型捕捉复杂特征的能力,从而显著增强模型分类性能。
在训练损失曲线中,各模型的损失值随着训练过程逐步下降,并在10个epoch后趋于平稳。尤其是BiMADCRNet模型始终保持较低的损失值,表明该模型具有极强的特征拟合能力和泛化性能。相比之下,基础LSTM模型的损失下降速度较慢,最终值较高,反映出其在处理复杂特征时难以充分学习数据中的深层信息,拟合能力不足。
为了更全面地展示模型在各牧草样本上的分类效果,本文汇总了各类牧草的实际样本数、正确分类数和误分类情况,见
表5。这为后续的混淆矩阵分析提供了重要的参考背景,可以更直观地理解模型在复杂类别区分任务中的具体表现,从而进一步评估模型的整体分类能力和细粒度的分类表现。
为了更直观地展示模型在不同类别上的分类效果,绘制了测试集上的混淆矩阵,如
图10所示,图中方块颜色越深代表模型对该类别的预测准确度越高。
从
图10可以发现模型在处理某些特征高度相似的类别,如羊草和无芒雀麦,依然能够保持较高的预测准确率。这表明模型能够在复杂的类别区分任务中有效捕捉数据中的细微差异,避免类别间的混淆。具体来说,模型在扁穗冰草、芦苇和马唐等类别上的表现尤为出色,其所有样本均被正确分类,显示了模型对这些类别特征的高度敏感性和准确性。然而,老芒麦在少数情况下被误分类为扁穗冰草和燕麦,表明在某些特征重叠较大的类别之间,模型仍存在一些混淆。此外,
图10显示甘草类别也出现了一个被误分类为苜蓿的样本。尽管在个别类别上出现了混淆,混淆矩阵整体上显示了模型在大多数类别上都能达到非常高的准确率,特别是在特征差异较为明显的类别上,模型的预测效果较好。这表明,结合了LSTM、注意力机制、1D-CNN和残差网络等深度学习技术的模型,在处理复杂类别区分任务时展现出了强大的特征提取和学习能力。
4 结论
针对12种不同牧草的分类问题,综合应用了传统机器学习方法和深度学习模型,深入分析了两者的性能表现,结果表明深度学习模型在复杂分类任务中具有显著优势。特别是结合深层卷积神经网络、残差网络、双向LSTM和多头注意力机制的BiMADCRNet模型,展现出了卓越的分类效果,训练集和测试集的准确率分别达到了98.49%和97.02%,显著优于传统方法。相比之下,传统机器学习方法如SVM、KNN在某些特征较为明显的类别中表现良好,但在面对光谱数据复杂、特征重叠的情况下,深度学习模型凭借其强大的特征提取能力和灵活的结构设计,表现出更强的鲁棒性和泛化能力。
尽管模型整体分类效果优异,但在特征高度相似的类别之间仍存在一定的误分类现象,反映出复杂光谱数据中潜在的特征模糊性问题。未来研究可进一步优化模型结构,例如结合更高级的深度学习模块,如Transformer架构或自监督学习方法来进一步提升分类精度。此外,可以探索多模态数据融合方法,例如整合可见光图像、无人机遥感影像和近红外光谱数据,从多维度增强模型对复杂场景的适应性,从而在更广泛的农业应用场景中发挥潜力,提高农业智能化水平。同时,通过模型轻量化设计和优化计算资源,能够进一步降低成本,为实际农业生产中的大规模应用奠定基础。