基于随机森林算法的秦艽龙胆苦苷含量快速检测

陈建国 ,  李四海

甘肃农业大学学报 ›› 2023, Vol. 58 ›› Issue (06) : 257 -264.

PDF (2748KB)
甘肃农业大学学报 ›› 2023, Vol. 58 ›› Issue (06) : 257 -264. DOI: 10.13432/j.cnki.jgsau.2023.06.028
食品科学·农业工程

基于随机森林算法的秦艽龙胆苦苷含量快速检测

作者信息 +

Rapid detection of gentiopicin content in Gentiana macrophylla based on random forest algorithm

Author information +
文章历史 +
PDF (2813K)

摘要

目的 基于近红外光谱技术,运用随机森林算法实现秦艽中龙胆苦苷含量的快速、准确、无损检测。 方法 采用HPLC法测定秦艽中龙胆苦苷的含量,正交信号校正结合小波压缩对原始光谱进行预处理,以抽取的小波系数作为光谱特征建立秦艽近红外光谱和龙胆苦苷含量之间的随机森林定量分析模型,同时对4种模型的预测结果进行了对比分析。 结果 原始光谱正交信号校正预处理后分别建立偏最小二乘和随机森林定量分析模型,偏最小二乘回归模型在验证集上的均方根误差(RMSEP)和决定系数(R2)分别为0.246 9和0.936 8,随机森林定量分析模型在验证集上的均方根误差(RMSEP)和决定系数(R2)分别为0.207 5和0.969 5。原始光谱正交信号校正后进行离散小波分解,抽取63个中低频小波系数分别建立偏最小二乘和随机森林定量分析模型,偏最小二乘回归模型在验证集上的均方根误差(RMSEP)和决定系数(R2)分别为0.212 6和0.950 3,随机森林定量分析模型在验证集上的均方根误差(RMSEP)和决定系数(R2)分别为0.166 3和0.980 4。 结论 通过小波多尺度分解降低了决策树之间的相关性,进一步提高了随机森林定量分析模型的泛化能力和稳健性,该定量分析模型可用于秦艽中龙胆苦苷含量的快速准确检测。

Abstract

Objective Based on near infrared spectroscopy, the content of gentiopicin in Gentiana macrophylla was rapidly, accurately and non-destructively determined using a random forest algorithm. Method HPLC method was used to determine the content of gentiopicrin in G. macrophylla. Orthogonal signal correction combined with wavelet compression was used to preprocess the original spectra, and the extracted wavelet coefficients were used as spectral features to establish a random forest quantitative analysis model between NIR spectrum and gentiopicrin content. At the same time, the prediction results of the four models were compared and analyzed. Result The partial least squares and random forest quantitative analysis models were established after the spectral pre-processing of the orthogonal signal correction. The root mean square error (RMSEP) and coefficient of determination (R2) of the partial least squares regression model on the validation set were 0.246 9 and 0.936 8 respectively,and the root mean square error (RMSEP) and coefficient of determination (R2) of the random forest quantitative analysis model on the validation set were 0.207 5 and 0.969 5 respectively.After the orthogonal signal is corrected, discrete wavelet decomposition is performed, and 63 medium and low frequency wavelet coefficients are extracted to establish partial least squares and random forest quantitative analysis models respectively.The root mean square error (RMSEP) and coefficient of determination (R2) of the partial least squares regression model on the validation set are 0.212 6 and 0.950 3,respectively.The root mean square error (RMSEP) and coefficient of determination(R2) of the random forest quantitative analysis model on the validation set are 0.166 3 and 0.980 4,respectively. Conclusion The correlation of decision trees was reduced by wavelet multi-scale decomposition, and the generalization ability and robustness of the random forest quantitative analysis model were further improved.The quantitative analysis model can be used for the rapid and accurate determination of gentiopicin content in G.macrophylla.

Graphical abstract

关键词

秦艽 / 近红外光谱 / 龙胆苦苷 / 随机森林 / 小波变换

Key words

Gentiana macrophylla / near infrared spectroscopy / gentiopicrin / random forest / wavelet transform

引用本文

引用格式 ▾
陈建国,李四海. 基于随机森林算法的秦艽龙胆苦苷含量快速检测[J]. 甘肃农业大学学报, 2023, 58(06): 257-264 DOI:10.13432/j.cnki.jgsau.2023.06.028

登录浏览全文

4963

注册一个新账户 忘记密码

秦艽(Gentiana straminea Maxim.)为龙胆科(Gentianaceae)植物,为我国传统中药材。甘肃、陕西、山西和四川是秦艽的道地产区。秦艽具有较高的药用价值,是治疗结核病、风湿关节痛、潮热、黄疸等症的主药之一1。2015年版《中国药典》以浸出物、灰分、龙胆苦苷、马钱苷酸的含量来评价秦艽的质量。研究表明,龙胆苦苷具有良好的抗炎、镇痛、健胃养胃等作用2
目前,秦艽中龙胆苦苷含量一般通过高效液相色谱法(high performance liquid chromatography,HPLC)测定3,HPLC是一种以液体为流动相的现代柱色谱分离分析方法,广泛用于中药化学成分的研究4,但检测周期长,成本高,无法实现在线检测。
近红外光谱技术是一种绿色检测分析技术,具有快速、无污染、无破坏性等特点,已广泛用于农产品检测5-7、食品工业8、石油化工、中药质量评价等领域。近红外光谱分析技术主要包括:光谱预处理、分析模型的建立,模型评价。近红外光谱定量分析的依据是朗伯—比尔定律,它描述了物质对某一波长光吸收的强弱与吸光物质的浓度及其液层厚度间的关系,由于偏最小二乘回归9能够有效解决光谱的多重共线性问题,被广泛用于近红外光谱的定量分析之中。随着机器学习及深度学习等技术的发展,集成学习、支持向量机、压缩感知10、卷积神经网络和循环神经网络11也逐步被应用到光谱的定量分析之中。其中,深度神经网络通过对光谱的一维或二维卷积逐层次提取光谱特征,利用提取的特征建立定量分析模型,能够取得很好的效果12,但模型的可解释性一般。集成学习是通过多个弱学习器的集成构建一个强学习器,模型具有较好的泛化能力且具有更好的可解释性。
李盛芳等13通过随机森林算法结合近红外光谱技术测定了水果中糖分的含量,并与PLS算法进行了比较,取得了较好的效果。王其滨等14提出了一种随机森林结合直接正交信号校正的光谱定量分析模型,通过直接正交信号校正滤除了无关的光谱信息,建立的随机森林模型具有更好的稳定性和预测能力。关晓蔷等15提出了基于空间变换的随机森林算法,通过增加随机森林的多样性提高了随机森林算法的性能。研究表明,通过降低随机森林中决策树之间的相关性和同质化、增加决策树的多样性能够显著提高随机森林算法的预测性能。
为增加随机森林算法中决策树的多样性,进一步提高光谱定量分析模型的预测精度和泛化能力,本文首先对秦艽近红外光谱进行离散小波多尺度分解,以分解后的中频小波系数为光谱特征,运用随机森林算法建立秦艽中龙胆苦苷含量的定量分析模型,为秦艽中主要化学成分含量的快速准确检测提供一种新的方法。

1 材料与方法

麻花秦艽样本共207个,采集于甘肃临洮县和甘肃玛曲县。Nicolet-6700型近红外光谱仪(美国Thermo公司),日本岛津高效液相色谱仪(型号:LC-20AB),二极管阵列检测器(型号SPD-M20A),自动进样器(SIL-20AC),超声清洗仪(型号SK25OHP,上海科导仪器公司),分析天平(型号MS204TS,梅特勒托利多仪器公司)。

1.1 龙胆苦苷含量测定

龙胆苦苷含量采用高效液相色谱法(HPLC)测定。龙胆苦苷对照品(批号:110770-202002,纯度:97.1%),来源中检院。乙腈(迪马)色谱级,甲醇、醋酸为分析纯。色谱条件及色谱柱:CAPCELL PAK C18色谱柱,柱温30 ℃,流速1.0 mL/min,进样体积10 μL;流动相 A为0.1%醋酸水溶液,流动相 B为乙腈。龙胆苦苷标准品色谱图如图1所示。

对照品溶液的制备:分别精确称取龙胆苦苷对照品5.158 mg,龙胆苦苷对照品3.266 mg至10 mL容量瓶中,加甲醇溶解定容至刻度。供试品溶液的制备:精确称取秦艽样品粉末(过三号筛)0.5 g,至具塞锥形瓶中,加入甲醇20 mL超声处理(功率500 W,频率40 kHz),放冷,再称定质量,用甲醇补足减失的质量,摇匀,过滤,备用。

1.1.1 精密度试验

取龙胆苦苷混合对照品溶液重复进样5次,进样量10 μL,测定峰面积RSD(%),结果如表1所示。

1.1.2 重复性试验

精确称取秦艽粉末(过三号筛)0.5 g,共5份依法测定,龙胆苦苷含量的RSD为0.46%,表明该方法重复性良好,结果如表2所示。

1.1.3 稳定性试验

取同一供试品溶液分别置0、4、6、8、10、12 h后进样分析,每次进样10 μL记录龙胆苦苷峰面积,计算RSD(%)为0.52%,表明供试品溶液在12 h内稳定(表3)。

1.2 近红外光谱采集

将秦艽样品粉碎,过筛后取秦艽粉末5 mg放入研钵,测样方式:积分球漫反射,分辨率:4 cm-1,扫描次数:64次,扫描范围:4 000~10 000 cm-1,空气湿度70%,温度20%,数据格式为吸光率。每个样品测定两次,取平均光谱。207个秦艽样本的近红外光谱见图2

2 随机森林定量分析模型

2.1 CART回归树

随机森林是以Bagging为基础的集成学习算法,其基学习器为CART回归树。CART回归树的构建过程如下:

(1) 从给定的特征中选择最优切分特征及切分点,求解如下的最优化问题:

min[j,sminc1xiR1(j,s)(yi-c1)2+minc2xiR2(j,s)(yi-c2)2]

遍历所有特征,对固定的特征j扫描切分点s,选择使上式最小的(js)。其中,R1R2是划分后的左右子树空间。

(2) 用选定的(js)划分区域并确定预测变量的输出值,结点的预测值为该结点上所有样本预测变量的平均值。

R1(j,s)=x|x(j)s  ,R2(j,s)=x|x(j)>scm=1NmxiRm(j,s)yi  ,xRm ,m=1,2

(3) 重复(1) 和(2)直至满足停止分裂条件。

(4) 最终得到的CART回归树为:

f(x)=m=1McmI(xRm)

2.2 随机森林定量分析模型

随机森林(random forest,RF)模型以CART回归树为基学习器,属于集成学习中的Bagging方法,与基于Boosting的AdaBoost、GBDT、XGBoost等方法不同,RF从样本抽样和特征选择两个维度体现其随机性,这种随机性降低了不同基学习器之间的相关性,增加了CART回归树的多样性,能够有效减小模型的方差,提高模型的泛化能力和稳健性。

(1) 随机选择样本:随机森林中每一棵CART回归树的样本集都是从原始样本集中通过Bootstrap策略有放回抽样产生的,样本集规模与原始样本集相当。这种抽样增加了决策树的多样性。

(2) 随机选择特征:与CART回归树从所有特征中选择一个最优特征产生分裂不同,随机森林首先从原始数据集的所有特征中随机选择一定数量的特征,然后再从已选择的特征中选取最优特征产生分裂,特征选择的随机性同样增加了决策树的多样性。

(3) 根据产生的T个数据集产生T棵CART回归树,最终得到的随机森林回归器为:

H(x)=1Ti=1Tfi(x)

3 结果与分析

3.1 光谱预处理

近红外光谱信号包含较多的干扰信息,主要包括基线漂移、背景噪声及杂散光等。光谱预处理能够提高定量分析模型的稳健性和泛化能力,常用的光谱预处理方法有:基线校正、散射校正、平滑处理及尺度缩放16。其中,基线校正包括一阶、二阶导数及离散小波变换,主要作用是消除背景噪声和基线漂移的干扰。散射校正包括多元散射校正、正交信号校正(orthogonal single collection,OSC)及标准正态化,主要作用是消除颗粒不均匀产生的散射对光谱的影响,正交信号校正能够滤除与因变量正交的光谱信息,保留有用信息。平滑处理能够消除随机噪声的影响,提高信噪比。尺度缩放包括归一化、Pareto尺度化,主要作用是消除不同量纲对分析模型的影响。

离散小波变换是一种有效的信号时频局部化分析方法,通过对信号的多尺度分解能够准确刻画信号的特征,聚焦信号的任意细节17-19。通过对光谱信号进行小波分解和压缩,以不同尺度上的小波系数为特征,可以增加随机森林算法中CART决策树的多样性,防止过拟合,提高随机森林定量分析模型的预测能力和稳健性。本文基于SIMCA-P 13.0软件对秦艽光谱信号进行正交信号校正和离散小波压缩预处理,正交信号校正最优主成分个数取默认值2。图3是与龙胆苦苷含量正交处理后的秦艽近红外光谱图。可以看出,正交信号校正后的光谱更为光滑、有序,表明经正交处理后滤除了部分光谱噪声,保留了主要信息。

对正交处理后的秦艽光谱继续进行离散小波压缩,小波基选用db10小波20,小波分解后低频系数反映了信号的趋势信息,高频系数反映了信号的细节,光谱有效信息位于高频系数部分,不同尺度上的高频小波系数个数和光谱解释水平如表4所示。

表4可知,D1~D5高频系数包含的光谱有效信息很少,有效信息主要位于D6~D11上,因此,本文选择D6~D11共63个中低频小波系数作为光谱特征建立随机森林定量分析模型。

3.2 龙胆苦苷含量测定结果

由于随机森林算法对样本Bootstrap抽样的随机性,其预测性能通常用袋外误差(OOB-error)来表示。为方便与其他算法进行比较,将样本划分为校正集和验证集,校正集样本124个,验证集样本83个。表5为校正集及验证集样本中龙胆苦苷含量分布的统计情况。可以看出,校正集和验证集中龙胆苦苷含量的分布范围较广,所建立的定量分析模型具有较好的适用性。

3.3 定量分析模型的建立

软件平台为python3.6、scikit-learn 0.22.2。首先建立未进行小波分解的随机森林定量分析模型:对光谱信号进行正交信号校正预处理,校正集样本124个,验证集样本83个,随机森林模型的最优参数基于scikit-learn机器学习库中的网格搜索法确定,最优参数为决策树数量100个,树的深度为5,其他参数为默认值。图4给出了模型在校正集和验证集上的性能。

图4中,纵坐标表示预测值,横坐标表示HPLC法实测值。可以看出,模型在校正集上的决定系数R2为0.978,校正均方根误差RMSEC为0.173 4。模型在验证集上的决定系数R2为0.969 5,预测均方根误差RMSEP为0.207 5。

对光谱进行正交信号校正并进行小波压缩,得到63个小波系数,然后再建立随机森林定量分析模型,使用相同的校正集和验证集。基于网格搜索法确定随机森林的最优参数,图5给出了决策树的数量与校正集上5折交叉验证相关系数之间的关系,可以看出,开始阶段随着决策树数量的增加,模型的性能提升很快,当决策树数量达到50个以上时,模型性能逐步趋于稳定。

最终确定的决策树数量为100个,树的最大深度为4,其他参数为默认值。模型在124个校正集和83个验证集样本上的拟合效果如图6所示。从图6可知,模型在校正集样本上的决定系数为0.990 6,接近于1,校正均方根误差RMSEC为0.113 2,在验证集上的决定系数为0.980 4,验证均方根误差RMSEP为0.166 3,显示了较好的预测能力。模型性能优于未进行小波压缩特征提取的随机森林定量分析模型,这说明对光谱信号进行小波多尺度分解特征提取增加了随机森林中决策树的多样性,一定程度上提高了模型的泛化能力和稳健性。

3.4 不同定量分析模型的比较

为比较随机森林模型和偏最小二乘回归模型,基于相同的校正集和验证集,分别使用正交信号校正及小波分解预处理以及正交信号校正预处理,在SIMCA-P13.0软件中建立光谱的偏最小二乘回归定量分析模型,最优主成分数量使用交叉验证方法确定,表6对比了不同定量分析模型的预测性能。

表6可知,正交信号校正结合小波多尺度分解预处理建立的随机森林模型预测能力最好,主要原因在于多尺度分解特征提取一定程度上增加了决策树的多样性,提高了模型的预测性能。同时,基于正交信号校正结合小波分解的偏最小二乘回归模型的性能也优于基于正交信号校正的PLS模型,这说明基于离散小波变换的特征提取方法有效减少了光谱特征数量,降低了模型的复杂度,提高了模型的泛化能力。

4 讨论

4种定量分析模型中,OSC结合PLS模型的预测均方根误差最大,决定系数最小,OSC+DWT结合PLS的定量分析模型由于在正交信号校正的基础上进一步进行了离散小波特征抽取,大大减少了光谱特征数量,降低了模型的复杂度,提高了模型的泛化能力,因此预测均方根误差有一定程度的减小。本研究提出的正交信号校正结合小波特征抽取的随机森林模型通过有效的光谱预处理,一方面有效压缩了光谱特征的数量,降低了定量分析模型的复杂度;另一方面不同尺度上的小波系数构成的特征空间也能适当增加基学习器的多样性,模型在验证集上的决定系数为0.9804,验证均方根误差为0.166 3,具有较高的预测准确性和较强的泛化能力,用于秦艽中龙胆苦苷含量的快速检测是可行和有效的。要进一步提升模型性能,在光谱预处理阶段,需要优化正交信号校正时最优主成分的数量,在建立和训练随机森林定量分析时,对其他非主要参数也要进行优化,包括分裂特征数量、分裂的最少样本数及叶子节点的数量等。随机森林模型的复杂度主要受决策树的数量、树的深度以及叶子节点数量的影响,对其他参数同时进行优化,将能够进一步提升定量分析模型的性能。

近红外光谱技术目前已在食品及农产品检测中得到广泛使用,对定量分析模型性能的一个重要评价指标是模型具有良好的泛化能力,其泛化误差通常是由偏差、方差及噪声共同决定。复杂度高的模型偏差小但方差大,容易产生过拟合。因此,近红外光谱定量分析模型需要在模型的复杂度和模型预测能力之间取得平衡,使得模型既具有较强的学习能力又不产生过拟合。总之,建立相对简单且预测能力强的模型是提高近红外光谱定量分析准确性和实时性的有效方法。

5 结论

利用近红外光谱技术结合随机森林算法建立了秦艽中龙胆苦苷含量的定量分析模型。研究了小波多尺度分解特征提取对随机森林模型预测能力的影响,基于小波分解的光谱压缩能够消除基线漂移及背景信息的影响,同时增加了随机森林中决策树的多样性,提高了模型的预测能力。决策树多样性的增强方法通常是在学习过程中引入随机性,如对样本、输入特征及算法参数进行扰动,基于小波多尺度分解的特征提取方法通过将光谱数据分解到不同的子空间,增加了输入特征的扰动,使用不同的多样性增强机制将能够进一步提高随机森林模型的性能。与偏最小二乘回归相比,随机森林模型也能够防止过拟合,具有更好的泛化能力。本文建立的随机森林定量分析模型预测精度较高,稳健性好,能够实现秦艽中龙胆苦苷含量的快速、准确、无损检测。

参考文献

[1]

张泽坤,王梓轩,李娅琦,.不同产地及生长方式秦艽的质量评价研究[J].中南药学201816(11):1598-1603.

[2]

王焱,曾文雪,宋小玲,.龙胆苦苷药学研究进展及其临床配伍应用[J].西北药学杂志201227(5):502-505.

[3]

张润,陈千良,胡河荷.干燥方法对秦艽药材中有效成分含量的影响[J].时珍国医国药201930(6):1348-1351.

[4]

王玲,郭志廷,熊琳,.HPLC法测定中药常山散中常山乙素、常山甲素的系统适用性研究[J].甘肃农业大学学报201853(4):29-33.

[5]

孙晓荣,王赋腾,刘翠玲,.基于MicroNir-2200的小麦粉水分含量快速检测[J].传感器与微系统201837(6):139-141.

[6]

王冬,吴静珠,韩平,.光谱关键变量筛选在农产品及食品品质无损检测中的应用进展[J].光谱学与光谱分析202141(5):1593-1601.

[7]

张敏,吴崇友,陈旭,.近红外光谱式联合收割机谷物蛋白质含量检测系统设计[J].农业工程学报202137(1):36-43.

[8]

谢有超,彭黔荣,杨敏,.近红外光谱技术在蜂蜜检测中的应用[J].食品工业科技202041(12):334-341,347.

[9]

Cheng J HSun D W.Partial least squares regression (PLSR) applied to NIR and HSI spectral data modeling to predict chemical properties of fish muscle[J].Food Engineering Reviews20179(1):36-49.

[10]

李四海,刘东玲.正交匹配追踪算法的近红外光谱定量分析[J].光谱学与光谱分析202141(4):1097-1101.

[11]

Yang JWang XWang Ret al.Combination of convolutional neural networks and recurrent neural networks for predicting soil properties using Vis-NIR spectroscopy[J].Geoderma2020380:114616.

[12]

Xu LZhu DChen Xet al.Combination of one-dimensional convolutional neural network and negative correlation learning on spectral calibration[J].Chemometrics and Intelligent Laboratory Systems2020199:103954.

[13]

李盛芳,贾敏智,董大明.随机森林算法的水果糖分近红外光谱测量[J].光谱学与光谱分析2018038(6):1766-1771.

[14]

王其滨,杨辉华,潘细朋,.随机森林结合直接正交信号校正的模型传递方法[J].激光与红外2020504(9):1081-1087.

[15]

关晓蔷,王文剑,庞继芳,.基于空间变换的随机森林算法[J].计算机研究与发展202158(11):2485-2499.

[16]

第五鹏瑶,卞希慧,王姿方,.光谱预处理方法选择研究[J].光谱学与光谱分析201939(9):2800-2806.

[17]

彭成,王松松,贺婧,.基于离散小波变换和随机森林的轴承故障诊断研究[J].计算机应用研究202138(1):101-105.

[18]

武秀恒,秦嘉浩,杜岳峰,.高地隙喷雾机主动空气悬架减振控制与实验[J].农业机械学报201849(6):60-67.

[19]

彭成,王松松,贺婧,.基于离散小波变换和随机森林的轴承故障诊断研究[J].计算机应用研究202138(1):101-105.

[20]

李雪莹,李宗民,陈光源,.小波变换的潮滩沉积物含水量预测[J].光谱学与光谱分析202242(4):1156-1161.

基金资助

甘肃省科技计划项目(21JR1RA272)

兰州市科技计划项目(2018-3-41)

AI Summary AI Mindmap
PDF (2748KB)

0

访问

0

被引

详细

导航
相关文章

AI思维导图

/