基于PCA-Informer+模型的周期性甲烷菌体浓度预测研究

杨帆 ,  毛腾跃 ,  占伟

中南民族大学学报(自然科学版) ›› 2025, Vol. 44 ›› Issue (03) : 393 -399.

PDF (1797KB)
中南民族大学学报(自然科学版) ›› 2025, Vol. 44 ›› Issue (03) : 393 -399. DOI: 10.20056/j.cnki.ZNMDZK.20250313
物理与电子信息科学

基于PCA-Informer+模型的周期性甲烷菌体浓度预测研究

作者信息 +

Prediction of periodic methane concentration based on PCA-Informer+

Author information +
文章历史 +
PDF (1839K)

摘要

厌氧发酵是一种重要的生物技术,然而现有的检测技术无法实时测量发酵周期中甲烷菌体的浓度值,导致难以准确监测发酵状态.针对此问题,提出了基于改进Informer深度学习模型的周期性甲烷菌体浓度预测方法.首先,基于Informer构建基础预测模型;其次,利用PCA主成分分析,将特征变量从8维降低至3维,优化模型的输入,提高预测效率;然后,根据周期中每个时间点的重要性建模设计WeightedMSELoss损失函数,以更好地适应周期性甲烷菌体浓度预测任务;最后,融合特征变量、位置编码和周期编码,提高模型捕获长期依赖的能力.实验结果表明:Informer相较于长短期记忆网络(LSTM)、循环神经网络(RNN)、门控循环单元(GRU)在周期性甲烷菌体浓度预测任务上效果最好,且基于Informer改进的PCA-Informer+模型,平均绝对误差(MAE)、均方根误差(RMSE)相较于原Informer模型分别下降了26%、11%,模型效率提高了18%,实现了较为快速准确的甲烷菌体浓度预测.

Abstract

Anaerobic fermentation is an important biological technology, but the existing detection technology can not measure the concentration of methane bacteria in the fermentation cycle in real time, which makes it difficult to accurately monitor the fermentation state. To solve this problem, a periodic methane concentration prediction method based on improved Informer deep learning model was proposed. Firstly, the basic prediction model is constructed based on Informer. Secondly, based on PCA, the feature variables are reduced from 8 to 3 dimensions to optimize the input of the model and improve the prediction efficiency. Thirdly, according to the importance of different time steps in the cycle, the WeightedMSELoss loss function is designed to better adapt to the periodic methane culture task. Finally, feature variables, location coding and period coding are integrated to improve the ability of the model to capture long-term dependencies. The experimental results show that: Compared with long short-term memory network (LSTM), recurrent neural network (RNN) and gate recurrent unit (GRU), Informer has the best performance in predicting periodic methane concentration. Moreover, The PCA-Informer+ model is based on Informer improvements, with MAE and RMSE reduced by 26% and 11% respectively, and model efficiency increased by 18%, achieving relatively fast and accurate prediction of methane concentration.

Graphical abstract

关键词

Informer模型 / 菌体浓度预测 / 主成分分析

Key words

Informer model / prediction of methane concentration / Principal Component Analysis

引用本文

引用格式 ▾
杨帆,毛腾跃,占伟. 基于PCA-Informer+模型的周期性甲烷菌体浓度预测研究[J]. 中南民族大学学报(自然科学版), 2025, 44(03): 393-399 DOI:10.20056/j.cnki.ZNMDZK.20250313

登录浏览全文

4963

注册一个新账户 忘记密码

厌氧发酵在当今工业中具有重要意义,厌氧发酵为可再生能源生产提供了途径,同时有助于减少废物对环境的影响.江苏连云港某生物化工有限公司的主产品是工业酒精,利用厌氧发酵技术,该公司将废料转化为沼气作为副产品并用于发电.为了进一步缩短厌氧发酵周期,提高经济效益,我校团队与该公司合作,搭建了IBB(IBioBooster)生物智能强化控制系统(以下统称IBB系统).IBB系统的工作原理为:抽取少量大反应池中的废料液到IBB系统反应罐中,保证IBB系统反应罐与大反应池中废料成分相同.将甲烷菌种投入到IBB系统反应罐中,并加入适量的营养物质,通过控制IBB系统反应罐的温度、pH、搅拌速率等来营造一个甲烷菌体繁殖速率最快的环境.当甲烷菌体浓度达到最大时,将IBB系统反应罐中菌体培养液投放回大反应池,此时甲烷菌体浓度较大,迅速进行厌氧发酵产生沼气.然而,由于甲烷菌体浓度只能离线测量,且测量结果具有滞后性,目前在IBB系统培养甲烷菌体培养液的过程中,只能凭人工经验来判断菌体浓度达到最大的时间.
随着人工智能的发展,近些年基于机器学习和深度学习模型的预测方法广泛应用于各个领域.在生物发酵领域,如黄慧玲等1提出利用机器学习构建海水浴场粪便污染指示细菌的浓度预测模型的想法,但其仅提出想法而未进行实际预测模型搭建工作;赵停停等2以牛粪发酵产甲烷过程为研究对象,提出一种厌氧发酵产气预测混合模型,该混合模型仿真下的甲烷产率与实验数据吻合良好,短期预测准确率达90%以上,但在预测未来较长时间的数据时,准确率较低;高学金等3提出一种基于注意力LSTM的多阶段发酵过程质量预测方法,并将该方法应用到青霉素发酵仿真数据.在其他领域,董浩等4基于Informer构建了PM2.5浓度预测模型,并将该模型与LSTM和RNN模型进行对比,实验证明其提出的基于Informer的PM2.5预测模型效果最好,预测准确率约93%;WEI等5基于Informer构建了风电功率预测模型,该模型选取风速、环境温度等作为特征变量,预测准确率达90%以上;WANG等6通过将卷积网络与Informer模型相结合,提出了船舶运动姿态数据预测方法,预测准确率在95%左右.虽然上述几位学者所做工作不属于生物厌氧发酵领域,但是其所做工作与生物发酵过程中的菌体浓度预测同属于多维长时间序列预测任务,证明了Informer模型在长时间序列预测任务中的优异表现,同样也为生物菌体浓度预测提供了方法指导.
本研究目的在于高效准确地预测厌氧发酵过程中甲烷菌体浓度,在Informer模型的基础上,首先通过添加PCA降维来提高模型预测效率,然后更换根据甲烷培养周期中每个时间点的重要性来建模的WeightedMSELoss损失函数,最后利用特征融合,融合特征变量、位置编码和周期编码,共同作为模型的输入.以上操作使得改进后的模型更适用于本文周期性甲烷菌体浓度预测任务.

1 Informer模型

北京航空航天大学团队针对Transformer在长时间序列预测任务上存在的三个问题进行改进得到了一种多维长时间序列预测模型7,名为Informer,其模型结构如图1所示.

针对Transformer在长时间序列预测任务中自注意力机制需要计算每一个时刻与其他时刻的相似程度8,导致时间复杂度较高的问题,提出了概率稀疏自注意力机制(ProbSpare Self-attention)9,其公式见式(1).式中,A(Q,K,V)表示计算得到的注意力,QKV为通过输入特征变量线性变换得到的大小相同的稀疏矩阵,Q¯Q大小相同,但只包含了利用概率选取的重要性较高的logL个时刻的数据.该方法将时间复杂度由O(N2)降低为O(LlogL).

A(Q,K,V)=Softmax(Q¯KTd)V

针对Transformer在长时间序列预测任务中内存占用过大的问题,提出了自注意力蒸馏机制(Self-attention Distilling)10-11,通过添加一维卷积层、ELU激活函数、最大池化层逐渐缩小每一层的数据规模.Self-attention Distilling的公式见式(2),其中Xjt表示第j层,第t个时刻的attention值,MaxPool为最大池化操作.

Xj+1t=MaxPool(ELU(Conv1d([Xjt]AB)))

针对Transformer解码器的输入依赖于编码器的输出8,每次预测一个值,逐步预测速度慢的问题,提出了一次性预测未来所有值(One Forward Operation).原理为将编码器输入数据中的部分值与全0占位符拼接,全0占位符的长度与需要预测的数据长度相等,将拼接序列输入到解码器中一次输出所有预测值.

综上,Informer模型针对Transformer的改进使得它不仅预测效率更高,而且对长时间序列的预测也更准确.IBB系统中甲烷菌体浓度预测任务,属于长时间序列预测任务,故本文选取Informer作为基础模型来进行甲烷菌体浓度预测研究.

2 基于Informer改进的PCA-Informer+模型

2.1 PCA-Informer+模型结构

针对甲烷菌体浓度预测任务,对原Informer模型进行三处改进得到PCA-Informer+模型,其结构如图2所示.第一,由于甲烷菌体培养过程中特征参数较多,且某些特征可能包含冗余信息等问题提出了利用PCA主成分分析方法对数据进行降维操作,将特征变量从8维降至3维;第二,根据甲烷菌体培养周期中每个时间点的重要性建模,设计WeightedMSELoss损失函数;第三,融合特征变量、位置编码、周期编码,共同作为模型的输入,提高模型对本文预测任务的拟合度.

2.2 PCA降维

在甲烷菌体浓度预测任务中,由于特征变量数量较多,某些特征可能包含冗余信息等问题,利用PCA主成分分析方法对数据进行降维处理,从而在保留大部分环境参数信息的同时减少特征的数量12-13,优化模型的输入.利用PCA降维的步骤如图3所示:

(1)数据标准化:对甲烷菌体培养过程中的碳氮比、温度、PH等8个特征变量进行标准化处理,使得每个特征的均值为0,方差为1,以确保所有特征变量具有相同的尺度,消除不同特征之间的量纲差异.

(2)协方差矩阵计算:计算标准化后的多维时间序列数据的协方差矩阵.

(3)特征值分解:PCA对协方差矩阵进行特征值分解,求出协方差矩阵的特征值(λ1,λ2,,λd)和对应的特征向量(υ1,υ2,,υd).特征向量υ表示数据中的主成分,而特征值λ表示每个主成分的重要性.

(4)主成分选择:根据特征值的大小,可以选择保留最重要的主成分,从而降低数据的维度,并以特征值的比例计算每个主成分的贡献率.设定阈值90%,选择累计贡献率大于阈值的前k个主成分.计算得出:主成分1-3的贡献率分别为64.5%、22.4%、7.9%,前k个主成分累计贡献率如图4所示,前三个主成分累计贡献率为94.8%大于阈值90%,且其余主成分贡献率均小于5%,因此,保留前3个主成分作为模型的输入.

(5)数据投影:将原始数据投影到所选的主成分上来进行降维.这将生成一个新的低维表示,其中每个样本都由主成分的线性组合构成.

2.3 WeightedMSELoss损失函数

Informer模型的原损失函数为MSE,见式(3).MSE损失函数常用于回归分析任务,用来衡量模型预测值与实际值之间的平方误差,对于连续数值的预测具有较好的表现.

MSE=1Ni=1N(Yi-yi)2

将Informer模型原损失函数替换为新设计的WeightedMSELoss,见式(4).该损失函数根据甲烷菌体培养周期中每个时间点的重要性来建模,根据时间点在当前周期中的位置来设置不同的权重,对不同时间步的预测误差进行加权,以更好地反映长期依赖关系.

WeightedMSELoss=1Ni=1N(weighti×(Yi-yi)2)

式中:weighti为权重值,Yi为甲烷菌体浓度的预测值,yi为甲烷菌体浓度的真实值,N为测试集样本总数量.

甲烷菌体浓度随时间(逐小时)的变化曲线见图5.分析可知:每个培养周期甲烷菌体浓度变化趋势基本相同.甲烷菌体培养过程可以划分为四个时期:延滞期、对数期、稳定期和取菌期.延滞期为刚开始培养,菌种适应新环境,此阶段菌体浓度基本不变.对数期,菌体活跃度较高,菌体数量呈现对数增长.稳定期,菌体浓度达到最大,由于细胞的溶解作用及营养物质等条件的制约,菌体浓度呈缓慢降低趋势.取菌期,当甲烷菌体培养达到稳定期后,便将IBB系统培养罐中的菌体培养液输送回大反应池,此时IBB系统培养罐中菌体浓度急剧下降.

在WeightedMSELoss损失函数设计中,延滞期时间步权重最低,对数期时间步权重值最高.WeightedMSELoss权重设计方法为:用1初始化权重向量,将对数期权重调整为2,将稳定期权重调整为1.5,然后归一化权重向量,使得权重之和为1.

2.4 特征融合

PCA-Informer+模型基于Informer模型原有的时间特征提取部分进行改进,针对甲烷培养周期进行深入分析,并添加了专门针对周期性特征的提取方法.利用DataEmbedding函数,对三个角度进行特征融合,如图6所示:

(1)TokenEmbedding:用来将PCA降维后的特征变量序列转化为向量表示,并使用1个一维卷积层将其从3维扩张到dmodel维.

(2)PositionalEmbedding:甲烷菌体浓度预测属于多维时间序列预测问题,为了保证序列数据输入到模型以后顺序关系不丢失,对其位置信息进行编码,然后将位置编码也扩张至dmodel维.PositionalEmbedding函数中使用sin和cos函数来生成位置编码,公式见式(5-6).式中:position为位置,j表示维度,dmodel表示扩张的维度.

PE(position,2j)=sinposition(2Lx)2j/dmodel
PE(position,2j+1)=cosposition(2Lx)2j/dmodel .

(3)TemporalEmbedding:在甲烷菌体培养过程中,每个周期的菌体浓度变化趋势接近,对周期信息进行编码,并将周期编码也扩张至dmodel维.

将上述三步得到的同维度的特征变量数据、位置编码和周期编码相加.最后对所有嵌入信息的总和应用1个dropout层,防止过拟合,将其正则化输出作为预测模型的输入.

3 实验与结果分析

3.1 数据来源

学校团队在江苏连云港某生物化工有限公司搭建了IBB系统,实验选取该IBB系统的历史数据作为数据集,这些数据包括甲烷菌体发酵过程中的菌体浓度和发酵罐环境参数,如碳氮比、温度、pH、溶解氧浓度等8个特征变量.IBB系统每一小时记录一条数据,共计4800组数据,每240组数据为一个甲烷菌体培养周期,共计20个周期.

3.2 数据预处理

在数据预处理阶段,分为三步:首先,在数据采集过程中,可能会出现数据丢失等意外情况导致数据集中某些值为空,分析得知甲烷菌体浓度预测任务中,菌体浓度和环境培养参数均为线性变化的,故针对空值采取线性插值法处理;其次,若系统传感器发生故障等意外可能会导致记录的数据与真实值不符,对于这些异常值,使用前后两个数据的平均值来代替异常;最后由于数据中不同特征变量之间数值相差较大,这些尺度差异可能会导致模型在训练过程中受到数据范围较大的特征的影响,从而影响模型的性能.因此,首先需要对数据进行Z-Score标准化操作14,其公式如式(7),这种标准化方法使得数据的分布具有均值为0和标准差为1的特性,有助于模型更好地处理数据并加速收敛.

zi=xi-μσ
σ=1Ni=1N(Xi-μ)2

式(1)xi 为原始数据,μ为原始数据的均值,σ为原始数据的标准差,σ的计算公式见式(8).

将标准化后的数据按顺序以7∶1∶2的比例划分为训练集(3360组)、验证集(480组)和测试集(960组).

3.3 实验环境

本实验基于windows系统实现,硬件配置:CPU为13th Gen Intel(R) Core(TM) i5-13490F 2.50 GHz,显卡为NVIDIA RTX 4070,内存32 G;软件配置:系统版本为Windows10专业工作站版,编程语言为Python 3.11,深度学习框架为Pytorch 2.0.1.

3.4 模型性能评价指标

为了更加合理的对比不同的模型性能,本文采用平均绝对误差(Mean Absolute Error, MAE)和均方根误差(Root Mean Squared Error, RMSE)作为模型评价的指标.其中,MAE 衡量了预测值与真实值之间的平均绝对差异,能够客观地反映出模型在每个时间点上的平均预测误差. RMSE考虑了预测值与真实值之间的平均平方差异,并且通过取平方根将其转换为与目标变量相同的单位15.本文MAE与RMSE的值均为在进行逆标准化操作之前计算得到,MAE和RMSE的计算公式见式(9-10):

MAE=1Ni=1N|Yi-yi|
RMSE=1Ni=1N(Yi-yi)2

式中:Yi为甲烷菌体浓度的预测值,yi为甲烷菌体浓度的真实值,N为测试样本总数量.

3.5 原Informer模型与其他模型对比分析

3.5.1 评价指标分析

使用Python和Pytorch框架分别搭建基于RNN、LSTM、GRU、Informer网络模型16-17的IBB系统甲烷菌体浓度预测模型.表1为基于4种预测模型的MAE、RMSE对比结果.

可以看出:在当前甲烷菌体浓度预测任务中,Informer模型相比于其它三种时间序列预测的模型,取得了最好的预测效果,其MAE与RMSE均显著小于其余三种模型.但是由于Informer其复杂的网络结构和添加的多头注意力机制,使得Informer模型训练时间显著长于其余三种模型.综上,在利用Informer来实现高准确率预测的同时,还需要优化Informer模型结构,提高预测效率.

3.5.2 预测值与真实值拟合效果分析

测试集包含960组数据,共计4个培养周期,为了突出不同模型之间的差异,更清晰地对比预测值与真实值,选择将第一个周期的预测值与真实值进行可视化,可视化对比结果见图7.由图可知:基于Informer的预测模型相比于其他3个模型,预测效果最优.得益于Informer模型全局和局部注意力机制、长短期建模等特性,在周期后段,Informer预测值与真实值的拟合效果具有显著优势.

3.6 PCA-Informer+模型、Informer+、原Informer模型对比分析

利用Python语言和Pytorch深度学习框架搭建原Informer、Informer+、PCA-Informer+模型.模型训练阶段设置早停机制,连续3次验证集loss值不再降低则停止训练.表2为原Informer、Informer+、PCA-Informer+模型的MAE、RMSE、训练周期、训练时间对比结果.

可以看出:通过更换WeightedMSELoss损失函数、添加周期时间特征提取方法的Informer+模型相较于原Informer模型,在甲烷菌体浓度预测任务上准确率更高;在Informer+模型基础上添加PCA降维方法的PCA-Informer+模型,其预测准确率与Informer+几乎相同,但是训练周期与训练时间均有减少,证明了降维后的数据加速了模型的收敛,提高了模型的预测效率.综上,本文提出的PCA-Informer+模型在甲烷菌体浓度预测任务上,相较于原Informer模型MAE、RMSE分别降低了约26%、11%,训练速度提高了约18%.

4 结论

本文以江苏连云港某生物化工有限公司的IBB系统培养甲烷菌体作为研究对象,探索了一种利用深度学习来预测甲烷菌体浓度的方法,提出了PCA-Informer+菌体浓度预测模型,并与其他传统时间序列预测模型及原Informer模型进行对比实验,得出以下结论:

(1)所有模型均可预测出甲烷菌体浓度的整体变化趋势,证明了在厌氧发酵过程中利用深度学习解决问题的可行性.

(2)经过Informer模型与其他传统时间序列预测模型进行横向对比,得出:得益于Informer模型通过全局和局部注意力机制、长短期建模等特性,Informer在长时间序列预测任务中效果显著优于其他模型.

(3)基于Informer模型改进的PCA-Informer+模型,进一步提高了甲烷菌体浓度预测的准确率,并提升了模型的效率.

参考文献

[1]

黄慧玲, 明红霞, 樊景凤, . 海水浴场中粪便污染指示细菌的浓度预测模型研究进展[J]. 海洋环境科学202039(6): 953-959.

[2]

赵停停, 杨世品, 李丽娟, . 基于机理和数据驱动建立牛粪厌氧发酵产气预测混合模型[J]. 生物质化学工程202357(3): 39-48.

[3]

高学金, 孟令军, 高慧慧. 基于注意力LSTM的多阶段发酵过程集成质量预测[J]. 控制与决策202237(3): 616-624.

[4]

董浩, 孙琳, 欧阳峰. 基于Informer的PM2.5浓度预测[J].环境工程202240(6):48-54,62.

[5]

WEI HWANG W SKAO X X. A novel approach to ultra-short-term wind power prediction based on feature engineering and informer[J]. Energy Reports20239: 1236-1250.

[6]

WANG YDOU YPENG Cet al. Multi step prediction method of ship pitch based on Conv-Informer model[C]//OCEANS 2023, Limerick: IEEE, 2023: 1-6.

[7]

ZHOU HZHANG SPENG Jet al. Informer: Beyond efficient transformer for long sequence time-series forecasting[J]. Proceedings of the AAAI Conference on Artificial Intelligence202135(12): 11106-11115.

[8]

HAN KXIAO AWU Eet al. Transformer in transformer[J]. Advances in Neural Information Processing Systems202134: 15908-15919.

[9]

XU Z. A solar irradiance prediction method based on signal decomposition and Informer[C]//2023 International Conference on Image Processing, Computer Vision and Machine Learning (ICICML). Chengdu: IEEE, 2023: 1132-1136.

[10]

WANG WWEI FDONG Let al. Minilm: Deep self-attention distillation for task-agnostic compression of pre-trained transformers[J]. Advances in Neural Information Processing Systems. 202033: 5776-5788.

[11]

ZHANG YXU BZHAO T. Convolutional multi-head self-attention on memory for aspect sentiment classification[J]. IEEE/CAA Journal of Automatica Sinica20207(4): 1038-1044.

[12]

REHMAN AKHAN AALI M Aet al. Performance analysis of PCA, sparse PCA, kernel PCA and incremental PCA algorithms for heart failure prediction[C]//2020 International Conference on Electrical, Communication, and Computer Engineering (ICECCE). Istanbul: IEEE, 2020: 1-5.

[13]

MARUKATAT S. Tutorial on PCA and approximate PCA and approximate kernel PCA[J]. Artificial Intelligence Review202356(6): 5445-5477.

[14]

AGGARWAL VGUPTA VSINGH Pet al. Detection of spatial outlier by using improved Z-score test[C]//2019 3rd International Conference on Trends in Electronics and Informatics (ICOEI). Tirunelveli:IEEE, 2019: 788-790.

[15]

HODSON T O. Root-mean-square error (RMSE) or mean absolute error (MAE): When to use them or not[J]. Geoscientific Model Development202215(14): 5481-5487.

[16]

SUGIYARTO A WABADI A M. Prediction of Indonesian palm oil production using long short-term memory recurrent neural network (LSTM-RNN)[C]//2019 1st International Conference on Artificial Intelligence and Data Sciences (AiDAS). Ipoh:IEEE, 2019: 53-57.

[17]

YANG SYU XZHOU Y. LSTM and GRU neural network performance comparison study: Taking yelp review dataset as an example[C]//2020 International Workshop on Electronic Communication and Artificial Intelligence (IWECAI). Shanghai:IEEE, 2020: 98-101.

基金资助

国家民委中青年英才培养计划(MZR20007)

湖北省技术创新计划重点研发专项(2023BAB087)

新疆维吾尔自治区区域协同创新专项(科技援疆计划)(2022E02035)

AI Summary AI Mindmap
PDF (1797KB)

151

访问

0

被引

详细

导航
相关文章

AI思维导图

/