基于特征优选的GA-BiLSTM烧结矿中FeO含量预测模型

李中正 ,  吴朝霞 ,  王金杨 ,  康增鑫

东北大学学报(自然科学版) ›› 2025, Vol. 46 ›› Issue (06) : 56 -65.

PDF (1819KB)
东北大学学报(自然科学版) ›› 2025, Vol. 46 ›› Issue (06) : 56 -65. DOI: 10.12068/j.issn.1005-3026.2025.20240011
材料与冶金

基于特征优选的GA-BiLSTM烧结矿中FeO含量预测模型

作者信息 +

FeO Content Prediction Model in Sinter Based on GA-BiLSTM with Feature Optimization

Author information +
文章历史 +
PDF (1861K)

摘要

针对传统烧结矿质量预测模型特征选择方法单一、脱离工艺机理等问题,导致模型预测精度不高且缺乏解释性,提出了一种基于特征优选的遗传算法优化双向长短期记忆网络(GA-BiLSTM)预测模型.首先通过多种特征选择方法并且结合烧结工艺机理筛选出最佳特征集,然后利用GA优化BiLSTM,最后将最佳特征集作为GA-BiLSTM模型的输入来预测烧结矿中FeO含量.将特征优选的GA-BiLSTM模型与其他模型进行对比分析.结果表明,所建立的模型预测误差较低,并且烧结矿中FeO质量分数在允许误差±0.5%的范围内准确度为94%,表现了较高的预测精度,为提高烧结矿质量提供了新的指导方向.

Abstract

In order to solve the problems of traditional sinter quality prediction model, such as using single feature selection method and having no background of process mechanism, which results in low model prediction accuracy and lack of interpretability, a GA-BiLSTM prediction model with feature optimization is proposed. First, the optimal feature set is selected through various feature selection methods and combined with the sintering process mechanism, then GA is used to optimize BiLSTM, and finally the optimal feature set is used as the input of the GA-BiLSTM model to predict the FeO content in sinter. The GA-BiLSTM model with feature optimization was compared with other models. The results show that the prediction error of the established model is low, and the prediction accuracy for FeO mass fraction in sinter is as high as 94% within the allowable error range of ±0.5%, which may provide a new guiding direction for improving the quality of sinter.

Graphical abstract

关键词

烧结矿 / 特征优选 / FeO含量 / 预测模型 / 大数据

Key words

sinter / feature optimization / FeO content / prediction model / big data

引用本文

引用格式 ▾
李中正,吴朝霞,王金杨,康增鑫. 基于特征优选的GA-BiLSTM烧结矿中FeO含量预测模型[J]. 东北大学学报(自然科学版), 2025, 46(06): 56-65 DOI:10.12068/j.issn.1005-3026.2025.20240011

登录浏览全文

4963

注册一个新账户 忘记密码

烧结过程是钢铁工业的关键环节,它为高炉生产提供重要原料.铁矿粉通过造块工艺进行配料、混合、烧结、破碎、筛分等过程,进而生产得到成品烧结矿1.烧结矿质量直接影响高炉的生产.烧结矿中FeO含量是决定烧结矿质量的重要指标,FeO含量过高或过低都会对高炉运行产生不利的影响,影响高炉生产.此外,烧结过程具有大滞后、多变量、非线性等特性,人工难以实时检测烧结矿中FeO含量,通过FeO含量调整烧结过程相应参数,指导烧结生产.因此,建立烧结矿中FeO含量预测体系,对于烧结矿的质量及生产是十分必要的.
随着人工智能和大数据技术的发展,国内外众多学者成功将各种机器学习算法应用于烧结过程参数预测2-9,达到科学指导烧结生产的目的.针对烧结矿FeO含量预测研究,Liu等10将深度神经网络和长短时记忆神经网络相结合,对烧结矿中FeO含量进行了准确预测.张军红等11利用遗传算法对反向传播(BP)神经网络进行优化,进而对烧结矿中FeO含量进行预测.吉训生等12利用改进的萤火虫算法和神经网络相结合的方法,对烧结矿中FeO含量预测,提高预测的命中率和精度.当前烧结矿中FeO含量预测模型的研究虽然取得了一定的进展,提高了烧结矿中FeO含量预测精度,但多数研究只选用一种特征选择方法,很少通过运用多种特征选择方法来提取特征输入,并且与烧结工艺结合并不紧密.烧结生产影响因素复杂多样,特征选择方法单一以及与烧结工艺结合不紧密会影响模型的预测精度;并且模型的解释性较弱,不易被烧结生产现场接受,不能调整相应参数以有效指导烧结生产.目前的研究普遍存在特征选择方法单一以及脱离烧结工艺的问题.
针对传统烧结矿质量预测模型特征选择方法单一以及脱离烧结工艺等问题导致模型预测精度不高且缺乏解释性,本文首先对烧结数据进行预处理,得到可以直接利用的数据.然后分别利用最大互信息、Kendall相关性分析和灰色关联度分析选出与FeO含量最相关的3个特征子集,综合这3种特征选择方法,选取3个特征子集的交集且紧密结合烧结工艺机理,得到最佳输入特征集.在解决特征选择方法单一和脱离烧结工艺的问题后,考虑到烧结过程具有非线性、强耦合等特点,采用具备处理非线性数据能力的BiLSTM.因此,本文用遗传算法(GA)优化BiLSTM神经网络的初始权值和阈值,构建GA-BiLSTM神经网络模型,以提高预测烧结矿中FeO含量模型的预测精度.最后,本文以烧结厂的实际生产数据为基础,利用多种特征选择方法且紧密结合烧结工艺机理,选取最佳输入特征集,建立基于GA-BiLSTM的烧结矿中FeO含量预测模型,并与其他模型进行对比分析,验证了该模型准确可靠.

1 数据描述与处理

1.1 数据描述

本文以某烧结厂3号烧结机为研究对象,收集其实际生产数据进行分析和预处理.烧结过程参数包括原料参数、操作参数、混合料参数和状态参数,主要参数如表1所示.表1中列出49个与烧结矿中FeO含量有关的主要参数.原料参数是指配料工序中各种原料的下料量,各种原料按一定的比例混合形成烧结混料;操作参数是指烧结过程中可以人工调节的变量,进而保证烧结生产过程稳定进行;混合料参数是指烧结混合料中各种化学成分的占比;状态参数描述的是烧结过程中表现的状态变量,可通过状态参数调整操作参数,从而保证烧结矿质量.

1.2 缺失值和异常值处理

烧结过程的样本数据由传感器采集而来,烧结过程传感器异常造成部分数据缺失和异常.因此,需要根据数据的具体情况来处理,直接剔除缺失率过大的数据.如果某种数据的缺失并没有造成较大的波动,可用上一时刻的数据填充,因为这类数据的缺失符合“就近一致”的原则;如果某种数据存在长时间以及大面积的缺失,将该数据移出总数据集.若某种数据在连续的时间段存在5~8组数据缺失,可通过线性插补法进行填充.通常情况下,从烧结过程直接采集的数据不能直接用于建模,因为原始数据中存在着各种原因导致的异常值,这些异常值会对建立的机器学习模型产生不利的影响.因此,要对这些异常值进行处理.检测异常值的经典方法有3σ原则法和Z得分法,使用这两种方法的前提是数据服从正态分布,但烧结过程数据不一定服从正态分布,箱型图法规避了上述两种方法的局限性.因此,本文采用箱型图法13对异常值进行处理,如图1所示.箱型图由上四分位数(Q3)、下四分位数(Q1)、最大值、最小值及中位数(MD)组成.Q3,MD及Q1分别代表所有数据值的75%,50%和25%.四分位距(IQR)表示上四分位数和下四分位数之间的差值.数据值处于Q1-1.5IQRQ1+1.5IQR之间为正常值,数据值大于Q1+1.5IQR或小于Q1-1.5IQR为异常值.针对异常值,本文采用异常值前后5个正常值的平均值代替.

1.3 标准化处理

烧结过程中各种参数具有不同的单位和量纲,考虑将参数进行标准化处理.对参数原序列x1x2,xn式(1)进行转化,得到新序列x1*x2*,xn*,缩放至[0,1]区间.

xi*=xi-x¯s.

式中:x¯为参数平均值,即x¯=1ni=1nxis为参数标准差,即s=1n-1i=1n(xi-x¯)2.

1.4 处理结果

为验证所提预测模型的准确性,需要对烧结过程原始数据进行预处理.根据缺失值的类型采用不同的方法进行处理.箱形图的顺序按照表1中烧结参数变量的顺序进行排列.针对异常值,本文采用异常值前后5个正常值的平均值代替.由于烧结参数具有不同的量纲,需要进行标准化处理.标准化处理是一种线性变换,不会改变烧结参数在箱型图中的相对位置.箱型图法识别异常值的结果如图2所示.

2 特征选择

特征选择是从全部数据变量中提取出部分最有效的数据变量,对高维数据进行降维处理,提高模型的整体性能.通过表1可得出,烧结过程中有很多高维数据变量,其中某些数据变量与预测烧结矿中FeO含量无关.因此,首先通过特征选择进行筛选数据变量.针对特征选择方法单一以及脱离烧结工艺等问题导致模型的局限性,本文借助多种特征选择方法同时结合烧结工艺机理筛选出最优特征集,利用最优特征集对GA-BiLSTM模型进行训练及测试.

2.1 特征选择方法

最大互信息系数(maximal information coefficient,MIC)主要用来衡量多个变量之间的相关程度.MIC14主要思想是均匀划分变量,得到各自的划分区域,然后依次借助动态规划算法和近似最大互信息算法,求出各自区域的最大互信息值.MIC适合处理强非线性的烧结过程数据.因此,本文用该算法求出与烧结矿中FeO含量相关的特征集A.最大互信息系数MIC定义如下:

MIC=maxNxNyMx,ypx,ylb px,ypxpylb min Nx,Ny.

式中:NxNy分别为x方向和y方向划分的区间数量;p(x)p(y)分别为样本点落在x方向和y方向上的概率分布;p(x,y)xy的联合概率分布;M为划分的最大网格数量,其值为样本数量的0.6次方.

Kendall秩相关系数是基于秩的相关性指标,用于衡量两个变量之间的相关性程度,其值范围为[-1,1],系数值越小表明负相关性越强,系数值越大表明正相关性越强.本文目的是找出烧结过程主要参数与烧结矿中FeO含量的关系,不考虑正负相关性的影响.本文用Kendall系数求出与烧结矿中FeO含量相关的特征集B.Kendall秩相关系数定义为

τx,y=i<jsignxi-xjsignyi-yjnn-1/2.

式中:n为输入烧结数据的采样点数量; xixj为烧结过程预测烧结矿中FeO含量的主要特征参数值;yiyj为烧结矿中FeO含量值.

灰色关联度分析(grey relation analysis,GRA)是以灰色关联度顺序来衡量变量间关系的强弱.灰色关联度分析通过变量序列曲线的几何形状相似度来判断相关性程度.本文通过灰色关联度对烧结矿中FeO含量影响参数数据进行分析,提取出对烧结矿中FeO含量具有强相关性的数据,得到特征集C,具体步骤如下:

1) 构建烧结矿中FeO含量的参考序列x0和影响烧结矿中FeO含量的烧结过程参数的比较序列xvv=1,2,,k),x0(m)xv(m)分别为x0xvm点处的值.

2) 对x0xv进行归一化的无量纲处理,得到x0'xv'.

3) 计算参考序列与比较序列之间的灰色关联度系数:

ξ0v'm=minv,mx0'm-xv'm+εmaxv,mx0'm-xv'm,
ξ0vm=x0'm-xv'm+εmaxv,mx0'm-xv'm,
ξ0vm=ξ0v'mξ0vm.

式中:v为不同的比较数列;m为比较数列中第m个参数;ε为分辨系数,取值0.5.

4) 计算关联度γ0v,并将关联度进行降序排列.

γ0v=1nm=1nξ0vm.

2.2 最佳特征集选择

通过MIC,Kendall秩相关系数和GRA对影响烧结矿中FeO含量的烧结参数进行分析,分别得到特征集ABC,然后选取特征集的交集且结合烧结工艺机理,最后得到预测模型输入的最佳特征集.最佳特征集选择流程如图3所示.

烧结过程的某些参数对于预测烧结矿中FeO含量无关,因此,本文首先从经验角度选出部分与烧结矿中FeO含量相关的参数,然后利用MIC,Kendall秩相关系数和GRA特征选择方法进行相关性分析,结果如图4~图6所示.不同特征方法特征编号所对应的参数如表2所示.

通过分析图4~图6表2,不同特征方法提取出排名前20位的特征参数如表3所示.由表3可知,3种特征选择方法提取的特征参数很大一部分重合.为了提升模型的预测精度并且保证模型的解释性,本文在这3种特征方法筛选的基础上结合烧结过程工艺机理对所选的参数进行分析.

尽管通过上述的特征选择方法选取了一定的特征参数,但完全依靠大数据技术而不结合烧结工艺机理无法具有合理的解释性.因此,需要结合烧结工艺机理对筛选的特征参数进行甄别.烧结料中铁粉质量流量、燃料质量流量和水分含量是烧结矿中FeO含量的主要影响因素.烧结烟气温度与烧结矿中FeO含量之间的关系复杂,在烧结生产过程中经常通过烧结废气温度来判断烧结矿中FeO含量.另外,影响烧结矿中FeO含量的因素也有很多,操作参数、混合料参数以及状态参数的偏差都有可能导致烧结矿中FeO含量改变.所以,要全面考虑各种参数对烧结矿中FeO含量的影响.通过对表3分析可知,这些参数不仅包括原料参数、混合料参数、操作参数以及状态参数,而且也涵盖了烧结工艺机理所涉及的参数,证明通过上述3种特征选择方法以及结合烧结工艺机理筛选出的特征参数具有合理的解释性.最佳特征参数集及权值如表4所示.在基于特征优选的GA-BiLSTM预测模型中,铁粉质量流量是最关键的参数.

3 烧结矿中FeO含量预测模型

3.1 长短期记忆网络

长短期记忆(long short-term memory,LSTM)网络是循环神经网络(recurrent neural network,RNN)的变种结构,在RNN的基础上引入了“门控机制”,有效地解决了RNN容易出现的梯度爆炸或梯度消失等问题,被广泛应用在具备时序特征的数据建模中,LSTM的结构如图7所示.LSTM由遗忘门、输入门、输出门以及记忆单元组成,它们相互配合,提取并利用历史数据信息对烧结矿质量进行预测.

遗忘门对上一时刻的信息进行过滤,有选择地保留或丢弃一些信息.遗忘门ft表示为

ft=σWfht-1,xt+bf.

式中:σ是Sigmoid激活函数,输出为0~1,0表示全部丢弃,1表示全部保留;ht-1表示LSTM上一时刻的输出;Wfbf分别为遗忘门的权重系数和偏置项.

输入门决定输入信息的保留程度,输入门it表示为

it=σWiht-1,xt+bi.

式中:Wibi分别为输入门的权重系数和偏置项.

临时记忆单元C˜t和当前记忆单元Ct共同决定了LSTM的状态,

C˜t=tanhWcht-1,xt+bc
Ct=ft*Ct-1+it*C˜t.

式中:Wcbc分别为临时记忆单元的权重系数和偏置项;Ct-1表示上一时刻的状态;*为Hadamard积.

输出门决定信息的输出量,输出门ot表示为

ot=σWoht-1,xt+bo.

式中,Wobo分别为输出门的权重系数和偏置项.

LSTM最终输出ht

ht=ot*tanh Ct.

3.2 双向长短期记忆网络

LSTM可以处理和预测时序特征长的数据,但它只能依靠历史数据进行预测,忽视了未来数据的信息.BiLSTM由2个信息传递方向相反的LSTM组成,相对于LSTM,双向长短期记忆网络(bidirectional long short-term memory,BiLSTM)能够结合未来数据的信息,实现对数据的全面分析,进而对数据进行更加准确的预测.BiLSTM的结构如图8所示.

3.3 遗传算法优化的BiLSTM预测模型

遗传算法是借鉴遗传机制提出的一种随机全局搜索优化方法.为了提升BiLSTM预测的准确性,本文采用遗传算法优化BiLSTM.该算法将BiLSTM参数编码为染色体后,通过训练与验证获取适应度值并设定适应度目标值,随后对种群个体进行遗传操作并计算适应度,若适应度达到目标,则保留当前参数并继续训练,否则重复遗传操作.具体的流程如图9所示.

3.4 模型评估指标

针对模型的性能评估,本文采用平均绝对误差(MAE)、均方误差(MSE)及均方根误差(RMSE)作为评价指标,计算公式如下:

MAE=1Ni=1Nyi-yi^,
MSE=1Nyi-yi^2,
RMSE=1Nyi-yi^2.

式中:N为测试集的样本量;yi为真实值;yi^为预测值.

4 模型预测结果对比与分析

本文先通过多种特征选择方法及结合烧结工艺机理筛选出15个特征参数样本,然后将参数样本以8∶2的比例划分为训练集与测试集,训练集用于模型训练,测试集用于测试训练后的模型效果,最后采用模型评价指标对模型进行评估.本文采用的软件环境为Python3.8和scikit-learn1.0.2,硬件环境为Intel(R) Core(TM) i5-8300H CPU和8 GB的RAM.采用特征优选的GA-BiLSTM模型预测烧结矿中FeO含量.为了进一步展示特征优选的GA-BiLSTM模型的优越性,将其与使用单一特征选择方法且未结合烧结工艺机理处理烧结参数的BPNN,RNN和LSTM模型的预测性能进行对比分析.4种不同模型的预测评估结果如表5所示.

表5可以看出,基于特征优选的GA-BiLSTM模型的MAE为0.114 8,MSE为0.043 6,RMSE为0.179 1,相比于其他3种模型,MAE分别减小0.207 8,0.200 5,0.168 1,MSE分别减小0.185 3,0.115 6,0.094 6,RMSE分别减小0.273 7,0.234 7,0.208 5.因为GA-BiLSTM选用了多种特征方法并且结合烧结工艺机理筛选出最佳特征集数据样本,并且通过GA算法对BiLSTM进行参数优化,提高了模型的预测精度,从烧结工艺的角度来看也更具合理性.

MAE,MSE和RMSE只是衡量模型的平均性能,不能反映局部具体情况,所以需要统计特征优选的GA-BiLSTM预测误差的分布状况.烧结矿中FeO含量预测误差频数直方图如图10所示.由图10可知,烧结矿中FeO含量的预测误差集中在0附近,可靠性较高并且当烧结矿中FeO含量预测值在允许的误差范围±0.5%内时,预测命中率为94%左右,表明特征优选的GA-BiLSTM具有很高的预测精度.

通过上述分析,基于特征优选的GA-BiLSTM具有很高的预测精度,根据该模型对烧结矿中FeO含量的预测结果,可以指导烧结生产人员调整烧结过程参数,包括配料参数和烧结机参数,进而减少烧结矿中FeO含量的波动,提高烧结矿质量.

为更直观地展示特征优选的GA-BiLSTM预测性能,对比烧结矿中FeO含量真实值与预测值的分布状况,预测结果如图11所示.由图11可知,烧结矿中FeO含量预测值很好地拟合了真实值,特征优选的GA-BiLSTM具有很好的预测效果.

5 结 论

1) 本文首先对烧结过程参数进行了数据预处理,然后利用最大互信息、Kendall相关性分析和灰色关联度分析3种特征选择方法筛选出特征参数的交集,结合烧结工艺机理,进一步甄别出影响烧结矿FeO含量的特征参数,得到最佳特征集.最佳特征集提升了模型的预测精度并且增强了模型的可解释性.

2) 通过遗传算法优化BiLSTM对烧结矿中FeO含量进行预测,建立了基于特征优选的GA-BiLSTM烧结矿中FeO含量预测模型.将其与使用单一特征选择方法且未结合烧结工艺机理处理烧结参数的BPNN,RNN以及LSTM等模型进行对比分析,特征优选的GA-BiLSTM的MAE,MSE和RMSE特征评价指标均比其他3种模型低,表明最佳特征集作为预测模型的输入提高了模型的预测精度.

3) 基于特征优选的GA-BiLSTM烧结矿中FeO含量预测模型的误差主要集中在0附近,在误差±0.5%范围内命中率可达94%左右,能够更好地指导生产人员调整烧结过程参数,降低烧结矿中FeO含量波动,实现更好的烧结生产.

参考文献

[1]

Zhang BZhou J MLi M. Prediction of sinter yield and strength in iron ore sintering process by numerical simulation[J]. Applied Thermal Engineering2018131: 70-79.

[2]

Liu SLyu QLiu X Jet al. Synthetically predicting the quality index of sinter using machine learning model[J]. Ironmaking & Steelmaking202047(7): 828-836.

[3]

Du SWu MChen Xet al. An intelligent control strategy for iron ore sintering ignition process based on the prediction of ignition temperature[J]. IEEE Transactions on Industrial Electronics202067(2): 1233-1241.

[4]

Niu L LLiu Z JZhang J Let al. Prediction of sinter chemical composition based on ensemble learning algorithms[J]. Journal of Sustainable Metallurgy20239(3): 1168-1179.

[5]

Xia G LWu Z XLiu M Yet al. Prediction interval estimation of sinter drum index based on light gradient boosting machine and kernel density estimation[J]. Ironmaking & Steelmaking202350(8): 909-920.

[6]

丁成义, 常仁德, 郭胜兰, . 烧结过程智能控制及烧结矿冶金性能预测研究现状[J].钢铁202459(4):42-56.

[7]

Ding Cheng-yiChang Ren-deGuo Sheng-lanet al. Research status of intelligent control of sintering process and prediction of metallurgical properties of sinter[J].Iron & Steel202459(4):42-56.

[8]

Hu JWu MZhang Pet al. Prediction performance improvement via anomaly detection and correction of actual production data in iron ore sintering process[J]. IEEE Transactions on Industrial Informatics202016(12): 7602-7612.

[9]

Liu SLyu QLiu X Jet al. A prediction system of burn through point based on gradient boosting decision tree and decision rules[J]. ISIJ International201959(12): 2156-2164.

[10]

张智峰, 刘小杰, 李欣, . 基于MIV-GA-BP模型预测烧结矿FeO含量[J].中国冶金202232(10):75-81.

[11]

Zhang Zhi-fengLiu Xiao-jieLi Xinet al. Prediction of FeO content in sinter based on MIV-GA-BP mode[J].China Metallurgy202232(10):75-81.

[12]

Liu SLiu X JLyu Qet al. Comprehensive system based on a DNN and LSTM for predicting sinter composition[J]. Applied Soft Computing202095: 106574.

[13]

张军红,沈峰满,谢安国.G-BP算法在烧结矿FeO指标预测中的应用[J].东北大学学报(自然科学版)200223(11):1073-1075.

[14]

Zhang Jun-hongShen Feng-manXie An-guo. The application of G-BP in FeO content prediction during sintering[J]. Journal of Northeastern University(Natural Science)200223(11):1073-1075.

[15]

吉训生,荆田田,熊年昀.烧结矿FeO含量预测研究[J].计算机仿真201532(10):318-322.

[16]

Ji Xun-shengJing Tian-tianXiong Nian-yun. Study on FeO content of sinter prediction[J]. Computer Simulation201532(10):318-322.

[17]

Li D CHuang W TChen C Cet al. Employing box plots to build high-dimensional manufacturing models for new products in TFT-LCD plants[J]. Neurocomputing2014142: 73-85.

[18]

Simon NTibshirani R. Comment on “detecting novel associations in large data sets” by Reshef, et al, science dec 162011[EB/OL]. (2014-01-29)[2024-01-10].

基金资助

河北省教育厅科学技术研究项目(BJ2021099)

AI Summary AI Mindmap
PDF (1819KB)

186

访问

0

被引

详细

导航
相关文章

AI思维导图

/