为了应对全球气候变化的挑战,中国提出了力争于2030年前实现碳达峰、努力争取2060年前实现碳中和的双碳目标,展示了中国积极参与全球气候治理、走绿色低碳发展道路、推动构建人类命运共同体的坚定决心
[1 ] .实现双碳目标,不仅有利于减缓气候变化的不利影响,保护生态环境,提升人民生活质量,也有利于促进经济结构转型升级,增强发展动力和潜力,实现高质量发展
[2 ] .改善空气质量,是实现双碳目标的重要内容和必然要求,也是双碳目标的重要成果和直接体现.
对空气质量进行精确的监测和预测能够有效地减轻并控制空气污染,以便能够及时采取相应的措施和策略.空气质量的监测和预测是一个复杂的系统工程,涵盖多种污染物、影响因素、数据来源以及模型方法等
[3 ] .其中,PM2.5(细颗粒物)作为一种主要的空气污染物,对人类健康及生态环境的负面影响最为显著.因此,探究PM2.5质量浓度的影响因素,并建立PM2.5质量浓度的预测模型,是空气质量研究的核心内容
[4 ] .目前,已有许多研究对PM2.5质量浓度的影响因素展开了深入剖析,如气象条件、交通排放、工业排放、生物源排放以及区域输送等,并且运用了多种模型方法对PM2.5质量浓度进行了预测,如统计模型、机器学习模型以及数值模拟模型等.然而,这些研究仍存在一些不足和局限,如数据质量和可用性的问题、模型结构和参数调整的问题、模型精度和稳定性提升的问题等.因此,如何利用现有的数据和技术,提高PM2.5质量浓度的预测能力和实效性,仍然是当前亟待解决的重大难题.
1 数据来源与假设
本文数据来源于2023年“华中杯”数学建模竞赛C题,参考附件对所给数据进行预处理.根据文件“附件1:污染物浓度数据.xlsx”、“附件2:气象数据”和“附件3:时间段”提供的数据,针对2015年1月1日—2023年4月29日共3 041 d的空气质量数据进行变量选择,对数据进行分析和处理,筛选出能够代表PM2.5质量浓度变化的因素,并探究主要影响因素对PM2.5质量浓度影响的程度.为了便于研究问题,提出以下假设:(1)假设所有数据来源真实可靠,能够反应各因素的真实含义;(2)假设PM2.5质量浓度只受自身的滞后值和PM10、O3 、SO2 、NO2 、CO、降水量、平均气压、平均2 min风速、平均气温、平均相对湿度的影响.
2 基于斯皮尔曼 - 多元线性回归法对PM2.5质量浓度影响因素的筛选
2.1 研究思路
首先利用斯皮尔曼相关系数法对变量之间是否存在统计上的显著关系进行检验,在保证变量之间独立性的前提下,按照相关系数绝对值超过0.500确定主要影响因素的个数
k ,并分析正负向以及相关性程度
[5 ] .然后将PM2.5质量浓度作为被解释变量,所有主要影响因素作为解释变量建立多元线性回归模型并通过修正的可决系数
R ¯ 进一步判断模型拟合效果,根据回归结果分析主要影响因子对PM2.5质量浓度具体影响程度.
2.2 理论准备
斯皮尔曼相关系数是一种非参数的秩相关度量,主要用于衡量2个变量之间的相关性.这种算法通过对2个变量X 和Y 进行等级变换(rank transformation),得到对应的等级RX和RY值;进而以这2种排序位次为依据,基于排序位次利用Pearson相关性分析的方法计算RX和RY 2数值之间的相关性.算法基于原始数据的等级差异评估2个变量之间的单调关系,如式(1) 所示.
其中,d i 表示第i 个数据对的位次值之差,n 表示总的观测样本数.
多元线性回归是分析一个因变量与多个自变量之间线性关系的一种多元统计方法,研究如何通过一个线性方程来描述或预测因变量的值,即从原始变量中导出一个因变量,使它尽可能多地反映自变量的影响,此间存在相关性.由于自变量的数量过多会造成模型的复杂度和多重共线性,在建立回归模型前须使用变量选择法对数据筛选.可以将自变量的数据分解成能够代替原始数据的低维度数据,提取到对模型最有用的回归系数.设定多元线性样本回归模型随机形式,如式(2) 所示.
Y i = β ⌢ 0 + β ⌢ 1 X 1 i + β ⌢ 2 X 2 i + ⋯ + β ⌢ k X k i + e i .(2)
设x 1 i , x 2 i , ⋯ , x k i , y i 为第i 次样本观测值,为使残差的平方和达到最小,
m i n ∑ e i 2 = m i n ∑ ( y i - y ⌢ i ) 2 = m i n ∑ [ y i - ( β 0 + β ⌢ 1 x 1 i + β ⌢ 2 x 2 i + ⋯ + β ⌢ k x k i ) ] 2 .
遵循微分求极值原理,令:
用矩阵表示为:
其中,解释变量观测值矩阵X 列满秩,即方阵X ' X 满秩:
从而得到参数向量β ⌢ 的最小二乘估计值:
通过样本参数估计值β ⌢ 可以进一步得到各主要影响因素对PM2.5质量浓度的边际影响程度.
2.3 结果分析
相关分析是对变量两两之间的相关程度进行分析.通过斯皮尔曼相关系数法通过对变量两两之间的关系进行统计显著检验,筛选与PM2.5质量浓度相关系数较高的影响因素,最终保留5个主要影响因素——PM10、CO、NO
2 、SO
2 、平均气温,详见
图1 和
表2 .
根据斯皮尔曼相关系数法的筛选结果,以PM2.5质量浓度为被解释变量,PM10、CO、NO2 、SO2 、T 为解释变量建立多元线性模型,见公式(3) .
Y P M 2.5 = β ⌢ 0 + β ⌢ 1 X P M 10 + β ⌢ 2 X C O + β ⌢ 3 X N O 2 + β ⌢ 4 X S O 2 + β ⌢ 5 X T + ε .(3)
采用OLS法对模型进行参数估计,拟合效果如
图2 所示.
从
图2 可以看出多元线性回归模型的拟合态势理想,预测值与真实值高度吻合,在5%的显著性水平下的具体参数估计结果如详见
表2 .
总体来看,斯皮尔曼相关系数检验和多元线性回归分析的有机结合,既保证了解释变量与被解释变量间的高度相关,又保证了各个解释变量之间相互独立.模型总体效果较好,调整的可决系数达到0.835 7,即对PM2.5质量浓度变动的83.75%是由PM10、NO2 、SO2 、CO、T 这4个变量的变动所引起.根据回归分析结果确定最终模型,如式(4) 所示.
Y P M 2.5 = - 1.034 + 0.521 X P M 10 - 0.274 X N O 2 - 0.114 X S O 2 + 39.127 X C O - 0.884 X T (4)
根据回归结果可知,一氧化碳质量浓度使PM2.5质量浓度升高,符合常理,因为一氧化碳属于有害空气污染物,会增加细颗粒物的含量;较高的PM10质量浓度通常对应更低的PM2.5质量浓度,或许因为PM10和PM2.5之间存在一定的竞争关系,PM10的增加会抑制PM2.5的生成或沉降;二氧化硫质量浓度增加同样会使PM2.5质量浓度有所下降,可能源于大气中的二氧化硫经过氧化或湿沉降过程后能够有效降低PM2.5质量密度;而气温攀升通常伴随着PM2.5质量浓度的增加,由于高温导致的空气的流动性和扩散性的增强,使包括PM2.5在内的各类微粒更容易在空气中流动;二氧化氮质量浓度的增加反而导致PM2.5质量浓度衰减,可能是由于二氧化氮在大气层中与臭氧或其他物质的化学反应形成硝酸盐或其他颗粒,进而削减了PM2.5的质量浓度.
2.4 模型改进
通过对PM2.5质量浓度的影响因素进行深入研究,结果表明排放的大气污染物会形成聚集,导致PM2.5的质量浓度累积增加,前期大气污染物具有聚集形成的滞后效应,前期排放的大气污染物排放量对当期的PM2.5质量浓度可能存在正向的显著影响.因此运用VAR向量自回归模型来估计滞后效应,研究估计多个变量之间的动态关系,特别是PM2.5、PM10、CO、NO2 、SO2 浓度对PM2.5质量浓度动态影响.
向量自回归模型通常用于描述多变量时间序列之间的变动关系,VAR模型是自回归模型的联立形式.VAR模型的结构主要与所含变量个数N 和最大滞后阶数k 2个参数有关.如式(5) 所示.
Y t = μ + Π 1 Y t - 1 + Π 2 Y t - 2 + … + Π t Y t - k + u t , u t ~ I I D ( 0 , Ω ) (5)
其中,Y t = ( y 1 , t y 2 , t ⋯ y N , t ) ' , μ = ( μ 1 μ 2 ⋯ μ N ) ' , u t = ( u 1 t u 2 t ⋯ u N t ) ' ,
Π j = π 11 . j π 12 . j ⋯ π 1 N . j π 21 . j π 22 . j ⋯ π 2 N . j ⋮ ⋮ ⋱ ⋮ π N 1 . j π N 2 . j ⋯ π N N . j , j = 1,2 , … , k
针对最优滞后阶数的筛选,以最小的AIC和FPE值为标准,通过多组对比与甄别,最终确定最优滞后阶数为9阶,详见
表3 .
建立9阶自回归向量回归模型,然后再对模型进行参数估计,确定PM2.5质量浓度关于PM2.5、PM10、SO2 、NO2 、CO、T 滞后9阶的动态模型如式(6) 所示.
Y P M 2.5 = 15.225 + 0.565 X P M 2.5 - 1 + 0.003 X P M 2.5 - 2 - 0.018 X P M 2.5 - 3 + 0.084 X P M 2.5 - 4 - 0.001 X P M 2.5 - 5 - 0.012 X P M 2.5 - 6 + 0.021 X P M 2.5 - 7 - 0.033 X P M 2.5 - 8 + 0.05 X P M 2.5 - 9 + 0.023 X P M 10 - 1 - 0.044 X P M 10 - 2 + 0.038 X P M 10 - 3 - 0.055 X P M 10 - 4 + 0.007 X P M 10 - 5 + 0.006 X P M 10 - 6 + 0.005 X P M 10 - 7 + 0.043 X P M 10 - 8 - 0.027 X P M 10 - 9 - 0.315 X S O 2 - 1 + 0.579 X S O 2 - 2 - 0.013 X S O 2 - 3 + 0.259 X S O 2 - 4 - 0.362 X S O 2 - 5 + 0.36 X S O 2 - 6 + 0.278 X S O 2 - 7 - 0.175 X S O 2 - 8 - 0.075 X S O 2 - 9 + 0.423 X N O 2 - 1 - 0.244 X N O 2 - 2 + 0.123 X N O 2 - 3 - 0.077 X N O 2 - 4 + 0.11 X N O 2 - 5 - 0.15 X N O 2 - 6 + 0.019 X N O 2 - 7 + 0.01 X N O 2 - 8 - 0.051 X N O 2 - 9 - 10.886 X C O - 1 + 3.871 X C O - 2 - 3.044 X C O - 3 - 2.727 X C O - 4 + 1.212 X C O - 5 + 8.77 X C O - 6 - 1.864 X C O - 7 + 0.531 X C O - 8 + 1.05 X C O - 9 + 0.495 X T - 1 - 0.829 X T - 2 - 0.008 X T - 3 + 0.054 X T - 4 + 0.159 X T - 5 - 0649 X T - 6 + 0.085 X T - 7 - 0.03 X T - 8 + 0.203 X T - 9 . (6)
根据
式(6) 所得的回归模型检验模型拟合效果,发现考虑滞后效应的模型拟合态势相较多元线性回归模型拟合结果更加精确,预测值与真实值吻合程度更高,拟合效果如
图3 所示.
3 基于LSTM神经网络对PM2.5质量浓度的多步预测
3.1 研究思路
基于上述结论,确定PM10、CO、NO2 、SO2 、T 能够作为体现PM2.5质量浓度变化的主要影响因素,进一步利用LSTM神经网络对未来时点的PM2.5质量浓度进行预测,构建PM2.5质量浓度多步预测模型,通过LSTM神经网络划分训练集和预测集对任选时点的PM2.5质量浓度进行预测,以此检验模型的准确性.并在此基础上进一步使用均方根误差(RMSE)分别对3步、5步、7步、12步预测效果进行评估.
3.2 研究方法
3.2.1 LSTM神经网络
LSTM(long short term memory,长短期记忆)是一种特殊的递归神经网络(RNN),它可以处理时间序列相关任务,利用时间序列对输入进行分析,解决传统RNN在处理长序列数据时出现的梯度消失和梯度爆炸问题,即难以捕捉长期依赖关系的问题.LSTM的核心是细胞状态,即图中上方的水平线,它贯穿整个链条,保存了之前的信息.LSTM可以通过3个门(遗忘门,输入门,输出门)的精细结构向细胞状态添加或移除信息,控制信息的流动和输出
[6 ] .假设遗忘门、输入门、输出门和候选细胞状态对应的权重矩阵为
W f , W i , W o , W C ,对应的偏置向量为
b f , b i , b o , b C ,通过矩阵乘法得到长度为4 h的向量
Z t :
Z t = W f , W i , W o , W C x t h t - 1 + b f , b i , b o , b C .
其中,遗忘门、输入门、输出门和候选细胞状态的输入分别对应Z t 所切分的长度为h 的向量,对遗忘门、输入门、输出门的输入应用S形激活函数,并对候选细胞状态的输入应用双曲正切激活函数,得到遗忘门、输入门、输出门和候选细胞状态的值,分别记为f t ,i t ,o t ,C ˜ t ,即:
f t = σ Z t : h i t = σ Z t h : 2 h o t = σ Z t 2 h : 3 h C ˜ t = t a n h Z t 3 h : .
将前一个时间步的细胞状态C t - 1 和遗忘门的值f t 进行逐点乘法,得到需要保留的细胞状态.再将候选细胞状态的值C ˜ t 和输入门的值i t 进行逐点乘法,得到需要添加的细胞状态.然后将需要保留的细胞状态和需要添加的细胞状态进行逐点加法,得到当前时间步的细胞状态,记为C t ,即:
将当前时间步的细胞状态C t 应用双曲正切激活函数,得到一个经过激活的细胞状态.并将经过激活的细胞状态和输出门的值o t 进行逐点乘法,得到当前时间步的隐藏状态,记为h t ,如式(7) 所示.
可以有效地缓解梯度消失问题,从而能够处理研究中的序列数据.
3.2.2 评估指标
为了衡量预测模型在连续性数据上的预测精度从而评估模型的预测能力和拟合质量,引入均方根误差(RMSE)作为模型评估指标,用于衡量预测结果与实际观测值之间的误差大小.均方根误差(RMSE)是对标准误差(SE)的一种改进,它计算了预测值与观测值之间的差值的平方的平均值,并对结果进行平方根操作
[7 ] .其数学表达式如
式(8) 所示.
R M S E = 1 N ∑ i = 1 N ( f ( x i ) - y i ) 2 .(8)
取值范围为[0, + ∞),数值越小,模型的性能越好,即模型对观测值的拟合效果越好.
3.3 结果分析
利用上述LSTM神经网络构建PM2.5质量浓度多步预测模型,模型的预测结果与测试结果对比如
图4 所示.
由
图4 可知,利用LSTM神经网络对PM2.5质量浓度进行定量预测,预测值与真实值拟合效果符合预期.通过计算得到,预测集第3、5、7、12步的均方根误差分别为0.570 1、0.557 1、0.576 1、0.571 6.通过分析预测结果的评价指标可以发现,实际值与预测值误差较小,说明LSTM神经网络对PM2.5质量浓度的预测精度较高,这说明LSTM神经网络能够在时间维度上预测环境因素对PM2.5质量浓度的影响,算法优越性高.因此对未来12 d的PM2.5质量浓度进行预测,预测结果详见
表4 .
4 结语
目前对于空气污染物的来源、排放量以及化学转化机制尚未充分理解,因此全面而准确的预测与预警空气质量状况仍有待于深入研究
[8 ] .基于社会对空气质量预测和预警技术的持续改进的需求,传统的统计方法在面对复杂的时间序列数据时可能存在一定的局限性,本文通过深度学习方法,利用LSTM神经网络模型,凭借其对非线性和时间序列数据的高效处理能力,并与多元线性回归方法有机整合,以更好地捕捉空气质量在未来时点变动的趋势和规律.然后通过实证预测未来时点PM2.5质量浓度的变化情况,为对空气质量预测的研究提供应用和理论支持.
本文数据具有周期性和非线性特征,因此对原始数据的处理、关键变量的筛选工作将对其他相关研究处理数据具有一定的参考价值.在双碳背景下,通过综合考虑多个影响因素,可以更深入地理解和解释空气质量变化的原因,并为环境治理和公共健康提供科学依据.同时,在构建定量预测模型时,凭借多元回归和LSTM神经网络的有效结合,有望提前预测空气质量的变化趋势,为实现2030年碳达峰和2060年碳中和的双碳目标,帮助政府和相关机构采取适当的措施以改善空气质量、控制空气污染,进一步推动可持续发展.