基于聚类分型的随机森林O3 浓度预测方法研究

韩晶晶; 迪里努尔·牙生; 雷雨虹; 尚子溦; 田瑜; 王金艳

doi:10.12057/j.issn.1002-0799.2304.25001

沙漠与绿洲气象 ›› 2025, Vol. 19 ›› Issue (03) : 193 -200. DOI: 10.12057/j.issn.1002-0799.2304.25001

研究论文

基于聚类分型的随机森林O₃ 浓度预测方法研究

作者信息 +

Research on O₃ Concentration Prediction Using Random Forest Cluster Classification

Author information +

文章历史 +

PDF (1998K)

摘要

基于上海市2014—2020年6种空气污染物浓度的监测数据以及同期的天气预报数据，提出一种经模糊C均值聚类算法优化的随机森林O₃浓度预测模型。利用互相关分析的方法筛选出2个聚类因子，再利用模糊C均值聚类算法将O₃浓度分为3种类型，最后利用随机森林建立O₃浓度预测模型，并对比聚类前后的预测效果。结果表明：前1日的O₃浓度和PM₁₀浓度对预测日的O₃浓度影响最大，且O₃浓度的月变化明显。经模糊C均值聚类后，O_{3_8 h}浓度预测结果的平均绝对误差和均方根误差分别减小了10.5%和8.8%。随机森林提升了O₃浓度的预测效果，且聚类后模型的决定系数R²增加。

Abstract

This study proposed a random forest prediction model optimized with a fuzzy C-means clustering algorithm. The model utilized monitoring data for six air pollutants (O₃, PM_2.5, PM₁₀, NO₂, SO₂, CO)along with weather forecast data from 2014 to 2020. Initially, two clustering factors were identified through cross-correlation analysis. O₃ concentrations were then classified into three categories using the fuzzy C-means clustering algorithm. A random forest model was subsequently constructed to predict O₃ concentrations, with its performance evaluated both before and after clustering. The results indicate that the previous day's O₃and PM₁₀ concentrations have the most significant impact on the next day's O₃ levels, and seasonal variations also play a critical role. Following fuzzy C-means clustering, the Mean Absolute Error (MAE) and Root Mean Square Error (RMSE) of the predicted O_{3_8 h} concentrations decreased by 10.5% and 8.8%, respectively. Additionally, the coefficient of determination (R²) increased, confirming an improvement in prediction accuracy. These findings highlight the practical value of the proposed model for forecasting O₃ pollution in Shanghai.

Graphical abstract

关键词

O₃ / 空气污染物 / 模糊C均值 / 聚类分型 / 随机森林 / 机器学习

Key words

O₃ / air pollutant / fuzzy C-means / cluster classification / random forest / machine learning

引用本文

引用格式 ▾

韩晶晶,迪里努尔·牙生,雷雨虹,尚子溦,田瑜,王金艳. 基于聚类分型的随机森林O₃ 浓度预测方法研究[J]. 沙漠与绿洲气象, 2025, 19(03): 193-200 DOI:10.12057/j.issn.1002-0799.2304.25001

登录浏览全文

4963

注册一个新账户忘记密码

近地面O₃是一种对生物有害的二次污染物。近年来，近地面大气中氮氧化物与挥发性有机物等污染物浓度逐渐增加，在太阳辐射下经过一系列光化学反应，形成二次污染物O₃。夏季O₃逐渐取代PM_2.5成为首要空气污染物，O₃污染问题已经成为一个广受热议的话题^[1]。O₃浓度超标不仅会危害人体健康^[2]，还会减少农作物产量^[3-4]。通过口罩和室内空气净化器可有效地防护PM_2.5，但对O₃防护却毫无作用，甚至有些空气净化器自身也可能产生O₃，如若使用不当会发生二次污染^[5]。因此，研究O₃浓度的预报方法并建立预报预警机制对于相关部门制定有效的O₃污染防治措施和改善城市空气质量具有重要意义。

近年来，机器学习算法模型训练速度快，泛化能力强，并在建立空气污染物预测模型时无须污染排放清单。相较于传统的统计回归模型，利用机器学习算法建立的模型具有更高的灵活性，可以拟合更复杂的多项交互关系或非线性关系；相较于数值预报模式，机器学习算法的计算量小、计算成本低，并具有较高的预测准确率^[6]。

机器学习算法在环境和气象预测方面表现优异^[7-9]。Al-Shammari^[10]于2013年建立了基于机器学习的O₃浓度预测模型，发现其预报结果的误差比国际上常用的持续法更小，且日最高温度很大程度上解释了O₃日变化。2018年丁愫等^[11]以WRF模拟出的气象场作为输入变量，利用决策树建立了3种O₃浓度预测模型，预报准确率均高于75%。王伟健等^[12]为解决降水估算中存在的非线性问题引入了随机森林算法，利用江西省南昌市1961—2010年降水数据及环流指数数据，结合2012—2014年地面增雨作业信息，构建月、日降水量评估模型。随机森林算法预测日、月降水量的准确率为90%，且稳定性较好。苏筱倩等^[13]结合多元线性回归和经小波变换改进支持向量机算法，并对南京工业区的每小时O₃浓度进行了预报。改进之后的支持向量机算法可提高精度，在预报中优势明显。朱国栋等^[14]基于2015年1月—2021年3月ECMWF细网格数值预报产品，利用自动机器学习方法构建了乌鲁木齐机场温度预测模型。使用Auto-sklearn和Auto-Keras模型改善了ECMWF模式直接输出的乌鲁木齐机场温度的平均绝对误差，将其误差从原来的1.7 ℃降到1.4 ℃，并且在逐月及冬季低温预测方面预测效果较好。

机器学习方法预测精度较高，但也存在预测值的高估、低估、漏估问题。因此，需要对现有的机器学习预测模型进行改进。本文在随机森林算法的基础上加入了模糊C均值聚类方法，利用上海市O₃、SO₂、NO₂、CO、PM₁₀与PM_2.5浓度监测数据与同期的天气预报数据，建立逐日的O_{3_8 h}浓度预测模型，提高上海O₃预测模型的精度，为相关部门制定O₃的防护措施提供相应的技术支持与理论依据。

1 资料与方法

1.1 研究区域概况

上海市位于30.4°～31.5°N，120.5°～122.1°E，土地面积约为6 340.5 km²，是长三角城市群的龙头城市，西部与浙江和江苏两省接壤，南部是杭州湾，北部以长江为界，东临东海。上海市行政区域分布如图1所示。作为国际化大都市，上海经济发展速度快，现代化建设进程的加快往往伴随着煤炭等能源物质的大量消耗，近年来，上海市的大气污染现象十分严重，空气质量多次达重度污染的首要污染物为O₃^[15-17]。

1.2 数据来源及预处理

1.2.1 数据来源

空气污染物浓度数据来源于全国城市空气质量实时发布平台（http://www.cnemc.cn/sssj/），包括O₃、SO₂、NO₂、CO、PM_2.5、PM₁₀以及空气质量指数（AQI）数据。通过处理2014年1月1日—2020年7月21日上海市10个监测站（普陀、十五厂、虹口、徐汇上师大、杨浦四漂、青浦淀山湖、静安、浦东川沙、浦东新区以及浦东张江）的逐小时空气质量监测数据，得到用于构建预测模型的相关空气污染物因子，包括AQI日均值、NO₂日均浓度（μg∙m^-3）、CO日均浓度（mg∙m^-3）、SO₂日均浓度（μg∙m^-3）、PM_2.5日均浓度（μg∙m^-3）、PM₁₀日均浓度（μg∙m^-3）及O₃的24 h内8 h滑动平均浓度（简称O_{3_8 h}浓度,单位：μg∙m^-3）。为了防止污染物浓度的突然波动干扰预测结果，采用3 d滑动平均法对污染物浓度进行处理。同期的天气预报数据来源于网站（http://www.tianqihoubao.com/），选取上海市的最高温度、最低温度、降雨量、降雪量、最大风速和最小风速逐日数据，并对数据进行质量控制，识别乱码与缺失的数据，利用线性插值的方法将数据补齐。

1.2.2 数据预处理

将构建模型所用的数据归一化到特定区间[0，1]范围内，归一化公式如下：

m = k - k m i n k m a x - k m i n

。（1）

式中：m为归一化之后的数据，k为归一化之前的数据，

k m a x

是样本数据中的最大值，

k m i n

是样本数据中的最小值。通过归一化处理，可以将不同量纲单位之间的差异消除掉，从而提高预测精度。

1.3 研究方法

1.3.1 随机森林重要性评估算法

不同的输入变量可能会影响模型的预测精度，随机森林重要性评估算法能够评估特征变量（即与O_{3_8 h}浓度相关的变量）对于目标变量（O_{3_8 h}浓度）的重要性，便于模型的解释和特征变量的筛选，找到描述性较好的特征变量^[18-21]。本研究中随机森林重要性评估算法主要用于聚类因子及预报因子的选取。

随机森林重要性评估算法是不同的决策树利用随机处理方法建立的算法，其中各个决策树彼此之间互不关联。随机森林算法度量各特征的重要性I是通过计算每个特征在每棵决策树上贡献的大小实现的，评估标准可用袋外数据的错误率表示。对于随机森林中的每棵决策树，选择相应的袋外数据计算误差，记为E₁，对袋外数据样本的特征T随机地加入“噪声”干扰，再次计算袋外数据误差，记为E₂，对于森林中的n棵决策树，特征T的重要性I_T 计算公式如下：

I T = ∑ (E 2 - E 1) n

。（2）

若对特征T加入“噪声”干扰之后，重要性大小减小，则说明特征T对样本的计算结果影响较小，即特征T的重要性低，反之则重要性较高。

1.3.2 模糊<italic>C</italic>均值聚类分析

采取模糊C均值聚类分析法，将数据分为相似的几个部分，并对每一个部分单独建模，减小训练数据与测试数据之间的差异性给预报结果带来的不利影响，最终提高预报精度。聚类分析是指通过计算将数据集分成若干簇，并使簇与簇之间数据的差异性尽可能大，簇内数据之间的差异性尽可能小^[22-23]。模糊C均值聚类是一种无监督式的模糊聚类算法，于1973年由Dunn^[24]首次提出。模糊聚类算法提供了更贴近实际的聚类结果，在K均值算法的基础上进行了改进，与K均值算法隶属度只能取0或者1不同，其隶属度可以取0~1的任何数。模糊C均值算法拥有与K均值算法相一致的目标函数，且在目标函数中加入了模糊权重指数。模糊C均值聚类算法是一个迭代的过程，实现过程可分为4个步骤：1）用值在[0，1]的随机数字对隶属矩阵U进行初始化，使其满足约束条件；2）计算C个聚类中心；3）计算价值函数，若比确定的阈值小，则停止算法；4）计算新的矩阵U并且返回第二步。

1.3.3 随机森林回归算法

随机森林回归算法已被应用于多个领域，本研究中利用随机森林回归算法建立O_{3_8 h}的预测模型。随机森林是一种多功能的机器学习算法，由Breiman教授于2001年首次提出^[25]。作为常见的机器学习算法之一，随机森林算法既在分类问题中表现优异，也在回归问题中备受关注。随机森林回归算法中的每棵决策树相互独立，弥补了单一决策树算法易陷入过拟合的缺点，对于任意划分特征T的任意划分点R，将数据集划分为R₁和R₂，计算得到使R₁和R₂各自的均方差最小且两者均方差和最小的特征和特征值划分点，通过汇总和平均所有此类复合树的单个预测，可输出预测变量值，公式如下：

m i n m i n ∑ (x i - d 1) 2 + ∑ (x i - d 2) 2

。（3）

式中：

d 1

和

d 2

分别为R₁和R₂的样本输出均值，

x i

为输入样本。

1.3.4 误差检验方法

选用平均绝对误差（M_AE）、均方根误差（R_MSE）、决定系数（R²）3个误差评价指标对O_{3_8 h}浓度的预测结果进行检验，计算公式如下：

M A E = 1 m ∑ i = 1 m M i - O i

，（4）

R M S E = ∑ i = 1 m (M i - O i) 2 m

，（5）

R 2 = 1 - ∑ i = 1 m (M i - O i) 2 ∑ i = 1 m (M i - M i ¯) 2

。（6）

式中：O_i 为观测值，M_i 为预测值，

M i ¯

为预测平均值，m为样本容量。平均绝对误差M_AE及均方根误差R_MSE越小，决定系数R²越接近1，模型模拟效果越好、精度越高。

2 结果与分析

2.1 预报因子筛选

通过对未来1 d O_{3_8 h}浓度的时间序列数据和前1～30 d的其他多个空气污染物因子的序列数据进行重要性分析，得到污染物对O_{3_8 h}的重要性如图2所示。

筛选预报因子的步骤：首先利用随机森林重要性评估算法计算得到空气污染物对O_{3_8 h}浓度的重要性；其次，对前1～30 d的7个污染物因子按重要性大小降序排列，并将互相关与否及重要性的大小相结合，选择输入因子。O_{3_8 h}浓度和前1～4 d的O₃、前1、11、13、10 d的SO₂、前1、4～5 d的NO₂、前1 d的CO、前1、11、5 d的PM_2.5、前1、11、14 d的PM₁₀、前1、2、10、8 d的AQI序列存在较强的交互作用。因此，本文选择前1 d的所有7个污染物数据，前2～4 d的O₃和提前2、10 d的AQI指数数据，前11 d的SO₂、PM_2.5和PM₁₀数据，前4 d的NO₂作为输入变量。

2.2 星期效应和月份效应因素分析

上海市夏季的O₃浓度明显高于其他季节，冬季O₃浓度水平达到最低^[26]。夏季气温高，光照与前体物比较充足，在紫外线的强烈辐射下，氮氧化物等污染物会产生光化学反应，生成大量的O₃。上海市属于亚热带季风性气候，四季分明，不同月份对应的气象条件差异显著，对于O₃污染的形成、扩散以及传输过程有较大的影响^[27-28]。因此，将空气污染物监测数据的月份属性纳入输入变量，有利于进一步将一些气象影响因子考虑到O₃浓度预测模型中。此外，还有一些城市的空气污染物呈现出较显著的星期效应，如北京市周一至周五的O₃浓度会低于周末的浓度^[29-31]，主要是因为交通出行量与工业生产强度在工作日与周末存在较大差异。图3为O₃浓度随星期与月份的变化。上海市O₃浓度的分布具有明显的季节效应，夏季O₃浓度明显高于冬季，上海市O₃浓度的分布没有表现出明显的周末效应。因此，为了获得更加可靠的预测结果，在构建特征数据集时将污染物监测数据的月份属性考虑在内，而不用考虑星期属性。

2.3 基于模糊<bold><italic>C</italic></bold>均值聚类的<bold>O<sub>3</sub></bold>浓度分型

对O_{3_8 h}浓度进行分型时，选择在污染物交互作用分析中重要性得分最高的2个因子进行聚类计算，分别是前1 d的O_{3_8 h}浓度和前1 d的PM₁₀浓度。图4为O_{3_8 h}浓度数据样本的聚类结果，O_{3_8 h}浓度数据被分成了3个类别，分别针对每一类数据构建预测模型。图4中绿色、红色与蓝色数据分别对应第一类、第二类与第三类数据。

表1为各个类别下训练数据与测试数据的集数以及平均浓度值。经模糊C均值聚类分型后，O_{3_8 h}浓度值基本可以按照不同的浓度范围分开，再分别针对每个类别的数据训练模型，尽量减少样本数据的差异性对预测结果的干扰。

2.4 预测模型的构建与检验

采用随机森林算法构建O_{3_8 h}浓度预测模型，将数据划分为训练输入数据、训练输出数据、测试输入数据与测试输出数据4部分。选取2014年1月1日—2019年7月21日的数据对模型进行训练，2019年7月22日—2020年7月21日的366条数据作为测试数据检验模型的泛化性能。将所选的16个空气污染物滞后因子、最高气温、最低气温、最大风速、最小风速、降雨、降雪等6个气象因子以及月份因素共计23个变量作为模型的输入变量，预测日的O_{3_8 h}浓度作为输出变量。预测模型的构建流程如图5所示。

通过随机森林算法预测得到了不同类别下的O_{3_8 h}浓度预测结果，各类别下真实值与预测值的对比曲线如图6所示。O_{3_8 h}浓度的预测值与真实值变化趋势一致。从预测值与真实值间的相关性角度分析，3种类型下的R²均大于0.80，说明预测值与真实值之间存在较高的正相关。

为了验证模糊聚类分型方法对随机森林模型预测效果的提升，采用未经模糊C均值聚类分型的传统随机森林算法预测O_{3_8 h}浓度作为对照组，按照时间的前后顺序整合聚类分型前后得到的O_{3_8 h}浓度预测数据，得到聚类分型前后的整体预测效果与真实值的对比（图7）。预测值与真实值之间存在较高的相关性，O_{3_8 h}浓度真实值的浓度大小及变化趋势通过预测值可以较好地反映。与分型前相比，经模糊C均值聚类分型后的预测值更接近真实值，表明使用模糊C均值聚类的方法提升机器学习算法对O₃浓度的预测精度是可行的。

表2是聚类分型前后的3个误差评价指标对比分析。相对于传统的随机森林预测方法，经模糊C均值聚类改进之后，预测结果的各个误差明显减小。主要是由于模糊C均值聚类方法提供了相似性较高的训练样本，提高了模型训练时的效率，得到了更接近观测值的预测结果。模糊C均值聚类分型方法实现了对随机森林预测模型的优化。对O_{3_8 h}浓度的预测，分型后的平均绝对误差和均方根误差分别下降了10.5%和8.8%，R²提升了2%。因此，可利用模糊C均值聚类分型方法对随机森林预测模型进行优化，得到更加符合实际的O₃浓度预测结果。

3 结论与讨论

基于上海市2014年1月1日—2020年7月21日的空气污染数据和同期天气预报数据，利用模糊C均值聚类的方法将O_{3_8 h}浓度数据分型，结合随机森林回归模型对O_{3_8 h}浓度进行预测，得出以下结论：

（1）在污染物的互相关分析中，前1 d的O_{3_8 h}浓度对预测日的O_{3_8 h}浓度影响最大，其次是前1 d的PM₁₀浓度，O₃浓度变化受到月份效应的影响明显，受周末效应的影响较小。

（2）使用模糊C均值聚类的方法将O_{3_8 h}浓度数据分成相似度较高的3类，针对不同类分别构建预测模型，不仅提高了模型训练速度，还增加了随机森林回归模型对此类数据的泛化能力，减小了预测误差，提升了预测精度。

（3）相对于未经优化的随机森林预测模型，优化后的模型对O_{3_8 h}浓度预测结果的平均绝对误差和均方根误差分别减小了10.5%和8.8%，说明该方法可以对多种时空背景下的城市O₃污染进行高效、准确的预测，具有较高的实用价值。

本研究表明模糊C均值聚类分析法与随机森林方法相结合建立的统计预报模型方法在区域O₃质量浓度的预测方面效果较优，尤其在极值时段O₃浓度预测较好，低估、漏估情况减少，因此利用随机森林回归方法进行O₃质量浓度的预测分析是可行的。O₃质量浓度的影响因素很多，本研究仅考虑了污染物因子O₃、SO₂、NO₂、CO、PM_2.5、PM₁₀和AQI，没有考虑前体物影响因子、人为因素等，在后续的研究中应该完善该预测模型。

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	Nuvolone D, Petri D, Voller F.The effects of ozone on human health[J].Environ Sci Pollut Res,2018,25(9):8074-8088.

[2]	Wang T, Xue L K, Feng Z Z,et al.Ground-level ozone pollution in China:a synthesis of recent findings on influencing factors and impacts[J].Environ Res Lett,2022,17(6):063003.

[3]	MENG Xia, WANG Weidong, SHI Su,et al.Evaluating the spatiotemporal ozone characteristics with high-resolution predictions in China's mainland,2013-2019[J].Environ Pollut,2022,299:118865.

[4]	耿春梅,王宗爽,任丽红,等.大气臭氧浓度升高对农作物产量的影响[J].环境科学研究,2014,27(3):239-245.

[5]	GENG Chunmei, WANG Zongshuang, REN Lihong,et al.Study on the impact of elevated atmospheric ozone on crop yield[J].Research of Environmental Sciences,2014,27(3):239-245.(in Chinese)

[6]	朱心悦,赵欢,张小玲,等.成都地区臭氧污染特征及其影响因素分析[J].地球科学前沿,2023,13(10):1216-1229.

[7]	ZHU Xinyue, ZHAO Huan, ZHANG Xiaoling,et al.Analysis on the ozone pollution characteristics and its influencing factors in Chengdu[J].Advances in Geosciences,2023,13(10):1216-1229.(in Chinese)

[8]	孙宝磊,孙暠,张朝能,等.基于BP神经网络的大气污染物浓度预测[J].环境科学学报,2017,37(5):1864-1871.

[9]	SUN Baolei, SUN Hao, ZHANG Chaoneng,et al.Forecast of air pollutant concentrations by BP neural network[J].Acta Scientiae Circumstantiae,2017,37(5):1864-1871.(in Chinese)

[10]	孙全德,焦瑞莉,夏江江,等.基于机器学习的数值天气预报风速订正研究[J].气象,2019,45(3):426-436.

[11]	SUN Quande, JIAO Ruili, XIA Jiangjiang,et al.Adjusting wind speed prediction of numerical weather forecast model based on machine learning methods[J].Meteorological Monthly,2019,45(3):426-436.(in Chinese)

[12]	Zhang H, Wu P B, Yin A J,et al.Prediction of soil organic carbon in an intensively managed reclamation zone of eastern China:a comparison of multiple linear regressions and the random forest model[J].Sci Total Environ,2017,592:704-713.

[13]	孙苏琪,王式功,罗彬,等.应用机器学习算法的成都市冬季空气污染预报研究[J].气象与环境学报,2020,36(2):98-104.

[14]	SUN Suqi, WANG Shigong, LUO Bin,et al.Air pollution forecast in winter based on machine learning method in Chengdu[J].Journal of Meteorology and Environment,2020,36(2):98-104.(in Chinese)

[15]	Al-Shammari E T.Public warning systems for forecasting ambient ozone pollution in Kuwait[J].Environ Syst Res,2013,2(1):2.

[16]	丁愫,陈报章,王瑾,等.基于决策树的统计预报模型在臭氧浓度时空分布预测中的应用研究[J].环境科学学报,2018,38(8):3229-3242.

[17]	DING Su, CHEN Baozhang, WANG Jin,et al.An applied research of decision-tree based statistical model in forecasting the spatial-temporal distribution of O₃ [J].Acta Scientiae Circumstantiae,2018,38(8):3229-3242.(in Chinese)

[18]	王伟健,姚展予,贾烁,等.随机森林算法在人工增雨效果统计检验中的应用研究[J].气象与环境科学,2018,41(2):111-117.

[19]	WANG Weijian, YAO Zhanyu, JIA Shuo,et al.Application research on random forest algorithm in the statistical test of rainfall enhancement effect[J].Meteorological and Environmental Sciences,2018,41(2):111-117.(in Chinese)

[20]	苏筱倩,安俊琳,张玉欣.基于支持向量机回归和小波变换的O₃预报方法[J].中国环境科学,2019,39(9):3719-3726.

[21]	SU Xiaoqian, AN Junlin, ZHANG Yuxin.Support vector machine regression forecasting of O₃ concentrations based on wavelet transformation[J].China Environmental Science,2019,39(9):3719-3726.(in Chinese)

[22]	朱国栋,朱蕾,王楠,等.基于自动机器学习的机场温度预报方法研究[J].沙漠与绿洲气象,2021,15(6):113-119.

[23]	ZHU Guodong, ZHU Lei, WANG Nan,et al.Research on airport temperature forecast method based on automatic machine learning[J].Desert and Oasis Meteorology,2021,15(6):113-119.(in Chinese)

[24]	陈镭,马井会,甄新蓉,等.上海地区空气污染变化特征及其气象影响因素[J].气象与环境学报,2017,33(3):59-67.

[25]	CHEN Lei, MA Jinghui, ZHEN Xinrong,et al.Variation characteristics and meteorological influencing factors of air pollution in Shanghai[J].Journal of Meteorology and Environment,2017,33(3):59-67.(in Chinese)

[26]	余钟奇,马井会,毛卓成,等.2017年上海臭氧污染气象条件分析及臭氧污染天气分型研究[J].气象与环境学报,2019,35(6):46-54.

[27]	YU Zhongqi, MA Jinghui, MAO Zhuocheng,et al.Study on the meteorological conditions and synoptic classifications of O₃ pollution in Shanghai in 2017[J].Journal of Meteorology and Environment,2019,35(6):46-54.(in Chinese)

[28]	侯素霞,张鉴达,李静.上海市大气污染物时空分布及其相关性因子分析[J].生态环境学报,2021,30(6):1220-1228.

[29]	HOU Suxia, ZHANG Jianda, LI Jing.Analysis of spatiotemporal distribution and correlation factors of atmospheric pollutants in Shanghai city[J].Ecology and Environmental Sciences,2021,30(6):1220-1228.(in Chinese)

[30]	梁泽,王玥瑶,岳远紊,等.耦合遗传算法与RBF神经网络的PM_2.5浓度预测模型[J].中国环境科学,2020,40(2):523-529.

[31]	LIANG Ze, WANG Yueyao, YUE Yuanwen,et al.A coupling model of genetic algorithm and RBF neural network for the prediction of PM_2.5 concentration[J].China Environmental Science,2020,40(2):523-529.(in Chinese)

[32]	Naghibi S A, Ahmadi K, Daneshi A.Application of support vector machine,random forest,and genetic algorithm optimized random forest models in groundwater potential mapping[J].Water Resour Manag,2017,31(9):2761-2775.

[33]	Belgiu M, Drăguţ L.Random forest in remote sensing:a review of applications and future directions[J].ISPRS J Photogramm Remote Sens,2016,114:24-31.

[34]	Chen T, Trinder J C, Niu R Q.Object-oriented landslide mapping using ZY-3 satellite imagery,random forest and mathematical morphology,for the three-gorges reservoir,China[J].Remote Sens,2017,9(4):333.

[35]	纪浩林,彭亮.基于聚类的超闭球算法短期风速预测研究[J].测控技术,2016,35(8):138-141, 145.

[36]	JI Haolin, PENG Liang.Research on short term wind speed forecasting of super closed ball algorithm based on clustering[J].Measurement Control Technology,2016,35(8):138-141, 145.(in Chinese)

[37]	Ikotun A M, Ezugwu A E, Abualigah L,et al.K-means clustering algorithms:a comprehensive review,variants analysis,and advances in the era of big data[J].Inform Sci,2023,622:178-210.

[38]	Dunn J C.A fuzzy relative of the ISODATA process and its use in detecting compact well-separated clusters[J].J Cybernet,1973,3(3):32-57.

[39]	Breiman L.Random forests[J].Mach Learn,2001,45(1):5-32.

[40]	彭丽,高伟,耿福海,等.上海地区臭氧垂直分布特征分析[J].北京大学学报(自然科学版),2011,47(5):805-811.

[41]	PENG Li, GAO Wei, GENG Fuhai,et al.Analysis of ozone vertical distribution in Shanghai area[J].Acta Scientiarum Naturalium Universitatis Pekinensis,2011,47(5):805-811.(in Chinese)

[42]	邹旭东,杨洪斌,张云海,等.1951—2012年沈阳市气象条件变化及其与空气污染的关系分析[J].生态环境学报,2015,24(1):76-83.

[43]	ZOU Xudong, YANG Hongbin, ZHANG Yunhai,et al.Changes of meteorological factors in Shenyang city during 1951-2012 and its relationship with air pollution[J].Ecology and Environmental Sciences,2015,24(1):76-83.(in Chinese)

[44]	梅梅,朱蓉,孙朝阳.京津冀及周边“2+26”城市秋冬季大气重污染气象条件及其气候特征研究[J].气候变化研究进展,2019,15(3):270-281.

[45]	MEI Mei, ZHU Rong, SUN Chaoyang.Study on meteorological conditions for heavy air pollution and its climatic characteristics in“2+26”cities around Beijing-Tianjin-Hebei region in autumn and winter[J].Climate Change Research,2019,15(3):270-281.(in Chinese)

[46]	Sicard P, Paoletti E, Agathokleous E,et al.Ozone weekend effect in cities:deep insights for urban air pollution control[J].Environ Res,2020,191:110193.

[47]	Lü Y, Ju Q R, Lü F M,et al.Spatiotemporal variations of air pollutants and ozone prediction using machine learning algorithms in the Beijing-Tianjin-Hebei region from 2014 to 2021[J].Environ Pollut,2022,306:119420.

[48]	王占山,李云婷,董欣,等.北京城区大气污染物“周末效应”分析[J].中国科学院大学学报,2015,32(6):843-850.

[49]	WANG Zhanshan, LI Yunting, DONG Xin,et al.Analysis on weekend effect of air pollutants in urban atmosphere of Beijing[J].Journal of University of Chinese Academy of Sciences,2015,32(6):843-850.(in Chinese)