基于地面常规气象观测数据的ERA5地面向下太阳总辐照度的订正技术

陈虹杏 ,  靳奎峰 ,  赵玮

沙漠与绿洲气象 ›› 2025, Vol. 19 ›› Issue (02) : 92 -99.

PDF (2388KB)
沙漠与绿洲气象 ›› 2025, Vol. 19 ›› Issue (02) : 92 -99. DOI: 10.12057/j.issn.1002-0799.2308.03002
研究论文

基于地面常规气象观测数据的ERA5地面向下太阳总辐照度的订正技术

作者信息 +

Correction Technique of the Surface Solar Radiation Downwards of ERA5 based on Conventional Ground Meteorological Observation

Author information +
文章历史 +
PDF (2444K)

摘要

选取2019年1月1日—2021年12月31日广州和汕头地面自动气象观测站常规气象要素观测数据,基于梯度提升树模型,订正ERA5再分析资料中地表的太阳向下总辐照度(SSRD)数据。采用异站点交叉验证实验方法,验证SSRD订正模型的可迁移性。订正后的监测估值与观测值的相关系数由订正前的0.801~0.830提高到0.829~0.881,均方根误差从169.8~171.7 W/m2减少到155.5~159.8 W/m2。除被订正的SSRD外,太阳高度角是太阳总辐照度梯度提升树模型最重要的输入物理量,其余要素根据重要性排序依次为相对湿度、总云量、近地面气温和能见度。

Abstract

Utilizing conventional meteorological observation data from automatic weather stations, a method based on Gradient Boosting Regression Tree model is proposed to correct the SSRD values derived from the ERA5 reanalysis dataset, produced by the European Centre for Medium-Range Weather Forecasts. Data from Guangzhou Station and Shantou Station from January 1, 2019 to December 31, 2021 were utilized for modeling training and testing. A cross-validation experiment was conducted to evaluate the transferability of the correction model of SSRD. The correlation coefficient between the monitoring estimate and the observation increased from 0.801-0.830 to 0.829-0.881, and the root mean square error decreased from 169.8-171.7 W/m2 to 155.5-159.8 W/m2. Further analysis shows that, in addition to the corrected element ERA5 SSRD, the solar altitude angle is the most important input in the Gradient Boosting Regression Tree model of total solar irradiance. Other influential variables, ranked by importance, include relative humidity, total cloud cover, near surface temperature and visibility.

Graphical abstract

关键词

梯度提升树 / 地表的太阳向下总辐照度 / ERA5再分析资料的SSRD数据

Key words

Gradient Boosting Regression Tree / SSRD / SSRD data in ERA5 reanalysis data

引用本文

引用格式 ▾
陈虹杏,靳奎峰,赵玮. 基于地面常规气象观测数据的ERA5地面向下太阳总辐照度的订正技术[J]. 沙漠与绿洲气象, 2025, 19(02): 92-99 DOI:10.12057/j.issn.1002-0799.2308.03002

登录浏览全文

4963

注册一个新账户 忘记密码

太阳辐射是地球最重要的外部能源之一,是产生大气运动的主要动力,决定着地球—大气的热状况[1]。太阳辐射变化对地球气候系统产生自然强迫,并对地气系统辐射收支能量平衡带来影响[2]。太阳辐射通过与大气内气溶胶成分产生物理化学作用,间接地影响天气及气候变化过程。精确监测太阳辐射变化对了解全球环境和气候变化具有重要意义[3]
近年来,社会对能源的需求越来越迫切,不可再生资源正逐渐被耗尽。太阳能作为永久的可再生能源,是未来发展必然选择的持续能源和战略能源,太阳能的分布和变化状况,受到越来越多的关注[4-5]。太阳辐射的时空分布及其变化规律、气候条件密切影响着光热利用系统的分布[6]。太阳辐射中功率占比最大的部分为可见光波段,太阳辐射覆盖了晶体硅主要吸收的300~1 127 nm波段[7],地表的太阳向下总辐照度(Surface Solar Radiation Downwards, SSRD)是光伏发电效率最重要的直接天气影响因素[8]。为了缓解能源危机,以光伏发电为代表的可再生能源发展迅速,但目前光伏发电量的预测精度较低,准确预测光伏发电功率对于电力系统的安全运行和经济运营至关重要[9],SSRD是光伏发电量最重要的影响因子,因此成为重要的大气监测对象。
我国地面自动气象观测站监测的主要物理要素包括气压、气温、湿度、风向、风速、降水、地表温度、云量、蒸发等,能够监测辐照度的地面自动气象观测站较少。地面观测站点的太阳总辐照度是与SSRD定义最为接近的物理量,两者都是太阳短波辐射(可见光和紫外波段)到达地面的辐照度,是直接辐射与散射辐射的总和,名称中的“向下”主要是为了与地球射向天空的长波辐射进行区分。对SSRD的监测主要是通过气象卫星所收集的遥感数据结合大气辐射传输模式完成,例如美国国家航空航天局下属云与地球辐射系统(The Clouds and the Earth’s Radiant Energy System, CERES)发布的SYN1deg反演产品[10]。利用资料同化方法和数值模式得到的再分析资料,也可形成全球网格化SSRD监测资料,如欧洲中期天气预报中心(ECMWF)的ERA5再分析资料就包含0.1°×0.1°水平分辨率的SSRD监测数据[11]。由于臭氧、水汽等物理要素垂直廓线缺少高频率的直接观测数据[12],通过辐射传输模式或资料同化方法对SSRD的估计与地基直接测量之间存在一定偏差。目前,我国安装有辐射观测设备的地面自动气象站分布较为稀疏,如果能利用地面观测的常规气象要素对辐射传输模式或资料同化方法生成的SSRD监测产品进行订正,将有利于提高SSRD的区域监测能力。
本研究利用地面自动气象观测站的气温、湿度、降水、总云量等常规物理要素观测数据,基于梯度提升树模型,对ERA5再分析资料ERA5-Land数据集中的SSRD数据进行订正,通过交叉验证的实验手段,证明了模型订正性能具有一定的迁移性,为提高无地基辐射观测地区的SSRD监测精度提供了技术路径。

1 梯度提升树模型介绍

为了利用已有的地面气象要素数据,更准确地估计SSRD数据,引入梯度提升树模型(Gradient Boosted Regression Trees, GBRT),该模型的优点是可以有效地反映输入要素与输出要素之间的非线性关系,在拟合非线性关系时,即使训练样本有限,也不易出现过拟合现象[13],即具有较高的鲁棒性,因为模型级联过程是不断用弱回归树减小残差,而弱回归树本身具有鲁棒性特征,该模型相比于其他机器学习模型可更大程度地挖掘问题中的可预报性[14]。因SSRD数据相对稀缺,导致训练样本较少,GBRT的高鲁棒性特点是其被选择作为非线性拟合模型的重要原因。本研究的目标是在非模型训练数据站点所在地利用模型对ERA5再分析资料的SSRD数据进行订正,高复杂度的非线性模型(例如全连接神经网络、图神经网络等)容易造成相对于训练站数据的过度拟合,使非模型训练数据站点所在地的订正效果变差。

以往的研究发现,太阳高度角、近地面气温、近地面相对湿度、最小能见度、总云量等气象要素,均与SSRD具有一定的相关性[15-19]。GBRT模型用来解决非线性多元回归问题,模型的输入值是逐小时近地面气温、近地面相对湿度、最小能见度、总云量、低云量,目标值是模拟相同站点观测的SSRD。

具体的梯度提升的算法流程如下[20]

输入:训练数据集D=x1,y1,x2,y2,,xn,yn,xiχRn,yYR和损失函数 L(y,f(x))

输出:回归函数F(x)

(1)初始化,生成第0级回归子树

F0x=arg minci=1nLyi,c

(2)对m=1,2,,Mi=1,2,,n,计算伪残差

Rm,i=-Lyi,FxiFxiFx-Fa-1x,i=1,2,,n

Rm,i拟合一个回归树,得到第 m 棵树hmhm的第i个叶节点恰对应伪残差Rm,i,i=1,2,,n

i=1,2,,n,计算:

Cm,i=arg mincxyRew,iLyi,Fm-1xi+chmxi

更新m级子树Fm(x)

Fmx=Fm-1x+i=1ncm,ihmxRm,i

(3)级联各级子树,得到回归树

Fx=FMx=m=1Mj=1Jcm,jhmxRm,j

式中:Lyi,c为样本xi的损失,式(1)右侧c表示在树生长初始的划分,选择使训练集样本损失函数最小的子树F0x,此时回归树为只有一个根结点的树;此后的迭代策略为:根据Ri,m拟合回归树,用一棵新树的生长对回归结果进行修正,并逐渐减小残差,即利用式(2)计算新树的划分常量,估计叶结点区域,拟合伪残差;根据式(4)对决策树进行更新,利用式(5)得到最终的回归树。

采用平方误差损失函数时,拟合的伪残差即为真实残差,Ri,m=yi-Fm-1xi

2 数据和实验方案

2.1 数据

太阳高度角是影响SSRD强度的重要物理量,各站点不同时刻的太阳高度角数据可根据站点的经纬度和本地真太阳时计算,计算公式如下[21]

SZA=arcsin sin φsin δ+cos φcos δcos ω

式中:δ=0.00692-0.39991cos 2πn365+0.07026sin 2πn365-0.00676cos 4πn365+0.00091sin 4πn365-0.0027cos 6πn365+0.0015sin 6πn365ω=12-TRE-π12SZA为太阳高度角,单位为rad;n为儒略日;φδ分别为地球纬度、太阳赤纬;ω太阳时角,单位为rad;TRE为真太阳时。

本研究选取广东省2个具有地基辐射观测数据的国际交换站:广州站和汕头站。观测时段为2019年1月1日—2021年12月31日,观测频率为小时。由于部分观测时刻存在数据缺失或可疑,筛选出“近地面气温、近地面相对湿度、最小能见度、总云量和SSRD均未缺失,且太阳高度角为正”的时刻作为样本记录,经过筛选,广州站保留了13 167条观测记录,汕头站保留了13 141条观测记录。

ERA5再分析资料是哥白尼气候变化服务( Copernicus Climate Change Service,C3S)的最新一代再分析资料[22],目前存储在ECMWF 的气候数据存储系统(Climate Data Store, CDS) 中(https://cds.climate.copernicus.eu/cdsapp#!/home),可通过ECMWF Web API下载。SSRD数据产品隶属于ERA5-land数据集,水平分辨率为0.1°×0.1°,采用双线性插值方法,时间分辨率为小时。

2.2 实验方案

利用地面常规气象要素观测数据和地面辐射观测数据,基于GBRT方法,建立SSRD估计模型。地面站的常规观测数据(包括近地面气温、近地面相对湿度、最小能见度、总云量)、根据公式(6)计算的太阳高度角和ERA5再分析资料中的SSRD数据作为模型输入,模型输出的回归目标值为地面站的SSRD数据。

GBRT模型的训练依赖于历史观测,因此增加异站点交叉验证,监测SSRD订正模型的迁移订正能力。利用广东省具有地基辐射监测的标准气象观测站数据,设计实验组见表1所示,其中,实验A和C使用的训练数据集和测试数据集是同一观测站的观测数据,代表站模型对单一站点的订正;实验B和D用一个站点数据训练模型,再用另一个站点的观测数据进行测试,若实验组B和D的检验结果显示模型仍具有正向的订正效果,说明该订正模型的订正能力具有可迁移性,可用于训练站点以外的区域。

3 结果与误差分析

误差分析主要采用两个指标:线性相关系数和均方根误差。线性相关系数(CORR)表征估计量与真值经过线性调整后的相似程度[22],即估计量消除均值和方差系统误差后的准确率,线性相关系数为[-1,1],绝对值越大表示估计量越准确;均方根误差(RMSE)表征估计量在不消除系统误差的情况下与真值间的绝对误差,取值>0,均方根误差越小,表示估计量越准确。

线性相关系数定义式为:

CORR=i=1nxi-x¯oi-o¯i=1nxi-x¯2i=1noi-o¯2

式中:n为变量个数,xi表示估计值,oi表示真值,x¯o¯为变量xioi的平均值。

均方根误差公式为:

RMSE=1ni=1nxi-oi2

式中:n为变量个数,xi表示估计值,oi表示真值。

图1是SSRD的“监测估值—地面观测值”散点图。经过订正的SSRD监测估值与地面观测值之间的相关系数比ERA5直接提供的监测值与地面观测值之间的相关系数高,均方根误差小,监测估值更接近地面实际观测值。从实验分组比较结果可知,订正后的监测估值与观测值的相关系数由订正前的0.801~0.830提高到0.829~0.881,均方根误差由169.8~171.7 W/m2减少到155.5~159.8 W/m2。尽管GBRT模型对非训练集站点的订正性能线性相关系数方面(图1c、f)没有比训练集站点本身的订正性能(图1b、e)更具优势,但在均方根误差方面,4组实验GBRT模型输出的SSRD监测估值相较于未经订正的SSRD(图1a、d)均具有正向的订正技巧。

图2是实验A和C中订正效果正负技巧分布图,统计时将两个实验正负技巧订正效果的数量分别相加,纵坐标表示正向订正样本(将偏低的监测估值订正高或将偏高的监测估值订正低)与反向订正样本(将偏低的监测估值订正更低或将偏高的监测估值订正更高)的数量,横坐标为不同输入要素的数值区间。除了ERA5-SSRD>800 W/m2的区间,其余各变量的不同区间内,正技巧订正效果的数量都多于负技巧,说明在训练集站点和测试集站点相同时,模型对全部6个输入要素的利用都是有效的。

图3是实验B和D中订正效果正负技巧分布图。与图2相比,在对非模型训练数据站点SSRD进行订正时,ERA5-SSRD的0~100 W/m2、能见度>25 km、近地面气温<20 ℃和总云量在10%~60%,正负技巧订正效果的数量基本相等,这些变量区间里的比例明显不同于图2中的区间,说明当测试站点移动时,模型利用要素的订正操作没有起到和对训练站点相同的效果。可能是站点迁移时,模型订正效果部分丢失的原因,但整体上,模型仍保持了利用各个输入变量有效订正ERA5再分析资料中SSRD数据的能力。

GBRT相较于其他机器学习模型,可解释性高。各输入要素并非相互线性独立,因此各输入要素与输出要素的相互关系不能直接反映要素对模型的重要性。通过统计各输入要素被GBRT各节点采纳为划分变量的次数,作为输入要素对于回归树模型重要性的表征。

梯度提升树由若干弱决策树级联而成,每一个弱决策树的叶节点仅参考一个单一物理量,通过统计各个输入要素被叶节点所采纳的次数,得到各个要素相对提升树的重要性。由各输入要素重要性指数(图4)可知, ERA5再分析资料的SSRD数据是最重要的输入要素,超过100个叶节点作为决策指标;其次是站点所在位置太阳高度角,接近100个叶节点被采纳作为决策指标;然后是相对湿度、总云量、近地面气温和能见度,作为决策指标的次数均<32。4组实验的特征重要性相同,说明模型所归纳的订正技巧具有普遍的一致性。

4 结论

本文基于地面观测站基础气象要素观测数据,利用GBRT模型,对ERA5再分析资料中的SSRD数据进行订正。设计4组实验对GBRT的订正性能进行检验,包括2组同站点(广州站和汕头站)训练检验实验和2组训练站点和检验站点不同的实验,得到以下结论:

(1)在同站点训练检验实验和训练站点、检验站点不同的实验中,相比于ERA5直接提供的监测值,经过GBRT订正的SSRD值与实际值相关系数更高、均方根误差更小,订正值更接近于地面实际观测值。

(2)检验站点不同的实验中GBRT模型的订正性能低于同站点训练检验实验中的效果,但相对于ERA5再分析资料的SSRD数据,订正后的结果更接近于地面实际观测,总体上保持有正的订正技巧,说明GBRT模型对SSRD数据订正效果具有迁移性,具有应用于有常规气象要素观测数据但无辐射观测数据站点的潜力。

(3)GBRT模型的订正性能主要来自通过太阳高度角对SSRD数据进行的订正,其余气象要素的重要性依次为相对湿度、总云量、近地面气温和能见度。

需要注意的是,异站点交叉验证的模型性能迁移是有前提的,汕头站与广州站同属广东省,且纬度相近,本研究仅能验证由地理相似性带来的模型订正性能的迁移能力,当目标站点与训练站点相距较远,或处于不同地形条件时,订正性能可能下降甚至消失。因此,在光伏发电装机容量日渐提升的当下,加速建设具有辐射观测的气象监测站点,具有非常重要的意义。

参考文献

[1]

李晓文,李维亮,周秀骥.中国近30年太阳辐射状况研究[J].应用气象学报,1998,9(1):24-31.

[2]

LI Xiaowen, LI Weiliang, ZHOU Xiuji.Analysis of the solar radiation variation of China in recent 30 years[J].Journal of Applied Meteorological Science,1998,9(1):24-31.(in Chinese)

[3]

肖子牛.太阳活动对地球气候的影响[J].自然杂志,2021,43(6):408-419.

[4]

XIAO Ziniu.Impact of solar activity on Earth’s climate[J].Chinese Journal of Nature,2021,43(6):408-419.(in Chinese)

[5]

张佳琦,齐瑾,方伟,.太阳辐射监测仪观测角度变化的修正[J].光学学报,2011,31(2):76-83.

[6]

ZHANG Jiaqi, QI Jin, FANG Wei,et al.Correction of observation angle in solar radiation monitor[J].Acta Optica Sinica,2011,31(2):76-83.(in Chinese)

[7]

司福意.焦作市太阳辐射资源分析评估[J].气象与环境科学,2013,36(2):87-91.

[8]

SI Fuyi.Assessment analysis of solar radiation resources in Jiaozuo[J].Meteorological and environmental sciences,2013,36(2):87-91.(in Chinese)

[9]

闫加海,张冬峰,安炜,.山西省太阳能资源时空分布特征及利用潜力评估[J].干旱气象,2014,32(5):712-718.

[10]

YAN Jiahai, ZHANG Dongfeng, AN Wei,et al.Distribution characteristics and assessment of solar energy resource in Shanxi[J].Journal of Arid Meteorology,2014,32(5):712-718.(in Chinese)

[11]

刘佳,何清,刘蕊,.新疆太阳辐射特征及其太阳能资源状况[J].干旱气象,2008,26(4):61-66.

[12]

LIU Jia, HE Qing, LIU Rui,et al.Solar radiation character and solar energy resource in Xinjiang[J].Arid Meteorology,2008,26(4):61-66.(in Chinese)

[13]

姚宇波,张丽平,刘文柱,.不同背反射结构在硅异质结太阳电池中的应用研究[J].太阳能学报,2022,43(10):37-42.

[14]

YAO Yubo, ZHANG Liping, LIU Wenzhu,et al.Research on application of different back reflection structures in silicon heterojunction solar cells[J].Acta Energiae Solaris Sinica,2022,43(10):37-42.(in Chinese)

[15]

张曦,康重庆,张宁,.太阳能光伏发电的中长期随机特性分析[J].电力系统自动化,2014,38(6):6-13.

[16]

ZHANG Xi, KANG Chongqing, ZHANG Ning,et al.Analysis of Mid/Long term random characteristics of photovoltaic power generation[J].Automation of Electric Power Systems,2014,38(6):6-13.(in Chinese)

[17]

师浩琪,郭力,刘一欣,.基于多源气象预报总辐照度修正的光伏功率短期预测[J].电力自动化设备,2022,42(3):104-112.

[18]

SHI Haoqi, GUO Li, LIU Yixin,et al.Short-term forecasting of photovoltaic power based on total irradiance correction of multi-source meteorological forecast[J].Electric Power Automation Equipment,2022,42(3):104-112.(in Chinese)

[19]

Doelling D R, Sun Moguo, Nguyen L T,et al.Advances in geostationary-derived longwave fluxes for the CERES synoptic (SYN1deg) product[J].Journal of Atmospheric and Oceanic Technology,2016,33(3):503-521.

[20]

Camargo L R, Schmidt J.Simulation of multi-annual time series of solar photovoltaic power:is the ERA5-land reanalysis the next big step?[J].Sustainable Energy Technologies and Assessments,2020,42:100829.

[21]

CARLEER M R, BOONE C D, WALKER K A,et al.Validation of water vapour profiles from the Atmospheric Chemistry Experiment (ACE)[J].Atmospheric Chemistry and Physics Discussions,2008,8(2):4499-4559.

[22]

Johnson N E, Bonczak B, Kontokosta C E.Using a gradient boosting model to improve the performance of low-cost aerosol monitors in a dense,heterogeneous urban environment[J].Atmospheric environment,2018,184:9-16.

[23]

CHEN H G, ZHANG H, Boning D,et al.Robust decision trees against adversarial examples[C]//Proceedings of the 36th International Conference on Machine Learning.Long Beach:PMLR,2019:1122-1131.

[24]

全国气象防灾减灾标准化技术委员会. 紫外线指数预报方法:GB/T 36744-2018 [S].北京:中国标准出版社,2018.National Standardization Technical Committee for Meteorological Disaster Prevention and Reduction.Forecasting method for ultraviolet index:GB/T 36744-2018 [S].Beijing:China Standard Press,2018.(in Chinese)

[25]

司杨,张海峰.基于神经网络的太阳辐照度预测方法研究[J].青海大学学报(自然科学版),2013,31(1):14-18.

[26]

SI Yang, ZHANG Haifeng.Prediction method of solar irradiance based on neural network[J].Journal of Qinghai University (Natural Science),2013,31(1):14-18.(in Chinese)

[27]

崇伟,沙奕卓,行鸿彦,.一种基于支持向量机回归的旋转遮光带日射表散射辐照度修正新算法[J].光学学报,2012,32(1):0112001.

[28]

CHONG Wei, SHA Yizhuo, XING Hongyan,et al.A new correction algorithm for diffuse irradiance measured with rotating shadow-band pyranometer based on support vector regression[J].Acta Optica Sinica,2012,32(1):0112001.(in Chinese)

[29]

蒋俊霞,高晓清,吕清泉,.基于地基云图的云跟踪与太阳辐照度超短期预报方法研究[J].太阳能学报,2020,41(5):351-358.

[30]

JIANG Junxia, GAO Xiaoqing, Qingquan LYU,et al.Study on cloud tracking and solar irradiance ultra-short-term forecasting based on TSI images[J].Acta Energiae Solaris Sinica,2020,41(5):351-358.(in Chinese)

[31]

武辉芹,时珉,赵增保,.基于EC细网格数值预报产品的太阳辐照度订正技术[J].气象科技,2020,48(5):752-757.

[32]

WU Huiqin, SHI Min, ZHAO Zengbao,et al.Stepwise revision of solar irradiance based on EC fine-grid numerical forecast products[J].Meteorological Science and Technology,2020,48(5):752-757.(in Chinese)

[33]

Prettenhofer P, Louppe G.Gradient Boosted Regression Trees in Scikit-Learn[C] //Pydata.2014.DOI:http://hdl.handle.net/2268/163521 .

[34]

ZHANG H L, YUAN Y B, XU Y J,et al.Remote sensing method for detecting green tide using HJ-CCD top-of-atmosphere reflectance[J].International Journal of Applied Earth Observation and Geoinformation,2021,102:102371.

[35]

Hersbach H, Bell B, Berrisford P,et al.The ERA5 global reanalysis[J].Quarterly Journal of the Royal Meteorological Society,2020,146(730):1999-2049.

AI Summary AI Mindmap
PDF (2388KB)

248

访问

0

被引

详细

导航
相关文章

AI思维导图

/