基于极端梯度提升回归模型的日间边界层湍流耗散率估计

郑昊 ,  周博闻

南京大学学报(自然科学) ›› 2026, Vol. 62 ›› Issue (02) : 236 -248.

PDF (1618KB)
南京大学学报(自然科学) ›› 2026, Vol. 62 ›› Issue (02) : 236 -248. DOI: 10.13232/j.cnki.jnju.2026.02.006

基于极端梯度提升回归模型的日间边界层湍流耗散率估计

作者信息 +

Extreme gradient boosting regressor model⁃based estimation of daytime convective boundary layer turbulence dissipation rates

Author information +
文章历史 +
PDF (1656K)

摘要

大气中的湍流耗散是指湍动能受分子黏性作用转化为热能的过程.湍流耗散率是量化湍流强度、混合和输运特性的关键参数,也是航空安全、风能发电等工程应用的重要指标.无线电探空是大气风、温、湿垂直观测的常用手段,但因湍流耗散发生在大气的最小连续性尺度(毫米和毫秒级),探空无法提供耗散率观测.为了突破这一限制,丰富湍流耗散率的垂直廓线观测,采用深度学习方法,基于大涡模拟获得的日间对流边界层高分辨率数据,训练XGBRegressor模型,以风、温、压等关键气象要素的垂直廓线及其垂直梯度为输入,诊断耗散率的垂直廓线,研究了该算法在特征提取和泛化能力方面的表现.结果表明,所提出的模型具有良好的诊断效果,优于传统的Thorpe耗散率诊断方法,且在不同的垂直分辨率数据集中表现出泛化能力.模型为依据探空廓线观测诊断湍流耗散率提供新的途径,也为数值模式中湍流耗散率的参数化提供新的机器学习思路.

Abstract

Atmospheric turbulence dissipation refers to the conversion of turbulence kinetic energy into thermal energy. The turbulent dissipation rate is a crucial parameter for quantifying turbulence intensity,mixing,and transport characteristics,and it is also an important indicator in engineering applications such as aviation safety and wind power generation. Radiosonde observation sare widely used for vertical atmospheric profiles of wind,temperature,and humidity. However,because turbulence dissipation occurs at the smallest continuous scales of the atmosphere (millimeter and millisecond scales),radiosondes cannot directly observe the dissipation rate. To overcome this limitation and enrich the vertical profile observations of turbulent dissipation rates,a deep learning approach is developed based on large eddy simulation data of the convective boundary layer. An XGBRegressor model is trained to predict dissipation based on the vertical profiles of key meteorological variables including wind,potential temperature and pressure,as well as their vertical gradients. Model performance is evaluated in terms of feature extraction,nonlinear modeling,and generalization capability. The results demonstrate that the proposed model exhibits decent diagnostic skills that outperform the classic Thorpe diagnostic model for dissipation rates. Furthermore,the model demonstrates good generalization capabilities to process different vertical resolutions other than the training datasets. This machine⁃learning model provides an alternative approach for profiling turbulence dissipation rates based on radiosonde data,and can be potentially used for the parameterization of turbulence dissipation rates in PBL schemes.

Graphical abstract

关键词

湍流动能耗散率 / 探空廓线 / 深度学习

Key words

turbulence dissipation rate / radiosonde profiles / deep learning

引用本文

引用格式 ▾
郑昊,周博闻. 基于极端梯度提升回归模型的日间边界层湍流耗散率估计[J]. 南京大学学报(自然科学), 2026, 62(02): 236-248 DOI:10.13232/j.cnki.jnju.2026.02.006

登录浏览全文

4963

注册一个新账户 忘记密码

大气边界层是大气圈的重要组成部分,包含地面以上约1 km高度范围内的大气,是人类活动的主要场所.它也是大气圈与水圈、陆圈与生物圈进行能量和物质交换的主要介质,对天气和气候都具有重要影响.湍流是大气边界层的定义性特征,边界层中的湍流主要由地表加热和水平风的垂直切变驱动,而湍流耗散是将湍动能转化为热能的主要湍流能量汇1.湍流耗散率(ε)是量化湍流强度、混合和输运特性的关键参数,也是航空安全、风能发电等工程应用的重要指标.
目前,人们对大气中的湍流耗散及其变化情况了解较少,主要原因是缺乏观测数据.在大气边界中,取典型ε (~10-3 m2·s-3)、耗散涡尺度η (~10-3 m).如采用常规的定点时间序列观测,需要利用泰勒冰冻假设进行时空转换.那么即使在平均风速U (~1 m·s-1)的弱风条件下,有效观测也需要η/U (~1 ms)的时间间隔(即1000 Hz的超高频率)才能展开.千赫兹量级的热线风速仪虽可以实现直接观测2,但由于其精细的设计及对环境的要求,无法成为野外观测的常规手段.
目前,大气边界层耗散率观测主要是基于相对低频的湍流脉动展开,而后通过经典的Kolmogorov湍流能谱加以推算3.湍流脉动往往通过地基/塔基的超声风速仪(观测频率一般为10~20 Hz)2,风廓线雷达及激光雷达等的遥感仪器4-6以及有限的机载超声观测展开.但由于地基超声的测量高度有限,多数只能对近地层耗散率进行测量;激光雷达虽能突破高度限制,但并未广泛部署;飞机观测主要受限于个例,无法提供足以支撑统计分析的数据量.因此,目前尚无法针对大气湍流耗散率的垂直廓线开展持续、稳定的观测.
通过无线电探空仪进行大气垂直结构及湍流观测,是当今气象业务中最经典、使用最广泛的探测手段.通过无线电探空可以获得风、温、湿等大气基本要素的垂直廓线,单次探测中较高的时间分辨率(1 s)使得无线电探空能够捕捉更加精细的大气结构,进而可以被应用在重力波、边界层等更多方面的研究当中7.同时,无线电探空站点分布广泛,在全球范围约有800多个站点,采用每日两次(00UTC和12UTC)的模式进行持续、稳定的垂直廓线观测8.
尽管无线电探空能够提供相对精细的垂直分辨率,但仍然无法直接计算湍流耗散率.且因为探空气球的持续上升特性,亦无法通过构建湍流功率谱来推算ε.目前利用探空资料对耗散率廓线的获取,主要是基于Thorpe9提出的一种在稳定层结条件下,以垂直温度廓线估算海洋湍流耗散率的参数化方法(详见2.1).该方法被Luce et al10和Clayson and Kantha11引入高分辨率探空仪的数据处理,并据此诊断具有物理合理性的湍流耗散率廓线.针对Thorpe分析对仪器噪声敏感,易产生虚假湍流层判识的缺陷12-14,研究者开发了基于统计学的噪声过滤技术15-16,并通过与扫描雷达17-18、数值模拟19-20等多源数据对比验证了其可靠性.基于Thorpe分析,全球多个地区已建立大气湍流气候特征数据库,包括印度季风区21、美国22-23和中国24.在Kantha25的工作中,将Thorpe分析推广至对流条件,验证了其对日间对流边界层湍流耗散率诊断的可行性.
然而,Thorpe分析也存在诸多缺陷.首先,Thorpe方法中的关键系数CT是一个经验型常数,不同研究中CT的值差异巨大(从0.0625到16),导致其诊断的ε存在数量级的不确定性17.更关键的是,Thorpe方法本质上诊断的是在稳定层结环境中,由湍流引起的静力不稳定度(Thorpe位移)所造成的湍流耗散,仅仅考虑浮力驱动的湍流,无法对切变、对流、重力波破碎或其他动力机制引起的不稳定进行解释.同时,Thorpe方法假设干大气,因此也不适用于云区或饱和大气.
随着机器学习技术的快速发展,机器学习在数值天气预报模式中的应用以及基于机器学习的气象大模型已成为热门的研究方向.针对复杂的大气湍流过程,研究人员利用机器学习方法在处理高维非线性问题方面的独特优势26,基于观测和模拟数据训练机器学习模型,在多个湍流相关的参数化领域取得了成功.例如,McCandless et al27利用大量的地表通量和梯度观测数据,训练了基于人工神经网络(Neutral Network)和随机森林(Random Forest,RF)的地表通量参数化方案,以此取代经典的Monin⁃Obukhov相似性理论,实现对非定常条件下的通量估计.Wang and Tan28基于高分辨率大涡模拟的热带气旋数据,以神经网络为框架,训练了一个机器学习的边界层参数化方案,并将其嵌入数值预报模式WRF,完成了热带气旋的数值模拟.Bodini et al29基于超声风速仪提供的多个单点数据,通过RF与多项式回归开展了湍流耗散参数化的工作.基于机器学习的模型和参数化方案还在雷暴预测30、对流系统模拟31和航空湍流预警32等场景得到应用,为发展数据⁃物理融合的湍流参数化方案指明了方向.
Bodini et al29的开创性研究展示了机器学习在改进ε参数化方面的潜力,然而相关工作受限于观测点的空间代表性与测量误差,难以把握湍流的空间结构.相较于并行训练多个独立决策树的RF算法,本文利用先进的XGBRegressor算法,串行训练多个弱学习器,以大涡模拟高分辨率数据为参照真值,构建基于风、温、压等关键气象要素垂直廓线及垂直梯度的湍流耗散率机器学习参数化模型,实现利用探空数据获取湍流耗散率廓线,同时,为数值模式中的湍流耗散率参数化提供新的机器学习模型.

1 实验方法及模式设置

1.1 Thorpe方法

Thorpe方法基于高分辨率探空仪数据,诊断晴空条件下的自由大气湍流耗散率,其所需的输入仅为位温θ(z)的垂直廓线.Thorpe方法假设自由大气具有稳定的背景层结,并假设探空廓线中任何的局地不稳定性(即zθ0)皆由湍流造成的气块上下移动所致,湍流越强,则造成的局地不稳定区域厚度越大25.因此,可依据位温廓线中不稳定区域发生的位置和厚度,结合背景环境的层结稳定度,推算局地湍流的强度33.从湍流强度到湍流耗散率的推算则是基于自由大气中湍流的局地平衡特征,即湍流的生成和耗散在层结稳定条件下,多发生在相同高度,而几乎不受湍流的垂直传输影响34.简而言之,就是湍流在哪里发生,就在哪里消亡.湍流造成的局地不稳定势能将全部通过湍流耗散,在相同的高度释放.由此,则可诊断局地的耗散率,并获得耗散率的垂直廓线.

以下介绍Thorpe方法的操作步骤.

首先,对θ(z)按照随高度单调递增的规律重新排序,还原未受湍流扰动影响的背景位温廓线θ*(z),从而确定背景环境的层结稳定度N,即Brunt–Väisälä频率:

N=gθ*dθ*dz

其中,θ*表示排序后的位温,g为重力加速度,z表示高度.

然后,通过比较排序前后的位温廓线(即θθ*)来确定局地不稳定层的厚度,具体如下.假设在高度zn处的样本需要移动到高度zm处才能形成稳定层,由此产生的位移d=zm-zn被称为Thorpe位移(LD),LD的均方根值被定义为Thorpe长度(LT).通常,当LD同时满足以下公式时,即认为发生了局地不稳定:

i=1nLDi=0
i=1kLDi0

其中,k小于n12.

最后,假设Thorpe长度LT与估算稳定层结条件下湍流尺度的Ozmidov尺度LO呈线性关系35,即:

LO=CTLT

其中,CT为经验常数.LO的定义为:

LO=εN31/2

代表了在层结稳定度为N的环境中,最大的具备各项同性性质的湍涡大小.将LO的定义与式(2)相结合,可推导出ε的诊断表达式:

ε=CTLT2N3

1.2 大涡模拟

1.2.1 大涡模拟简介与个例介绍

大涡模拟(Large⁃Eddy Simulation,LES)是一种用于模拟湍流的高阶数值技术,其核心思想是直接解析湍流中携带大部分能量和动量的大尺度涡,对尺度小于网格分辨率的小尺度涡的效应则通过次网格尺度(Subgrid⁃Scale,SGS)模型进行参数化36.由于LES能够解析含能区的大部分湍流运动,其对湍流统计量的预测具有很高的可信度,因此常被用作基准真值来开发和检验湍流参数化方案37.

本研究使用Advanced Regional Prediction System (ARPS)38-39模式进行大涡模拟.ARPS是一种非静力中小尺度有限差分数值天气预报模型,它在空间上采用基于广义高度的地形跟随坐标系,并在Arakawa C网格上运行,时间上采用模式分裂时间积分方案.采用的日间对流边界层(Convective Boundary Layer,CBL)个例使用(1008,1008,328)个网格点在(xyz)方向上进行,水平网格间距为10 m.在1.3 km以下高度采用均匀的4 m垂直网格间距,以确保CBL的高分辨率.所有模拟均采用水平周期性边界条件,并在模式域的上四分之一处(即1.5~2 km)应用瑞利阻尼以吸收上传的重力波.

大涡模拟初始场在925 m以下设为中性300 K位温,并在925~1075 m设置一个强逆温层,以限制边界层的发展高度.初始风廓线为地转风,科氏力参数f为10-4 s-1,地表粗糙度长度z0为0.1 m.如表1所示,在三个CBL个例中,BF和SW分别由0.2 K·ms⁻1和0.05 K·ms⁻1的恒定地表感热通量作为热力驱动.BF1个例受1 m·s-1的正压地转风Ug驱动,BF和SW个例的地转风为10 m·s-1.个例的稳定度由无量纲整体稳定度参数-zi/L量化,该参数代表热力强迫与机械强迫的比例,其中,zi(m)为边界层深度,L(m)为奥布霍夫长度.BF1个例接近自由对流极限,边界层内湍流主要由强烈的地表加热驱动的热对流主导,机械剪切的作用非常微弱;SW个例模拟的湍流主要由风剪切产生,接近中性边界层的特征;BF个例由中等强度的风剪切使得湍流的产生由浮力和剪切共同作用,代表了典型的对流与剪切混合驱动的边界层.

1.2.2 基于大涡模拟的湍流耗散率计算

采用Moeng40的1.5阶湍流动能(Turbulent Kinetic Energy,TKE)闭合方案作为SGS模型求解次网格湍流动能(Subgrid⁃Scale TKE,简写为“SGS⁃TKE”)的预报方程,并据此计算涡流扩散系数:K=Ckle¯,其中,Ck为模型常数,l=ΔxΔyΔz1/3为次网格混合长度,e¯为SGS⁃TKE.在e¯的预报方程中,湍动能耗散率采用经典的湍流耗散标度率表达41,即:

ε=e¯3/2CεLε

其中,Cε为湍流耗散系数,在模式的第一层设为3.9,其他层则设为0.93;Lε为耗散尺度,在中性和对流条件下Lε=l,在稳定条件下(如夹卷层和自由大气中)Lε=0.76e¯/N.

1.3 XGBRegressor算法

本研究所构造的机器学习模型基于XGBRegressor算法实现,该算法框架来源于Chen and Guestrin42于2016年提出的一种可扩展的、高效的机器学习算法,其流程图如图1所示.XGBRegressor算法的基础是梯度提升决策树(Gradient Boosting Decision Tree,GBDT).GBDT是一种集成模型,它通过加法模型(Additive Model)和前向分步算法(Forward Stagewise Algorithm),以原始训练集为输入,训练第一棵CART回归树(模型1),并计算其预测偏差,迭代地训练一系列弱学习器(模型2、模型3等),每一棵树的学习目标都是拟合前序树组合的残差.在此基础上,XGBRegressor引入了一个更复杂的目标函数,对损失函数进行二阶泰勒展开,同时显式地加入正则化项用于控制模型复杂度,从而防止过拟合,提升其泛化能力,最终训练获取多棵具有互补性的基回归树.详细算法见Chen and Guestrin42的相关研究.

基于1.2中的三个LES个例数据构建包含高度(z)、气压(p)、三维风场(u,v,w)、位温(θ)场及后三者的垂直梯度(zpzuzvzwzθ)共11个变量作为输入,并以耗散率ε作为输出的机器学习模型.输入变量的选择主要参照常规探空的廓线观测(即高度、气压、水平风和位温),为完整起见,也添加了垂直速度.梯度变量的输入是出于物理过程的考虑,这是因为水平风和位温的垂直梯度分别是湍流动能以及湍流势能生成项中的一部分34,对湍流耗散过程有重要影响,而气压的垂直梯度是对流(垂直速度)的重要强迫项.增加风、温、压的垂度梯度作为学习变量,有可能帮助机器学习模型增强对物理过程的考虑,从而提升其对ε的诊断效果.

本研究采用XGBRegressor算法构建ε的拟合模型,首先对训练集进行了Z⁃score标准化,并针对目标变量空间分布不均衡问题采用欠采样方法进行数据平衡43.数据集按3∶1的比例划分为训练集和测试集,通过网格搜索对学习率、子采样比例等超参数进行系统调优.模型特别针对低ε值区域在训练集上单独设计了分段梯度加权损失函数,尤其是通过弱化对流边界层上层(z1110 m)低ε样本的损失权重,限制了低耗散区域对整体拟合精度的影响,从而提升预测精度.训练过程同时采用早停法和L2正则化对过拟合进行控制.模型训练完成后,基于特征重要性分析(Gain和Weight指标)对特征集进行进一步优化44,最终将训练完成的模型应用于同一个例不同时次及不同个例数据集上,对拟合的结果进行比较,以验证模型的鲁棒性与泛化能力.

本研究的所有训练过程均在中尺度灾害性天气教育部重点实验室的高性能计算集群上完成,用于算法实现的计算平台为8×NVIDIA RTX4090 24 GB显存,每块GPU分配6 CPU物理核及60 GB内存,计算集群资源能够满足训练需求.所应用的主要算法框架包括XGboost与Scikit⁃learn,两种框架均支持分布式计算,可扩展性强.

2 结果与讨论

2.1 湍流耗散率的平均廓线与空间分布特征

首先基于LES数据,分析对流边界层中湍动能耗散率的特征.图2展示了三个CBL个例中的湍动能耗散率ε在各个高度的雷诺平均值ε、偏度Sϵ和峰度Kε廓线,其中,代表水平平均.由于研究区域水平范围足够大,具备充足的样本量,因此该平均可有效表征雷诺平均,适用于边界层湍流结构的统计分析.在图2a中,ε的均值廓线在边界层内呈现三层化的垂直结构:近地层内的ε值最大,并随高度增加而迅速减小.此区域紧邻下垫面,在风剪切和地表热通量共同作用下,产生了最大的湍流源项,并且具有极高的能量耗散率.其上的混合层中,位温接近均匀,浮力的贡献呈线性减小,但湍流输送将从近地层产生的高TKE向上输送,并在混合层中部和上部进行重新分配和耗散,使湍流能量和耗散率在混合层内分布相对均匀,ε的垂直梯度变得非常平缓.在热力主导的BF1和BF个例中,ε在约0.3zi至0.9zi的高度范围内近乎常数.从夹卷层底部,约0.8zi附近开始,ε向边界层顶zi急剧减小.这是由于在对流边界层顶部的逆温层附近,浮力频率迅速增大,强烈地抑制了湍流,导致ε急剧衰减.

图2ε的高阶统计量看,方差的垂直变化与均值的变化趋势高度同步,近地层的湍流耗散活跃,并随高度逐渐减弱.ε的偏度都远大于0,而其峰度远大于3,这说明耗散率的概率分布呈现显著的右偏(图2c)及超高斯特征(图2d).结合图3中所展示的BF1个例中ε的水平分布,可见对流边界层中湍流耗散的空间分布与边界层内的组织化对流结构有很好的对应关系(未展示):强的耗散过程主要发生在相对狭窄的上升流区域,而更为广阔的下沉环境区域对应较小的ε.由图3可见,随着高度增加,上升流合并,耗散大值区也更加集中.这对应着图2c和图2d中SεKε随高度增加的廓线特征.

2.2 基于Thorpe方法诊断的湍流耗散率廓线

图2图3可知,湍流耗散率ε具有复杂的空间分布特征,ε的水平平均廓线是对流边界层内部不同物理过程(剪切、浮力、输送)相互作用的体现,而ε在单个格点的廓线更为复杂.如图4蓝色廓线所示,从BF个例的输出中,随机选取三个时次(分别是160,190和220 min),又随机选取每个时次三维场中的一个水平格点作为代表,在图4中绘制了ε的单点垂直廓线.若忽略迄止时间上的差异,则可将此类的瞬时单点廓线类比于真实的探空气球升空测量所得的廓线.相比于图2,瞬时单点廓线的空间扰动显著增强,且廓线间的差异明显,这与廓线是否经过对流上升区域密切相关(见图3).

接下来,以大涡模拟为参照真值,评估2.1中的Thorpe方法所诊断的湍流耗散率.图4中黄色实线给出了Thorpe方法所诊断的ε廓线示例,而表2给出了Thorpe方法对BF个例中所有格点的统计数据,其计算高度区间为0~900 m,接近边界层顶.通过MSE及拟合优度(R2)对Thorpe方法的效果进行评估.

R2=1-i=1nεi-εi^2i=1nεi-ε¯2

其中,εi^为第i个诊断值,εi为第i个参考真值,ε¯为参考真值的均值.

图4可见,Thorpe方法的诊断廓线与参照真值具有基本一致的形态,即ε在近地层中较大,并随高度增加而减小.Thorpe的诊断廓线虽具备与参照真值相当振幅的扰动,但峰值的位置存在较大的偏差,这导致了Thorpe方法在MSER2两个关键统计数据上表现不佳.图4所示不同空间点上ε垂直廓线的R²均低于0.20,表2中Thorpe方法的总体R²则趋近于0,而MSE量级达到100 W2·kg-2(注意到图2所示的ε量级通常在10-1 W·kg-1以下).这表明Thorpe方法难以捕捉ε的整体空间分布特征,仅在部分格点的垂直方向上能够捕捉到一定规律.基于Thorpe方法诊断的ε廓线评估欠佳,主要是由于Thorpe方法仅考虑浮力驱动的湍流(位温廓线是Thorpe方法的唯一输入),在同样受风切影响的实际对流边界层中,无法包含由切变生成所致的湍流源项,因而也无法有效捕捉真实的湍流耗散过程.

2.3 基于机器学习方法诊断的湍流耗散率廓线

2.2中的评估结果揭示了Thorpe方法在诊断日间对流边界层中的耗散率垂直廓线中的缺陷,无法准确重现ε的扰动和局地的峰值位置.针对传统方法的不足,引入XGBRegressor机器学习模型,预期该模型能够通过学习包含风、温、压等多要素(非单一的位温廓线)与ε之间的复杂映射关系,克服Thorpe方法对单一物理假设或特定层结条件的过度依赖,在边界层大气,特别是在传统方法失效的复杂区域,提供一种更稳健、更精确的湍流耗散率估算方案.

首先,图5展示了针对BF个例所训练的机器学习模型,在与图4同样的三个时次中,各随机选取一条诊断所得的格点ε垂直廓线.对于该机器学习模型,这三个时次数据皆属于验证集,不曾参与训练.相比于大涡模拟的参照真值(蓝线),诊断值(黄线)在整体趋势上与真值基本一致,尤其在ε峰值区域的拟合效果较好,拟合优度R2均达到0.69以上.与图4中的Thorpe方法相比,MSE有多个数量级的显著提升.表3给出的三个时次所有格点ε廓线的统计数据,进一步证实了机器学习模型对ε廓线的良好诊断效果.与表2相比,MSE有六个数量级的下降,而R2都达到了0.60以上,这主要是因为机器学习模型能更好地复现耗散率的大值.

接下来,为了明确各气象要素对湍流耗散率(ε)预测的贡献程度,开展了XGBRegressor模型的特征重要性评估.如表4所示,为评估不同预测因子在模型训练过程中的相对重要性,本研究提取了增益(Gain)和权重(Weight)两个指标.增益反映了特征作为划分属性时损失(Loss)平均的降低量,其值越高,表明该特征对提升模型整体预测精度的贡献越大.权重则指特征在所有树中作为划分属性的次数,它描述了特征在模型决策结构中的参与频次,可间接反映特征在数据空间中的覆盖广度与稳定性.

气压p和高度z是最关键的预测因子,贡献了最大的权重,增益也相对最高.考虑到边界层内的ε廓线具有相同的背景态,即ε=ε+ε',其中,ε'为雷诺扰动值.如图2a所示,ε随高度增加而递减,具有很强的高度依赖特征,因此,pz的重要性很可能是体现了机器学习对平均廓线ε的把握.表4中位温θ的权重排在第三位,而风速分量(u,v)的权重排名较低.值得注意的是,θuv在模型中的权重均低于10%,但其增益系数较高,三者增益之和超过40%,这说明三者虽然被模型用于划分样本的频率不高,但每次使用都能较大地提升模型性能,对耗散率廓线扰动的诊断具有一定的影响.最后,风、温、压的梯度项的排名在θ之后,其增益和权重都相对较小.

2.4 机器学习模型的敏感性试验及泛化性测试

梯度信息对于耗散率具有重要的物理意义,但在机器学习模型中的增益和权重都相对较小.为了深入探究垂直梯度信息在模型训练中发挥的具体作用,评估模型学习到的物理关系是否合理,针对BF个例开展了敏感性试验.在原始训练模型(记为BF⁃CTRL)的基础上,构建了一个新的对比模型(记为BF⁃NG,即No Gradients).BF⁃NG的训练集删除了所有五个梯度特征,而仅保留基本气象要素(u,v,w,p,θ)和高度(z).模型除特征集不同外,仅调整了超参数设置以确保最优训练,其数据预处理方式与训练验证方式均保持完全一致,以确保性能差异完全由特征的选择产生.

敏感性验证的统计结果如表5所示,相对于控制试验,无梯度机器学习模型在MSER2上皆有一定的退化,MSE增加了几乎一倍,而R2则减小至0.52.为直观验证BF⁃NG模型的效果,我们同样抓取图5中所展示的三条廓线进行分析.对比图5图6,可见BF⁃NG模型对ε廓线中局地极大值的捕捉能力明显下降,这在图6c的廓线个例中尤为明显.敏感性试验表明,垂直梯度信息的模型权重虽然不高,但是模型实现高精度估算ε的关键因子,其信息含量无法由要素的瞬时值完全替代.梯度特征的缺失,极大地削弱了模型捕捉与湍流耗散密切相关的湍动能切变生成过程的能力,进而导致模型性能下降.

BF⁃CTRL模型对于空间分辨率的变化同样敏感.将模型应用到一系列更粗垂直分辨率Δz=8,12,16,…,40 m的测试集上,观察到模型R2Δz增加而下降,而MSE相应增加.模型性能在8~20 m分辨率区间下降最快.当Δz20 m时,性能下降速度变缓,最终在Δz超过28 m后趋于稳定.这是由于我们的模型训练过程中引入了垂直梯度作为特征,当垂直分辨率超出边界层内剪切的最大梯度区时,垂直梯度信息对模型性能的贡献将会逐步退化,直至收敛到BF⁃NG模型性能(R2=0.52).

由于大涡模拟的计算成本较高,训练数据往往有限,无法对重要的参数空间实现全覆盖,因而机器学习模型的泛化性能就尤为重要.在本研究中,边界层的整体稳定度是决定对流边界层性质的关键参数,对湍流耗散率的廓线起重要作用.因此,接下检验针对某个边界层整体稳定度条件所训练的模型,是否能用于诊断其他整体稳定度条件下的耗散率廓线.为此,选择将BF⁃CTRL模型用于BF1和SW个例,这是因为在BF个例中地表加热和风切对湍流生成的作用相当,而BF1和SW分别由加热主导和风切主导.在有限的计算资源条件下,选择BF个例开展大涡模拟,并由此训练机器学习模型,显然是更为合理的选择.

在泛化能力的体现上,BF⁃CTRL模型在独立测试集上达到R²=0.62~0.70(见表3),模型在BF1和SW个例的测试集上达到R²=0.53~0.75(见表5),MSE保持在10⁻⁶量级.尽管性能在跨个例的预测中有所下降,但对湍流动能耗散率的波动趋势预测仍表现出较好的准确性,如图7中BF⁃CTRL模型跨个例诊断的ε廓线所示.对比LES的参照真值可见,对于具有相同下垫面加热率的BF1个例,BF⁃CTRL模型诊断值与真实值的大小与变化趋势在多数区段高度吻合,尤其在ε高值区域(边界层低层的强湍流耗散率区)匹配度更佳.对于具有相同地转风驱动的SW个例,BF⁃CTRL模型表现出良好的诊断效果,但对混合层中上层的耗散率出现了较为明显的高估.

4 结论

本研究基于大涡模拟高分辨率数据,开发并验证了一个基于XGBRegressor算法来诊断湍流动能耗散率的机器学习模型.通过对风场、气压、位温的垂直廓线及其垂直梯度等特征的学习,模型实现了对湍流动能耗散率的准确估算.

主要结论如下.

(1)通过与高精度LES数据的对比,本研究揭示了传统Thorpe方法在不同个例中的应用局限.该方法虽能给出耗散率的基本廓线形态及与参照真值相当的振幅,但无法准确描述耗散率大值出现的位置,导致其统计MSER2均不佳.

(2)通过LES数据训练的XGBRegressor算法的机器学习模型,实现以瞬时探空廓线为输入,诊断输出湍流耗散率廓线,其MSER2相比Thorpe方法实现大幅提升.通过特征重要性分析发现,气压和高度是预测ε的最重要特征,三维风场和位温场的贡献度虽不高,但增益较大.通过剔除垂直梯度的敏感性试验还发现,气象要素的垂直梯度为ε的诊断提供了基于物理过程的参考,有助于机器学习模型更准确地描述耗散率的大值.

(3)该模型在基于热力和风切变作用相当的对流边界层个例训练后,能够有效地推广至不同热力和风切变条件个例.这说明该模型具有一定的鲁棒性和泛化能力,为解决湍流参数化中直接观测数据匮乏的问题提供了一种有效的机器学习方案.

未来,拟将本文开发的机器学习模型用于真实的探空廓线,同时利用超声和激光雷达原位观测的耗散率加以检验,以期将该方法推广至探空廓线,获得可用耗散率廓线产品,同时也将尝试将该模型引入数值预报模式,以改善边界层方案中湍流耗散率的参数化.

参考文献

[1]

吕克利,徐银梓,谈哲敏.动力气象学. 南京:南京大学出版社,2014.

[2]

Piper M, Lundquist J K. Surface layer turbulence measurements during a frontal passage. Journal of the Atmospheric Sciences,2004,61(14):1768-1780.

[3]

Kolmogorov A N, Levin V. The local structure of turbulence in incompressible viscous fluid for very large Reynolds numbers.Proceedings of the Royal Society of London.Series A:Mathematical and Physical Sciences,1991,434(1890):9-13.

[4]

Dehghan A, Hocking W K. Instrumental errors in spectral⁃width turbulence measurements by radars.Journal of Atmospheric and Solar⁃Terrestrial Physics,2011,73(9):1052-1068.

[5]

Wildmann N, Nicola B, Lundquist J K,et al. Estimation of turbulence dissipation rate from doppler wind lidars and in situ instrumentation for the Perdigao 2017 campaign. Atmospheric Measurement Techniques,2019,12(12):6123-6401.

[6]

Xian J H, Lu C, Lin X L,et al. Directly measuring the power⁃law exponent and kinetic energy of atmospheric turbulence using coherent doppler wind lidar. Atmospheric Measurement Techniques,2024,17(6):1837-1850.

[7]

Ingleby B, Pauley P, Kats A,et al. Progress toward high resolution,real⁃time radiosonde reports. Bulletin of the American Meteorological Society,2016,97(11):2149-2161.

[8]

Durre I, Yin X G, Vose R S,et al. Enhancing the data coverage in the integrated global radiosonde archive. Journal of Atmospheric and Oceanic Technology,2018,35(9):1753-1770.

[9]

Thorpe S A. Turbulence and mixing in a Scottish Loch. Philosophical Transactions of the Royal Society of London,Series A:Mathematical and Physical Sciences,1977,286(1334):125-181.

[10]

Luce H, Fukao S, Dalaudier F,et al. Strong mixing events observed near the tropopause with the MU radar and high⁃resolution balloon techniques. Journal of the Atmospheric Sciences,2002,59(20):2885-2896.

[11]

Clayson C A, Kantha L. On turbulence and mixing in the free atmosphere inferred from high⁃resolution soundings. Journal of Atmospheric and Oceanic Technologyh,2008,25(6):833-852.

[12]

Wilson R, Luce H, Dalaudier F,et al. Turbulence patch identification in potential density or temperature profiles. Journal of Atmospheric and Oceanic Technology,2010,27(6):977-993.

[13]

Wilson R, Dalaudier F, Luce H. Can one detect small⁃scale turbulence from standard meteorological radiosondes?Atmospheric Measurement Techniques,2011,4(5):795-804.

[14]

Wilson R, Luce H, Hashiguchi H,et al. On the effect of moisture on the detection of tropospheric turbulence from in situ measurements. Atmospheric Measurement Techniques,2013,6(3):697-702.

[15]

Schneider A, Gerding M, Luebken F J. Comparing turbulent parameters obtained from LITOS and radiosonde measurements Atmos. Chemical Physics,2015,15(4):2159-2166.

[16]

Sunilkumar S V, Muhsin M, Parameswaran K,et al. Characteristics of turbulence in the troposphere and lower stratosphere over the Indian Peninsula. Journal of Atmospheric and Solar⁃Terrestrial Physics,2015,133:36-53.

[17]

Kantha L, Hocking W. Dissipation rates of turbulence kinetic energy in the free atmosphere:MST radar and radiosondes. Journal of Atmospheric and Solar⁃Terrestrial Physics,2011,73(9):1043-1051.

[18]

Luce H, Wilson R, Dalaudier F,et al. Simultaneous observations of tropospheric turbulence from radiosondes using Thorpe analysis and the VHF MU radar. Radio Science,2014,49(11):1106-1123.

[19]

Balsley B B, Svensson G, Tjernström M. On the scale⁃dependence of the gradient Richardson number in the residual layer. Boundary⁃layer Meteorology,2008,127(1):57-72.

[20]

Fritts D C, Garten J F, Andreassen Ø. Wave breaking and transition to turbulence in stratified shear flows. Journal of Atmospheric Sciences,1996,53(8):1057-1085.

[21]

Alappattu D P, Kunhikrishnan P K. First observations of turbulence parameters in the troposphere over the Bay of Bengal and the Arabian Sea using radiosonde. Journal of Geophysical Research Atmospheres,2010,115(D6):D06105.

[22]

Ko H C, Chun H Y, Wilson R,et al. Characteristics of atmospheric turbulence retrieved from high vertical⁃resolution radiosonde data in the United States. Journal of Geophysical Research:Atmospheres,2019,124:7553-7579.

[23]

Zhang J, Zhang S D, Huang C M,et al. Latitudinal and topographical variabilities of free atmospheric turbulence from high⁃resolution radiosonde data sets. Journal of Geophysical Research:Atmospheres,2019,124:4283-4298.

[24]

Y M, Guo J P, Li J,et al. Spatiotemporal characteristics of atmospheric turbulence over China estimated using operational high⁃resolution soundings. Environmental Research Letters,2021,16(5):054050.

[25]

Kantha L. Reinterpretation of the thorpe length scale. Journal of Atmospheric Sciences,2024,81(8):1495-1510.

[26]

McGovern A, Elmore K L, Gagne D J,et al. Using artificial intelligence to improve real⁃time decision⁃making for high⁃impact weather. Bulletin of the American Meteorological Society,2017,98(10):2073-2090.

[27]

McCandless T, Gagne D J, Kosović B,et al. Machine learning for improving surface⁃layer⁃flux estimates. Boundary⁃Layer Meteorology,2022,185(2):199-228.

[28]

Wang L Y, Tan Z M. Deep learning parameterization of the tropical cyclone boundary layer. Journal of Advances in Modeling Earth Systems,2023,15(1):e2022MS003034.

[29]

Bodini N, Lundquist J K, Optis M. Can machine learning improve the model representation of turbulent kinetic energy dissipation rate in the boundary layer for complex terrain?Geoscientific Model Development,2020,13(9):4271-4285.

[30]

Williams J K, Ahijevych D, Dettling S,et al. Combining observations and model data for short⁃term storm forecasting. Remote Sensing Applications for Aviation Weather Hazard Detection and Decision Support,2008,7088:708805.

[31]

Ahijevych D, Pinto J O, Williams J K,et al. Probabilistic forecasts of mesoscale convective system initiation using the random forest data mining technique. Weather and Forecasting,2016,31(2):581-599.

[32]

Muñoz⁃Esparza D, Sharman R D, Deierling W. Aviation turbulence forecasting at upper levels with machine learning techniques based on regression trees. Journal of Applied Meteorology and Climatology,2020,59(11):1883-1899.

[33]

Wilson R, Hiroyuki H, Yabuki M. Vertical spectra of temperature in the free troposphere at meso⁃and⁃small scales according to the flow regime:Observations and interpretation. Atmosphere,2018,9(11):415.

[34]

Wyngaard J C. Turbulence in the atmosphere. Cambridge:Cambridge University Press,2010.

[35]

Dillon T M. Vertical overturns:A comparison of Thorpe and Ozmidov length scales. Journal of Geophysical Research,1982,87(C12):9601-9613.

[36]

Piomelli U. Large⁃eddy simulation:Achievements and challenges. Progress in Aerospace Sciences,1999,35(4):335-362.

[37]

Osman H, Ikegaya N. Validating spatial reproduction of large⁃eddy simulations with PIV datasets for turbulence statistics at pedestrian level of urban canopy. Journal of Wind Engineering and Industrial Aerodynamics,2025,258:106018.

[38]

Xue M, Droegemeier K K, Wong V,et al.The Advanced Regional Prediction System (ARPS)⁃a multi⁃scale nonhydrostatic atmospheric simulation and prediction model.Part Ⅰ:Model dynamics and verification. Meteorology and Atmospheric Physics,2000,75(3):161-163.

[39]

Xue M, Droegemeier K K, Wong V,et al. The Advanced Regional Prediction System (ARPS)⁃a multi⁃scale nonhydrostatic atmospheric simulation and prediction tool.Part Ⅱ:Model physics and applications. Meteorology and Atmospheric Physics,2001,76(3):143-165.

[40]

Moeng C H. A large⁃eddy⁃simulation model for the study of planetary boundary⁃layer turbulence. Journal of the Atmospheric Sciences,1984,41(13):2052-2062.

[41]

Vassilicos J C. Dissipation in turbulent flows. Annual Review of Fluid Mechanics,2015,47:95-114.

[42]

Chen T Q, Guestrin C. XGBoost:A scalable tree boosting system∥Proceedings of the 22nd ACM Sigkdd International Conference on Knowledge Discovery and Data Mining. New York,NY,USA:Association for Computing Machinery,2016:785-794.

[43]

Xu C, Huang G L, Zhang M M. Comparative analysis of the seasonal driving factors of the urban heat environment using machine learning:Evidence from the Wuhan urban agglomeration,China,2020. Atmosphere,2024,15(6):671.

[44]

Li J T, An X Q, Li Q Y,et al. Application of XGBoost algorithm in the optimization of pollutant concentration. Atmospheric Research,2022,276:106238.

基金资助

国家自然科学基金(42275067)

AI Summary AI Mindmap
PDF (1618KB)

0

访问

0

被引

详细

导航
相关文章

AI思维导图

/