全球气候变化已成为当今人类社会面临的最紧迫的挑战之一
[1-3].作为全球人口最稠密、经济最具活力的区域之一,东亚因其高度复杂的地形和广阔的海岸带,对全球气候变化尤为敏感
[4-5].该区域的气候系统显著受季风与下垫面条件影响,形成多样化的区域气候类型
[6].因此,从区域与全球两个层面提高对东亚气候变化与极端事件的认识与预测能力,具有重要意义.全球气候模式是研究气候变化的重要工具
[7],能够在时空维度上生成全球各地的气候模拟,已被广泛应用于气候研究.然而,由于其空间分辨率相对较粗,其输出难以满足区域与地方尺度气候影响评估的需求
[8].为了获取更高分辨率的区域气候信息,研究者发展并广泛采用了降尺度技术
[9].降尺度主要分为两大类,即动力降尺度和统计降尺度.这两大类降尺度各具优势与局限
[10-11].
动力降尺度是通过区域气候模式(Regional Climate Models,RCMs)嵌套在全球气候模式中运行,将全球气候模式输出细化为更高分辨率
[12-14],该方法以完整的物理约束为基础.基于更高的空间分辨率,区域气候模式能更好地解析地形、陆面和海陆对比等对区域气候的影响,提供更细致、准确的区域气候信息
[15].但区域气候模式模拟计算量巨大,需大量算力资源
[16],难以在多情景、多模式上进行大规模集合试验.
与需要显式求解大气动力与热力方程且计算代价高昂的区域气候模式不同,统计降尺度采用数据驱动方法建立大尺度变量与地面预报量间的映射关系
[17],从而提升气候信息的空间分辨率.其特点是训练与推理成本低、部署快速、跨情景可扩展性强,尤其适合多模式、多情景与长时间序列的大样本试验.近年来,深度学习(Deep Learning,DL)的发展显著增强了统计降尺度的能力
[18-19].气候降尺度可类比于计算机视觉中的图像超分辨率(Super Resolution,SR)处理
[20],粗分辨率大气场类似模糊图像,降尺度的过程可视作重建增强细节的高分辨率场.卷积神经网络(Convolutional Neural Networks,CNNs)
[21-23]、U⁃Net
[24-27]和生成对抗网络(Generative Adversarial Networks,GANs)
[28-31]等主流DL架构已广泛用于降尺度,并表现出优于传统统计方法的性能.然而,这些方法也存在一定局限性,例如,由于CNNs依赖局地卷积操作,其有效感受野往往小于理论感受野,从而表现出受限感受野的问题,同时还存在输出过度平滑、对训练数据敏感以及缺乏显式物理约束等问题
[32-33],凸显了兼顾效率与物理一致性的必要性.
为了兼顾区域气候模式和统计降尺度的优势,近年来发展了一种新的降尺度方法,即区域气候模拟器
[34].该方法利用神经网络学习区域气候模式内部的降尺度函数,以统计方式重现了动力降尺度的输出
[35].简言之,区域气候模拟器以区域气候模式的高分辨率气候场为训练目标,将全球气候模式或粗化区域气候模式的大尺度输出映射为区域气候模式的精细输出.该框架兼具动力与统计降尺度的优势:一方面继承了区域气候模式的物理一致性;另一方面保持了数据驱动模型的计算效率
[36].Doury et al
[34]利用深度学习网络构建RCM模拟器用于模拟西欧地区12 km分辨率的近地表温度,发现模拟器能再现区域气候模式模拟的空间结构和时间变率,并且能够适用于不同的全球气候模式场,证实了其“可移植性”以及在处理降水这类复杂变量上的巨大潜力
[37].Addison et al
[38]开发了一个对流解析模型生成模拟器(CPMGEM),使用扩散模型来模拟2.2 km分辨率的降水,在极大降低计算成本的同时,保留高分辨率模型捕捉关键小尺度大气过程的能力.
随着深度学习模型的发展,基于Transformer的模型通过捕捉长程依赖在实现跨分辨率泛化方面展现出强大潜力
[39].其中,Swin Transformer V2
[40]通过引入后归一化、缩放余弦注意力以及连续相对位置偏置,显著提升了训练稳定性与跨分辨率泛化能力.在此基础上,Swin2SR
[41]进一步提升了收敛速度与对数据稀缺的鲁棒性,以更高效率达成超分辨任务的先进性能.这些特性使Swin2SR特别适用于气候降尺度.因此,本研究采用Swin2SR作为区域气候模拟器的骨干网络,应用于东亚区域,对地表气温、最高气温、最低气温和降水等关键地表变量进行建模,并以欧洲中期天气预报中心第五代全球再分析资料(ERA5)为驱动检验了模拟器的降尺度能力.
1 数据与方法
1.1 数据集资料
本研究采用的区域气候模式模拟数据集来自意大利国际理论物理中心(International Centre for Theoretical Physics,ICTP)区域气候模式RegCM⁃4.7.1
[42]东亚区域的连续40年模拟结果.该模拟试验区域的中心为116°E,33°N,水平分辨率为12.5 km,南北和东西向格点分别为565和783个,区域覆盖整个东亚及周边地区(详见2.3).模拟试验的驱动数据来自ERA5,模式从1979年1月1日连续积分至2019年12月31日.该长期区域气候模拟结果已经用观测资料进行了评估,结果表明RegCM4能较合理地再现东亚区域地面气温和降水的时空变化特征
[43].
除了RegCM4的模拟结果用于训练区域气候模拟器外,ERA5也被用于驱动区域气候模拟器进行长期降尺度试验,以检验模拟器的降尺度效果.ERA5是基于综合数值模式与多源观测构建的长期、均一且近实时更新的数据集
[44].该数据集提供逐小时时序,覆盖全球的分辨率为0.25º的均匀分辨率网格.ERA5的时间覆盖自1940年起至近实时,并提供单层与等压面两大类产品,典型变量包括2 m气温、总降水、各层风场与温度、地表通量与辐射量等.
1.2 数据处理
区域气候模拟器的训练数据集都来自RegCM4模拟的逐日模拟结果.具体的变量如
表1所示.预报因子数据都进行了八倍升尺度,统一至100 km网格.
ERA5数据变量的选取和RegCM4模拟结果一致.以0.25°的逐日ERA5场为基础,在原网格上进行插值采样,得到100 km分辨率的预测因子数据.重采样后对地形和海陆掩码与RegCM4地形和掩码做一致化,确保评估一致性.评估结果表明
[43],在CORDEX⁃EA框架下由ERA5驱动的12.5 km RegCM4长期模拟能够较好地再现东亚降水与近地面气温的气候平均态、季节循环及年际变率,但仍存在一定系统偏差.其中,夏季陆地降水湿偏差与低层西南急流偏强导致的水汽输送增强有关.与更粗分辨率试验相比,更高分辨率对年际变率模拟具有改进作用.
数据时间覆盖1981-2019年,共39个完整年,输出变量(即模型训练中的预测目标变量)选定为12.5 km分辨率下的地表2 m气温(包括日平均气温,日最高和最低气温)和日降水.地面气温和降水是气候研究和应用中最常用的关键变量之一,具有广泛的应用意义,同时也是评估模式与深度学习耦合能力的重要参考.
1.3 模型
本文以Swin2SR (Swin⁃Transformer V2 Super Resolution)模型作为区域气候模拟器的骨干网络,为了便于表述,在下文中该模型统一地称为“Swin2SR”.模型网络如
图1所示,构建了一种面向气候要素八倍降尺度的多通道输入框架,模型输入由15个粗分辨率场(hus500,hus200,huss,ta500,ta200,ua500,ua200,uas,va500,va200,vas,rsdt(用于温度),hfls(用于降水),topo,land_sea mask)在通道维度上堆叠组成.此外,鉴于高分辨率地表海拔对温度和降水分布具有重要影响
[45-47],在主干网络将深度特征上采样至目标网格后,引入了一条地形及海陆掩码感知支路.首先,对已标准化的高分辨率海拔场及海陆掩码施以两次卷积,以提取空间结构信息;随后将所得地形特征与主干网络输出在通道维度上级联,并通过一层1×1卷积融合,以增强网络对地形⁃要素耦合效应的建模能力.该改进不仅延续了Swin2SR在自然影像超分领域的高效训练与收敛优势,还显著提升了气候要素降尺度结果的物理一致性与局地细节表现.
本研究中,模型训练在NVIDIA RTX 4090 (24 GB)下基于PyTorch框架实现,考虑到GPU内存容量以及计算效率,训练过程中批量大小(Batch Size)设置为16,并开启了cudnn.benchmark优化卷积算法以提高训练过程中的计算效率和GPU利用率.模型总参数量约为7000000,残差Swin Transformer模块(RSTB)设置为六层,每层包含的Swin V2 Transformer Layer均采用六个注意力头.多层感知机的扩展比(MLP ratio)设为4,embedding维度为120.超分辨率倍率设为8,窗口大小为8,上采样采用子像素卷积.
在数据划分方面,选取1981-2010年共30年的数据作为训练集;2011-2015年共五年的数据作为交叉验证集,用于监测模型训练过程中的泛化能力;2016-2019年共四年的数据作为测试集.训练共持续150个轮次,总训练时间约为20 h.在学习率调度策略上,本文针对余弦退火、阶梯衰减和自适应衰减三种主流策略进行了深入对比试验,综合模型收敛速度及验证集表现,最终选取自适应衰减策略作为最终方案.在损失函数方面,对温度类连续变量采用平均绝对误差损失,以强化对整体幅度与趋势的刻画.针对降水的稀疏性与重尾分布特征,本文采用伯努利⁃伽马(Bernoulli⁃Gamma)
[48-49]似然的概率化建模,即网络最后一层输出对应每个格点与时次的三元参数(
p,
α,
β),其中
表示降水发生概率,
α0与
β0为降水量在发生条件下的Gamma强度分布参数.这样,将“是否降水”与“降水量”作分解建模,更契合降水的产生机理与数据分布.
Bernoulli⁃Gamma概率分布函数如式(1)所示,y代表降水量,为伽马函数.本文将日降水的确定性估计取为该分布的数学期望.
1.4 评估指标
本文评估采用偏差、平均绝对误差、均方根误差等指标.设为基准资料(RegCM4/ERA5)在第i个格点、时次t的值,为模型推理结果.令为参与统计的格点集合,T为时次数,区域层面的总样本数N=M×T.
(1)偏差(Bias),反映系统性偏差,正值为高估,负值为低估,单位与变量一致.
(2)平均绝对误差(MAE),误差“平均幅度”,单位与变量一致.
(3)均方根误差(RMSE),衡量预测误差的标准差,对大误差更为敏感,单位与变量一致.
(4)相关系数(CC),衡量预测值与参考值之间的线性相关程度,取值为[-1,1].
2 RegCM4测试数据评估
2.1 总体性能对比
表2给出了2016-2019年东亚区域平均Swin2SR与双线性插值(Bilinear)的地面气温和降水的
MAE与
RMSE对比.结果显示,Swin2SR模型结果在四个变量上均显著优于插值.其中
MAE相对降幅:气温为83.3%,降水量为66.7%,最高气温为81.1%,最低气温为84.0%;
RMSE相对降幅:气温为87.2%,降水量为79.5%,最高气温为88.5%,最低气温为89.5%.这表明模型对于地面气温的重建具有高准确性,同时对降水的降尺度亦取得稳定改进.总体而言,区域气候模拟器在幅度还原和峰值控制两方面均显著超越线性插值,验证了模型设计的有效性.
2.2 多年平均偏差特征
图2展示了2016-2019年平均区域气候模拟器推理结果与RegCM4模拟结果的偏差分布.图中仅对通过双侧单样本
t检验的格点显示偏差(
p0.05),未通过检验的格点以白色掩蔽,表示其多年平均偏差在统计上可以认为是零.总体来看,对于2 m气温,模型在大多数地区呈现不显著偏差,华北平原、长江中下游和东北平原系统性偏差较弱,而在青藏高原和天山等复杂地形区存在轻微冷偏偏差.从平均降水偏差的空间分布来看,模型能够较好地再现东亚区域降水的主要特征,整体偏差较小.在地形起伏显著和季风控制显著的区域,降水的偏差有所增大.由于采用了Bernoulli⁃Gamma分布作为损失函数,模型在零降水概率和非零降水强度的联合建模上更具优势,在干旱区的稀疏降水和湿润区的连续降水这两个方面均表现出合理的空间格局.对于最高气温,模型推理结果整体呈冷偏差为主,但偏差幅度较小,主要的冷偏差在青藏高原地区和东北及高纬度区域,偏差可达-0.4 K.最低气温偏差的空间分布在青藏高原西部和我国东北地区为冷偏差,而在高原东部和蒙古大部分区域为暖偏差.整体来看,基于Swin2SR的区域气候模拟器能够较好地再现地面气温和降水的基本空间格局,尤其在地面气温上的偏差幅度普遍低于0.5 K,而降水的系统性偏差也控制在±1 mm·d
-1以内.
2.3 季节循环
考虑到整个东亚区域尺度过大,空间平均后的序列可能掩盖区域差异性,本研究进一步选择了七个典型子区域进行独立评估(见
图3):西北地区(NW,约40°~52°N,80°~110°E)、青藏高原(TP,约27°~37°N,75°~100°E)、华北(NC,约35°~45°N,105°~120°E)、东北(NE,约42°~55°N,115°~140°E)、长江流域(YZ,约28°~35°N,100°~120°E)、西南(SW,约20°~30°N,90°~105°E)以及华南/东南(SE,约22°~30°N,105°~125°E).这些区域既涵盖了典型的干旱半干旱气候区和高原区,也包括了受东亚季风显著影响的湿润地区,能够全面反映模型在不同气候背景下的适用性.
图4为各地区的区域平均气温的时间序列.七个地区序列的季节循环与年际变化总体与RegCM4基准高度一致,峰谷时段基本同位.平原与沿海(NC,NE,YZ,SE)几乎重合,而TP与SW冬半年低温阶段略有冷片.整体来看,带高分辨率条件的Swin2SR框架区域气候模拟器能稳定重建区域平均气候态.
图5展示了各区域2016-2019年逐日降水的时间序列.整体来看,Swin2SR结果与RegCM4真值在年际和年内变化的主位相保持一致,尤其在主雨季的变化特征上表现出良好的一致性.区域气候模拟器能很好地描述各区域的降水峰值,且峰形结构与真值较为接近,表明模型对区域平均降水变化具有较强的再现能力.在降水强度上,模拟器能再现主要降水峰值的强度,与真值较为贴近.
总之,以Swin2SR为骨干的区域气候模拟器对东亚区域降尺度的性能较好,能够再现RegCM4的模拟结果.气温类变量在全域多数格点的偏差稳定在±0.5 K,RMSE较低且空间分布均一;能够再现平均降水的空间分布特征,多年平均降水偏差为±1 mm·d-1.区域气候模拟器也可较好地模拟出温度和降水的区域平均变化特征.
3 ERA5迁移应用
为了进一步将前述训练好的区域气候模拟器应用于气候降尺度,首先以ERA5数据为驱动,开展了区域气候模拟器的迁移应用,并进行了详细的结果检验.以1981-2019年共39年ERA5逐日数据驱动区域气候模拟器进行高分辨率降尺度,将降尺度结果(气温,降水)与ERA5原始值和RegCM4进行了对比分析.
3.1 地面2 m气温和降水的多年平均偏差分布
图6给出了1981-2019年平均区域气候模拟器降尺度结果与ERA5的地面气温与降水偏差的空间分布.对于地面气温,区域气候模拟器的结果总体以冷偏差为主.在高海拔青藏高原区域的冷偏差尤为突出,可达到-4.5 K;除我国东北地区、朝鲜半岛,蒙古和日本地区也有明显的冷偏差,偏差在-2~-3 K;在印度北部地区和哈萨克斯坦南部区域为暖偏差,最大可达~2 K.对于降水,可以发现区域气候模拟器的偏差呈现出鲜明的区域分布特征.整体来看,除印度、中南半岛、青藏高原南侧和我国华南地区外,东亚大陆大部分陆地区域的降水偏差都比较小,基本都在-0.5 mm·d
-1以内,说明模拟器能较合理地再现东亚区域平均降水的空间特征.但模拟器也高估了印度、中南半岛和我国华南地区的降水,部分区域的降水偏差可达4.5 mm·d
-1.同时,模拟器在海洋区域基本上都呈现明显的干偏差,特别是在西太平洋低纬度地区干偏差可达-3.0 mm·d
-1.这种降水偏差的特征可能由两种原因造成,一是模拟器本身存在的跨数据集迁移中的“域漂移”效应;另一种可能的原因是模拟器是基于RegCM4模拟训练得到的,RegCM4本身的偏差也会被其继承,特别是印度和低纬度海上的降水偏差在RegCM4模拟结果中也明显存在.
3.2 地面2 m气温和降水的多年平均空间分布
图7为1981-2019年区域气候模拟器降尺度结果和RegCM4模拟的地面气温和降水与ERA5的年际变化
RMSE的空间分布.从整体上看,模拟器在年际变化上的表现与RegCM4相当甚至更优.对于地面气温,区域气候模拟器的
RMSE在大部分陆地区域都比较低,基本都小于1.5 K,
RMSE的高值区主要集中于青藏高原南侧复杂地形区,这与RegCM4的表现高度一致.在我国东南部、印度、中南半岛和模拟区域北部地区,区域气候模拟器的
RMSE比RegCM4的更低.区域气候模拟器模拟的降水年际变化的
RMSE和RegCM4的结果大体一致,主要的
RMSE高值区都在青藏高原南侧、印度北部和我国东部地区.模拟器的结果在我国陆地大部分地区和印度南部区域的
RMSE都比RegCM4的低,但在海洋上明显偏大.总体而言,基于Swin2SR的区域气候模拟器在地面气温和降水的年际变化模拟能力上基本与RegCM4的能力相当,在陆地大部分地区也展现出一定优势,验证了该方法在高分辨率气候重建中的潜力.
图8为1981-2019年区域气候模拟器降尺度结果和RegCM4模拟的地面气温和降水与ERA5的年际变化
CC的空间分布.区域气候模拟器和RegCM4都能较好地再现地面气温的年际变化(
图8a和
图8b),在模拟区域大部分地区的
CC均超过0.8,其中模拟区域北部甚至超过0.9,而在青藏高原、我国西北干旱区和印度南部地区的
CC有所下降.相比而言,模拟器在大部分地区的
CC都高于RegCM4,表明其在捕捉年际温度变化方面具有一定优势.对于降水,模拟器能较合理地模拟出东亚区域降水的年际变化,
CC基本都在0.5以上,在部分地区甚至可以达到0.9(
图8c).而RegCM4对降水年际变化的模拟能力明显较弱,大部分地区的降水年际变化
CC都低于0.3(
图8d).模拟器对降水年际变化的模拟表现整体上显著优于RegCM4.总体而言,区域气候模拟器能合理地再现东亚地区地面气温和降水的年际变化,对降水年际变化的模拟能力明显优于RegCM4模式.
3.3 地面2 m气温和降水的年际分布
为了进一步分析区域气候模拟器对地面气温和降水年际变化的模拟能力,计算了各子区域年平均的时间序列.
图9为ERA5、区域气候模拟器和RegCM4模拟的各子区域年平均气温的变化序列.总体上看,区域气候模拟器与ERA5的年平均气候年际变化一致,呈长期增暖趋势且能基本再现冷暖年的变化,但在不同区域还存在差异.而且模拟器预测结果均低于ERA5,说明模型在迁移应用时有冷偏差,这与其空间偏差基本呈负偏差的情况一致.在华北地区,模拟器与RegCM4的年际变化基本一致,而模拟器与ERA5的
RMSE更低.在东北地区则呈现出RegCM4暖、模拟器结果偏冷的特征,且模拟器模拟的气温年际
CC略低于RegCM4,
RMSE则略高.模拟器和RegCM4均能很好地再现西北地区地面气温年际变化特征,
CC都在0.9以上且
RMSE较低.在华南地区,模拟器模拟的地面气温年际变化的
CC达0.93,
RMSE为0.41 K,明显优于RegCM4.模拟器改善了RegCM4西南地区气温的冷偏差,其年际变化的
RMSE也更低.两者对长江流域地面气温年际变化的模拟能力基本一致.在青藏高原复杂地形区域,虽然两者都能很好地再现地面气温的年际变化特征(
CC0.9),但都有明显的冷偏差且模拟器模拟的冷偏差更大,
RMSE可达1.49 K.
图10为各子区域年平均降水的变化序列.模拟器和RegCM4对不同区域降水年际变化的再现能力也有所不同.在华北地区,RegCM4明显高估了降水且模拟的年际变化的
CC为0.59,而模拟器明显改善了华北地区降水的模拟,其年际变化
CC可达0.96,且
RMSE (0.27 mm·d
-1)更低.两者对东北地区降水年际变化的模拟能力与华北的相似,模拟器性能优于RegCM4.而在西北干旱与半干旱区域,模拟器虽然模拟出了更高的降水年际变化
CC,但其明显的干偏差使
RMSE更大.模拟器能较好地再现华南地区降水的年际变化,其
CC可达0.96,且
RMSE为0.3 mm·d
-1,而RegCM4对部分异常年的再现能力较弱(如2011年)使其
CC仅为0.70.同样,模拟器能再现西南地区降水年际变化,
CC为0.94,且
RMSE (0.16 mm·d
-1)较低;RegCM4对西南地区降水年际变化的模拟能力较弱,
CC只有0.47,而
RMSE (0.70 mm·d
-1)较大.在长江流域,模拟器低估了降水而RegCM4高估了降水,但模拟器对长江流域降水年际变化的模拟明显优于RegCM4,
CC达0.95 (RegCM4为0.59).在青藏高原复杂地形区域,模拟器能较好地再现降水的年际变化特征,
CC为0.86且
RMSE仅为0.10 mm·d
-1;RegCM4则明显低估了高原降水,对降水的年际变化模拟能力也偏低,
CC只有0.55而
RMSE高达0.80 mm·d
-1.整体来看,区域气候模拟器能较好地再现我国大部分地区的降水年际变化特征,且模拟性能优于RegCM4.
3.4 地面2 m气温和降水的季节循环
图11给出了各子区域平均的气温月变化序列,以进一步评估模型对季节循环的再现能力.总体而言,区域气候模拟器和RegCM4均可很好地再现气温的季节循环特征.在华北与长江流域,两个模式均低估了冷季的地面气温,而模拟器对夏季温度有所高估.模拟器对东北地区气温季节循环的模拟与ERA5比较接近,而RegCM4在冷季表现为暖偏差.在华南地区,RegCM4在夏季有明显的冷偏差,而模拟器显著改善了这种冷偏差.两个模式都低估了西南地区逐月地面气温,但模拟器有效减小了冷偏差.在青藏高原复杂地形区,模拟器虽然能准确捕捉气温季节循环特征,但对夏季气温模拟有冷偏差.总的来看,模拟器在大多数区域对气温季节循环的刻画能力均优于或接近RegCM4,特别是在修正华南和西南地区的冷偏差方面表现突出.
图12为各子区域平均降水的季节循环.区域气候模拟器能较好地再现各区域降水的季节循环特征.在华北、东北、西北和长江流域,模拟器均低估了逐月降水,而RegCM4高估了降水.除西北地区外,模拟器模拟的区域平均月降水更接近ERA5.在华南地区,模拟器和RegCM4都再现了降水的季节循环,捕捉到六月份华南降水的峰值,但RegCM4对暖季降水有明显的湿偏差,而模拟器能显著减小湿偏差.两个模式都能较好地模拟西南地区降水季节循环特征,RegCM4夏季降水有干偏差,模拟器与ERA5的结果更接近.与ERA5相比,RegCM4明显低估了青藏高原复杂地形区域的降水,特别是夏季降水,而模拟器与ERA5的结果基本一致.整体而言,模拟器能够准确捕捉降水季节循环特征,同时有效纠正RegCM4在华南、西南及高原地区的偏差.
3.5 地面2 m气温和降水的概率密度分布
为了进一步评估模型对日平均地面气温统计特征的模拟能力,计算了各子区域气温的概率密度分布(Probability Density Function,PDF).
图13展示了ERA5、区域气候模拟器和RegCM4模拟的各子区域气温概率密度分布曲线.总体上看,区域气候模拟器模拟能较好地再现气温的分布形态、峰值位置及宽度.相比之下,RegCM4在不同区域表现出系统性偏差.在东北地区,RegCM4的概率密度曲线在低温区域整体向右偏移,表现出暖偏差.而模拟器明显改善了这一现象,其分布曲线与ERA5更为接近,准确地再现了双峰或宽峰结构.在华南地区,RegCM4的概率密度曲线在高温区域显著向左偏移,呈现出明显的冷偏差,且峰值过高,表明其对特定低温区间的模拟过于集中.模拟器有效修正了RegCM4在南方地区的冷偏差,其概率密度峰值与ERA5基本重合.
图14为七个子区域日降水的概率密度分布.在华北和东北地区,模拟器与ERA5的概率密度曲线几乎重合,仅在小降水量级上略有偏差,RegCM4对小降水频率有一定程度的低估,而对2 mm·d
-1左右降水则高估.在华南、长江流域地区,模拟器在0.5~2 mm·d
-1轻–中雨量级上的频率普遍略高于ERA5,而RegCM4偏低,表明模拟器在一定程度上纠正了RegCM4对小降水日数的系统性低估.在青藏高原复杂地形区域,RegCM4在弱降水端(0.3 mm·d
-1)明显高估频率,而模拟器有效地削弱了这一偏差,使整体分布更接近ERA5.总之,区域气候模拟器在多数区域能够合理地再现ERA5的降水概率密度结构,与RegCM4相比,显著改善了小降水频率的偏差.
总体而言,将以RegCM4体系训练的区域气候模拟器直接应用到ERA5后,模拟器模拟的地面气温和降水在空间格局与时间变化上与ERA5保持一致,年际变化和季节循环均能被很好地再现.两变量的概率密度分布也与ERA5的曲线更为贴近.这说明以大尺度环流为主、融合辐射/潜热及低/高分辨率地形与海陆掩码的模型设计,能够在跨数据集场景下有效传递相位信息.
4 结论
本研究提出并实现了一种基于Swin Transformer V2超分辨率架构的区域气候模拟器,并在东亚区域高分辨率气候降尺度试验中进行了系统评估.为提升模型的物理一致性和细节刻画能力,在传统超分辨率框架基础上引入了多项关键改进.首先,针对气温模拟,额外加入顶层入射短波辐射作为输入,加强模型对能量收支变化的敏感性,从而提高季节循环和年际变化模拟的准确性.其次,针对降水模拟,引入地表潜热通量作为辅助因子,增强模型对水汽输送和局地降水形成过程的响应能力.同时,通过将高分辨率地形和海陆掩码信息融入独立特征分支并与并通过卷积后汇入原神经网络的主干部分,显著改善了复杂下垫面区域的降尺度效果.这些改进使提出的Swin Transformer V2模拟器兼具较强的物理合理性和空间细节再现能力,为区域气候模拟提供了技术优势.
在以RegCM4输出数据为训练集和验证集的同源试验中,所构建的模拟器能够重建东亚近地表气温和降水场,其空间偏差控制在±0.5 K(气温)和±1 mm·d⁻¹(降水),RMSE显著低于双线性插值和其他深度学习基线方法.这说明该方法能够有效地学习区域气候模式内部的多尺度映射关系,并保持与动力降尺度结果高度一致的物理合理性.当把训练完成的模拟器迁移应用到ERA5再分析资料时,在无额外校准的情况下依然能够较好地再现近地表气温和降水的空间分布及时间演变特征,体现出较强的跨资料泛化能力.值得强调的是,模拟器在一些关键区域的表现相较于RegCM4数据具有显著的改善作用.例如,在华南地区,模拟器显著减弱了RegCM4对暖季降水的系统性高估;在青藏高原等复杂地形区,模拟器也更接近ERA5的降水分布和强度特征,说明模拟器在跨域应用中具备一定的偏差修正能力.
在模拟器展现这一改善效果的同时,也揭示了“跨源差异”带来的挑战.RegCM4同源训练数据与ERA5再分析资料在下垫面属性、地形和海陆分布、能量与水汽收支、对流与边界层参数化方案以及空间分辨率和再网格化处理等方面存在系统性差异.这些差异导致大尺度环流到地表气候响应的经验映射关系在迁移应用时发生偏移,进而将原本同源场景下的微小误差放大为跨域应用中的更明显冷偏/干偏和振幅压缩.模拟器在不同区域的表现也呈现出异质性:在大尺度环流强迫占主导、下垫面条件相对简单的地区,模拟结果的相位和幅度相对稳定;在受季风锋面活动、地形抬升效应或阈值物理过程显著影响的地区,降水强度的幅度低估和均值偏移更加突出.总体来看,这些误差主要表现为对气候场幅度和均值的系统性偏移.此外,ERA5迁移试验结果的稳定性在一定程度上取决于输入变量的物理一致性,这提示有必要通过偏差订正或多源数据联合训练等策略来进一步增强模型的跨域泛化能力.
与传统动力降尺度方法相比,本文提出的区域气候模拟器在计算效率和可扩展性方面具有显著优势.以RegCM4为代表的区域气候模式在东亚开展多年高分辨率模拟通常需要消耗大量计算资源,其计算成本随模拟年限和情景数线性增长,这在进行多情景、多模式集合试验时往往成为主要限制因素.相比之下,所构建的基于Swin2SR的模拟器在完成一次性训练后,可在分钟量级时间内生成覆盖多年时段的高分辨率区域气候场,其计算开销主要集中在前期训练阶段,而推理阶段的计算代价可忽略不计.这一高效特性使得模拟器能够作为动力降尺度的有效补充工具,特别适用于大样本集合模拟、情景敏感性分析以及不确定性评估等应用场景.需要指出的是,该类模拟器并非旨在取代动力气候模式对物理过程的显式刻画,而是作为一种高效的近似算子,为区域气候研究提供在计算资源受限条件下开展系统性试验的可行途径.本研究也存在一些局限,例如对极端降水等高度非线性过程的再现仍不充分,且在跨资料/跨模式迁移应用中仍可能受到驱动场分布差异与训练标签来源偏差的影响.未来工作将从以下方面展开.为了减轻以RegCM4输出作为训练标签可能带来的系统性偏差继承问题,拟结合偏差订正与迁移适配两类策略:一方面可在训练前对RegCM输出相对于参考资料(如ERA5/观测)进行分位数映射或分位数增量映射等偏差订正,再以订正后的场作为训练目标
[27];另一方面,在迁移到新的驱动资料时,可采用迁移学习微调(Fine⁃Tuning)
[50],冻结主干网络并仅微调输出端附近参数,以较低成本实现对目标域均值与幅度偏差的“学习型”校准.另外,参考近期生成式气象AI模型在统计降尺度中的“两阶段建模思路”(如CorrDiff等残差校正扩散框架)
[51],可采用类比雷诺分解的策略,将高分辨率目标场表示为“条件均值项+随机扰动项”的叠加:第一步,通过确定性回归网络学习在给定粗分辨率驱动条件下的高分辨率条件均值;第二步,以该条件均值及其残差为基础,训练生成式模型(如条件扩散模型),对残差分布进行建模,在校正系统性残差的同时随机生成细尺度扰动,从而以集合形式补充细网格变率与纹理细节,并有望进一步提升对极端事件与空间细节的刻画能力.