20世纪以后,随着科学技术快速发展以及经济水平不断提高,私家车和出租车的保有量出现了爆发式的增长,虽然多样化的交通方式给民众出行带来了便利,但是由此引发的交通拥堵、环境污染以及道路安全隐患等问题也日益明显,在这样的背景之下,建立智能交通系统(Intelligent transportation system,ITS)对于实现交通运行状态的精准感知、趋势预测与优化调控有着关键的现实意义
[1]。作为ITS的核心功能模块,短时交通流量预测技术在道路安全防控、拥堵缓解以及应急疏散等应用场景中发挥着关键作用。因此,构建高精度的短时交通流量预测模型成为当前智能交通领域亟须解决的关键科学问题。
交通流量预测模型的发展历程可划分为3个主要阶段。早期研究主要基于统计学方法,包括差分自回归移动平均模型(ARIMA)
[2]、卡尔曼滤波
[3]和历史均值法等。韩超等
[4]采用ARIMA
模型实现了短时交通流量的自适应预测,其中,
为自回归阶数(AR部分)、
为差分阶数(Integrated部分)、
为移动平均阶数(MA部分)。Xu等
[5]通过整合ARIMA与卡尔曼滤波模型,建立了包含Kalman滤波测量方程和更新方程的混合预测框架,一定程度上提升了模型预测精度。这些方法在早期具有一定实用性,尤其适用于交通状态相对稳定、变化趋势可控的场景。然而,由于其模型结构通常基于线性假设,难以充分刻画交通流量数据中普遍存在的非线性波动、时变规律与复杂的周期性特征,因此,在面对实际复杂多变的交通系统时,其泛化能力与预测精度受到较大限制。随着计算能力的突破,机器学习算法逐渐被应用于该领域,其中,支持向量机(SVM)
[6]、决策树和随机森林等算法表现突出。肖思思等
[7]采用SVM算法进行交通流量预测并验证了其分类效率。程政
[8]针对SVM计算复杂度高的问题引入随机森林模型,实验证明该模型在预测准确率、泛化能力、易用性和可扩展性方面均优于SVM。尽管机器学习方法在一定程度上克服了线性模型的局限性,但其建模过程往往依赖大量人工设计的特征工程,难以自动提取交通流量数据中的深层时空关联特征,同时在面对大规模、复杂结构数据时存在性能瓶颈,影响其在实际场景中的推广与应用。进入21世纪大数据时代后,深度学习算法在处理海量交通数据方面展现出独特优势,主要包括循环神经网络(RNN)
[9]、卷积神经网络(CNN)
[10]、图神经网络(GCN)
[11]和Transformer
[12]等架构及其变体。魏荣
[13]针对交通数据的非线性和动态特性,提出了融合注意力机制的CNN-Attention-BiGRU混合模型。张鸣剑等
[14]开发了时间信息增强的Transformer模型,通过结合长短期记忆网络和Transformer架构,不仅有效提取了交通流量的时空特征,还显著降低了模型复杂度。刘晶鑫等
[15]在考虑城市交通的运行时空特性上,评估实时交通态势,将门控循环单元(GRU)与传统的LSTM模型进行结果对比分析,进而提高了交通运行态势的预测精度。虽然深度学习方法显著突破了传统模型在特征提取方面的瓶颈,但仍存在诸如模型结构单一、泛化能力不足、空间依赖建模欠缺和训练成本较高等问题。
本研究提出了一种基于深度学习的组合预测框架,该框架创新性地融合了Kolmogorov-Arnold网络(KAN)
[16]、时序卷积网络(Temporal convolutional network,TCN)和改进型Transformer(ITransformer)3种模型的优势。该框架采用多级特征提取与融合策略,TCN模块借助因果膨胀卷积捕捉交通流量数据的局部时间依赖性和多尺度特征;ITransformer编码器在传统Transformer架构的基础上进行了3项关键改进:一是引入因果注意力机制来提高时间序列建模能力,二是结合通道注意力模块实现特征维度的自适应加权,三是在前馈神经网络(FFN)中使用GELU激活函数替代ReLU激活函数,显著提升了模型的非线性表达能力;KAN模块依靠其独特的自适应激活函数机制,实现对复杂非线性映射关系的精确逼近,并生成最终的预测结果。这种多模型协同的架构设计,充分发挥了各子模型的优势,还借助特征互补效应提高了短时交通流量预测的精度。
1 交通流量预测问题描述
交通流量预测是ITS中的核心任务之一,通常可划分为短时交通流量预测与长时交通流量预测两类。其中,短时交通流量预测主要面向分钟级到小时级时间尺度内的交通动态变化趋势,广泛应用于城市主干道路、交叉口、匝道及环形交叉口等局部路段的交通信号优化、拥堵预警与动态管控等场景。
本文关注城市交叉口层面的短时交通流量预测问题,目标是基于历史观测到的交通流量序列,预测未来若干时间段内的流量变化趋势,以辅助路口信号配时优化。该任务的数学表示为
其中,表示过去个连续时间段的交通流量观测序列,表示预测得到的未来个时间段的交通流量序列;表示建立映射关系的预测模型或函数。通过构建合适的映射函数,能够充分挖掘历史数据中的时序特性与潜在规律,实现对未来交通流量的有效预测。
2 模型建立
2.1 TCN-ITransformer-KAN时间序列预测模型架构
基于现有时间序列预测模型存在长依赖建模能力不足、非线性表达能力弱和通道结构利用不充分等情况,本文设计并实现了一个复合型预测架构TCN-ITransformer-KAN,它集合了多尺度时序卷积、改进注意力建模与函数级非线性建模能力,由三大模块构成,各模块承担不同建模任务,依靠结构融合实现协同学习。本文的技术创新体现在3个方面:①在传统卷积结构中,时序预测任务常因填充出现“信息泄漏”现象,即未来信息影响当前输出。为了解决这一难题,我们在每层卷积后加入自定义的Chomp1d层,借助剔除多余padding实现信息屏蔽,保证仅用当前和历史时间步数据,再堆叠3层TemporalBlock,采用膨胀因子使得感受野从局部向全局递增,在每个卷积层后引入BatchNorm1d,用ReLU+Dropout提升非线性表达与抗过拟合能力,凭借残差连接提高深层梯度传递。设定卷积核大小为4,实验显示该宽度在捕捉短期、中期模式间有较优平衡。通道设置与输出通道保持一致,防止通道爆炸,Dropout设为0.2,兼顾训练稳定性与模型容量。②尽管标准Transformer模型中的多头注意力机制在捕捉长距离依赖方面表现出显著优势,但其计算复杂度较高,且采用的原始位置编码方法无法充分反映时间序列的连贯性与顺序特征,此外,注意力结构对不同通道特征的响应差异性未被有效利用,限制了模型的表达能力。为此,我们改进基于因果与通道感知机制的ITransformer来建立时序敏感注意力建模机制,设置ITransformer层数为3,Dropout为0.1,为了防止模型过拟合,设置头数为4,发现该模块不仅对时间顺序敏感,还可以动态学习通道特征贡献度。③传统全连接层或多层感知机(MLP)在输出层的非线性拟合能力有限,尤其对周期性扰动和突发拐点等问题难以捕捉。我们通过激活高斯核函数构建可导可控的函数映射器,通过KAN网络增强输出的非线性表达能力。模型流程图如
图1所示。
2.2 数据预处理和数据输入
选取法国克雷泰伊(Europarc Creteil)环岛环形交叉路口的车流量作为原始数据(
https://vehicular-mobility-trace.github.io),并对其进行预处理,即进行归一化处理,公式为
其中,x表示原始数据,xmax和xmin表示车流量的最大值和最小值。
为消除异常样本数据导致的不良情况,提高模型精度以及消除数值问题,将输入数据划分为,其中,代表批量大小,代表时间序列长度,代表特征维度。
2.3 时序卷积网络
时序卷积网络(TCN)包含多个TemporalBlock模块,每个TemporalBlock模块中含有1D卷积、Chomp1d、BatchNorm1d、ReLU激活函数、Dropout和残差连接6个步骤。1D卷积为了扩展感受野,提取局部时序特征;Chomp1d用来裁剪填充,使得因果关系保持正确;BatchNorm1d归一化用来提高模型训练稳定性;ReLU激活函数增加非线性表达能力;Dropout防止过拟合;残差连接促进模型梯度传播,防止梯度消失
[17-18]。在时间序列建模中,1D卷积公式为
其中,是输出特征序列,是输入时间序列,是长度为的卷积核权重。为了使模型能够捕捉长期时间依赖,使用膨胀卷积,其公式为
其中,是膨胀因子,决定了当前时刻与间隔多久的历史时间数据有关。因果膨胀卷积进一步确保仅依赖于过去的数据,而与未来的时间序列数据无关。为了避免数据梯度消失,TCN采用了残差连接,公式为
,
其中,是TCN的输出序列;为归一化数据,为了让训练变得更加稳定;是激活函数;残差连接保留了输入的信息,避免了梯度消失。
2.4 改进的Transformer网络
传统Transformer编码器架构中,每个编码器包含多个EncoderLayer,将EncoderLayer模块中的自注意力层替换为因果注意力层来增强时间序列建模能力
[19-20],公式为
其中,是映射到ITransformer空间后的输入。然后计算因果掩码注意力,公式为
,
其中,是缩放因子;是因果掩码,用来屏蔽未来时间步的信息,采用此种方式的原因在于:在时间序列建模中,时间序列任务往往是单向因果的,也就是说当前时刻的交通流量预测不能使用未来的信息。因果掩码是一个上三角形矩阵,对应未来时刻的值为,当前以及以前时刻的值为0,即
通过后,当前时刻只能关注到自身和以前时刻,符合实际场景,可以防止未来时间信息泄露,从而提升模型的效果和准确率。最后进行多头注意力、残差连接和归一化,具体公式为
,
,
其中,是经过多头注意力的输出;是第个注意力头的输出;将所有注意力头的输出拼接在一起;表示层归一化;是经过残差连接和层归一化处理的编码结果(文中变量说明详见附录A)。同时,结合通道注意力,使模型更加关注关键特征维度,计算过程包含平均池化和最大池化,计算公式为
,
,
其中,表示在时间维度上的平均值;表示在时间维度上的最大值。然后进行权重计算,则
,
再重新加权输入:
其中,和是第一个全连接层和第二个全连接层的权重。激活函数将输出限制在之间,作为每个通道的注意力权重因子。采用此方法的原因在于:在时间序列中,可能只有少部分特征维度对时间序列具有重要影响,所以采用通道注意力机制可以帮助模型学会忽略不重要的因素和维度,这样通道注意力就可以和前面提到的因果注意力互补,用因果注意力来负责时间依赖关系,强调时序关系,用通道注意力解决维度选择,选取最重要的维度,这样可以提升模型的泛化能力,让模型更加聚焦,减少无用数据和特征的影响,提高模型的精度,提升模型对复杂动态数据的理解能力。而且此方法采用两层MLP,使得中间层压缩通道数,降低计算复杂度,提高时间效率。最后在前馈网络中采用GELU激活函数代替ReLU激活函数,提高模型的非线性表达能力。计算过程为先线性变换:
然后GELU激活:
,
再进行Dropout和线性变换:
其中,是对进行GELU处理,是前馈神经网络的输出。最后进行残差连接和归一化:
因为GELU函数倒数连续,且平滑处处可导。采用此激活函数使得模型表达能力更强,而且在零点附近能平滑过渡,保留了信息,使得模型梯度下降更稳定,更能提高训练效果。
2.5 KAN网络
当前主流的深度学习模型,包括CNN、RNN、Transformer及近年来流行的大规模预训练模型,均可视为在MLP基础结构上的演化与拓展。MLP的基本原理是对输入数据进行线性变换后施加非线性激活函数,并通过多层结构的堆叠与参数优化,实现复杂的非线性映射能力,函数表示为
,
其中,
是第
个线性组合函数,具有可学习权重参数;
是第
个确定的激活函数。KAN网络模型结构是将MLP边缘上的权重参数替换为单变量函数,并采用样条函数的形式化
[21]。KAN网络模型的函数表示为
,
其中,
表示输入变量的单变量映射;
表示可训练的激活函数;
。MLP和KAN网络模型结构如
图2所示。
从模型整体来看,传统MLP大多采用激活函数的一种固定形式,这使得它受限于非线性关系的建模能力。在实际应用中,为了提升结构的深度和表达能力,MLP模型往往会采用加深网络层数的方法。但是,采用ReLU等非平滑的激活函数,容易出现梯度不连续和数值不稳定的问题,使得模型易出现梯度弥散和梯度爆炸,难以达到收敛,最终会降低模型的预测能力。综上所述,传统MLP结构对于复杂时间序列的非线性表达具有一定的限制。
基于此,引入KAN模型。KAN模型能利用核激活机制建立时间依赖图,能描述时间的非线性变化,对复杂函数的拟合能力也更强,和传统方法相比,KAN模型在建模时间依赖关系和描述时间非线性变化等方面性能更好,但模型整体计算量较大,训练难度较高。为提高模型性能和稳定性,对KAN模型中的核激活函数进行改进。传统KAN模型的核函数一般选择B样条函数,B样条函数在局部范围内具有良好的近似函数,能较好地逼近局部变化,但对时间序列中一些全局依赖的建模或序列,B样条函数并不能很好地进行描述。本文将KAN模型中的核函数更改为径向基函数(RBF函数),该函数又称为高斯核函数
[22],其性质在整个定义域内是局部连续且无穷可微的,并且无论在哪个点,RBF都有良好的映射连续性,从而能全局创造一个稳定且平滑的函数。这个特点有助于提高模型对复杂的输入-输出关系的拟合能力,改善梯度传播的连续性和稳定性,提高收敛速度,可以增强训练过程的鲁棒性和泛化能力。其核激活函数形式为
其中,是可调节的超参数(),用来控制核的宽度;是输入特征变量。该激活函数的运用旨在提升模型对非线性特征的表达能力和对复杂结构的建模效果。
3 实验结果分析
3.1 实验配置和参数设计
本实验采用的电脑配置CPU为13th Gen Intel(R) Core(TM) i5-13500H 2.60 GHz,GPU为NVIDIA GeForce RTX 4050 Laptop GPU,内存为16 GB,python版本为3.11.4,CUDA版本为12.0。
3.2 损失函数设计
采用平均绝对误差(,EMA)和均方误差(,EMS)作为模型训练和验证过程中的损失函数,公式为
, 。
损失函数对于异常值不太敏感,但是能较好地反映整体预测误差所呈现的分布特征,
损失函数对异常值比较敏感,但却难以全面地呈现误差的分布状况。在实际建模时,大多会将这两种损失函数结合起来,以此来兼顾模型的稳健性以及对异常情况的响应能力。实验损失函数结果如
图3所示。
借助
图3可发现,训练集的MSE、验证集的MSE,以及训练集的MAE与验证集的MAE,它们的整体波动趋势较为一致,刚开始误差损失较大,当训练轮数不断增加时,MSE损失在相对较低的水平进行波动,整体波动的范围较小,基本都维持在0.000 5的水平,MAE损失则稳定在大约0.015的位置附近,模型在训练集以及验证集上的拟合效果较为良好,拥有较强的泛化能力。MSE与MAE在中心部分轮数上出现了一定程度的波动,这或许反映出交通流量数据里存在噪声或者突变特征,不过从整体情况来看,模型表现较为稳定,具有不错的应用价值。
3.3 实验结果分析及评价
选取法国克雷泰伊(Europarc Creteil)环岛环形交叉路口的车流量作为原始数据,将原始数据的80%作为初始模型训练集,20%作为测试集。再将初始模型训练集的75%作为训练集,25%作为验证集导入TCN-ITransformer-KAN模型中进行训练、调参,以便达到模型的最优状态,最终通过测试集评估模型的泛化能力。选择CNN、CNN-Transformer、LSTM、LSTM-Transformer、TCN-Transformer与TCN-ITransformer-KAN模型,以平均绝对误差、均方误差、均方根误差(RMSE)以及决定系数(
R²)为评测指标开展对比实验,实验结果如
表2所示。
从
表2可以看出,TCN-ITransformer-KAN模型在各项评测指标上整体表现优于CNN、CNN-Transformer、LSTM、LSTM-Transformer以及TCN-Transformer模型,其中CNN-Transformer模型的综合性能次之。
在MAE指标方面,虽然CNN-Transformer模型也呈现出了较优的性能,但TCN-ITransformer-KAN模型的误差更小,和CNN-Transformer以及LSTM-Transformer模型相比较而言,误差分别降低了26.4%和28.1%。而CNN以及TCN-Transformer模型在该指标上表现欠佳,说明TCN-ITransformer-KAN模型在预测精度以及异常值处理方面有更高的稳定性和可靠性。
在MSE和RMSE指标方面,和CNN以及TCN-Transformer模型相比,TCN-ITransformer-KAN模型同样呈现出较优的表现,其在误差控制能力方面更为稳定,预测结果与真实值之间的偏差水平明显更低。而LSTM模型在这两项指标上表现平平,展现出TCN-ITransformer-KAN模型对于本数据集拥有更好的适应性以及误差控制能力。
在R²指标方面,TCN-ITransformer-KAN模型与LSTM-Transformer模型都取得了比较不错的拟合效果。TCN-ITransformer-KAN与CNN-Transformer、LSTM和TCN-Transformer模型相比,R²值分别提高了4.35%、8.49%和127.3%,进一步验证了本文所提出的模型在拟合精度以及预测准确性方面有着明显优势。
3.4 实验预测图与模型拟合效果散点图
通过
图4可知,测试集实际值曲线波动较大,具有明显的周期性和非线性特征,对应图中深蓝色曲线。CNN模型预测曲线整体偏离真实值,存在高频振荡,预测精度很差,与实际数据有较大的区别,不能准确预测测试集的数据变化趋势以及交通流量。CNN-Transformer比CNN模型预测精度有所提升,拟合曲线更加平滑,但是在局部或者波峰和波谷处偏差依旧很大。LSTM模型能较好地捕捉时序依赖,整体趋势也跟随真实值波动,但是波动具有一定的误差,数据预测有滞后现象,预测结果中规中矩。LSTM-Transformer在LSTM基础上结合了Tranformer模型,使得全局依赖建模能力更强,效果也优于单一LSTM,大部分预测值和真实值比较接近。TCN-Transformer预测曲线走势符合真实趋势,在波谷位置预测值和真实值相近,说明TCN捕捉了局部时序特征,Tranformer使得全局依赖建模能力更强,两者优势互补,但是预测值和真实值有一定的差距。TCN-ITransformer-KAN模型在测试集上预测效果较好,预测值和真实值几乎重合,误差极小。为了进一步验证本文提出的混合模型的预测值和真实值的一致性,绘制各模型拟合效果散点图,结果如
图5所示。
实验结果表明,TCN-ITransformer-KAN模型在整体趋势拟合方面具有优异的表现,预测结果与实际观测值基本一致,预测曲线围绕真实数据小幅波动,说明该模型具备良好的时间序列建模能力,也具备较高的预测准确性。该方法能够从交通流量数据中有效提取潜在特征,并学习其变化规律,为解决交通流量预测问题提供了一种新方法。在对验证集和测试集的预测结果进行详细分析后,可以看出模型在不同数据集上表现出较强的稳定性。同时,它也展现出了良好的泛化能力。与传统的单一预测模型以及现有的一些混合模型相比,该模型在预测精度方面具有明显优势,且在稳定性方面也较为出色,而且对交通流量数据中的波动趋势响应更敏感。
3.5 超参数分析
为了更清晰地剖析验证集中MAE与MSE在中心部分训练轮数出现波动的缘由,本研究运用超参数敏感性分析方法展开探讨,在每次只调整一个超参数的情况下,记录该超参数对应的预测结果同真实观测值之间MAE和MSE的变化情形,依靠逐个分析各超参数对预测误差的影响,可更直观地辨别出它们对模型稳定性以及预测效果的作用。本研究从模型结构与训练机制两个方面挑选了6个关键超参数作为敏感性分析的主要对象,这些参数覆盖:Num_channel,即TCN中每一层所运用的通道数;Kernel_size,即TCN中卷积核的大小;Hidden_dim,即隐藏层的维度大小;Transformer_heads,即改进Transformer结构中多头注意力机制的头数;Transformer_layers,即Transformer编码器的堆叠层数;Dropout,即训练过程中随机丢弃的比例。
在实验过程中,依次对这6个超参数进行单变量调整,并评估其对模型输出结果的具体影响,以便掌握各参数变化对预测性能的作用方向和程度,结果如
图6所示。
由
图6可以观察到模型性能随不同超参数取值呈现出的变化趋势,该可视化结果为合理确定模型参数给予了明确依据,通过详细分析各超参数对模型性能的影响,可在模型训练进程中有针对性地实施参数调整,进而有效提高模型的预测精度,并且提高模型的鲁棒性。
该方法可减少因参数选择不当引起的过拟合或欠拟合问题,另外,该分析还可揭示模型针对不同关键超参数的响应特性,借助识别这些敏感性特征,可为后续的模型优化提供直接参考,也为模型在更为复杂或变化的数据环境中维持稳定性奠定一定基础。
4 结论
本研究提出了一种集成式时间序列预测模型——TCN-ITransformer-KAN,将时序卷积网络(TCN)、改进型因果多头注意力机制(ITransformer)与径向基函数激活的神经网络(KAN)相结合,实现了对交通流量序列中时间依赖结构、关键信息通道及非线性动态关系的协同建模。实验结果表明,与当前主流预测方法相比,该模型在多个性能指标上均有显著优势,验证了其在短时交通流量预测任务中的应用价值。
值得强调的是,本文仅采用历史交通流量作为输入特征,一方面,基于其在短时间尺度上的显著时序依赖性,足以反映主要变化趋势;另一方面,避免了外部因素难以获取和编码不一致等带来的噪声干扰。该策略保证了建模可控性与实验可重复性,但也存在局限,如数据仅覆盖法国克雷泰伊(Europarc Creteil)环岛环形交叉口的两小时窗口,缺乏时空多样性与外部信息支持,因而模型泛化能力仍有待进一步验证。
针对上述不足,后续研究可从以下两个方面拓展优化。其一,扩大数据采集范围,引入如天气状况、节假日安排和交通事件等多源异构数据,以增强模型对复杂外部环境变化的鲁棒性与泛化能力
[23];其二,在现有模型框架基础上引入图神经网络结构,结合交通网络拓扑信息
[24],进一步提升空间依赖建模能力,实现对交通流量在时空维度上的全面预测。此外,深入剖析模型内部各模块间的交互机制,提升可解释性,将有助于构建更加透明、可靠且具有实用价值的智能交通预测系统。