基于实时数据特征和XGBoost算法的城市公共交通枢纽客流量预测

姚明辉 ,  王威超 ,  吴启亮 ,  牛燕

吉林大学学报(工学版) ›› 2024, Vol. 54 ›› Issue (11) : 3302 -3308.

PDF (700KB)
吉林大学学报(工学版) ›› 2024, Vol. 54 ›› Issue (11) : 3302 -3308. DOI: 10.13229/j.cnki.jdxbgxb.20230956
计算机科学与技术

基于实时数据特征和XGBoost算法的城市公共交通枢纽客流量预测

作者信息 +

Passenger flow prediction of urban public transportation hubs based on real-time data features and XGBoost algorithm

Author information +
文章历史 +
PDF (716K)

摘要

针对城市公共交通枢纽客流量具有随机性、相关性等特点,提出了基于实时数据特征和XGBoost算法的城市公共交通枢纽客流量预测。首先,通过AdamOptimizer算法优化自动编码器,并将城市公共交通枢纽实时客流量数据特征矩阵输入优化后自动编码器,提取数据特征;其次,构建XGBoost模型作为城市公共交通枢纽客流量预测模型,利用差分进化算法迭代寻优模型参数;最后,将数据特征输入至训练后XGBoost模型中,实现城市公共交通枢纽客流量预测。实验结果表明:本文方法RMSE和MAPE更低,预测所用时间更少。

Abstract

Aiming at the randomness and correlation of passenger flow in urban public transportation hubs, a real-time data feature and XGBoost algorithm based passenger flow prediction for urban public transportation hubs is proposed. Firstly, the automatic encoder is optimized using the AdamOptimizer algorithm, and the real-time passenger flow data feature matrix of urban public transportation hubs is inputted into the optimized automatic encoder to extract data features, Then, an XGBoost model is constructed as the passenger flow prediction model for urban public transportation hubs. Differential evolution algorithm is used to iteratively optimize the model parameters, and the data features are input into the trained XGBoost model to achieve passenger flow prediction for urban public transportation hubs. The experimental results show that the proposed methods have lower RMSE and MAPE, and require less prediction time.

Graphical abstract

关键词

实时数据特征 / 客流量预测 / 自动编码器 / XGBoost算法 / 差分进化算法

Key words

real time data features / passenger flow forecast / automatic encoder / xgboost algorithm / differential evolution algorithm

引用本文

引用格式 ▾
姚明辉,王威超,吴启亮,牛燕. 基于实时数据特征和XGBoost算法的城市公共交通枢纽客流量预测[J]. 吉林大学学报(工学版), 2024, 54(11): 3302-3308 DOI:10.13229/j.cnki.jdxbgxb.20230956

登录浏览全文

4963

注册一个新账户 忘记密码

0 引 言

随着城市人口的大幅度增长,城市公共交通压力越来越大,城市公共交通枢纽是各公共交通衔接的重点环节,也是客流产生与吸引的关键节点1,交通枢纽中客流量方向各异、彼此交织,若交通枢纽客流量集中度过高,极易出现拥堵等情况,且拥堵会伴随客流方向传递至其他位置。客流量预测在城市公共交通枢纽组织和应急调控中具有无可替代的意义2,对客流量预测算法深入研究至关重要。

张文娟等3首先建模不同时间尺度下的城市公共交通枢纽客流量数据并合成数据,然后采用添加注意力机制的GRU神经网络和卷积Transformer共同构建混合深度学习预测模型,再将合成后数据作为预测模型输入,通过预测模型挖掘数据特征,最后融合特征实现客流量预测;帅春燕等4通过奇异谱分解并重构城市公共交通枢纽客流量时间序列,依据奇异值降序排列重构后时间序列,将所得序列输入支持向量回归模型中,实现城市公共交通枢纽客流量预测;赵明伟等5利用自适应惯性权重和时间因子及遗传算法变异机制改进粒子群优化算法,通过改进的粒子群优化算法寻优长短期记忆网络,采用优化后长短期记忆网络实现城市公共交通枢纽客流量预测。以上方法没有在时间和空间两个角度衡量客流量变化情况,导致RMSE和MAPE较高,预测所用时间较长。

为了解决上述方法存在的问题,本文提出基于实时数据特征和XGBoost算法的城市公共交通枢纽客流量预测。

1 城市公共交通枢纽实时客流量数据特征提取

为了充分考虑时间和空间特征对城市公共交通枢纽客流量预测的影响,所提方法采用自动编码器提取城市公共交通枢纽实时数据多层次特征,将得到的特征向量用于后续客流量预测之中,自动编码器是一种无监督学习单隐含层网络模型67,通过持续学习内在特征,尽可能减小输入层与输出层之间误差,从而实现实时数据特征提取。

在时间和空间上分别分析城市公共交通枢纽监测点Q在时刻t的客流量,由时间角度看,短时间内客流量不会发生突变,即可认为下一时刻客流量是上一个或多个时刻客流量的延续;在空间角度上看,上下游客流量必然影响点Q客流量。因此,所提方法将时间和空间相结合,转换城市公共交通枢纽实时客流量数据为包含时间和空间信息的二维特征矩阵X,如下所示:

X=xq-M,t-1xq-M,t-2xq-M,t-Txq-1,t-1xq-1,t-2xq-1,t-Txq,t-1xq,t-2xq,t-Txq+1,t-1xq+1,t-2xq+1,t-Txq+N,t-1xq+N,t-2xq+N,t-t

式中:横向监测数据依据时间顺序排列,纵向监测数据依据监测器空间顺序排列;xq,t表示时刻t监测器q监测到的客流量;MN分别表示上下游监测器数量;T表示时间间隔。

首先,将得到的各时刻输出矩阵作为自动编码器输入,记作Xi,经过编码可得到隐含层输出gi,如下所示:

gi=sigmWXi+b

式中:i=1,2,,mm表示输入的特征矩阵数量;W表示连接权值;b表示隐含层偏置;sigm·表示simgoid激活函数8

其次,解码隐含层输出并将结果输入输出层,通过输出层输出,经过编码和解码过程能够重构城市公共交通枢纽实时客流量数据,提取数据中的重要特征,解码过程如下所示:

Xi'=sigmWTgi+b'

式中:k=1,2,,mXi'表示解码器重构信息;b'表示输出层偏置。

最后,为了确保最终提取的特征能够有效表征原始城市公共交通枢纽实时客流量数据的大部分信息,需要构建损失函数迭代训练自动编码网络,生成最优自动编码网络用于城市公共交通枢纽实时客流量数据特征提取,所提方法以均方根误差为评价指标构建自动编码器损失函数,如下所示:

LW,b,b'=12i=1mXi-Xi'

采用Wbb'构建自动编码器参数集θ=W,b,b',引入AdamOptimizer算法优化θ,如下所示:

θk+1=θk-ηtm¯kv¯k+μmt=ε1mk-1+1-ε1gkvt=ε2vk-1+1-ε2gk2

式中:k表示迭代次数;mv分别表示梯度一阶和二阶矩估计;μ表示防止分母为0的极小数;ε1ε2表示衰减速率;εi=εie-1i=1,2m¯表示m的指数衰减均值;v¯表示v的指数衰减均值;η表示学习率,计算公式如下:

ηt=η01-ε2k1-ε1km¯k=mk1-ε1kv¯k=vk1-ε2k

式中:η0表示初始学习率。

通过AdamOptimizer算法寻优最小损失函数对应的参数集,构建最优自动编码器用于城市公共交通枢纽实时客流量数据特征提取。

2 城市公共交通枢纽客流量预测

2.1 基于XGBoost算法的城市公共交通枢纽客流量预测模型

XGBoost算法集成多弱学习器的预测结果作为最终预测结果910,训练速度快且预测性能稳定,因此,所提方法选取XGBoost算法构建城市公共交通枢纽客流量预测模型。

假设在XGBoost模型中共存在M棵CART树11,用fk表示其中第k棵树,xi表示输入的城市公共交通枢纽实时客流量数据特征,y^i表示模型对xi的预测结果,则XGBoost模型的预测过程如下所示:

y^i=k=1Mfkxi

构建损失函数L,如下所示:

L=i=1nlyi,y^i+k=1MΦfk

式中:yi表示xi对应的真实值;n表示输入数据总数;lyi,y^i表示xi的训练误差;Φfk表示fk的正则项12

通过加法策略学习模型,每次迭代增加1棵树并拟合残差,优化迭代结果。用y^it表示第t次迭代所得预测值,即包含t棵树的模型对xi的预测结果,如下所示:

y^it=k=1tfkxi=y^it-1+ftxi

式中:ft表示第t棵树。

损失函数在每次增加树的过程中均会发生变化,且第t棵树加入时,之前加入的树已完成训练,即正则项和训练误差已成为常数项B,此时损失函数L如下所示:

L=i=1nlyi,y^it+k=1tΦfk=i=1nlyi,y^it-1+ftxi+Φft+B

采用均方根误差构建损失函数,得到目标损失函数L如下所示:

L=i=1nyi-y^it-1+ftxi2+Φft+B

通过泰勒展开式(11)13,得到近似目标函数如下所示:

Li=1nlyi,y^it-1+gift2xi+12hift2xi+Φft+B

式中:gi表示损失函数一阶导,gi=y^it-1lyi,y^it-1hi表示损失函数二阶导,hi=y^it-12lyi,y^it-1

基于单一棵树考虑损失函数正则项,可将第t棵树ft及其正则项Φft如下所示:

ftx=θqxΦft=γT+12λj=1Tθj2

式中:θqx表示叶子节点qx得分;γλ表示正则项权重;T表示叶子节点总数;θj表示第j个叶子节点得分。

因为同一个叶子节点上全部数据点权重相同,所以可转换数据点求和为叶子节点求和,联合式(12)(13),消除常数项,得到损失函数如下所示:

Lgiftxi+12hift2xi+Φft=j=1Tgiθj+12hi+λθj2+γT      (14)

为了便于后续计算,令Gj=giHj=hi,求解θj的偏导并令其倒数为0,表达式为:

θj=-GjHj+λL=-12j=1TGj2Hj+λ+γT

损失函数越小,则所得XGBoost模型在城市公共交通枢纽客流量预测中的效果越好,XGBoost模型通过贪心法分割增益14,分割增益Gain计算公式如下:

Gain=12GL2HL+λ+GR2HR+λ-GL2+GR22HL+HR+λ-γ

式中:下角标LR分别表示左叶子节点和右叶子节点。

2.2 基于差分进化算法的XGBoost预测模型超参数优化

在XGBoost预测模型中,需要优化的超参数主要有学习率、树的最大深度、最小叶子节点样本权重和正则项权重以及节点分裂所需最小损失函数下降值,为了防止出现预测模型超参数寻优过程的投机性等问题,所提方法引入差分进化算法寻优XGBoost城市公共交通枢纽客流量预测模型超参数15,提升模型预测性能,寻优过程如下:

(1)基于XGBoost模型超参数解集生成差分进化算法初始种群X0=X10,X20,,Xz0,其中,z表示初始种群规模,即超参数解个数,Xi0=xik0表示第i个初始个体,xik0表示第k个个体分量,k=1,2,3,4,5,同时,初始化缩放因子F、交叉概率因子CR和最大迭代次数Txik0的产生方法如下:

xik0=ximin+randximax-ximin

式中:ximaxximin表示最大和最小分量;rand表示[0,1]范围内随机数。

(2)在第t次迭代中,任意选取父代个体Xit,并随机选取3个个体Xr1tXr2tXr3t,生成变异个体Vit=vi1t,vi2t,,vimt,其中,vikt表示第k个变异个体分量,变异公式如下所示:

Vit=Xr1t+FXr2t+Xr3t

(3)基于变异操作执行交叉操作,得到交叉个体Uit=ui1t,ui2t,,uimtuikt表示第k个交叉个体分量,交叉公式如下:

uikt=vikt,randCRxikt,rand>CR

(4)随机重组变异所得个体Vit和选取的父代个体Xit,提升种群多样性,选择操作公式如下:

Xit+1=Uit,fUit<fXitXit,fUitfXit

式中:Xit+1表示生成的新个体;f·表示依据XGBoost预测模型训练误差建立的适应度函数。

通过差分进化算法迭代寻优可得到XGBoost预测模型的最优超参数,进而构建最优XGBoost城市公共交通枢纽客流量预测模型。

2.3 客流量预测模型训练流程

本文方法构建的城市公共交通枢纽客流量预测模型训练共分为两个部分,一是自动编码器的训练,该过程采用AdamOptimizer算法优化自动编码器,直到自动编码器收敛,通过收敛后模型提取城市公共交通枢纽实时客流量数据特征;二是XGBoost预测模型的训练,该部分引入差分进化算法优化XGBoost预测模型超参数,将自动编码器提取到的特征输入训练完成的XGBoost预测模型,实现城市公共交通枢纽客流量预测,整个预测模型训练过程如图1所示。

3 实验与结果

为了验证基于实时数据特征和XGBoost算法的城市公共交通枢纽客流量预测整体有效性,需要测试基于实时数据特征和XGBoost算法的城市公共交通枢纽客流量预测。

采用2022年某市地铁客流量数据作为实验数据集,其中包含182个站点的单日客流量数据和全年客流量,选取其中部分数据以4∶1的比例划分为训练集和测试集,由于不同站点客流量存在一定差别,因此在实验前首先对选取的地铁客流量数据进行归一化处理,归一化后数据x'如下所示:

x'=x-xminxmax-xmin

式中:x表示原始数据;xminxmax分别为表示数据集中最大值和最小值。

实验在该市客流量排名前十的交通枢纽站中任意选取站点3和该站10 289条数据作为测试集,其余41 156条数据作为训练集,分别在不同训练集数据量和不同迭代次数下训练本文方法、文献[4]方法和文献[5]方法预测模型,并采用训练完成的模型预测客流量。

实验采用均方根误差RMSE和平均绝对百分比误差MAPE作为3种方法在客流量预测中的评判标准,各指标值越小,则对应方法预测性能越优异,RMSEMAPE计算公式如下:

RMSE=1ni=1nyi-y^i2MAPE=1ni=1nyi-y^iyi

式中:n表示样本总数;yi表示客流量真实值;y^i表示预测值。

依据式(22)分别计算本文方法、文献[4]方法和文献[5]方法在不同训练集数据量和迭代次数下的RMSEMAPE,如图2图3所示。

图2图3可以看出,本文方法在不同迭代次数和不同训练集数据量下的RMSE和MAPE整体低于文献[4]方法和文献[5]方法,说明所提方法在城市公共交通枢纽客流量预测中效果更为优异,因为本文方法在训练XGBoost预测模型时采用差分进化算法优化模型参数,避免了寻优过程的投机性等问题,从而有效提升方法整体性能。

表1可以看出,本文方法在城市公共交通枢纽客流量预测中所用时间明显少于文献[4]方法和文献[5]方法,与文献[4]方法相比少1.87 s,与文献[5]方法相比少1.11 s,客流量预测是交通枢纽内部组织和应急调控的基础,其实时性直接关系交通枢纽管理的实时性,因此,预测效率较高的本文方法更适合用于实际城市公共交通枢纽客流量预测之中。

4 结束语

在城市公共交通客流量的急剧攀升下,高峰期急速聚集的客流量对枢纽服务能力提出极高的要求,大客流问题对城市公共交通网络安全造成一定威胁,为了时刻把控枢纽内部客流量分布和变化情况,需要对城市公共交通枢纽客流量加以预测。为了解决目前存在的RMSE和MAPE较高、预测所用时间较长问题,提出基于实时数据特征和XGBoost算法的城市公共交通枢纽客流量预测,采用AdamOptimizer算法优化后自动编码器提取客流量数据特征,将所得特征输入至通过差分进化算法优化后XGBoost模型中,实现城市公共交通枢纽客流量预测。该方法能有效降低RMSE和MAPE,缩短预测所用时间,为城市公共交通安全奠定基础。

参考文献

[1]

刘向阳. 城市轨道交通枢纽治理: 理论框架与运作模式[J]. 中国铁道科学, 2022, 43(5): 188-198.

[2]

Liu Xiang-yang. Governance of urban rail transit hub: theoretical framework and operational mode[J]. China Railway Science, 2022, 43(5): 188-198.

[3]

何景师, 陈晓忠, 脱俗. 城市轨道交通应急能力影响因素及评价研究[J]. 城市轨道交通研究, 2021, 24(12): 71-76.

[4]

He Jing-shi, Chen Xiao-zhong, Su Tuo. Research on the influencing factors and evaluation of urban rail transit emergency capability[J]. Urban Mass Transit, 2021, 24(12): 71-76.

[5]

张文娟, 杨皓哲, 张彬, 考虑多时间尺度特征的城市轨道交通短时客流量预测模型[J]. 交通运输系统工程与信息, 2022, 22(6): 212-223.

[6]

Zhang Wen-juan, Yang Hao-zhe, Zhang Bin, et al. Short-time passenger flow prediction model of urban rail transit considering multi-timescale features[J]. Journal of Transportation Systems Engineering and Information Technology, 2022, 22(6): 212-223.

[7]

帅春燕, 谢亚威, 单君, 基于SSA-SVR模型的城市轨道交通短时进站客流预测[J]. 都市快轨交通, 2022, 35(5): 76-83.

[8]

Chun-yan Shuai, Xie Ya-wei, Shan Jun, et al. Prediction of short-term inbound passenger flow of urban rail transit based on the singular spectrum analysis and support vector regression model[J]. Urban Rapid Rail Transit, 2022, 35(5): 76-83.

[9]

赵明伟, 张文胜. 基于IPSO-LSTM组合模型的城市轨道交通短时客流预测[J]. 铁道运输与经济, 2022, 44(2): 123-130.

[10]

Zhao Ming-wei, Zhang Wen-sheng. Short-term passenger flow prediction of urban rail transit based on IPSO-LSTM combined model[J]. Railway Transport and Economy, 2022, 44(2): 123-130.

[11]

韩云飞, 谢佳, 蔡涛, 基于自动编码器的锂离子电池状态评估方法[J]. 电力系统自动化, 2021, 45(24): 41-48.

[12]

Han Yun-fei, Xie Jia, Cai Tao, et al. Autoencoder-based state evaluation method for lithium-ion battery[J]. Automation of Electric Power Systems, 2021, 45(24): 41-48.

[13]

张晨旭, 李圣辰, 邵曦. 基于自编码器的无监督机器异常声检测[J]. 复旦学报: 自然科学版, 2021, 60(3): 297-302.

[14]

Zhang Chen-xu, Li Sheng-chen, Shao Xi. Unsupervised detection of anomalous sounds for machine based on auto-encoder[J]. Journal of Fudan University (Natural Science Edition), 2021, 60(3): 297-302.

[15]

林钰棽, 魏云龙, 陈琪琪, 一种嵌入式计算平台的Sigmoid函数优化方法[J]. 小型微型计算机系统, 2021, 42(10): 2053-2058.

[16]

Lin Yu-chen, Wei Yun-long, Chen Qi-qi, et al. A Sigmoid function optimization method for embedded computing platform[J]. Journal of Chinese Computer Systems, 2021, 42(10): 2053-2058.

[17]

徐文英, 王大军, 卢朝阳, 基于XGBoost算法的终端区进场航空器飞行时间预测[J]. 北京交通大学学报, 2022, 46(6): 72-79.

[18]

Xu Wen-ying, Wang Da-jun, Lu Chao-yang, et al. Flight time prediction for aircraft approaching terminal area based on XGBoost algorithm[J]. Journal of Beijing Jiaotong University, 2022, 46(6): 72-79.

[19]

张照贝, 顾春华, 温蜜. 基于XGBoost和QRLSTM的超短期负荷预测方法[J]. 计算机仿真, 2022, 39(1): 90-95.

[20]

Zhang Zhao-bei, Gu Chun-hua, Wen Mi. Ultra-short-term load forecasting method based on XGBoost and QRLSTM[J]. Computer Simulation, 2022, 39(1): 90-95.

[21]

孙梦婷, 魏海平, 李星滢, 利用CART分类树分类检测交通拥堵点[J]. 武汉大学学报: 信息科学版, 2022, 47(5): 683-692.

[22]

Sun Meng-ting, Wei Hai-ping, Li Xing-ying, et al. Using CART classification tree to detect traffic congestion points[J]. Journal of Wuhan University (Information Science Edition), 2022, 47(5): 683-692.

[23]

樊攀云, 李敏. 基于自适应正则项的非均匀B样条肺部图像配准[J]. 激光与光电子学进展, 2022, 59(10): 189-198.

[24]

Fan Pan-yun, Li Min. Nonuniform B-spline lung image registration based on adaptive regularization term[J]. Laser and Optoelectronics Progress, 2022, 59(10): 189-198.

[25]

汤世昕, 沈育静, 陈纪康, 改进螺旋桨敞水性能预报的泰勒展开边界元法[J]. 哈尔滨工程大学学报, 2022, 43(7): 928-935.

[26]

Tang Shi-xin, Shen Yu-jing, Chen Ji-kang, et al. Taylor expansion boundary element method for propeller steady hydrodynamic performance prediction[J]. Journal of Harbin Engineering University, 2022, 43(7): 928-935.

[27]

曹义亲, 刘龙标, 何恬, 基于贪心选择及斜率探测扩充的轨面提取方法[J]. 计算机科学与探索, 2022, 16(1): 205-216.

[28]

Cao Yi-qin, Liu Long-biao, He Tian, et al. Method of rail surface extraction based on greedy selection and slope detection expansion[J]. Journal of Frontiers of Computer Science and Technology, 2022, 16(1): 205-216.

[29]

吴桂芳, 崔勇, 刘宏, 基于差分进化算法的三维电场传感器解耦标定方法[J]. 电工技术学报, 2021, 36(19): 3993-4001.

[30]

Wu Gui-fang, Cui Yong, Liu Hong, et al. Decoupling calibration method for three-dimensional electric field sensors based on differential evolution algorithm[J]. Journal of Electrical Engineering Technology, 2021, 36(19): 3993-4001.

基金资助

国家自然科学基金项目(12232014)

国家自然科学基金项目(11772008)

天津市自然科学基金项目(19JCZDJC3230)

AI Summary AI Mindmap
PDF (700KB)

230

访问

0

被引

详细

导航
相关文章

AI思维导图

/