LSFormer：用于交通流预测的负载量感知空间异质性变换器

李轩; 李艳红; 徐昊翔; 黄健翔; 陈亮亮

doi:10.20056/j.cnki.ZNMDZK.20250830

中南民族大学学报（自然科学版） ›› 2026, Vol. 45 ›› Issue (01) : 86 -96. DOI: 10.20056/j.cnki.ZNMDZK.20250830

物理与电子信息科学

LSFormer：用于交通流预测的负载量感知空间异质性变换器

作者信息 +

LSFormer: workload-aware spatial heterogeneity transformer for traffic flow prediction

Author information +

文章历史 +

PDF (3030K)

摘要

高精度的交通流预测可以有效缓解智能城市道路的拥堵压力.然而，交通流预测面临着如何有效揭示交通流数据中隐藏的时空依赖关系的挑战.目前大多数方法都是基于图神经网络（GNN）或变压器模型.前者只考虑短程空间信息，无法捕捉长程空间依赖关系，而后者虽然能够捕捉长程依赖关系，但大多数研究都没有充分挖掘变压器架构的潜力.为此，提出了一种用于交通流预测的新型负载感知空间异质性变换器，即LSFormer.具体来说，为空间自注意力模块设计了相对位置编码以优化空间位置信息感知问题，使模型能更好地捕捉位置信息.然后，引入了负载感知模块，以突出周边交通流对中心点的影响，解决了现有方法对周边区域依赖关系建模不足的问题.在5个真实世界公共交通数据集上的广泛实验结果表明：文中所提模型可以达到先进的性能.此外，还将学习到的空间嵌入可视化，使模型具有可解释性.

Abstract

Highly accurate traffic flow prediction can effectively alleviate the congestion pressure on smart city roads. However， traffic flow prediction faces the challenge of how to effectively reveal the hidden spatio-temporal dependencies in traffic flow data. Most of the current methods are based on graph neural network （GNN） or transformer models. The former only considers short-range spatial information and is unable to capture long-range spatial dependencies， while the latter is able to capture long-range dependencies， but most of the studies have not fully exploited the potential of the transformer architecture. To this end， a novel load-aware spatial heterogeneity transformer for traffic flow prediction， LSFormer， is proposed. Specifically， relative position coding is designed for the spatial self-attention module to optimize the spatial location information perception problem so that the model can better capture location information. Then， a load-aware module is introduced to highlight the influence of peripheral traffic flow on the centroid， which solves the problem of insufficient modeling of peripheral area dependencies by existing methods. Extensive experimental results on five real-world public transportation datasets show that the proposed model in this paper can achieve state-of-the-art performance. In addition， the learned spatial embeddings are visualized to make the model interpretable.

Graphical abstract

关键词

交通流预测 / 时空特征 / 变换器 / 图神经网络

Key words

traffic flow prediction / spatial-temporal features / transformer / graph neural network

引用本文

引用格式 ▾

[Author(id=1273232772341710965, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, orderNo=0, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1273232772400431228, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, authorId=1273232772341710965, language=EN, stringName=Xuan LI, firstName=Xuan, middleName=null, lastName=LI, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=College of Computer Science，South-Central Minzu University，Wuhan 430074，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1273232772446568575, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, authorId=1273232772341710965, language=CN, stringName=李轩, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=中南民族大学计算机学院，武汉 430074, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1273232772278796399, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, xref=null, ext=[AuthorCompanyExt(id=1273232772291379314, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, companyId=1273232772278796399, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=College of Computer Science，South-Central Minzu University，Wuhan 430074，China), AuthorCompanyExt(id=1273232772303962226, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, companyId=1273232772278796399, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=中南民族大学计算机学院，武汉 430074)])]), Author(id=1273232772492705923, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, orderNo=1, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=liyanhong@mail.scuec.edu.cn, emailSecond=null, emailThird=null, correspondingAuthor=1, authorType=1, ext={EN=AuthorExt(id=1273232772547231880, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, authorId=1273232772492705923, language=EN, stringName=Yanhong LI, firstName=Yanhong, middleName=null, lastName=LI, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=College of Computer Science，South-Central Minzu University，Wuhan 430074，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1273232772589174922, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, authorId=1273232772492705923, language=CN, stringName=李艳红, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=中南民族大学计算机学院，武汉 430074, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1273232772278796399, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, xref=null, ext=[AuthorCompanyExt(id=1273232772291379314, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, companyId=1273232772278796399, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=College of Computer Science，South-Central Minzu University，Wuhan 430074，China), AuthorCompanyExt(id=1273232772303962226, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, companyId=1273232772278796399, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=中南民族大学计算机学院，武汉 430074)])]), Author(id=1273232772631117966, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, orderNo=2, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1273232772689838226, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, authorId=1273232772631117966, language=EN, stringName=Haoxiang XU, firstName=Haoxiang, middleName=null, lastName=XU, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=College of Computer Science，South-Central Minzu University，Wuhan 430074，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1273232772735975574, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, authorId=1273232772631117966, language=CN, stringName=徐昊翔, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=中南民族大学计算机学院，武汉 430074, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1273232772278796399, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, xref=null, ext=[AuthorCompanyExt(id=1273232772291379314, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, companyId=1273232772278796399, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=College of Computer Science，South-Central Minzu University，Wuhan 430074，China), AuthorCompanyExt(id=1273232772303962226, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, companyId=1273232772278796399, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=中南民族大学计算机学院，武汉 430074)])]), Author(id=1273232772782112921, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, orderNo=3, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1273232772840833182, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, authorId=1273232772782112921, language=EN, stringName=Jianxiang HUANG, firstName=Jianxiang, middleName=null, lastName=HUANG, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=College of Computer Science，South-Central Minzu University，Wuhan 430074，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1273232772882776226, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, authorId=1273232772782112921, language=CN, stringName=黄健翔, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=中南民族大学计算机学院，武汉 430074, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1273232772278796399, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, xref=null, ext=[AuthorCompanyExt(id=1273232772291379314, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, companyId=1273232772278796399, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=College of Computer Science，South-Central Minzu University，Wuhan 430074，China), AuthorCompanyExt(id=1273232772303962226, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, companyId=1273232772278796399, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=中南民族大学计算机学院，武汉 430074)])]), Author(id=1273232772933107876, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, orderNo=4, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1273232772996022440, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, authorId=1273232772933107876, language=EN, stringName=Liangliang CHEN, firstName=Liangliang, middleName=null, lastName=CHEN, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=College of Computer Science，South-Central Minzu University，Wuhan 430074，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1273232773042159787, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, authorId=1273232772933107876, language=CN, stringName=陈亮亮, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=中南民族大学计算机学院，武汉 430074, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1273232772278796399, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, xref=null, ext=[AuthorCompanyExt(id=1273232772291379314, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, companyId=1273232772278796399, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=College of Computer Science，South-Central Minzu University，Wuhan 430074，China), AuthorCompanyExt(id=1273232772303962226, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1273232770848538624, companyId=1273232772278796399, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=中南民族大学计算机学院，武汉 430074)])])] 李轩,李艳红,徐昊翔,黄健翔,陈亮亮. LSFormer：用于交通流预测的负载量感知空间异质性变换器[J]. 中南民族大学学报（自然科学版）, 2026, 45(01): 86-96 DOI:10.20056/j.cnki.ZNMDZK.20250830

登录浏览全文

4963

注册一个新账户忘记密码

智慧城市可以利用信息和通信技术（ICTs， Information and Communication Technologies）^［1］提高城市运行效率，改善居民生活质量.随着城市化进程的加快，现代城市面临着诸多挑战，其中交通管理是一个重要方面.智慧城市利用智能交通系统（ITS， Intelligent Transportation Systems）来解决交通管理问题，其中交通流预测是关键技术之一.交通流预测利用历史交通数据和实时信息来预测道路或交通节点的未来交通流.这项技术有助于优化交通规划和基础设施建设，从而改善交通拥堵状况.通过预测拥堵发生的时间和地点，可以采取交通引导和路线优化等措施来降低拥堵发生的可能性.随着技术的不断进步和数据的不断积累，交通流预测在智慧城市中的重要性将日益凸显.

最近的研究表明，使用各种深度学习技术进行交通流预测取得了重大进展，其中包括通过图神经网络捕捉空间依赖关系的STGCN^［2］，在输入嵌入方面取得进展的STAEformer^［3］，以及应用注意力机制的PDFormer^［4］.尽管在改进交通流预测方面做出了巨大努力，但这些模型仍存在一些关键局限.例如，基于GNN（Graph Neural Network）模型在过度平滑问题上举步维艰，即在堆叠多层后，节点的表示趋于一致，导致难以捕获长距离的空间依赖关系.这种局限性显著限制了模型在复杂交通网络中的表现.例如，STGCN仅通过一维卷积捕获空间和时间特征，对长程依赖的建模能力不足.虽然PDFormer在时间和空间方面都有更详细的构造，但其并行架构可能会导致时间和空间的脱节，从而有可能忽视时空信息的整体一致性.此外，在时间方面，STAEformer提供了丰富的嵌入信息.然而，在空间方面，仅仅依靠随机初始化的自适应嵌入很难取得理想的结果，并导致模型的实验结果出现明显的波动.

首先，交通系统中不同位置之间的空间依赖关系是密切相关的，而不是孤立的.例如，如图1（a）所示，传感器146和其他3个传感器（92、108、148）在空间位置上都直接相邻，但它们的趋势和数值显然有很大不同.空间上的相邻并不绝对影响其相邻节点，但考虑到传感器146所有相邻点的流量，并对它们进行运算后便获得了负载流量（图1（a）中红色曲线称为负载流量），可以看见在数值上负载流量更接近中心传感器的测量值.因此在建模时有必要考虑这一因素对预测任务的影响.然而，现有方法主要以孤立的方式模拟空间依赖关系，可能会忽略一些时空信息，限制了模型的预测能力.

其次，考虑到城市功能分区的影响，不同分区的传感器捕捉到的交通模式表现出明显的差异.如图1（b）所示，传感器146和85位于两个不同的城市功能分区，因此在同一时间观测到的交通流明显不同.由德国地理学家瓦尔特·克里斯塔勒于20世纪30年代提出的中心地理论以及空间分割理论可知，功能相似的区域往往在空间上相互远离，而相邻区域往往属于不同的功能区.这就意味着，功能相似区域内的地点之间的空间依赖关系通常是远距离的.然而，大多数现有方法主要关注局部特征（由于基于GNN的方法存在过度平滑问题），并没有充分考虑到功能区随地理位置变化而产生的变化，因此，这些方法无法捕捉长程依赖关系和特定区域的交通模式，这在一定程度上限制了模型的准确性.

为解决上述问题，本文提出了一种既能感知负载又能感知空间异构性的交通流预测模型，即LSFormer，主要贡献如下：

（1）介绍了一种利用时空自注意力机制的LSFormer模型，旨在精确预测交通流，去解决交通数据的动态性、区域差异性和可扩展性带来的复杂问题；

（2）设计了一个空间负载感知模块，将周边交通流负载信息整合到自注意力互动中，以帮助模型更好、更有效地建立空间依赖关系；

（3）在空间自注意力中引入了相对位置编码，使模型能够捕捉空间的相对位置关系；

（4）使用5个真实的公共数据集进行了广泛的交通流预测实验.

1 研究现状

1.1 用于交通预测的深度学习

早期，循环神经网络和卷积神经网络（CNN， Convolutional Neural Network）被广泛应用于交通流预测.前者能有效捕捉时间信息，后者能有效捕捉空间信息.

随后，随着图神经网络在处理图结构数据方面的出色表现^［5］，也被广泛应用于交通流预测领域.近年来，注意力机制被广泛应用于挖掘交通流数据中隐藏的时空依赖关系.其他研究则侧重于探索数据之间的潜在时间关系，以丰富模型的输入内容.还有人致力于解决传统变换器模型在位置编码方面的缺陷.文献［6］提供了对空间和时间因素如何随时间相互作用的深入的理解，从而建立了更准确的预测模型.文献［7］对多步骤依赖关系网络（MSDR，Multi-Step Dependency Relationship Network）的探索标志着时空预测领域的重大进展.MSDR强调了交通数据中多步依赖关系的重要性，提出了一种能够在不同预测视野中学习复杂时空关系的网络结构.

与上述研究相比，本文提出的LSFormer模型不仅通过时间嵌入层（Temporal Embedding Layer）探索数据中隐藏的时间信息，还通过使用空间嵌入层（Spatial Embedding Layer）发掘隐藏的空间信息.此外，还认识到了基于Transformer的模型的局限性，并为空间设计了有效的相对位置编码，以充分发挥该模型在交通流预测任务中的性能.

1.2 Transformer

Transformer是一种独特的网络架构，它完全基于自注意力机制，已在多变量时间序列预测中证明了其有效性.近来，基于Transformer的高效创新模型层出不穷.Crossformer突破了以往基于Transformer的模型的局限性，考虑到了跨维依赖性.Fedformer结合了频域的概念，在降低模型复杂度的同时提高了性能.另一个贡献是由Autoformer模型提供的，该模型基于深度分解架构和自相关机制，通过渐进分解和序列级连接，长期预测效率显著提高.

2 相关定义

本节将介绍后续章节中使用的一些术语，并将交通流预测问题形式化，以便更好地理解和解释采用的技术和方法.为了建立图模型并收集传感器位置和交通流数据，首先需要确定图的节点和边.在本文中，将根据收集到的传感器位置和交通流量数据构建一个图

G

.每个传感器都是该图中的一个节点，其关系用

G

的结构来表示，具体方法如图2所示.

2.1 术语

定义1（道路网络）道路网络被描述为一个图

G = (V, ε, A)

，其中

V = {v 1, . . ., v N}

表示一组包含

N

个节点（

| V | = N

）的集合，

ε ⊆ V × V

表示边的集合，

A

是网络

G

的邻接矩阵.

定义2（交通流量）让

X t ∈ R N × C

表示道路网络中节点

N

在时间t的交通流量，其中

C

表示交通流量维度.定义

χ = (X t, X t + 1, . . ., X t + T) ∈ R T × N × C

为

T

个时间片段上所有节点的交通流量.

2.2 问题定义

根据到当前时间步长的历史交通流量

χ

，来构建一个预测函数

f

，目的是更准确地估计未来

T'

时间步长内所有区域的未来交通流量，具体函数形式如下：

X t, . . ., X t + T → f X t + T + 1, . . ., X t + T + T' .

（1）

3 方法

图3展示了LSFormer的整体框架，它由时间嵌入层、时间转换层、空间嵌入层、空间转换层和回归层组成.为了准确捕捉交通流数据固有的周期性，LSFormer在时间嵌入层中加入了3个时间嵌入.嵌入时间信息的数据随后被送入时间转换层，从而使 LSFormer考虑到时间依赖性.随后，在空间嵌入层中实施负载感知模块，以嵌入空间位置信息.由此产生的输出被送入带有相对位置编码的空间转换层，使模型能够捕捉空间依赖性.通过上述模块，LSFormer可以有效地将空间和时间信息结合起来，从而实现高准确度的预测.

3.1 时间嵌入层

在时间嵌入层中，原始交通流数据首先通过一个全连接层

F C (⋅)

进行维度扩展，得到

E f ∈ R T × N × d f

：

E f = F C (X t : X t + T) .

（2）

然后，为了使模型能够捕捉周期性信息，引入了两个可学习的嵌入字典，分别用

T ω ∈ R N ω × d f

和

T d ∈ R N d × d f

表示，其中，

T ω

用于识别当前时刻的交通流数据是一周中的哪一天，一般情况下，

N ω = 7

.与

T ω

类似，

T d

用于识别交通流数据是一天中的哪一时刻.在本文使用的数据集中，

N d = 288

.然后，参考STAEformer，得到周期嵌入信息

E p ∈ R T × N × 2 d f

和时空自适应嵌入信息

E a = R T × N × d a

最后，通过合并这3种嵌入，得到了特征表示

Z ∈ R T × N × d h

，用于输入时间转换层，其中

d h = 3 d f + d a, Z

的计算式如下：

Z = E f | | E p | | E a .

（3）

3.2 空间嵌入层

在空间嵌入层中引入新模块：负载感知模块，用于生成嵌入向量

E g T × N × d g

负载感知模块.它考虑到了这样一个事实，即在给定时刻

t

，空间中任何位置的交通流量都不是独立的，都会受到周围所有位置交通流量的影响，而且周围不同位置的交通流量也会对其产生不同的影响.例如，位于市中心的地点可能比位于人口稀少地区的地点拥有更多的交通流量.同时，地点是在市中心还是在市中心边缘也会影响交通流量.因此，借鉴了图排序注意力网络（GOAT， Graph Ordering Attention Network）^［8］的思想，开发了一个名为Rel-GOAT层的模块（如图4所示），以捕捉一个地点与其周围所有地点在交通流量方面的依赖关系.接下来介绍Rel-GOAT的机制，它由以下3部分组成：

（1） GOAT最初的设计侧重于对图结构数据建模，主要解决空间信息问题.然而，它并没有考虑到图中的信息依赖关系可能会随时间发生变化这一事实.因此，GOAT在捕捉时空依赖性和对时变图结构的动态变化进行建模时存在局限性.为了使Rel-GOAT能够处理时空数据，首先对每个节点的所有时间步进行时间卷积运算，然后将结果作为下一步的输入.在Rel-GOAT的输出结果方面，使用了层归一化和残差连接技术，这使得Rel-GOAT在交通流预测任务中取得了优异的性能.

（2）排序部分利用注意力机制将无序的邻居隐藏状态向量集（每个向量的维度为

d

，表示为

{v 1, …, v Q}

，其中

Q

等于邻居数量加1）排列成顺序序列：

[v π 1, …, v π Q] = O r d e r i n g P a r t (v 1, …, v Q),

（4）

其中，排序由置换函数

π (⋅)

决定.

具体来说，与图注意网络模型类似，对于图中的每个节点

n i ∈ V

，首先应用一个共享的线性变换（参数为

β ∈ R d × d

的权重矩阵），然后，使用由

μ ⃗ ∈ R 2 d

参数共享的自注意机制来计算注意分数：

a i j = R e L u (μ ⃗ T [β v i | | β v j]) .

（5）

对于节点

i

的邻居

j

，有

n j ∈ N (n i)

.随后，对系数进行降序排序，得到邻域节点的特定排列组合

π

a i π ((1), …, a i π ((Q) = s o r t (a i 1, …, a i Q) .

（6）

在确定了排列组合

π

之后，创建邻域隐藏状态的排序序列：

v s o r t e d (i) = [e a i π π (1) ∑ j = 1 Q e a i π π (j) β v π (1), …, e a i π ((Q) ∑ j = 1 Q e a i π π (Q) β v π (Q)] .

（7）

（3）序列建模部分将排序部分生成的节点有序序列作为输入，它使用所有邻域共享的RNN（Recurrent Neural Network）处理这些序列，生成新的隐藏状态.在现有的RNN中，双向LSTM最为合适，它的遗忘门有助于消除冗余信息，输入门足以有效隔离独特信息，而记忆状态则有助于识别协同信息，其形式如下：

v i n e w = L S T M (v s o r t e d (i)) ∈ R d o .

（8）

具体来说，就是将从时间自注意力层获得的结果

Z t

输入到Rel-GOAT层，以获得空间负载嵌入

E g

，该嵌入同时考虑了周围的交通流量和不同位置的不同影响：

E l = R e l - G O A T l a y e r (Z t) .

（9）

在得到上述空间嵌入后，将它们与

Z t

进行维度连接，得到最终的特征表示

Z t'

，并将其输入空间转换层：

Z t' = Z t | | E g .

（10）

3.3 自注意力层

对于通过时间和空间嵌入层处理后的特征表示，采用vanilla transformer^［9］来捕捉时间和空间上的相互依存关系.给定隐藏表示

Z ∈ R T × N × d

，具有

T

个时间切片和

N

个空间节点，通过自注意力层获得查询、键和值矩阵如下：

Q = Z W Q, K = Z W k, V = Z W v,

（11）

其中

W Q

、

W k

和

W v

是可学习参数，那么计算注意力分数的方法如下：

A = S o f t m a x ((Q K T) d h + r p e),

（12）

其中，

A

反映了时间和空间关系，

r p e

反映了不同节点之间的相对位置.然后，得到输出

Z o

：

Z o = A V .

（13）

最后，将经过时间和空间自注意力层处理的表征

Z s ∈ R T × N × d

，通过全连接层生成预测结果.线性回归层的表达式如下：

Y^= F C (Z s),

（14）

其中

Y^∈ R T' × N × d

是预测值，

T'

是预测范围.

从正弦位置编码中汲取灵感，提出在时间和空间嵌入层中捕捉序列之间的绝对位置关系.然而，最近的研究^［10-11］强调，绝对位置编码方法不利于模型捕捉序列之间的相对位置关系.因此，设计了以下两种特定的相对位置编码，以增强模型对位置关系的感知.

空间相对位置编码.在时间序列中，前后关系明确存在于序列中，而在空间中，邻接关系不能直接从序列中得出.因此，使用邻接矩阵

A ∈ R N × N

计算了跳数矩阵

s h ∈ R N × N

，该矩阵计算了任意节点到达所有其他节点所需的节点数.为了提高模型的泛化性能，在这一部分引入一个截断阈值

τ s,

具体来说，当

r ∈ s h > τ s

时，将元素的值截断为

τ s

，截断后，得到的矩阵为

r p e s

.跳数矩阵能够直观地反映节点之间的空间邻近性，而截断阈值

τ s

则限制了远距离节点对注意力机制的干扰.通过引入相对位置编码，模型可以同时捕获局部和全局的空间依赖关系，从而提升预测精度并能够显式地量化每个节点对其他节点的相对重要性，直观反映节点间的空间关系，这种设计对后续嵌入可视化提供了良好的支持.

4 实验

4.1 数据集

实验将在PEMS03、PEMS04、PEMS08、METR-LA和PEMS-BAY五个实际公共交通数据集上验证LSFormer的性能.这5个数据集中的交通数据均以5 min为一个时间间隔，每小时共12个帧.每个数据集都包含大量的交通流量、速度和占用率数据，提供了丰富的交通动态信息.

为便于分析和处理，这些数据被统一为5 min的时间间隔，以确保一致性和可比性.每小时的交通数据分为12个时间段.这种精细的时间划分捕捉到了交通流量的细微变化，能够更准确地评估和预测交通状况.

这5个数据集的详细统计信息见表1.时间跨度较长（如METR-LA和PEMS-BAY）的数据集包含更多的周期性和趋势性变化，测试了模型对时序信息的捕捉能力.相对较短的数据集（PEMS04、PEMS08）则更适合验证模型的泛化性能.节点密集的数据集（PEMS04）对局部依赖建模提出了较高要求，而稀疏分布（PEMS03）则需要模型更关注全局的空间关系.节点线性分布（METR-LA）验证了相对位置编码在长程空间依赖捕获中的优势，而复杂分布（PEMS-BAY）检验了模型对异质性的适应能力.

4.2 基线模型

在本研究中，将所提出的方法与几种广泛使用的基线方法进行了比较，以确定其在所考虑的任务中的相对性能.

ST-WA^［6］提出了一种时空感知的交通时间序列预测框架.该框架通过生成位置特定和时间变化的模型参数，动态捕捉时空模式，并引入窗口注意力机制，将复杂度从二次降至线性，显著提升了预测效率和精度.

HI^［12］是一个典型的传统模型.

DCRNN^［13］是交通流预测领域的经典基线模型.该模型通过扩散过程模拟交通流随时间和空间变化的动态特征，并利用扩散卷积运算识别空间相关性.

AGCRN^［14］使用自适应模块提高传统图卷积的性能，并将其纳入RNN以捕捉时空依赖性.

STGCN使用一维卷积来捕捉空间和时间依赖性，并且是基于图卷积的.

GTS^［15］认为通过探索变量之间的相关性和因果关系可以增强时间序列预测，并提出与GNN同时学习图中存在的信息.

STID^［16］深入而有效地分析了受周期性因素影响的当前时刻到预测时刻交通流的复杂过程，因此只需一个简单的全连接层就能实现非常理想的结果.

MTGNN^［17］是一种通用的多变量依赖图神经网络框架，它通过图学习模块学习多变量单向关系，并使用图卷积和时间序列卷积模块捕捉时空依赖特征.

STNorm^［18］对交通时间序列进行因式分解.

为了进一步证实模型的性能，有必要介绍一些为处理这项任务而设计的基于变压器的模型，其中，Informer、CrossFormer、FEDformer和Autoformer是分别由文献［19-22］提出的基于变换器架构的模型，这些模型在多变量时间序列预测任务中取得了优异的性能.然而，由于这些模型缺乏针对交通预测任务的具体设计，实用性受到了限制.因此，选择了一系列不同的替代模型作为本文的实验对比对象，如GMAN^［23］，它是一种基于注意力的模型，采用编码器-解码器架构，以及PDFormer.

LSFormer在PEMS08上表现尤为突出，得益于负载感知模块在捕捉区域性交通模式方面的优势.PEMS03和PEMS04的性能差异反映了模型对稀疏（PEMS03）和密集（PEMS04）节点分布的适应能力，相对位置编码有效增强了全局和局部特征建模，实验结果见下表2.

4.3 评估指标

为了科学评价不同模型的预测效果，本文选取了一组客观指标，包括均方根误差（RMSE，Root Mean Square Error）、平均绝对误差（MAE，Mean Absolute Error）和平均绝对百分比误差（MAPE，Mean Absolute Percentage Error）.这些指标各有特点和应用场景，可以从不同角度综合评价模型的预测性能.其中，RMSE适用于对较大误差较为敏感的场景，因为它能放大较大的误差值，从而更准确地反映模型在极端情况下的表现.MAE适用于需要平衡每个误差的场景，它提供了误差的平均绝对值，可以直观地反映预测偏差.而MAPE则适用于需要测量相对误差的情况，尤其适用于比较模型在不同数据集上的表现，但当实际值接近于零时可能会不稳定.上述指标用公式表示如下：

R M S E = 1 p ∑ i = 1 p (Y r e a l (i) - Y P r e d (i)) 2,

（15）

M A E = 1 p ∑ i = 1 p | Y r e a l (i) - Y P r e d (i) |,

（16）

M A P E = 100 % p ∑ i = 1 p Y r e a l (i) - Y P r e d (i) Y r e a l (i) .

（17）

4.4 实验设置

数据集预处理.将数据集划分为训练集、验证集和测试集对于评估模型的性能和确保其通用性至关重要.考虑到数据集之间的差异，本实验使用了两套不同的数据集划分比例来训练模型.PEMS-BAY和METR-LA数据集按7∶1∶2的比例分为训练集、验证集和测试集.同时，PEMS03、PEMS04和PEMS08数据集按6∶2∶2的比例分割.此外，使用前一小时的数据来预测后一小时的交通流量.

模型设置.所有实验都由一台配备了英伟达™（NVIDIA^®）GeForce 4090 GPU的计算机支持，并使用24 GB内存提供充足的计算资源.实验中使用PyTorch 1.10.0和Python 3.8.18这两个工具包来构建和训练LSFormer模型.在模型训练过程中，根据验证集的表现选择最佳模型，以确保模型的准确性和泛化能力.具体来说，使用AdamOptimizer进行训练，批量大小为16，最多训练100期，以保证模型的训练效果.

4.5 性能比较

表2和表3显示了本文提出的模型在5个数据集上与基线模型的详细比较，最佳结果用蓝色表示，次佳结果用下划线表示.从表2-3可以得出以下结论：（1） LSFormer在全部数据集上的所有指标几乎都优于所有基线模型；（2）在基于GNN的模型中，MTGNN的性能很有竞争力.这些基于GNN的模型在传递信息时只考虑了空间中节点的邻接性，相比之下，LSFormer因为考虑了全局范围内区块之间的相似性和差异性而取得了更好的性能；（3）在基于自注意力的模型方面，PDFormer成为最佳基准.与PDFormer相比，LSFormer引入了有效的空间嵌入，帮助自注意力模块更好地捕捉到交通模式，并取得了良好的性能.

4.6 消融实验

为了验证LSFormer模型各部分对提高模型预测精度的帮助程度，本实验对模型的两个变体进行了消融研究，具体如下：

·● w/o

E g

：该变体删除了工作量感知嵌入

E g;

● w/o

r p e s

：这一变体删除了空间相对位置编码

r p e s .

图5显示了上述组件对本文模型性能的影响.考虑到PEMS08数据集在多个数据集中最具代表性，对其进行了消融研究.通过分析消融实验的结果，可以得出以下结论：

（1）去除

E g

会使模型在各指标上的性能下降最大，因此表明

E g

对交通建模至关重要；

（2）此外，当移除空间相对位置编码后，观察到性能大幅下降，表明位置编码增强了基于变压器结构的模型处理交通流相关数据的能力.

4.7 案例研究

在本节中，将对LSFormer学习到的负载感知嵌入

E g

进行可视化处理，以提高其可解释性，并研究二者在提高交通流预测准确性方面的有效性.

E g

的可视化.通过GOAT学习获得的负载感知嵌入的可视化结果显示，在数据集PEMS08上，大多数点呈现内外双环结构，中心有少数几个点（如图6（a）所示）.这种环形结构本身就具有连续性特征，这与相距不远的两个流量节点周围的负载不完全相同但差异不会太大的特性相一致.因此，最终的可视化结果显示，大部分点分布在环形结构上，少数几个点孤立在中心，这表明大部分点受到周围交通流的影响，但也有少数地方受周围交通流的影响较小.然而，METR-LA数据集的可视化结果呈现出条状结构（如图6（b）所示）.这种形状也反映了节点之间的连续性，但与PEMS08数据集相比存在显著差异.推测这可能是由于两个数据集中传感器的空间分布不同造成的.METR-LA数据集中的传感器大多分布在相互交叉的直线上，类似于地铁线路的分布，而 PEMS08数据集的空间布局相对更为复杂.这两项研究结果表明，所提出的

E g

可以有效捕捉周围交通流对中心点交通流的影响.

注意力得分的可视化.图7（a）和图7（b）分别展示了验证集的空间注意力得分矩阵和时间注意力得分矩阵，并根据训练好的模型以热图的形式进行了可视化.从图7（a）可以看出，每个节点除了给自己分配高注意力分数外，还对一定数量的其他节点分配了较高的注意力分数.这些高分节点并不局限于附近的节点，也分布在较远的位置，这表明该模型能有效捕捉远距离空间依赖关系.相比之下，图7（b）揭示了一个不同的现象：在任何给定的时间步长

t

中，只有靠近时间步长

t

的交通流才会获得较高的注意力分数，而较远时间步长的注意力分数明显较低.这表明，在短期预测中，预测值与距其相邻的时间步长具有很强的依赖性.

5 结语

本文提出了用于交通流预测的LSFormer 模型，具体来说，开发了一个负载感知模块，用于发现当前位置与其周围环境在交通流方面的依赖关系；进一步设计了空间位置编码，以提高模型的泛化能力.在5个真实世界数据集上进行了多次实验，证明了LSFormer在预测准确性方面优于其他模型，并将学习到的空间嵌入可视化，以帮助理解它.未来，将尝试把LSFormer应用于其他时空预测任务，例如光伏发电预测^［24-26］.此外，还将探索比较学习方法在交通流预测中的潜力.

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	YIN C， XIONG Z， CHEN H， et al. A literature survey on smart cities［J］. Science China Information Sciences， 2015， 58（10）： 1-18.

[2]	YU B， YIN H， ZHU Z，et al. Spatio-temporal graph convolutional networks： A deep learning framework for traffic forecasting［C］//Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence（IJCAI）. Stockholm： ijcai.org， 2018：3634-3640.

[3]	LIU H， DONG Z， JIANG R. Spatio-temporal adaptive embedding makes vanilla transformer SOTA for traffic forecasting［C］//ACM.Proceedings of the 32nd ACM International Conference on Information and Knowledge Management （CIKM）. Birmingham： ACM， 2023：4125-4129.

[4]	JIANG J， HAN C， ZHAO W X. PDFormer： Propagation delay-aware dynamic long-range transformer for traffic flow prediction［C］//AAAI. Proceedings of the 2023 AAAI Conference on Artificial Intelligence. Washington D C： AAAI Press， 2023： 1132-1139.

[5]	姚静怡，李艳红，黄银峰，等.灵活的属性社区搜索方法［J］.中南民族大学学报（自然科学版），2024，43（3）：358-369.

[6]	CIRSTEA R G， YANG B， GUO C. Towards spatio-temporal aware traffic time series forecasting［C］//IEEE. Proceedings of the 2022 IEEE International Conference on Data Engineering （ICDE）. Kuala Lumpur： IEEE， 2022： 2900-2913.

[7]	LIU D， WANG J， SHANG S. MSDR： Multi-step dependency relation networks for spatial-temporal forecasting［C］//ACM. Proceedings of the 2022 International Conference on Knowledge Discovery and Data Mining （KDD）. Washington D C： ACM， 2022： 1042-1050.

[8]	CHATZIANASTASIS M， LUTZEYER J， DASOULAS G. Graph ordering attention networks［J］. AAAI，2023， 37（6）： 7006-7014.

[9]	VASWANI A， SHAZEER N， PARMAR N， et al. Attention is all you need［C］//31st Conference on Neural Information Processing Systems （NIPS）. Long Beach： Curran Associates， 2017：1-11.

[10]	SHAW P， USZKOREIT J， VASWANI A. Self-attention with relative position representations［C］//ACL. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies （NAACL-HLT）. New Orleans： ACL， 2018： 464-468.

[11]	LIU Z， LIN Y， CAO Y. Swin transformer： Hierarchical vision transformer using shifted windows［C］//IEEE. Proceedings of the IEEE/CVF International Conference on Computer Vision （ICCV）. Montreal： IEEE， 2021： 9992-10002.

[12]	CUI Y， XIE J， ZHENG K. Historical inertia： A neglected but powerful baseline for long sequence time-series forecasting［C］//ACM. Proceedings of the 30th ACM International Conference on Information and Knowledge Management （CIKM）. Virtual Event： ACM， 2021：2965-2969.

[13]	LI Y， YU R， SHAHABI C. Graph convolutional recurrent neural network： Data-driven traffic forecasting［C］//9th International Conference on Learning Representations （ICLR）. Vancouver： OpenReview.net， 2018：1-16.

[14]	BAI L， YAO L， LI C. Adaptive graph convolutional recurrent network for traffic forecasting［J］. Advances in neural information processing systems， 2020（33）： 17804-17815.

[15]	SHANG C， CHEN J， BI J. Discrete graph structure learning for forecasting multiple time series［C］//6th International Conference on Learning Representations （ICLR）. Virtual Event： OpenReview.net， 2021：1-14

[16]	SHAO Z， ZHANG Z， WANG F. Spatial-temporal identity： A simple yet effective baseline for multivariate time series forecasting［C］//ACM. Proceedings of the 31st ACM International Conference on Information and Knowledge Management （CIKM）. Atlanta： ACM， 2022： 3257-3260.

[17]	WU Z， PAN S， LONG G. Connecting the dots： Multivariate time series forecasting with graph neural networks［C］//ACM. Proceedings of the 2020 International Conference on Knowledge Discovery and Data Mining （KDD）. Virtual Event： ACM， 2020： 753-763.

[18]	DENG J， CHEN X， JIANG R. ST-Norm： Spatial and temporal normalization for multi-variate time series forecasting［C］//ACM. Proceedings of the 2021 International Conference on Knowledge Discovery and Data Mining （KDD）. Singapore： ACM， 2021： 2401-2410.

[19]	ZHOU H， ZHANG S， PENG J. Informer： Beyond efficient transformer for long sequence time-series forecasting［C］//AAAI. Proceedings of the AAAI Conference on Artificial Intelligence （AAAI）. Virtual Event： AAAI Press， 2021： 11106-11115.

[20]	ZHANG Y， YAN J. Crossformer： Transformer utilizing cross-dimension dependency for multivariate time series forecasting［C］//ICLR. Proceedings of the International Conference on Learning Representations （ICLR）. Kigali： OpenReview.net， 2023：1-21.

[21]	ZHOU T， MA Z， WEN Q. FEDformer： Frequency enhanced decomposed transformer for long-term series forecasting［C］//NeurIPS. Proceedings of Advances in Neural Information Processing Systems （NeurIPS）. New Orleans： NeurIPS， 2022：27268-27286.

[22]	WU H， XU J， WANG J. Autoformer： Decomposition transformers with auto-correlation for long-term series forecasting［C］//NeurIPS. Proceedings of Advances in Neural Information Processing Systems （NeurIPS）. Virtual Event： NeurIPS， 2021：22419-22430.

[23]	ZHENG C， FAN X， WANG C. GMAN： A graph multi-attention network for traffic prediction［C］//AAAI. Proceedings of the AAAI Conference on Artificial Intelligence （AAAI）. New York： AAAI Press， 2020： 1234-1241.

[24]	SOUHE F G Y， MBEY C F， KAKEU V J F， et al. Optimized forecasting of photovoltaic power generation using hybrid deep learning model based on GRU and SVM［J］. Electrical Engineering， 2024，106： 1-20.

[25]	ASGHAR R， FULGINEI F R， QUERCIO M， et al. Artificial neural networks for photovoltaic power forecasting： A review of five promising models［J］. IEEE Access， 2024（12）：90461-90485.

[26]	HALJASMAA K I， BRAMM A M， MATRENIN P， et al. Weather condition clustering for improvement of photovoltaic power plant generation forecasting accuracy［J］. IEEE Access， 2024， 17（9）：419.