面向智能网联车辆的轨迹预测模型

王健 ,  贾晨威

吉林大学学报(工学版) ›› 2025, Vol. 55 ›› Issue (06) : 1963 -1972.

PDF (2214KB)
吉林大学学报(工学版) ›› 2025, Vol. 55 ›› Issue (06) : 1963 -1972. DOI: 10.13229/j.cnki.jdxbgxb.20231046
交通运输工程·土木工程

面向智能网联车辆的轨迹预测模型

作者信息 +

Trajectory prediction model for intelligent connected vehicle

Author information +
文章历史 +
PDF (2266K)

摘要

相较于传统的单车智能自动驾驶系统只能根据自身对于环境感知的结果对未来进行预测,智能网联自动驾驶系统可以通过V2X技术获取额外的周围道路环境动态信息进行融合预测。本文在单车智能轨迹预测的基础上,使用特殊编码器使得轨迹预测模型可以融合自身的感知信息与来自V2X共享的动态道路信息。在CARLA仿真数据集上的实验结果证明,使用V2X技术获取周围道路环境的动态信息相较于未使用动态环境信息的轨迹预测算法能够更准确地预测车辆轨迹。

Abstract

In contrast to traditional single-vehicle intelligent autonomous driving systems, which can only make predictions about the future based on their own perception of the environment, intelligent connected autonomous driving systems have the capability to enhance predictions by incorporating additional dynamic information about the surrounding road environment through V2X technology. Building upon the foundation of single-vehicle intelligent trajectory prediction, a specialized encoder was employd to enable the trajectory prediction model to seamlessly fuse its own perceptual information with dynamic road data obtained via V2X communication. The experimental results on the CARLA simulation dataset demonstrate that using V2X technology to obtain dynamic information of the surrounding road environment can more accurately predict vehicle trajectories compared to trajectory prediction algorithms that do not use dynamic environment information.

Graphical abstract

关键词

计算机应用技术 / 自动驾驶 / 车联网 / 轨迹预测

Key words

computer application technology / autonomous driving / internet of vehicles / trajectory prediction

引用本文

引用格式 ▾
王健,贾晨威. 面向智能网联车辆的轨迹预测模型[J]. 吉林大学学报(工学版), 2025, 55(06): 1963-1972 DOI:10.13229/j.cnki.jdxbgxb.20231046

登录浏览全文

4963

注册一个新账户 忘记密码

0 引 言

随着自动驾驶应用的日益发展,运动预测模型也引起了广泛的关注。尽管单车智能在许多环境中表现出色,但受限于传感器的感知能力,因此仍面临着许多与驾驶安全相关的长尾问题。预测模块作为自动驾驶系统中的重要组成部分。它根据感知到的物体的历史运动状态预测未来可能的轨迹。预测出的轨迹信息会被提供给下游的决策和规划模块,使自车做出合理和安全的驾驶行为。因此,预测模块的性能表现与自动驾驶车辆的行驶安全息息相关。

预测模型通常需要有效地整合多种输入,包括交通场景的静态、社交和时序方面的要素,以实现准确有效的预测。为了更好地捕捉交通场景中实体之间的复杂交互作用,目前研究人员探索了多种用于交通场景表示和建模的技术。

在建模交通场景的道路信息时,有2种常见的输入类型,分别是栅格地图输入和高清地图输入。栅格地图输入是指栅格化的周围环境俯视图。通常使用卷积神经网络编码栅格地图中带有各种特征通道的时空信息1-12。但是,当环境负载过高导致输入的特征通道非常多时,模型的推理性能会受到非常严重的影响。作为替代方案,高清地图输入通过使用有限点的序列来表示道路的几何信息和代理轨迹,并且通过为不同点分配不同属性表示复杂的特征信息13-19。由于使用了稀疏的点集表示复杂的交通场景,在相同的数据量下高精地图输入具有更高的信息容纳能力。

代理之间的社交互动也会对代理的运动产生影响。目前研究人员探索了多种方法建模代理间的互动关系。社交汇集(Social pooling)根据代理之间的社交关系建模互动特征20-23,但这种方法通常会忽略代理之间互动的时序特征。得益于图神经网络(Graph neural network,GNN)对关系数据的强大建模能力,越来越多的轨迹预测模型使用GNN更高效地捕捉代理之间的空间和时间交互关系13-162425,但其在计算和存储复杂性方面仍存在劣势。由于交通场景的复杂性,模型通常需要对不同的场景信息做出不同的反应。注意力机制模拟了人类注意力的行为,允许模型动态地关注输入数据的不同部分,在社交互动中采用注意力机制,可以使代理捕捉输入序列不同部分之间的依赖关系,并有选择地关注最显著的特征以进行预测,同时也提高了可解释性1726-35

Transformer模型36已成功地应用于各个领域37-50,在众多的序列任务中都展示了其高效的建模能力。轨迹预测任务也是一种序列预测任务,其可以很好地适配Transformer模型。目前,在一些关于运动预测的研究中都使用Transformer结构处理代理时序运动趋势、代理之间的时空依赖关系以及代理和环境元素之间的依赖关系26-305152,并展现了Transformer模型在复杂场景中提高轨迹预测准确性和效率的潜力。同时,Transformer模型可以高效地处理多模态的特征,对于轨迹预测任务可以在不同阶段将不同模态的预测关联信息作为键值,使得每个代理可以融合多种模态信息。

对于单车智能的自动驾驶系统,为了解决更多的长尾问题,不得不在传感器、数据和模型方面投入更多的成本和精力,但由于单车感知角度的限制,单车的感知能力是有上限的。然而,V2X技术可以通过较少的传感器成本,利用多角度传感器的信息共享,大幅扩大车辆感知的时空范围5354。在目前的自动驾驶领域,对于轨迹预测模型的研究多是建立在单车智能的条件下,而没有考虑V2X技术对轨迹预测模型的作用。

由于不同自动驾驶系统对预测任务的定位不同,许多自动驾驶公司和研究机构都基于自身对于预测任务的需求开源了自己的数据集以使研究人员可以训练和评估自己的方法。目前存在的轨迹预测数据集都是从单车智能的角度采集的,其仅包含了自车感知范围内的轨迹和道路信息,而缺乏V2X场景下的共享环境数据,如信号灯的时序信息这样的交通环境的动态数据55-58

综上所述,目前的轨迹预测方法和数据集都只关心单车智能场景下的问题,而对于智能网联场景下,自动驾驶车辆可以与周围的网联设备进行通信,获取周围环境的未来预测窗口内的动态道路变化信息,但自动驾驶车辆如何充分地利用这些额外的数据仍是个问题。所以本文从这一点出发,研究了如何在单车智能轨迹预测模型的基础上,增加特殊的动态环境编码器编码这些额外的动态道路变化信息,并将得到的动态道路变化特征与代理特征进行融合,最终实现更准确的轨迹预测结果。

1 建模方法

1.1 数据表示

1.1.1 轨迹信息表示

本文将交通场景数据分为代理特征(Agent features)和车道特征(Lane features)1517522种类型。代理特征描述了每个目标在每个时刻和周围的空间关系。为了捕捉每个时刻的空间信息,本文构建了以每个代理为中心的子图,子图内的所有其他代理位置信息都被转换到中心代理的坐标系下。子图中每个节点的值是从代理在2个相邻时刻计算得到的运动矢量,即:

EAA,it(j)=RiT(pjt-pit)
NAA,it(j)=RiT(pjt-pjt-1)

式中:EAA,it(j)为以agenti为中心的子图中的边信息;NAA,it(j)为子图中的节点信息;RiTagenti的旋转矩阵;p·t为时刻tagent·的位置。

1.1.2 车道空间特征表示

本文所提模型需要处理交通环境的动态和静态信息。因此,本文进一步将车道特征分为车道空间特征(Lane spatial feature)、车道动态特征(Lane dynamic feature)和车道静态特征(Lane static feature)。

车道空间特征是由一个指向车道当前位置节点到下一个位置节点的矢量表示的,矢量的长度等于2个节点之间的空间距离。每个代理都需要构建以该代理为中心的道路信息子图。子图中的边信息包括每个车道节点与中心代理之间的相对几何关系。子图中的节点信息包括车道节点之间的位置矢量。这些车道空间特征描述了车道的几何结构和代理与车道之间的空间关系,即:

EAL,i(ξ)=RiT(pξ-pit)
NAL,i(ξ)=RiT(pξ0-pξ1)

式中:pξ为车道中节点ξ的几何位置;pξ0pξ1为车道中2个连续节点的几何位置。

1.1.3 车道动态特征表示

车道动态特征是由V2X网络共享得到的每个车道的未来预测时间窗口内连续的交通控制信息。这些控制信息影响着车辆和行人在未来的运动目标。具体的,智能网联车辆通过近场通信网络与周围路侧V2X交换动态交通信息,使得车辆可以获知未来预测时间窗口内的控制信号的时序变化数据。这些数据会在当前预测模型被调用时进行预处理和输入。本文使用one-hot编码来表示车道在每个时刻的动态信息,具体每个位置的编码含义如表1所示。

1.1.4 车道静态特征表示

车道静态特征是由自车感知模块采集得到的车道固有信息,其不会随着时间的变化而变化,包括车道的转向方向、车道标线是否允许变道和车道线类型等。同样使用one-hot编码表示车道静态信息,具体的编码含义如表2所示。

1.2 模型结构

图1为本文动态智能网联预测模型(Dynamic intelligent connected prediction,DICP)模型的整体框架。算法的大体流程如下:

(1)数据预处理流程。将轨迹数据和道路信息向量化表示,对于每个需要预测的代理,都会构建一个以自身为中心的子图。

(2)使用Agent-Agent交互模块编码每个代理每个时刻的空间关系特征,然后使用时序Transformer获取每个代理空间特征的时序变化特征。

(3)使用Agent-Lane静态交互模块编码每个代理与周围静态道路特征的依赖关系。

(4)使用Agent-Lane动态交互模块编码每个代理与周围动态道路特征的依赖关系。

(5)使用全局交互模块使每个代理能够捕捉与场景中的其他代理在未来时刻中的依赖关系。

(6)使用多个多层感知机(Multi-layer perceptron,MLP)解码出每个代理的多模态轨迹和每个模态的置信度分数。

(7)算法的后处理流程。将每个代理输出的轨迹还原到自车坐标系下。

1.2.1 Agent-Agent交互模块

Agent-Agent交互模块用于捕捉场景中代理之间的时空关系。它以场景中每个时刻所构建的代理关系子图为输入,中心代理的信息作为Query,将连接的其他代理的信息作为Key和Value。与Transformer的编码器计算方式相似,Agent-Agent交互模块使用多头交叉注意力(Multi-head cross-attention)和一个前馈网络(Feed-forward network)获得融合的空间特征,并且使用门控单元更新中心节点的信息,然后获得每个代理在每个时间步的一系列空间关系特征FAA,it。这些连续的空间特征经过一个时序Transformer编码器来获取时间特征FAA,i。与Bert类似39,Agent-Agent交互模块在最后增加一个可学习的嵌入汇集整个时间段的时空变化特征。具体的结构如图2所示,其中各个模块的计算方式分别如下所示。

Ai,jt=SoftmaxQitKjtT(d)
Attnit=jAi,jtVjt
FAA,it=GRU(FFN(Attnit))
FAA,i=TfEnc(cat(FAA,it,tokenctx),Mtemp)

式中:Qit为中心代理在t时刻的查询特征;KjtVjt分别为在t时刻其他代理的键和值;Ai,jt为注意力分数;GRU为门控循环单元;FFN为前馈神经网络;Attnit为注意力特征;TfEnc为标准的Transformer模型编码器模块;tokenctx为一个可学习的嵌入,用于汇聚全局的时序特征;Mtemp为下三角矩阵,使得每个时刻只能注意到当前和过去时刻的信息。

1.2.2 车道特征编码器

对于车道的静态特征,本文使用了1个MLP将静态特征的one-hot编码转换成特定维度的特征。

对于车道的动态特征,本文使用1个时间注意力编码器(Temporal transformer encoder)获取时间维度上的特征。首先,把动态特征的每个状态转换为对应的可学习的嵌入,并在末尾添加一个单独的可学习嵌入以汇聚全局的时间信息。然后,为每个位置添加了一个可学习的位置编码标记时序信息。这些特征通过时间注意力编码器,最终转换成时间维度上的特征。

1.2.3 Agent-Lane静态交互模块

本文使用了一个代理与车道信息的静态交互模块,使得每个代理能够收集到局部的静态车道信息,从而产生初步的只关心静态信息的预测结果。

具体的,Agent-Lane静态交互模块使用了交叉注意力的结构。其中,每个代理的特征作为Query,车道的静态信息则作为Key和Value。然后,使用一个前馈神经网络和门控结构更新每个代理的特征。具体的结构如图3所示。

1.2.4 Agent-Lane动态交互模块

在经过Agent-Lane静态交互模块之后,只得到了静态环境信息的预测头。因此,还需要进一步地使每一个代理收集周围动态环境的信息,从而强化预测头,进一步得出更准确的预测结果。

具体的,将已经收集得到的静态环境信息的预测头作为Query,动态环境信息作为Key和Value。再经过前馈神经网络和门控结构使每个预测头融合动态环境信息。具体的结构如图4所示。

1.2.5 Agent-Agent全局交互模块

为了捕获场景中代理之间的远程依赖关系,本文采用了一个Agent-Agent全局交互模块。该模块利用坐标系之间的几何关系,促进了局部区域之间的信息传递。具体而言,Agent-Agent全局交互模块考虑了场景中不同区域的相对位置和方向,以实现远程区域之间的有效通信。通过融合坐标系之间的几何关系,Agent-Agent全局交互模块能够有效地建模场景不同部分之间的长程依赖关系和交互作用。对于同一场景中的所有代理,计算所有代理的多头自注意力,并且使用前馈神经网络和门控单元更新每个代理的特征。

这一模块的引入有助于更好地理解和捕获场景中的全局信息,特别是远程部分之间的相互作用,使模型能够考虑到整个场景的动态性和复杂性,从而提高预测的准确性和鲁棒性。

1.2.6 轨迹解码器模块

本文采用了Laplace混合模型表示未来轨迹的分布。具体的,使用MLP融合每个代理的局部和全局信息。然后,分别使用3个不同的MLP解码聚合后的信息,生成多模态分布中的不同参数。对于每个代理的每个模态,输出每个时刻位置分布的均值μi,ftR2和分布的尺度bi,ftR2信息。同时还输出了每个代理的每个模态的置信度ϕ^,其张量形状为[N,F],即:

fLaplace=12bexp-|x-μ|b

1.3 损失函数

在模型的训练过程中,采用2个损失函数鼓励模型准确预测未来位置并生成多个轨迹模态。首先,计算预测的每个模态轨迹与目标值最后时刻之间的𝓁2距离,具有最小𝓁2距离的模态被选为最佳预测轨迹。回归损失是最佳预测轨迹的所有时刻的平均𝓁2距离。分类损失是将每个模态最后时刻的𝓁2距离经过Softmax的输出作为软目标,然后计算与每个模态的置信度的交叉熵损失。最后,将回归损失Lossreg和分类损失Losscls相加,得到总损失值Loss,即:

Lossreg=-1NTi=1Nt=0TlogP(pit|μ^it,b^it)
Losscls=CE(ϕ^,Softmax(||μ^i,fT-pit||)
Loss=Lossreg+Losscls

式中:P(|)为Laplace分布的概率密度函数;ϕ^为模型预测的每个轨迹模态的置信水平;μ^i,fTagenti最优预测中最后时刻的坐标均值;CE为交叉熵;pitagenti在时间t的实际坐标;μ^itb^it分别为最佳预测轨迹的位置均值和尺度。

2 实 验

2.1 数据集

本文分别在静态环境条件和动态环境条件下验证模型性能。在静态环境条件下的实验是为了验证传统单车智能的轨迹预测性能。在动态环境条件下的实验是为了验证车联网技术带来的动态环境信息对车辆轨迹预测性能的影响。因为目前缺少公开的动态环境轨迹预测的数据集,所以本文通过CARLA仿真器生成了一个包含100万条动态环境轨迹数据的数据集——DICP1M。同时,本文还采用了公开的Argoverse 1 Motion Forecasting55数据集评估模型在静态环境下的轨迹预测性能。

2.1.1 Argoverse数据集

Argoverse 1 Motion Forecasting是一个精选的轨迹预测数据集,其中包含了324 557个交通场景,每个场景持续5 s,其中2 s用作历史轨迹,3 s用作未来轨迹。该数据集包含以鸟瞰图表示的每个被跟踪对象的2D中心点,采样频率为10 Hz。

2.1.2 DICP1M数据集

DICP1M数据集是通过CARLA59自动驾驶仿真软件采集得到的。CARLA是一个强大的开源自动驾驶仿真软件,目前已经在工业界和学术界得到了广泛的认可和应用。CARLA提供了包括车辆传感器、驾驶行为、天气以及交通场景等多种因素的仿真。本文通过在8个CARLA所提供的虚拟城市中,随机生成不同的交通场景,并以10 Hz的频率采集自动驾驶车辆周围5 s内的车辆运动轨迹和动态交通环境信息,最终得到DICP1M数据集。其中每个CARLA虚拟城市的描述和采样设置如表3所示。

DICP1M包含了100万个交通预测场景,每个预测场景持续5 s,其中2 s用作历史轨迹,3 s用作未来轨迹。DICP1M中800 000条数据用于训练,200 000条用于验证。与Argoverse数据集类似,DICP1M数据集每个场景以10 Hz频率采样的轨迹的二维鸟瞰图表示。与目前一些主流的轨迹预测数据集相比,DICP1M提供了更多的场景和轨迹数量,具体内容如表4所示。

2.2 评价指标

最小最终位移误差minFDE是指在预测时段T内,最佳预测的最终位置与实际最终位置之间的𝓁2距离。其表达式为:

minFDE=𝓁2(y^Tbest,yT)

式中:y^Tbest为最佳预测轨迹的最后一个点的坐标;yT为实际轨迹的最后一个点的坐标。

最小平均距离minADE是指最佳预测轨迹与实际轨迹之间所有时刻的平均𝓁2距离:

minADE=1Tpredt=0Tpred𝓁2(y^tbest,yt)

式中:Tpred为预测的步数;y^tbest为最佳预测轨迹t时刻的坐标;yt为实际轨迹t时刻的坐标。

最小失误率minMR是指最佳预测轨迹所有时刻的位置与实际位置之间的𝓁2距离超过2.0 m的比率:

minMR=s^bestTpred

式中:s^best为最佳预测轨迹在阈值范围之外的步数数量。

模型训练的具体超参数设置如表5所示。

2.3 实验结果

本文模型在DICP1M验证集和Argoverse验证集上的实验结果如表6所示。其中,“↓”表示越小越优,上标“1”表示在单车智能模型条件下的预测结果,上标“2”表示在智能网联模型条件下的预测结果。

2.5 预测结果可视化

本文模型在智能网联场景下的轨迹预测可视化如图5~图8所示,所使用的数据集均为DICP1M。其中,箭头表示道路中心线,箭头的方向表示道路方向,红色的中心线表示该车道当前不允许通行,绿色表示可以通行,黄色表示红色和绿色变化的中间态,灰色表示车道状态不受控制。每个车辆的当前位置用彩色圆标出,红色实线表示车辆轨迹真值,蓝色虚线表示车辆轨迹预测值。

3 结束语

本文首先构建了一个用于智能网联车辆轨迹预测的大规模数据集——DICP1M。其中包含了100万条轨迹数据样本,包括每个时刻的轨迹信息,以及每个时刻车辆周围的动态道路信息。其次,提出了一种适用于智能网联车辆的轨迹预测模型——DICP。在单车智能轨迹预测模型的基础上增加处理动态环境信息的结构,使得模型可以融合通过V2X技术共享而来的车道动态变化信息。最后,在DICP1M数据集上的实验结果表明,在V2X技术的支持下,智能网联车辆可以更准确地预测动态交通环境下的运动轨迹。

参考文献

[1]

Chai Y, Sapp B, Bansal M, et al. MultiPath: multiple probabilistic anchor trajectory hypotheses for behavior prediction[J/OL]. [2023-07-13].

[2]

Cui H G, Radosavljevic V, Chou F C, et al. Multimodal trajectory predictions for autonomous driving using deep convolutional networks[J/OL]. [2023-07-13].

[3]

Casas S, Luo W, Urtasun R. Intentnet: learning to predict intention from raw sensor data[C]∥Conference on Robot Learning, Zürich, Switzerland, 2018: 947-956.

[4]

Lee, N, Choi W, Vernaza P, et al. Desire: Distant future prediction in dynamic scenes with interacting agents[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, Honolulu, HI, USA, 2017: 336-345.

[5]

Hong J, Sapp B, Philbin J. Rules of the road: predicting driving behavior with a convolutional model of semantic interactions[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, CA, USA, 2019: 8454-8462.

[6]

Jain A, Casas S, Liao R, et al. Discrete residual flow for probabilistic pedestrian behavior prediction[DB/OL]. [2023-07-13].

[7]

Deo N, Trivedi M M. Trajectory forecasts in unknown environments conditioned on grid-based plans[DB/OL]. [2023-07-13].

[8]

Khandelwal S, Qi W, Singh J, et al. What-if motion prediction for autonomous driving[DB/OL]. [2023-07-13].

[9]

Mangalam K, An Y, Girase H, et al. From goals, waypoints & paths to long term human trajectory forecasting[C]∥IEEE/CVF International Conference on Computer Vision, Nashville, TN, USA, 2021: 15233-15242.

[10]

Phan-Minh T, Grigore E C, Boulton F A, et al. Covernet: multimodal behavior prediction using trajectory sets[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, WA, USA, 2020: 14074-14083.

[11]

Rhinehart N, McAllister R, Kitani K, et al. Precog: prediction conditioned on goals in visual multiagent settings[C]∥IEEE/CVF International Conference on Computer Vision, Long Beach, CA, USA, 2019: 2821-2830.

[12]

Ridel D, Deo N, Wolf D, et al. Scene compliant trajectory forecast with agent-centric spatiotemporal grids[J]. IEEE Robotics and Automation Letters, 2020, 2(5): 2816-2823.

[13]

Casas S, Gulino C, Liao R, al et, Spagnn: Spatially-aware graph neural networks for relational behavior forecasting from sensor data[C]∥IEEE International Conference on Robotics and Automation (ICRA), Paris, France, 2020: 9491-9497.

[14]

Huang Y, Bi H, Li Z, al et, Stgat: Modeling spatial-temporal interactions for human trajectory prediction[C]∥IEEE/CVF International Conference on Computer Vision, Long Beach, CA, USA, 2019: 6272-6281.

[15]

Liang M, Yang B, Hu R, al et, Learning lane graph representations for motion forecasting[C]∥Computer Vision-ECCV 2020, Glasgow, UK, 2020: 541-556.

[16]

Mohamed A, Qian K, Elhoseiny M, al et, Social-stgcnn: A social spatio-temporal graph convolutional neural network for human trajectory prediction[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, WA, USA, 2020: 14424-14432.

[17]

Gao J, Sun C, Zhao H, al et, Vectornet: Encoding hd maps and agent dynamics from vectorized representation[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, WA, USA, 2020: 11525-11533.

[18]

Zhao H, Gao J, Lan T, et al. Tnt: Targetdriven trajectory prediction[C]∥Conference on Robot Learning, London, UK, 2021: 895-904.

[19]

Zeng W, Liang M, Liao R, et al. Lanercnn: distributed representations for graph-centric motion forecasting[C]∥IEEE/RSJ International Conference on Intelligent Robots and Systems, Prague, Czech Republic, 2021: 532-539.

[20]

Alahi A, Goel K, Ramanathan V, al et, Social lstm: Human trajectory prediction in crowded spaces[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, Las Vegas, Nevada, USA, 2016: 961-971.

[21]

Deo N, Trivedi M M. Convolutional social pooling for vehicle trajectory prediction[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, Salt Lake City, UT, USA, 2018: 1468-1476.

[22]

Gupta A, Johnson J, Li F F, et al. Social GAN: socially acceptable trajectories with generative adversarial networks[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, 2018: 2255-2264.

[23]

Mangalam K, Girase H, Agarwal S, al et, It is not the journey but the destination: endpoint conditioned trajectory prediction[C]∥Computer Vision-ECCV 2020, Glasgow, UK, 2020: 759-776.

[24]

Zhang L, Su P H, Hoang J, al et, Map-adaptive goal-based trajectory prediction[C]∥Conference on Robot Learning, London, UK, 2021: 1371-1383.

[25]

Kosaraju V, Sadeghian A, Mart´ın-Mart´ın R, al et, Social-bigat: multimodal trajectory forecasting using bicycle-GAN and graph attention networks[C]∥Advances in Neural Information Processing Systems, Vancouver, BC, Canada, 2019, 32: 137-146.

[26]

Li L L, Yang B, Liang M, al et, End-to-end contextual perception and prediction with interaction transformer[C]∥IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Las Vegas, USA, 2020: 5784-5791.

[27]

Liu Y, Zhang J, Fang L, al et, Multimodal motion prediction with stacked transformers[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, TN, USA, 2021: 7577-7586.

[28]

Mercat J, Gilles T, Zoghby N E, al et, Multi-head attention for multimodal joint vehicle motion forecasting[C]∥IEEE International Conference on Robotics and Automation (ICRA), Paris, France, 2020: 9638-9644.

[29]

Ngiam J, Caine B, Vasudevan V, et al. Scene transformer: a unified architecture for predicting multiple agent trajectories [DB/OL]. [2023-07-13].

[30]

Yu C, Ma X, Ren J, et al. Spatio-temporal graph transformer networks for pedestrian trajectory prediction[DB/OL]. [2023-07-13].

[31]

Salzmann T, Ivanovic B, Chakravarty P, et al. Trajectron++: multi-agent generative trajectory forecasting with heterogeneous data for control[DB/OL]. [2023-07-13].

[32]

Ye L, Wang Z, Chen X, et al. GSAN: graph self-attention network for learning spatial-temporal interaction representation in autonomous driving[J]. IEEE Internet of Things Journal, 2021, 9(12): 9190-9204.

[33]

Luo C, Sun L, Dabiri D, et al. Probabilistic multi-modal trajectory prediction with lane attention for autonomous vehicles[C]∥IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Las Vegas, NV, USA, 2020: 2370-2376.

[34]

Messaoud K, Deo N, Trivedi M M, et al. Multi-head attention with joint agent-map representation for trajectory prediction in autonomous driving[DB/OL]. [2023-07-13].

[35]

Gilles T, Sabatini S, Tsishkou D, et al. HOME: heatmap output for future motion estimation[J/OL]. [2023-07-13].

[36]

Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J/OL]. [2023-07-13].

[37]

Brown T B, Mann B, Ryder N, et al. Language models are few-shot learners[DB/OL]. [2023-07-13].

[38]

Carion N, Massa F, Synnaeve G, et al. End-to-end object detection with transformers[C]∥Computer Vision-ECCV 2020: 16th European Conference, Berlin: Springer, 2020: 213-229.

[39]

Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[DB/OL]. [2023-07-13].

[40]

Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: Transformers for image recognition at scale [DB/OL]. [2023-07-13].

[41]

Arnab A, Dehghani M, Heigold G, et al. Vivit: a video vision transformer[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, TN, USA, 2021: 6836-6846.

[42]

Ho J, Kalchbrenner N, Weissenborn D, et al. Axial attention in multidimensional transformers [DB/OL]. [2023-07-13].

[43]

Lee J, Lee Y, Kim J, et al. Set transformer: a framework for attention-based permutation-invariant neural networks[C]∥International Conference on Machine Learning, Long Beach, California, USA, 2019: 3744-3753.

[44]

Bello I, Zoph B, Vaswani A, et al. Attention augmented convolutional networks[C]∥IEEE/CVF International Conference on Computer Vision, Seoul, Korea, 2019: 3286-3295.

[45]

Srinivas A, Lin T Y, Parmar N, et al. Bottleneck transformers for visual recognition[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, TN, USA, 2021: 16519-16529.

[46]

Hung W C, Kretzschmar H, Lin T Y, et al. Soda: Multi-object tracking with soft data association[DB/OL]. [2023-07-13].

[47]

Ramachandran P, Parmar N, Vaswani A, et al. Stand-alone self-attention in vision models[DB/OL]. [2023-07-13].

[48]

Tay Y, Dehghani M, Abnar S, et al. Long range arena: a benchmark for efficient transformers [DB/OL]. [2023-07-13].

[49]

Tay Y, Dehghani M, Bahri D, et al. Efficient transformers: a survey[J]. ACM Computing Surveys, 2022, 55(6): 1-28.

[50]

He K, Chen X, Xie S, et al. Masked autoencoders are scalable vision learners[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, LA, USA, 2022: 16000-16009.

[51]

Giuliari F, Hasan I, Cristani M, et al. Transformer networks for trajectory forecasting[C]∥International conference on pattern recognition (ICPR), Montréal, QC, Canada, 2021: 10335-10342.

[52]

Zhou Z, Ye L, Wang J, al et, Hivt: hierarchical vector transformer for multi-agent motion prediction[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, LA, USA, 2022: 8823-8833.

[53]

Jung C, Lee D, Lee S, et al. V2X communication-aided autonomous driving: system design and experimental validation[J]. Sensors, 2020, 20(10): No.2903.

[54]

Deng R, Di B, Song L. Cooperative collision avoidance for overtaking maneuvers in cellular V2X-based autonomous driving[J]. IEEE Transactions on Vehicular Technology, 2019, 68(5): 4434-4446.

[55]

Chang M F, Lambert J, Sangkloy P, al et, Argoverse: 3D tracking and forecasting with rich maps[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, CA, USA, 2019: 8748-8757.

[56]

Houston J, Zuidhof G, Bergamini L, al et, One thousand and one hours: self-driving motion prediction dataset[C]∥Conference on Robot Learning, London, UK, 2021: 409-418.

[57]

Ettinger S, Cheng S, Caine B, et al. Large scale interactive motion forecasting for autonomous driving: the waymo open motion dataset[C]∥IEEE/CVF International Conference on Computer Vision, Montreal, BC, Canada, 2021: 9710-9719.

[58]

Caesar H, Bankiti V, Lang A H, et al.Nuscenes: a multimodal dataset for autonomous driving[C]∥IEEE/CVF Conference on Computer Cision and Pattern Recognition, Seattle, WA, USA, 2020: 11621-11631.

[59]

Dosovitskiy A, Ros G, Codevilla F, et al. CARLA: an open urban driving simulator[C]∥Conference on Robot Learning, Mountain View, California, 2017: 1-16.

基金资助

国家自然科学基金项目(62272194)

AI Summary AI Mindmap
PDF (2214KB)

242

访问

0

被引

详细

导航
相关文章

AI思维导图

/