基于环境表征的强化学习自动驾驶策略

罗玉涛; 薛志成

doi:10.13229/j.cnki.jdxbgxb.20231428

吉林大学学报(工学版) ›› 2025, Vol. 55 ›› Issue (10) : 3169 -3179. DOI: 10.13229/j.cnki.jdxbgxb.20231428

交通运输工程·土木工程

基于环境表征的强化学习自动驾驶策略

罗玉涛 ¹^,² ,
薛志成 ¹^,²

作者信息 +

Autonomous driving policy based on reinforcement learning with environment representation

Yu-tao LUO ¹^,² ,
Zhi-cheng XUE ¹^,²

Author information +

文章历史 +

PDF (4466K)

摘要

针对现阶段强化学习方法在自动驾驶应用中存在的数据效率低、场景适应性差问题，提出了一种基于环境表征的强化学习自动驾驶策略。首先，设计驾驶环境表征模型，结合多头注意力、卷积神经网络和长短期记忆网络从连续视觉输入中提取时空特征，并采用变分自编码器对鸟瞰图输入进行降维处理。其次，融合测量信息构成驾驶环境的综合表征。最后，将表征模型与多种经典的强化学习方法结合，并在Carla中进行仿真实验。结果表明，本文表征模型能够显著提升驾驶策略的学习效率，完成多种动静态驾驶任务，提升了智能体决策的准确性和不同场景的适应性。

Abstract

Aiming at the problems of low data efficiency and poor scene adaptability of current reinforcement-learning methods in autonomous-driving applications， an environment-representation-based reinforcement-learning strategy for self-driving is proposed. First， a driving-environment representation model is devised： multi-head attention， convolutional neural networks and long short-term memory networks are combined to extract spatio-temporal features from consecutive visual inputs， while a variational auto-encoder is employed to reduce the dimensionality of bird’s-eye-view inputs. Second， measurement information is fused to form a comprehensive representation of the driving environment. Finally， the representation model is integrated with several classical reinforcement-learning algorithms and evaluated in CARLA simulation. Results show that the proposed representation model markedly improves the learning efficiency of driving policies， accomplishes diverse dynamic and static driving tasks， and enhances both the accuracy of agent decisions and adaptability to different scenarios.

Graphical abstract

关键词

车辆工程 / 自动驾驶 / 环境表征 / 强化学习 / 驾驶策略

Key words

vehicle engineering / autonomous driving / environment representation / reinforcement learning / driving policy

引用本文

引用格式 ▾

罗玉涛,薛志成. 基于环境表征的强化学习自动驾驶策略[J]. 吉林大学学报(工学版), 2025, 55(10): 3169-3179 DOI:10.13229/j.cnki.jdxbgxb.20231428

登录浏览全文

4963

注册一个新账户忘记密码

0 引　言

城市环境中的自动驾驶是一项具有挑战性的任务，智能体需要应对变化的交通流，并处理复杂的道路拓扑和交互行为。经典的基于规则的方法在动态驾驶环境中变得繁琐且复杂，需要制定大量的规则和逻辑，且缺乏灵活性^［1］。相较于规则式方法，端到端自动驾驶系统直接从数据中学习驾驶，避免了繁琐的手工规则制定，降低了系统的复杂度^［2］。

强化学习（Reinforcement learning， RL）作为一种自主学习方法，通过智能体与环境的互动学习策略，近年来被广泛应用于自动驾驶。Kendall等^［3］首次利用深度确定性策略梯度（Deep deterministic policy gradient， DDPG）算法，在真实车辆上实现了简单的车道跟随任务。Dosovitskiy等^［4］在Carla中构建了RL智能体，但其驾驶性能相对较差。杨顺等^［5］基于RL设计控制器，在TORCS模拟器中实现了较好的车速和车辆横向偏移控制。陈鑫等^［6］搭建了基于深度强化学习算法的泊车框架，提升了自动泊车的安全性和健壮性。Chen等^［7］结合DDQN、SAC等经典RL方法，优化了环岛场景下的驾驶策略。尽管RL方法在应对单一驾驶任务方面取得了成功，但其对复杂驾驶环境的适应性仍较为有限。

RL需要与环境进行大量的探索与互动，导致算法的数据效率较低。此外，复杂驾驶场景的高维状态空间进一步增加了算法的收敛难度。鉴于此，Wu等^［8］提出了一种双源经验收集机制，基于切换标准从RL模型和传统规划器中交替收集经验样本，改进了智能体的探索进程。Liang等^［9］结合专家经验，利用先验知识限制RL智能体的探索行为，提高了算法的前期探索效率。Han等^［10］提出了一种稀疏模仿强化学习策略，通过融合稀疏专家策略和RL策略生成混合驾驶策略，促进智能体更加安全的探索。然而，这些研究严重依赖专家知识，泛化性能较差。因此，一些学者建议采用表征学习方法对交通环境进行特征提取和融合，以促进驾驶策略的学习。典型的如SpiltNet模型^［11］，该模型将视觉特征提取从策略学习中分离出来，学习到更加鲁棒的环境特征，促进机器人的导航和场景探索。文献［12-14］采用辅助任务预测关键感知指标，通过中间表示改善策略学习进程。Kargar等^［15］扩展了变分自编码器（Variational autoencoder， VAE），提出一种具有鸟瞰图（Bird's eye view， BEV）输入和任务相关预测头的多头VAE模型，增强了环境表征的信息丰富度。徐国艳等^［16］以多传感器融合数据作为状态输入，降低了状态空间维度，改善了算法的收敛性能。王忠立等^［17］将BEV、视觉和激光雷达信息编码为潜在空间表示，将其重构后作为RL算法的输入，加速驾驶策略的学习。周治国等^［18］改进深度Q学习，增加长短期记忆（Long short-term memory， LSTM）网络保存时间信息，并设定经验回放池阈值加速算法收敛，相比原始Q学习和DQN算法收敛步数分别减少69.1%和24.8%。Chitta等^［19］利用Transformer对RGB图片和雷达BEV进行特征融合，基于此学习得到的驾驶策略在Carla的NoCrash基准测试中达到了先进性能。上述表征方法虽在一定程度上促进了驾驶策略学习，但对于场景特征的挖掘仍不够深入。

综上，目前RL在自动驾驶中的应用仍存在如下问题：①场景适应能力较弱，主要针对简单任务；②大量的探索导致算法收敛速度慢、数据效率低；③高维动态驾驶环境具有庞大的状态空间，加剧策略学习的难度。对此，本文提出一种基于环境表征的RL自动驾驶策略，解耦特征提取和策略学习。首先，结合卷积、注意力、LSTM网络和VAE网络设计环境表征模型，将高维驾驶环境抽象为综合表征，优化策略学习的状态空间。其次，将表征模型与多种RL方法结合，促进驾驶策略的学习，提升自动驾驶智能体的决策能力和场景适应性。

1 基于环境表征的RL自动驾驶策略

1.1　总体架构

图1为本文提出的基于环境表征的RL自动驾驶策略框架，包括输入信息、环境表征模型、RL策略学习网络及仿真环境4个组件。其中，环境表征模型负责对多源输入进行特征提取和融合，生成交通场景的综合表征，并将其作为RL网络的状态输入，以促进驾驶策略的高效学习。

输入信息由3个关键部分组成（如图1所示）：第一部分为连续5个时间步的前视相机RGB图像，通过引入时序信息以捕捉环境的动态变化；第二部分整合了BEV的4类信息，包括主车状态、其他车辆状态、全局路径和道路信息；第三部分为测量信息

m t = {d, θ, v, m}

，其中，

d 、 θ 、 v 、 m

分别为主车到目标航路点的距离偏差、航向角偏差、主车速度及一个指示车辆前方15 m内是否有障碍物的标志。多源输入提供了丰富的场景信息，有助于模型做出更准确的决策。

在环境表征模型中，首先，设计了一个带有多头注意力的卷积-长短期记忆网络（LSTM Attention CNN， LANN），用于提取连续视觉输入的时空特征信息，并输出

t

时刻LSTM层的隐藏状态

h t

作为全局上下文感知。其次，利用VAE模型对BEV输入进行降维，将高维输入压缩到潜在空间

z t

，以提取关键信息并减少冗余。最后，利用concatenate将上述两部分信息与测量信息

m t

融合，得到RL网络的状态输入

s t

，即：

s t = h t ⊕ z t ⊕ m t

（1）

式中：

⊕

表示特征维度的拼接。

所得状态

s t

构成了智能体对整个交通环境和道路网络的综合感知和理解，既包含丰富场景信息，又具备相对较低的维度。

1.2　环境表征模型

1.2.1　LANN网络

环境表征模型由LANN网络和VAE网络组成，分别负责对视觉输入和BEV输入进行特征提取。首先，LANN网络采用轻量级CNN结构，包含5个卷积层，如表1所示，旨在初步提取视觉特征。每层卷积后均经批标准化层（batchnorm）和Leaky ReLU激活函数处理。CNN接收尺寸为256×256的RGB图像作为输入，经过卷积处理后，生成64通道的8×8特征图。

将每个通道的特征图展平后，获得

t

时刻各空间区域的特征向量

x t

，即：

x t = (x t 1, x t 2, …, x t n)

（2）

式中：

n = 64

为空间区域向量的个数，且各向量维度均为64。

LANN网络的计算流如图2所示，空间区域向量

x t

描述各区域的特征，上一时刻LSTM网络的隐藏状态

h t - 1

作为全局上下文特征。通过多头注意力机制（M-Att），网络可针对不同区域分配权重，实现对交通场景特征的选择性提取，帮助智能体更好地聚焦于关键区域和特征。其中，第

i

个注意力头的查询（query）、键（key）和值（value）计算如下：

q i = h t - 1 w q i, q i ∈ R L t × d h k i = x t w k i, k i ∈ R L s × d h v i = x t w v i, v i ∈ R L s × d h

（3）

式中：

w

为相应的权重变换矩阵；

L t = 1

为目标序列长度；

L s

=64为源序列长度；

d h

为每个注意力头的维度。

d h

与注意力头数

n

具有如下关系：

d h = d e m b / n

（4）

式中：

d e m b

为嵌入维度；

n

为注意力头数。考虑计算效率和模型性能，取

d e m b = 256

，

n = 4

。利用缩放点积注意力函数计算第

i

个注意力矩阵为：

h e a d i = s o f t m a x q i ⋅ (k i) T d h ⋅ v i

（5）

最后，将

n

个注意力矩阵拼接，通过线性变换计算出多头注意力层的输出，即：

y t = c o n c a t (h e a d 1, h e a d 2, …, h e a d n) ⋅ w o

（6）

y t ∈ R L t × d e m b

对于无人驾驶系统而言，时序信息也是必不可少的。本文采用LSTM网络对时间序列进行建模，使模型能够保存历史信息，并预测周围环境的变化。LSTM网络由遗忘门

f t

、输入门

i t

、输出门

o t

、候选记忆单元

g t

、细胞值

c t

和隐藏状态

h t

组成。其输入为上一时刻的细胞值

c t - 1

、隐藏状态

h t - 1

，以及当前时刻注意力层输出

y t

。利用式（7）~式（12），将经过卷积-注意力层提取的特征与时序信息关联，输出全局上下文特征

h t

。

i t = σ (w i i y t + b i i + w h i h t - 1 + b h i)

（7）

f t = σ (w i f y t + b i f + w h f h t - 1 + b h f)

（8）

g t = t a n h (w i g y t + b i g + w h g h t - 1 + b h g)

（9）

o t = σ (w i o y t + b i o + w h o h t - 1 + b h o)

（10）

c t = f t ⊙ c t - 1 + i t ⊙ g t

（11）

h t = o t ⊙ t a n h (c t)

（12）

式中：

w

和

b

分别为对应的权重向量和偏置；

σ

为sigmoid激活函数；

t a n h

为双曲正切激活函数；

⊙

表示按元素相乘。

为了改善训练性能，采用与自动驾驶强相关的油门和车速预测作为辅助任务，通过计算预测值和真实值之间的MSE损失训练网络，即：

l o s s = 1 K ∑ i = 1 K [α (v t r u e i - v p r e d i) 2 + β (t t r u e i - t p r e d i) 2]

（13）

式中：

t t r u e i

和

v t r u e i

分别为油门和车速的真实值；

t p r e d i

和

v p r e d i

分别为油门和车速的预测值；

K

为样本数；

α

和

β

为两部分损失所占的权重。

1.2.2　VAE网络

利用VAE对BEV输入进行降维，将数据映射到低维潜在空间。VAE采用变分推断学习潜在变量的概率分布，其输入数据为

x

，潜在变量为

z

，通过编码器网络

q (z | x)

将

x

映射到潜在变量的后验分布，并利用KL散度衡量两个分布的差异，即：

K L (q (z | x) | | p (z)) = - 12 ∑ j = 1 J (1 + l o g σ j 2 - μ j 2 - σ j 2)

（14）

式中：

p (z)

为潜在变量的先验分布，通常假设其服从正态分布；

J

为潜在变量的维度；

μ j

和

σ j

分别为潜在变量的均值和标准差。

解码器

p (x | z)

则将潜在变量

z

映射回输入数据空间，通过重构损失衡量重建效果，即：

l o g p (x | z) = - 1 2 σ k 2 x - x r e c 2 - l o g σ k - d 2 l o g 2 π

（15）

式中：

x r e c

为由潜在变量

z

重建生成的样本；

σ k

为解码器网络输出的标准差；

d

为输入数据的维度。VAE的目标是最大化对数似然下的证据下界（Evidence lower bound， ELBO），即：

E L B O (x) = E q (z | x) [l o g p (x | z) - K L (q (z | x) | | p (z)]

（16）

式中：

E q (z | x) (⋅)

表示数学期望。

VAE网络的结构如图3所示。

编码器对潜在变量

z

的分布（即均值

μ

和方差

σ

）进行建模，利用卷积层提取特征，每层卷积后均经batchnorm标准化和LeakyReLU激活。解码器利用转置卷积进行上采样以恢复特征图尺寸，然后通过卷积层调整通道数对BEV输入进行重建。通过式（16）定义的目标优化网络参数，VAE将3通道64×64的BEV输入映射到256维度的低维潜在空间。

1.3　RL驾驶策略学习

根据学习目标的不同，RL可分为基于值的方法（Value-based method）和基于策略的方法（Policy-based method）。通常，基于值的方法在处理离散动作空间任务时表现较为出色，而在涉及自动驾驶等具有连续动作空间任务时则难以应对。因此，在自动驾驶中，更常采用基于策略的方法，如深度确定性策略梯度（Deep deterministic policy gradient， DDPG）、双延迟深度确定性策略梯度（Twin delayed deep deterministic policy gradient， TD3）软演员评论家（Soft actor-critic， SAC）等算法，以更有效地应对连续动作空间的挑战。

采用马尔可夫决策过程建模RL，形式化为五元组

(S, A, P, R, γ)

。其中，

S

为状态空间，由环境表征模型给出；

A

为动作空间，即油门、转向和制动的控制量，用于实现端到端驾驶；

P

为状态转移概率，由环境决定；

R

为奖励函数，将在下文描述；

γ

为折扣因子，是网络的超参数。如图4所示，智能体在

t

时刻获取环境的状态输入，决策出相应的动作，并获得奖励，然后环境依据状态转移概率更新到下一时刻。智能体的目标是通过最大化式（17）中的预期回报，学习驾驶策略。

π = a r g m a x π 𝔼 π ∑ t = 0 ∞ γ t R t

（17）

式中：

π

为智能体的策略，通常用

π (a | s)

表示，即智能体在状态

s

下采取动作

a

的概率。

在RL中，奖励函数具有关键作用，对算法的收敛速度及智能体的驾驶性能都有极为重要的影响。受Kendall等^［3］的工作启发，本文设计了如下多约束奖励函数：

r = r v - 0.5 × (r x + r φ) - r o - r c - 0.05 × r l - r s

（18）

式中：第一项

r v

为速度奖励项，当速度维持在最低车速和目标车速之间时，可以获得最高的奖励，车速过低或过高奖励都会衰减；第二、三项

r x

和

r φ

分别为主车与目标航路点的距离偏差和角度偏差的绝对值；当主车偏离目标车道超过设定阈值时，第四项

r o

其取值为1，否则为0，第二、三、四项主要用于惩罚车辆的偏航行为，引导车辆尽量保持在目标车道上行驶；第五项

r c

为碰撞惩罚，当发生碰撞时其取值为1，否则为0；第六项

r l

为低速惩罚，当车速低于0.5 m/s时其取值为1，否则为0，用于防止智能车辆因过于保守而陷入停滞状态；最后一项

r s

为转向控制量的平方，用于惩罚频繁转向行为，保持车辆行驶时的舒适性和稳定性。

r v = v v m i n, v < v m i n 1, v m i n ≤ v ≤ v t g t 1.0 - v - v t g t v m a x - v t g t, v > v t g t

（19）

式中：

v m i n = 20 k m / h, v m a x = 30 k m / h, v t g t = 25

km/h。

2 仿真实验及结果分析

2.1　实验环境

本实验在由Intel Core i9-13900K CPU和Nvidia RTX 3090 GPU组成的硬件平台上开展，操作系统为Ubuntu20.04，采用Python3.6和Pytorch1.10构建模型，驾驶模拟器为Carla0.9.13。

2.2　表征网络预训练

遵循文献［20］的路线和场景设置，使用Carla自带的Autopilot模式在8张地图上采集专家驾驶数据，以对表征模型进行预训练。数据集包含前视相机和BEV图像，以及相应的测量信息和控制命令，约23万帧，相当于30 h的驾驶数据。

数据采集完成后，按8∶2比例划分为训练集和验证集，按照式（13）定义的油门和车速预测任务对LANN网络进行预训练，预训练结果如图5所示。通过预训练，验证集上车速预测损失下降到0.22，油门预测损失下降到0.09，网络已具备了良好的表征性能。对于VAE网络，则采用BEV重建任务进行训练，图6（a）为原始BEV输入，图6（b）为重建BEV效果。重建后的图像虽然清晰度有所降低，但主车、全局路径、道路结构等主要信息仍得以保留。这表明训练后的VAE成功捕捉和保留了场景的关键特征，达到了去除冗余、降低维度的目地。综上，经过预训练，表征网络能够为下游的策略学习提供有效的状态输入。

2.3　驾驶策略训练及结果分析

2.3.1　RL训练设置

为了验证环境表征模型对驾驶策略学习的促进作用，将本文表征模型与经典的基于策略的RL方法DDPG、TD3、SAC集成，进行RL策略训练。本实验选用Carla的Town03作为训练地图，天气设置为晴朗正午，每回合主车随机选择出生点和目标点，并在地图中随机添加100辆Autopilot车辆，以模拟随机多样的驾驶场景。RL训练的超参数设置如表2所示，并设置如下终止条件，当触发终止条件时，开始下一回合的训练：①主车发生碰撞；②主车成功到达目的地；③达到每回合的步数上限；④偏离目标车道超过设定阈值。

2.3.2　RL驾驶策略训练结果

为验证本文表征模型的有效性，将本文表征模型与直接在原始前视图像上训练的模型（原始）及文献［15］中以CNN作为表征的模型（CNN）进行对比。将3种方法分别集成到DDPG、TD3、SAC中并进行训练，得到如图7（a）~（c）所示的训练结果。

图7中的结果显示，在3种RL策略上，原始方法经过短暂探索后，学习陷入停滞，奖励值无法增长。这是因为原始方法直接在前视图像上训练，状态空间过于庞大，难以提取有效信息，导致策略学习困难。CNN方法虽进行了一些有效的探索，但奖励值增长较为缓慢。这表明CNN虽然具有一定的表征能力，但未能捕捉到足够丰富的场景信息，表达能力受限。相较之下，本文表征模型奖励值增长平稳且迅速，在训练初期的100个回合内奖励值就增长到0以上。3种RL策略的训练结果一致表明，本文表征模型能够更有效地提取和利用驾驶场景中的关键信息，为RL算法提供更丰富的状态表示，从而加速驾驶策略的学习。

为进一步评估本文表征模型对策略学习的影响，将本文完整表征模型与仅采用视觉输入的模型、仅采用BEV输入的模型进行对比。将3个表征模型分别集成到DDPG、TD3和SAC策略中并进行训练，得到如图8（a）~（c）所示的实验结果。以DDPG策略为例，对应模型分别命名为基于环境表征的DDPG模型（Environment representation-based DDPG，ER-DDPG）、基于视觉特征的DDPG模型（Visual-based DDPG， V-DDPG）、基于BEV特征的DDPG模型（BEV-based DDPG， B-DDPG）。所有模型均进行35万步迭代训练，训练完成后的平均步长奖励值记录于表3中。

分析图8和表3的实验结果可得，仅采用BEV输入的模型奖励值增长较为缓慢，在DDPG和TD3策略上的平均奖励值仍为负值。相比之下，采用视觉输入的模型取得了较好的学习效果，在DDPG和TD3策略上前期学习速率较快，但训练过程中的方差较大。总体而言，完整表征模型的平均奖励曲线增长不仅快速且稳定，同时方差较小，训练的稳定性和一致性较高。在3种策略上，完整表征模型的平均奖励值分别超过基于视觉特征的模型11.7%、7.4%和20.8%。这表明本文表征模型能够综合利用场景信息，具有策略学习效率高、训练一致性好的优势。

2.4　驾驶策略性能测试

2.4.1　测试场景设置

为评估表征模型对RL策略驾驶性能的影响，在Carla中定义了如图9所示的4条路线，其中A为起点、B为目标点。路线1、2为环岛场景，采用与训练时相同的Town03地图；路线3为高速公路场景，路线4为十字路口场景，采用训练时“未见过”的Town05地图。基于SAC策略，评估表征模型对驾驶性能的影响。

2.4.2　静态场景测试及结果分析

采用2.4.1节中的路线2环岛场景和路线3高速公路场景开展静态场景测试，测试过程中除主车外不添加其他车辆，主要目的是评估策略的基本驾驶性能和路径跟踪能力。环岛场景的测试结果如图10（a）~（c）所示，高速公路场景的测试结果如图10（d）~（f）所示。为了更清楚地显示，图10（d）只绘制了部分行驶轨迹。此外，将行驶过程中的平均车速、平均奖励，以及到车道中心的最大偏差、平均偏差记录于表4中。

分析图10和表4的结果可知，在环岛场景下，3种算法均能实现基本驾驶功能，成功到达目的地。其中，完整表征模型ER-SAC表现出良好的驾驶性能，平均车速为5.84 m/s，维持在奖励函数设定的目标范围内，最大偏差为0.457 m，平均偏差为0.087 m，能够快速准确地跟踪路径。相较之下，V-SAC和B-SAC行驶过程中偏差较大，奖励值也出现多次较大波动，驾驶品质不佳。在高速公路场景下，B-SAC在弯道出口直接偏离目标车道，导致任务失败，说明其在新地图场景上的泛化性能不足。V-SAC则保持了0.031 m的最小平均偏差，获得了最高的平均奖励。相对地，ER-SAC由于车速较高，导致平均偏差略大，平均奖励值比V-SAC低1.1%，但已满足自动驾驶需求。ER-SAC在两个场景测试下均保持了最高的平均速度，尤其在一直连续转向的环岛场景下表现更佳。这表明本文表征模型能够有效表征环境，完成基本驾驶任务、快速准确地跟踪路径，驾驶性能良好。

2.4.3　动态场景测试及结果分析

为评估表征模型在复杂交互场景下的驾驶性能，采用2.4.1节中的路线1和路线4进行测试。路线1为Town03地图的中央环岛，路线4为Town05地图的两个十字路口，二者均具有较高的动态车流。测试时设置两种天气条件：一是与训练时相同的晴朗正午天气；二是夜间伴有强降雨和大雾的恶劣天气。动态测试中其他车辆数量设置为100，以模拟密集的交通流。每条路线均进行10次测试，并统计平均路线完成度、任务成功次数、碰撞次数、偏离目标车道次数及超时次数5项指标，测试结果如表5~表8所示。

根据表5和表6结果可得，在良好天气条件下，ER-SAC实现了最高的路线完成度和任务成功率，在两个场景下的路线完成度分别达到100%和92.4%，仅在十字路口发生1次碰撞，展现了出色的动态场景驾驶能力。而V-SAC和B-SAC在十字路口场景下均出现了多次碰撞行为，路线完成度分别为81.9%和85.1%，在动态场景下的决策能力不佳。此外，B-SAC在环岛场景下还出现了1次超时，因无法做出有效的决策，陷入了“机器人冻结”状态。良好天气下的测试结果表明，本文方法通过环境表征模型，能够在增强智能体感知能力的基础上，提升决策准确性。

恶劣天气条件下的测试结果见表7和表8。对ER-SAC而言，与良好天气相比，恶劣天气条件仅造成智能体在十字路口场景下的碰撞次数增加1次，平均路线完成度下降3.9%，而在环岛场景下仍保持100%的路线完成度。相较之下，V-SAC在十字路口场景下发生5次碰撞和1次偏离目标车道，路线完成度下降11.2%，在环岛场景下路线完成度则下降7.8%，受恶劣天气的影响较为严重。B-SAC由于采用BEV输入，受恶劣天气的影响较小。总的来说，本文方法通过多源输入融合表征，综合利用场景信息，能够生成更为安全、准确的决策行为，对恶劣天气条件也具有一定的鲁棒性。

3 结束语

本文提出一种基于环境表征的RL自动驾驶策略，解耦特征提取和策略学习。在环境表征模型中，设计了一种包含卷积、注意力、LSTM和VAE的表征网络，深度挖掘和融合场景信息，形成交通环境的综合表征，促进下游驾驶策略学习任务。将表征模型与基于策略的RL方法DDPG、TD3和SAC集成，并在Carla中搭建仿真环境，验证了表征模型能够显著提升策略学习的效率。此外，动静态多场景测试结果表明，表征模型能够在增强智能体感知能力的基础上，提升决策的准确性和场景适应性。

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	Elallid B B, Benamar N, Hafid A S, et al. A comprehensive survey on the application of deep and reinforcement learning approaches in autonomous driving[J]. Journal of King Saud University-Computer and Information Sciences, 2022, 34(9): 7366-7390.

[2]	Aradi S. Survey of deep reinforcement learning for motion planning of autonomous vehicles[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 23(2): 740-759.

[3]	Kendall A, Hawke J, Janz D, et al. Learning to drive in a day[C]∥International Conference on Robotics and Automation(ICRA), Piscataway, USA, 2019: 8248-8254.

[4]	Dosovitskiy A, Ros G, Codevilla F, et al. CARLA: An open urban driving simulator[C]∥Proceedings of the 1st Annual Conference on Robot Learning,New York, USA, 2017: 1-16.

[5]	杨顺, 蒋渊德, 吴坚, 等. 基于多类型传感数据的自动驾驶深度强化学习方法[J]. 吉林大学学报:工学版, 2019, 49(4): 1026-1033.

[6]	Yang Shun, Jiang Yuan-de, Wu Jian, et al. Autonomous driving policy learning based on deep reinforcement learning and multi-type sensor data[J]. Journal of Jilin University(Engineering and Technology Edition), 2019, 49(4): 1026-1033.

[7]	陈鑫, 兰凤崇, 陈吉清. 基于改进深度强化学习的自动泊车路径规划[J]. 重庆理工大学学报:自然科学版, 2021, 35(7): 17-27.

[8]	Chen Xin, Lan Feng-chong, Chen Ji-qing. Deep reinforcement learning based trajectory planning for automatic parking[J]. Journal of Chongqing University of Technology(Natural Science Edition), 2021, 35(7): 17-27.

[9]	Chen J, Yuan B, Tomizuka M. Model-free deep reinforcement learning for urban autonomous driving[C]∥IEEE Intelligent Transportation Systems Conference(ITSC), Piscataway,USA, 2019: 2765-2771.

[10]	Wu K Y, Wang H, Esfahani M A, et al. Learn to navigate autonomously through deep reinforcement learning[J]. IEEE Transactions on Industrial Electronics, 2021, 69(5): 5342-5352.

[11]	Liang X D, Wang T R, Yang L N, et al. CIRL: controllable imitative reinforcement learning for vision-based self-driving[C]∥Proceedings of the European Conference on Computer Vision, Munich, Germany, 2018: 584-599.

[12]	Han Y C, Yilmaz A. Learning to drive using sparse imitation reinforcement learning[C]∥The 26th International Conference on Pattern Recognition, Piscataway, USA, 2022: 3736-3742.

[13]	Gordon D, Kadian A, Parikh D, et al. SplitNet: Sim2sim and task2task transfer for embodied visual navigation[C]∥Proceedings of the IEEE/CVF International Conference on Computer Vision, Piscataway, USA, 2019: 1022-1031.

[14]	Toromanoff M, Wirbel E, Moutarde F. End-to-end model-free reinforcement learning for urban driving using implicit affordances[C] ∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Piscataway, USA, 2020: 7151-7160.

[15]	Mehta A, Subramanian A, Subramanian A. Learning end-to-end autonomous driving using guided auxiliary supervision[C]∥Proceedings of the 11th Indian Conference on Computer Vision, Graphics and Image Processing, Sofia, Bulgaria, 2020: 1-8.

[16]	Agarwal T, Arora H, Schneider J. Learning urban driving policies using deep reinforcement learning[C]∥IEEE International Intelligent Transportation Systems Conference(ITSC), Beijing,China, 2021: 607-614.

[17]	Kargar E, Kyrki V. Increasing the efficiency of policy learning for autonomous vehicles by multi-task representation learning[J]. IEEE Transactions on Intelligent Vehicles, 2022, 7(3): 701-710.

[18]	徐国艳, 宗孝鹏, 余贵珍, 等. 基于 DDPG 的无人车智能避障方法研究[J]. 汽车工程, 2019, 41(2): 206-212.

[19]	Xu Guo-yan, Zong Xiao-peng, Yu Gui-zhen, et al. A research on intelligent obstacle avoidance of unmanned vehicle based on DDPG algorithm[J]. Automotive Engineering, 2019, 41(2): 206-212.

[20]	王忠立, 王浩, 申艳, 等. 一种多感知多约束奖励机制的驾驶策略学习方法[J]. 吉林大学学报:工学版, 2022, 52(11): 2718-2727.

[21]	Wang Zhong-li, Wang Hao, Shen Yan, et al. A driving decision⁃making approach based on multi⁃sensing and multi⁃constraints reward function[J]. Journal of Jilin University(Engineering and Technology Edition), 2022, 52(11): 2718-2727.

[22]	周治国, 余思雨, 于家宝, 等. 面向无人艇的 T-DQN 智能避障算法研究[J]. 自动化学报, 2023, 49(8): 1645-1655.

[23]	Zhou Zhi-guo, Yu Si-yu, Yu Jia-bao, et al. Research on T-DPN intelligent obstacle avoidance algorithm of unmanned surface vehicle[J]. Acta Automatica Sinica, 2023, 49(8): 1645-1655.

[24]	Chitta K, Prakash A, Jaeger B, et al. TransFuser: Imitation with transformer-based sensor fusion for autonomous driving[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(11): 12878-12895.

[25]	Shao H, Wang L T, Chen R B, et al. Safety-enhanced autonomous driving using interpretable sensor fusion transformer[C]∥Conference on Robot Learning,Auckland, New Zealand, 2023: 726-737.

基金资助

工信部制造业高质量发展专项项目(R-ZH-023-QT-001-20221009-001)

广州市科技计划项目(2023B01J0016)

AI Summary AI Mindmap

PDF (4362KB)

访问

被引

详细

导航

Received	Accepted	Published
2023-12-20
Issue Date
2026-06-15

摘要

Abstract

Graphical abstract

关键词

Key words

引用本文

0 引 言

1 基于环境表征的RL自动驾驶策略

1.1 总体架构

1.2 环境表征模型

1.2.1 LANN网络

1.2.2 VAE网络

1.3 RL驾驶策略学习

2 仿真实验及结果分析

2.1 实验环境

2.2 表征网络预训练

2.3 驾驶策略训练及结果分析

2.3.1 RL训练设置

2.3.2 RL驾驶策略训练结果

2.4 驾驶策略性能测试

2.4.1 测试场景设置

2.4.2 静态场景测试及结果分析

2.4.3 动态场景测试及结果分析