融合多源时空信息鸟瞰图的未来实例分割预测

冯霞; 陈爽; 卢敏; 左海超

doi:10.13229/j.cnki.jdxbgxb.20231460

吉林大学学报(工学版) ›› 2025, Vol. 55 ›› Issue (10) : 3372 -3383. DOI: 10.13229/j.cnki.jdxbgxb.20231460

计算机科学与技术

融合多源时空信息鸟瞰图的未来实例分割预测

冯霞 ¹^,²^,³ ,
陈爽 ²^,³ ,
卢敏 ²^,³ ,
左海超 ²^,³

作者信息 +

Future instance segmentation prediction based on bird’s eye view of multi-source spatiotemporal information fusion

Xia FENG ¹^,²^,³ ,
Shuang CHEN ²^,³ ,
Min LU ²^,³ ,
Hai-chao ZUO ²^,³

Author information +

文章历史 +

PDF (1596K)

摘要

针对现有实例分割存在的难以识别被遮挡对象、对噪声和视角变化鲁棒性不够等问题，提出了一种融合多源时空信息的场景细粒度鸟瞰图生成方法（MSTFB）。该方法首先基于栅格化场景鸟瞰图，采用自注意力机制融合时序鸟瞰图特征，通过时空跨域卷积网络捕获实例间相对位置并聚合多尺度特征，得到场景细粒度鸟瞰图。在此基础上，又提出了一种融合时序编码和样本特征的鸟瞰图实例分割预测方法（ESF-BISP），采用ConvGRU对历史帧进行时序语义编码得到时序特征，通过条件变分自编码器生成当前帧细粒度鸟瞰图的状态特征分布并采样鸟瞰图的样本特征，再利用高斯混合模型融合鸟瞰图时序特征和样本特征，经解码得到未来帧场景细粒度鸟瞰图。在公开数据集nuScenes上的实验结果表明，MSTFB方法和基准算法LSS相比，车辆分割IoU指标提升了7.09%，能有效分割远端车辆和被遮挡车辆；ESF-BISP能更好地捕获场景中动态实例的变化，无论是用于实例分割，还是用于未来实例分割预测，其性能都显著优于基准算法。

Abstract

Aiming at the problems of difficult identification of occluded objects and insufficient robustness to noise and viewing angle changes in existing instance segmentation， this paper proposes a method of multi-source spatio-temporal information based fine-grained bird's-eye view generation（MSTFB）. The method is based on a rasterized scene bird's eye view， the self-attention mechanism is utilized to fuse temporal bird's eye view features to obtain the scene fine-graine bird's eye view， and the spatiotemporal cross-domain convolutional network is employed to capture the relative position information between instances and fuse the multi-scale features. On this basis， a bird's-eye view instance segmentation prediction method of encoding and sample fusion （ESF-BISP） is proposed. ConvGRU is used to encode the time series semantics of the historical frame to obtain the time series features， and CVAE is adopted to model the state feature distribution of the current frame fine-grained bird's eye view and sample the bird's eye view sample features， GMM is used to fuse the time series features and sample features of the bird's eye view， and then decode the fine-grained aerial view of the future frame scene. The experimental results on the public dataset nuScenes show that compared with the benchmark algorithm LSS， the vehicle segmentation IoU index of MSTFB method is improved by 7.09%， which can effectively segment remote vehicles and occluded vehicles. ESF-BISP can better capture the changes of dynamic instances in the scene， whether for instance segmentation or for future instance segmentation prediction， the performance is significantly better than the benchmark algorithm.

Graphical abstract

关键词

计算机应用技术 / 实例分割预测 / 鸟瞰图时序编码 / 多视角图像 / 时空跨域卷积网络

Key words

computer application technology / instance segmentation prediction / bird's eye view temporal encoding / multi-view images / spatiotemporal cross-domain convolutional networks

引用本文

引用格式 ▾

冯霞,陈爽,卢敏,左海超. 融合多源时空信息鸟瞰图的未来实例分割预测[J]. 吉林大学学报(工学版), 2025, 55(10): 3372-3383 DOI:10.13229/j.cnki.jdxbgxb.20231460

登录浏览全文

4963

注册一个新账户忘记密码

0 引言

未来实例分割预测主要指基于传感器数据中蕴含的运动实例历史轨迹和运动状态，结合环境信息理解场景语义内容，推测运动实例未来位置和行为。该技术对于具有环境不确定性、目标多样性等特征的自动驾驶运动预测和路径规划，具有显著作用。

实例分割主要采用深度学习技术，可分为自上而下基于目标检测的方法^［1-3］和自下而上基于语义分割的方法^［4-6］两大流派。早期实例分割主要依赖单视角单张图像信息，不仅难以准确分割被遮挡的物体，也无法识别视角变化导致的物体外观变化。随着自动驾驶技术的发展，逐渐有学者探索多源传感数据的融合分析，在生成场景鸟瞰图（Bird's eye view，Bev）的同时完成端到端实例分割。Deng等^［7］采用逆透视映射（Inverse perspective mapping，IPM）方法，将平面图像的语义分割结果映射到鸟瞰图空间，有效解决了自动驾驶相关的道路布局估计问题，但对汽车、行人等运动实例的分割性能欠佳。Lu等^［8］采用变分编码器-解码器（Variational encoder-decoder，VED）方法，直接从原始多视角图像中学习特征和语义，生成连续的场景鸟瞰图语义网格描述，但存在无法准确区分不同物体、车道线、行人等细节信息问题。Pan等^［9］利用视图解析网络（View parsing network，VPN）将多视角图像转换为鸟瞰图，实现了视图中物体和场景信息在鸟瞰图中较为准确的位置和语义标记，但未能对图像中的空间关系、上下文关系进行准确建模。Philion等^［10］采用Lift-Splat-Shoot（LSS）构建视锥体并生成3D特征，通过隐式投影将3D特征映射到鸟瞰图并完成语义分割，取得了较好的实例分割效果，但存在距离自车远端实例对象分割模糊、对噪声和视角变化的鲁棒性不够等问题。

随着研究的深入，融合多源传感数据的鸟瞰图未来实例分割预测逐渐受到关注，其主要任务是对未来时刻实例的状态和位置进行预测。当前，多数研究以激光雷达数据为基础，结合高清地图，通过编码约束及多源传感数据融合提高预测鲁棒性。Khalil等^［11］提出了MotionNet模型，采用体素化方式将点云数据分配到鸟瞰图中，并使用时空金字塔网络聚合特征以提高实例检测和预测的准确性。Hendy等^［12］提出了Fishing Net网络，通过学习特征的时序相关性实现对未来鸟瞰图的实例分割预测。总体来讲，此类研究均以雷达数据为关键数据源，但激光雷达和雷达传感器的部署成本都较高，且感知数据分辨率有限。近年来，基于多视角图像数据构建鸟瞰图，并实现精准未来实例分割预测，被学术界和产业界视为自动驾驶技术发展的趋势^［13］。

Akan等^［14］采用LSS方法将输入图像映射为鸟瞰图，采用随机残差方法学习相邻时间步鸟瞰图状态潜向量的变化，实现了未来时刻实例预测，但存在远端实例预测准确率不高的问题。Li等^［15］提出一种基于鸟瞰图的多实例感知和预测框架，该框架由基于2D卷积网络的并行多尺度模块和基于流变形的后处理模块组成，可产生更稳定的时序实例关联，但对于相邻实例间的分割预测缺乏鲁棒性。Hu等^［16］提出一种面向路径规划的端到端模型，结合感知信息中蕴含的知识预测自车未来路线，但存在算力要求较高的问题。Hu等^［17］提出一种以多视角图像为数据源的鸟瞰图未来实例分割预测方法，采用LSS构建视锥体，利用参数化概率分布拟合未来时刻实例状态特征，但该方法无法识别距离自车较远的实例，且远端实例分割模糊、实例分割预测效果欠佳。Yuan等^［18］提出循环神经网络ConvGRU，该网络引入卷积操作，可以同时学习时序关系和空间依赖关系，且能自适应选择需记忆和遗忘的信息，从而更好地理解场景中物体的动态变化，在视频、时间序列和运动等预测任务中都表现良好。基于此，本文在文献［17］的基础上，采用时空跨域卷积网络捕获实例间相对位置信息，通过ConvGRU网络建模动态实例的时序依赖关系，借助条件变分自编码器^［19］（Conditional variational autoencoder，CVAE）建模未来场景的不确定性，以期实现精准的未来实例分割。本文的主要贡献如下：

（1）提出了一种融合多源时空信息的场景细粒度鸟瞰图生成方法（Multi-source spatio-temporal information based fine-grained bird's-eye view generation，MSTFB）。该方法以场景栅格化鸟瞰图表示为基础，采用自注意力机制对场景时序特征进行融合，设计时空跨域卷积网络对包含空间信息的全局关键特征进行融合，最终生成场景细粒度鸟瞰图表示。该方法无需昂贵雷达信息就可实现准确的场景感知，为自动驾驶提供了新的选择。

（2）提出了一种融合时序编码和样本特征的鸟瞰图实例分割预测方法（Bird's-eye view instance segmentation prediction method of encoding and sample fusion，ESF-BISP）。采用ConvGRU编码历史帧时序语义信息，得到未来帧时序特征，通过CVAE拟合未来帧状态特征分布，利用GMM对未来帧时序特征和样本特征进行融合，实现鸟瞰图动态实例分割预测。该方法可有效实现被遮挡车辆实例、距离自车较远实例的分割。

（3）对标准数据集nuScenes的3D边界框标签进行坐标变换，生成栅格化鸟瞰图数据标签，作为实验数据。实验结果表明：MSTFB方法能取得比基准算法更好的实例分割效果；ESF-BISP方法能取得比基准算法更好的未来实例分割预测效果。

1 融合多源时空信息的场景细粒度鸟瞰图表征

如引言所述，基于LSS融合多传感器数据进行鸟瞰图语义分割虽能取得很好的分割效果，但存在距离自车远端实例对象分割模糊、准确度不高、对噪声和视角变化的鲁棒性不够等问题。受此启发，本文提出了MSTFB方法，以期提高分割效果。该方法具体包括2个步骤，即鸟瞰图生成和多尺度时空特征融合。

1.1　鸟瞰图生成

记

t

时刻

N

张多视角图像为

{I t 1, I t 2, …, I t N}

，生成的鸟瞰图为

B e v t

。基于LSS的鸟瞰图生成过程主要包括Lift和Splat两个阶段，Lift阶段将图像从扁平的二维空间“提升”到三维空间，Splat阶段将三维空间特征“拍扁”并聚合成栅格化鸟瞰图，如图1所示。

对于

t

时刻任一图像

I t i (i = 1,2, …, N)

，采用EfficientNet网络^［20］进行下采样，提取其图像特征

F

和深度特征

D

，计算图像特征和深度特征的外积

F ⊗ D

，得到图像在相机坐标系下的3D特征，通过外参矩阵变换将相机坐标系下的图像3D特征转换为鸟瞰图坐标系下的图像特征

F B e v

。

经过上述变换，单视角图像的不同像素点可能投影在鸟瞰图的同一栅格，不同视角图像不同像素点也可能投影在鸟瞰图的同一栅格。鸟瞰图的同一栅格中可能同时存在多个图像特征，采用累积求和池化对单个栅格中的所有图像特征

F B e v

进行求和，再通过卷积神经网络（Convdutional neural network， CNN）降维，得到

t

时刻栅格化场景鸟瞰图（记为

B e v t

）。

1.2　多尺度时空特征融合

（1）特征时序融合

场景鸟瞰图

B e v t

虽能实现较好的实例分割效果，但存在被遮挡对象分割性能较差、鲁棒性不够等问题。考虑到车道、静止车辆等实例间的相对位置固定，本文引入自注意力机制融合场景时序特征，根据历史时刻鸟瞰图特征调整当前时刻鸟瞰图特征，不同历史时刻特征权重不同，最终生成当前时刻的场景聚合鸟瞰图（记为

B e v t'

），以解决被遮挡实例的精准分割问题。

记

b t

为

t

时刻鸟瞰图特征偏置项，

∂ k

为

k

时刻鸟瞰图特征权重，

s (s < t)

为前溯的鸟瞰图帧数。

t

时刻场景聚合鸟瞰图

B e v t'

计算公式如式（1）所示：

B e v t' = b t + ∑ k = t - s t ∂ k × B e v k

（1）

（2）多尺度特征融合

一方面，时间推移会导致图像视角变化；另一方面，多视角图像融合生成的鸟瞰图特征稀疏。因此，仅考虑单帧鸟瞰图进行实例分割存在鲁棒性不够问题，场景聚合鸟瞰图

B e v t'

也存在实例边界不清晰问题。针对此问题，本文结合时序特性和鸟瞰图空间特性，采用时空跨域卷积网络融合多尺度时空特征，得到场景细粒度鸟瞰图（记为

B e v t ″

），如图2所示。

记

E i (i = t - s, …, t)

为

i

时刻自车运动矩阵，前溯s帧，将场景聚合鸟瞰图

B e v'

和自车运动矩阵进行拼接，记为

F c

，送入时空跨域卷积网络。时空跨域卷积网络在时序和空间维度上学习特征的变化和关联，得到场景细粒度鸟瞰图

B e v t''

，其计算公式如式（2）所示：

B e v t'' = C o n v (B e v', E i)

（2）

式中：Conv表示卷积层、时间池化层、特征聚合层、特征映射层、空间池化层。卷积层包括时间卷积操作和空间卷积操作，用于提取

F c

中蕴含的多尺度时空特征

F m

；时间池化层对

F c

进行平均池化等操作，得到高层语义特征

F h

；特征聚合层首先对多尺度时空特征

F m

和语义特征

F h

进行拼接，其次进行卷积、正则化、激活函数映射等，最后得到聚合特征

F a

；特征映射层采用全连接层，先将聚合特征

F a

的维度映射为场景聚合鸟瞰图

B e v t'

的特征维度，再与场景聚合鸟瞰图

B e v t'

特征进行残差连接，最后送入空间池化层。

空间池化层通过增强感受野，捕获特征中包含的车辆间相对位置信息和车辆附近环境信息，以解决分割过程中实例边界模糊问题。空间池化层由多个并行的空洞卷积分支组成，每个分支使用不同扩张率处理特征图，以捕捉不同尺度的上下文信息。由于感受野不同，得到的信息层级不同，这些分支输出的特征图与经过池化操作后进行上采样的特征图拼接到一起，进行不同级别的语义融合得到融合特征

F f

；最后，为了减少特征维度并提取更高层语义信息，使用1×1卷积对融合特征

F f

进行降维操作得到场景细粒度鸟瞰图

B e v t ″

。

2 融合未来时序编码和样本特征的鸟瞰图实例分割预测

在鸟瞰图实例分割的基础上，探索研究鸟瞰图实例分割预测问题。针对现有方法缺乏对动态实例时序依赖关系的分析利用，本文提出ESF-BISP方法。该方法基于场景细粒度鸟瞰图，生成鸟瞰图状态特征分布，进而预测未来场景细粒度鸟瞰图特征并解码未来场景细粒度鸟瞰图，鸟瞰图实例分割预测如图3所示。

2.1　生成鸟瞰图状态特征分布

受车辆、行人动态行为的影响，未来场景演变具有很强的不确定性。CVAE^［19］是一种基于概率生成的深度学习模型，它结合了自编码器和变分推断的优势，能有效学习潜在语义空间表示，并根据给定条件生成符合上下文和环境的特征。基于此，本文采用CVAE学习场景细粒度鸟瞰图

B e v t''

的状态分布。

记

q

为当前帧

B e v t''

模型状态特征分布，

r

为当前帧

B e v t''

真实状态特征分布。通过CVAE编码器、解码器架构生成

B e v t''

的模型状态特征分布

q

，并基于未来鸟瞰图实际标签生成

B e v t''

的真实状态特征分布

r

。编码器由瓶颈层构成，可保留足够的特征信息并减少计算量。解码器由自适应池化及二维卷积组成，用于将编码器输出的潜在表示

Z t

解码为与原始数据空间相匹配的特征。采用Kullback-Leibler（KL）散度方法计算模型状态特征分布

q

和真实状态特征分布

r

之间的差异，

K L (q | | r)

表示从概率分布

q

到

r

的KL散度，其计算公式如式（3）所示：

K L (q | | r) = ∫ q (x) × l o g q (x) r (x) d x

（3）

通过反向传播最小化分布

q

相对于

r

的损失，经过不断迭代，得到与真实后验分布

r

最接近的近似状态特征分布

q'

。最后，从近似状态分布

q'

中采样随机变量

η ∈ Ν (μ, σ 2)

，将其作为可能的样本特征。

2.2　预测未来场景细粒度鸟瞰图

未来场景细粒度鸟瞰图既和场景鸟瞰图状态特征分布相关，又和场景鸟瞰图的时序演变相关。ConvGRU是一种性能卓越的时序预测模型，它在传统门控循环单元（Gated recurrent unit， GRU）的基础上引入卷积操作，可以同时学习时序关系和空间依赖关系，且门控机制允许网络自适应选择需要记忆和遗忘的信息，因而能更好地理解场景中物体的动态变化。基于此，本文采用ConvGRU预测未来场景细粒度鸟瞰图的时序特征和样本特征，融合得到未来场景细粒度鸟瞰图（记为

B^e v t + 1''

）。

如图4所示，将前溯

s

帧场景细粒度鸟瞰图特征输入堆叠ConvGRU结构进行时序语义编码，得到鸟瞰图时序编码

φ t

；以时序编码

φ t

作为ConvGRU隐藏层状态，以场景细粒度鸟瞰图

B e v t''

作为ConvGRU输入，预测得到下一时刻时序编码

φ t + 1'

；以场景细粒度鸟瞰图

B e v t''

作为ConvGRU隐藏层状态，以样本特征

η

作为ConvGRU输入，预测得到下一时刻样本特征

η'

；采用高斯混合模型^［21］融合时序编码

φ' t + 1

和样本特征

η'

，计算得到下一时刻场景细粒度鸟瞰图特征

B^e v t + 1''

，其计算公式如式（4）所示：

B^e v t + 1'' = G B e v t'', φ t ⊕ G (η, B e v t'')

（4）

式中：G表示ConvGRU的过程；

⊕

表示高斯计算。

基于鸟瞰图时序预测过程，可递归地得到未来h帧场景细粒度鸟瞰图

B^e v t + i'' (i = 1,2, …, h)

。

2.3　解码未来鸟瞰图状态特征

通过解码器解码未来场景细粒度鸟瞰图

B^e v t + i'' (i = 1,2, …, h)

，产生鸟瞰图实例分割预测结果。解码器具有实例分割、实例中心、实例偏移和未来时刻实例等多个输出头，输出头由二维卷积、正则化和激活函数构成，其含义和使用的损失函数详述如下：

（1）实例分割：指在图像中精确地分割出每个目标实例，并为每个实例分配唯一的标识符。由未来鸟瞰图状态特征推断未来时刻的实例分割，损失函数使用带权重的top-k^［22］交叉熵损失函数，计算公式如式（5）所示：

L s e g (x, y) = - [y l o g f (x) +

(1 - y) l o g (1 - f (x))]

（5）

式中：

x

为模型输入的图像；

f (x)

为实例分割结果的预测值；

y

为实例分割结果的真实值；

L s e g (x, y)

为实例分割的损失值。

（2）实例中心：指目标实例的几何中心或质心位置，用于精确定位目标位置，可用作实例分割的参考点。其损失函数为均方误差损失，如式（6）所示：

L c e n t e r (x, y) = 1 n ∑ i = 1 n (y i c e n - f c e n (x i)) 2

（6）

式中：

n

为鸟瞰图栅格中的

n

个实例；

f c e n (x i)

为实例中心结果的预测值；

y i c e n

为实例中心结果的真实值；

L c e n t e r (x, y)

为实例中心的损失值。

（3）未来时刻实例：用于预测视频序列中目标实例的运动和变化。通过分析目标实例在连续时刻之间的位置、形状变化及像素级运动信息，可以推断出目标实例在未来时刻的位置，计算公式如式（7）所示：

L f l o w (x, y) = 1 n ∑ i = 1 n | y i f l o w - f f l o w (x i) |

（7）

式中：

f f l o w (x i)

为未来时刻实例结果的预测值；

y i f l o w

为未来时刻实例结果的真实值；

L f l o w (x, y)

为未来时刻实例的损失值。

（4）实例偏移：用于描述目标物体在不同时间步下的位置偏移。它表示目标实例中心或分割掩码相对于初始位置的偏移量，其损失函数使用L1损失，计算公式如式（8）所示：

L o f f s e t (x, y) = 1 n ∑ i = 1 n | y i o f f - f o f f (x i) |

（8）

式中：

n

为鸟瞰图栅格中的

n

个实例；

f o f f (x i)

为实例偏移结果的预测值；

y i o f f

为实例偏移结果的真实值；

L o f f s e t (x, y)

为实例偏移的损失值。

为避免损失增长过大，本文采用自适应权重^［22］，对上述损失函数进行线性组合，计算公式如式（9）所示：

L o s s = a L s e g + b L c e n t e r + c L o f f s e t + d L f l o w

（9）

式中：

a

、

b

、

c

、

d

分别为实例分割、实例中心、实例偏移、未来时刻实例损失函数的权重，在训练过程中作为可训练参数动态调整的权重值。

3 实验

3.1　实验数据集

本实验在自动驾驶大规模数据集nuScenes^［23］和Lyft^［24］上进行。

nuScenes数据集包含1 000个实验场景，每个场景包括约20 s视频，标注频率为2 Hz。其中，700个场景作为训练集，包括28 130个样本帧；150个场景作为验证集，包括6 019个样本帧；150个场景作为测试集，包括6 019个样本帧。每次采样前3帧图像（

s = 3

），用于预测后4帧图像的车辆运动趋势（

h = 4

）。

Lyft数据集包含180个驾驶场景，每个场景长度为25~45 s，标注频率为5 Hz，包括22 680个样本帧。其中，112个场景作为训练集，包括16 506个样本帧；48个场景作为验证集，包括6 074个样本帧。每次采样前6帧图像（

s = 6

），用于预测后10帧图像的车辆运动趋势（

h = 10

）。

本实验使用两个数据集中的6个相机图像数据，覆盖了完整地围绕自我车辆的360°视角，视野上有少量重叠。每个场景中，每个相机的内参矩阵和外参矩阵均为可用数据。

3.2　数据集栅格化鸟瞰图标签生成

nuScenes数据集自带标签，用于目标检测的3D边界框。为方便后续实验，按以下步骤手工生成栅格化鸟瞰图标签：

（1）定义鸟瞰图栅格大小为（H，W），对鸟瞰图中每个栅格定义三元组变量（l₁，l₂，l₃），分别对应实例标签、语义标签和环境属性标签。

（2）对每个样本帧，去除原标注实例边界框坐标中的高度信息，获得二维边界框顶点坐标。

（3）根据二维边界框顶点坐标，为每个栅格生成3类标签：①实例标签l₁，含实例栅格标注为实例“ID”，不含实例栅格标注为“0”；②语义标签l₂，含实例栅格标注为“1”，不含实例栅格标注为“0”；③环境属性标签l₃，含实例栅格标注为“能见度值”，不含实例栅格标注为“0”。

（4）根据环境属性标签l₃过滤能见度低的栅格实例标签，并分别计算实例中心、下一时刻实例中心和实例偏移。实例中心为同一实例所在栅格坐标的均值；下一时刻实例中心坐标通过自车运动矩阵和当前时刻实例中心坐标计算得到；实例偏移为当前实例中心坐标与下一时刻实例中心坐标的差值。

3.3　实验参数设置

本实验采用PyTorch_Lightning框架，按照224×480的分辨率处理同一时刻6张不同视角图像。鸟瞰图大小H×W设为100 m×100 m，鸟瞰图栅格大小设为50 cm×50 cm，鸟瞰图栅格数量（空间维度）为200×200。在时空跨域卷积网络中，s=3（表示前溯时间），M=2（表示时序层间隔）。在Tesla V100 GPU上反复训练模型，空间卷积包括Conv、BN、ReLU，卷积核大小kernel_size为（3，3），以平衡鸟瞰图空间信息和参数量；时间卷积包括Conv、BN、ReLU，卷积核大小kernel_size为（1，1），以增加非线性映射；时间池化层kernel_size为（2，200，200），与空间维度对应；空间池化层采用膨胀率分别为6、12、18的空洞卷积层实现下采样。具体参数设置见表1。

表1中，优化器optimizer设置为Adam，主要基于以下考虑：Adam优化器结合了AdaGrad和RMSProp的优势，通过计算梯度的一阶矩估计和二阶矩估计，可动态调整每个参数的学习率，且对初始学习率和参数选择不敏感。相比其他优化器（如SGD、Momentum、AdaGrad），Adam在处理大规模数据和参数时收敛速度更快。

3.4　实验基准算法

实验基准算法如下：

（1）IPM^［7］。其核心思想是将平面图像映射变换到鸟瞰图空间，再将鸟瞰图送入分割网络，解决了自动驾驶相关的道路布局估计问题。

（2）VED^［8］。其核心思想是利用变分编码器-解码器网络，先对驾驶场景的前视视觉信息进行编码，再解码到二维鸟瞰视图笛卡尔坐标系中完成语义分割。

（3）VPN^［9］。其核心思想是通过融合多视角信息，并利用视图变换模块，实现第一视角特征到自顶向下视图特征的转换，从而实现跨视角的语义分割。

（4）Lift-Splat-Shoot^［10］。如本文引言所述，其核心思想是预测图像深度信息，采用内置隐式投影将多视角图像的3D坐标映射到鸟瞰图，最终完成语义分割。

（5）Fishing Net^［12］。其核心思想是提取不同传感器特征并进行多模态融合，将融合数据聚合到栅格化语义鸟瞰图上并进行预测。

（6）Gi+Net^［25］。其核心思想是将鸟瞰图实例分割解耦为透视图像分割和基于几何先验的映射，提供可视性感知和预对准的鸟瞰图特征，通过聚集外观信息使特征变形增强鸟瞰图特征，最后将增强的鸟瞰图特征馈送到鸟瞰图分割层，完成语义分割。

（7）StrechBev^［14］。其核心思想采用LSS方法将输入图像映射为鸟瞰图，通过随机残差方法学习相邻时间步鸟瞰图状态潜向量变化，实现未来时刻实例预测。

（8）FIERY^［17］。其核心思想是先将输入图像映射为鸟瞰图并进行实例分割，再估计实例的运动和轨迹，最终预测运动实例未来的位置和状态。

（9）PowerBev^［15］。其核心思想是基于鸟瞰图的多实例感知和预测框架，该框架由基于2D卷积网络的并行多尺度模块和基于流变形的后处理模块组成，可产生更稳定的时序实例关联。

（10）UniAD^［16］。其核心思想是基于transformer解码器设计感知和预测模块，结合感知信息中蕴含的知识预测自车未来路线，以此实现未来实例分割预测。

3.5　评价指标

实验选用以下4个评价指标：

（1）交并比（Intersection over union， IoU）：用于衡量预测的实例分割结果与真实标注之间的重叠程度。其计算公式如式（10）所示：

I o U = | T P | | T P | + | F P | + | F N |

（10）

式中：|TP|为True Positive，指预测的实例与真实鸟瞰图标注的实例之间存在重叠，且被模型正确地识别为正例的像素点数量；|FP|为False Positive，指预测的实例中被错误地识别为正例的像素点数量；|FN|为False Negative，指真实标注的实例中没有被正确识别的像素点数量。

（2）识别质量（Recognition quality， RQ）：用于衡量图像或视频中对目标、物体或特征进行识别或检测的准确性，具体指识别结果与真实目标或物体之间的一致程度，本文主要指随时间推移检测到的实例一致性。其计算公式如式（11）所示：

R Q = | T P | | T P | + 12 | F P | + 12 | F N |

（11）

（3）分割质量（Segmentation quality， SQ）：用于衡量图像或视频分析中对目标或物体进行分割的准确性和结果质量，具体指分割结果与真实目标或物体边界之间的一致程度。计算公式如式（12）所示，即先找到预测结果p与真实标注g之间存在重叠的像素点，再计算它们的IoU，最后将所有的IoU相加。

S Q = ∑ (p, g) ∈ T P I o U (p, g) | T P |

（12）

（4）全景质量（Panoptic quality， PQ）：综合考量实例分割和语义分割的准确性和一致性，用于对全景分割性能的量化评估。计算公式如式（13）所示，其中h为预测的未来h帧，

∑ (p, g) ∈ T P I o U (p, g)

为第t帧预测结果p与真实标注g之间存在重叠的像素点的IoU之和。

P Q = ∑ t = s h ∑ (p t, g t) ∈ T P t I o U (p t, g t) | T P t | + 12 | F P t | + 12 | F N t |

（13）

3.6　实验结果

本文主要进行了如下实验：

（1）实例分割

为了验证MSTFB方法的有效性，分别采用MSTFB和不同基准算法进行实例分割对比实验，所有算法的鸟瞰图相关设置均相同。表2给出了在两个数据集上各方法实例分割的IoU（%）结果。

表2中第2~4列分别为车辆实例分割、车辆可行驶区域分割和车道线分割的IoU（%）。从表2可以看出，MSTFB方法在车辆可行驶区域分割、车道线分割方面都表现最优，且优势显著。同时，在车辆实例分割方面，尽管基准算法中表现最好的Fishing Lidar方法优于MSTFB方法，但两者性能非常接近。这表明，基于自注意力机制的时序融合模块融合了历史帧信息，能更好的捕捉被遮挡的远端车辆。时空跨域卷积网络中的空洞卷积关注了鸟瞰图局部细节，因而可以改善实例分割效果。

（2）未来时刻实例分割预测

为了验证ESF-BISP方法在未来时刻实例分割预测中的有效性，分别采用ESF-BISP和基准算法进行未来时刻实例分割预测对比实验，表3给出了具体的实验结果对比。

表3中第2~4列为未来时刻实例分割预测的全景质量、分割质量和识别质量。从表3可以看出，与基准算法FIERY相比，ESF-BISP在全景质量指标上提高了1.99%，在识别质量指标上提高了1.47%，在分割质量指标上提高了1.43%。同时，本文提出的ESF-BISP算法性能优于现阶段最好结果UniAD。

考虑ESF-BISP、FIERY等方法同样适用于实例分割，表4给出了在两个数据集上不同模型实例分割及实例分割预测的性能对比，实例分割效果用IoU（%）衡量，预测效果用PQ（%）衡量。从表4可以看出，考虑实例分割效果，ESF-BISP方法在两个数据集上的表现都优于基准算法，也优于MSTFB方法；考虑实例分割预测效果，ESF-BISP方法在两个数据集上的表现都优于基准算法。这表明，基于自注意力机制的时序融合模块可以更好地捕捉被遮挡的远端车辆，时空跨域卷积网络中的空洞卷积关注鸟瞰图局部细节，可以有效改善实例分割结果。此外，通过当前帧场景细粒度鸟瞰图建模状态特征分布拟合未来场景的特征分布，有助于获得更多样化的未来预测结果，进而有效提高了预测的准确度。

（3）消融实验

为了进一步说明ESF-BISP方法各组件的重要性，在nuScenes数据集上进行消融实验对比分析，实验结果如表5所示，表中

√

表示模型采用此模块，此结果为消融实验，验证模型中所提出模块的有效性。

表5中，CE表示拼接自车运动矩阵模块，T-attention表示时序融合模块，ST表示时空跨域卷积网络模块，TD表示时序编码模块，FD表示特征分布模块。表5中，第7列为实例分割IoU，可以看出，加入CE模块后IoU提升1.47%，这表明拼接自车运动矩阵进行鸟瞰图映射能有效丰富鸟瞰图信息；加入T-attention模块后IoU提升2.29百分点，这表明自注意力机制能有效融合历史帧信息，更好地捕捉被遮挡车辆；加入ST模块后IoU提升3.33%，这表明时空跨域卷积网络的空洞卷积能有效关注局部细节。在MSTFB基础上，加入FD模块后IoU提升0.49%，加入TD模块后IoU提升0.45%。这表明ESF-BISP的各模块能够充分利用历史帧信息，自适应场景鸟瞰图的时序演变，提高实例分割的准确性。

表5中8~10列分别为未来实例分割预测的PQ、SQ、RQ值。在MSTFB基础上，加入FD模块全景质量PQ值提升2.09%，分割质量SQ值提升0.75%，识别质量RQ值提升1.84%；加入TD模块全景质量PQ值提升1.27%，分割质量SQ值提升0.68%，识别质量RQ值提升0.88%，最终构成ESF-BISP整体预测方法。实验结果表明，本文提出的各模块均能有效提升分割精度及预测准确率。

表5中最后两列是模型复杂度的评估结果，包括参数量（Params）和计算量（GFLOPs）。MSTFB在LSS基础上参数增加34%，计算量增加35%，分割准确度IoU提升22%；ESF-BISP方法在原有方法FIERY上参数量增加12%，计算量增加10%，分割准确度IoU提升3%，全景质量PQ值提升14%，分割质量SQ值提升2%，识别质量RQ值提升7%，在分割及预测准确度和计算效率之间取得了较好平衡。

（4）运行时间分析

表6给出了本文算法和基准算法在nuScenes数据集上的平均推理时间，包括感知运行时间、预测运行时间及总运行时间。预测的时间段为后2 s，对应数据集的后4帧。

表6中，第2列为感知运行时间，基准算法StrechBev、FIERY、PowerBev均使用相同的基于LSS的感知模块，本文算法在该基础上添加了多尺度时空特征融合模块。第3列为预测运行时间，第4列为总运行时间。从表6可看出，从感知运行时间来看，本文算法和基准算法性能相近。从预测运行时间来看，PowerBev算法的时间性能更好，但结合表4中的实验结果可知，本文算法的预测精准度高于PowerBev。综合来讲，本文算法在预测时间性能和准确度之间取得了较好的平衡。

（5）可视化分析

图5给出了ESF-BISP方法和基准算法在部分典型场景下未来实例分割预测结果的可视化对比。图5左侧展示了4个场景，每个场景包含6张图像，右侧分别为基准算法FIERY、PowerBev和本文ESF-BISP方法的预测结果。图5中蓝色圆圈圈出部分为重点对比区域。可以看出：①图中基准算法FIERY未能分割出右侧遮挡车辆，PowerBev的分割效果不佳，而ESF-BISP方法较完整地分割出被遮挡的远端车辆；②图5中FIERY方法的分割预测效果较差，PowerBev方法未能清晰预测车辆未来运动趋势，ESF-BISP方法的分割预测效果明显优于两种基准算法；③图5中PowerBev方法未能清晰分割前后相邻车辆，而ESF-BISP方法可以清楚地分割远端相邻车辆；④图5中ESF-BISP方法对于远端实例的分割效果和预测结果显著优于基准算法。

4 结束语

针对现有鸟瞰图实例分割存在的遮挡、实例分割边界模糊等问题，本文提出了融合多源时空信息的场景细粒度鸟瞰图生成方法MSTFB。MSTFB对周围信息进行场景建模，获取场景的细粒度鸟瞰图状态特征以表达环境交互关系，相较于基准算法，其实例分割效果显著提升，能够识别并分割远端车辆及被遮挡车辆，而从避免潜在的交通冲突和危险。在此基础上，本文构建了鸟瞰图实例分割预测方法ESF-BISP，用于预测实例未来的运动状态，并在nuScenes和Lyft数据集上进行了未来实例分割预测实验。与基准算法相比，实例分割和未来实例分割预测的准确度均有提升。实验表明，本文方法在智能交通的自动驾驶场景中具有重要的潜在应用价值。此外，本文方法仅通过融合多视角图像数据即可实现精准实例分割预测，无须依赖激光雷达等昂贵且易受干扰的传感器数据，为自动驾驶领域提供了一种更经济的解决方案。

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	Wang X, Girdhar R, Yu S X, et al. Cut and learn for unsupervised object detection and instance segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Piscataway, USA, 2023: 3124-3134.

[2]	Hurtik P, Molek V, Hula J, et al. Poly-YOLO: higher speed, more precise detection and instance segmentation for YOLOv3[J]. Neural Computing and Applications, 2022, 34(10): 8275-8290.

[3]	毛琳, 任凤至, 杨大伟, 等. 双向特征金字塔全景分割网络[J].吉林大学学报: 工学版,2022, 52(3): 657-665.

[4]	Mao Lin, Ren Feng-zhi, Yang Da-wei, et al. Two⁃way feature pyramid network for panoptic segmentation[J]. Journal of Jilin University(Engineering and Technology Edition), 2022, 52(3): 657-665.

[5]	Ke L, Danelljan M, Li X, et al. Mask transfiner for high-quality instance segmentation[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Piscataway, USA, 2022: 4412-4421.

[6]	Cheng T H, Wang X G, Chen S Y, et al. Boxteacher: Exploring high-quality pseudo labels for weakly supervised instance segmentation[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Piscataway, USA, 2023: 3145-3154.

[7]	霍光, 林大为, 刘元宁, 等. 基于多尺度特征和注意力机制的轻量级虹膜分割模型[J]. 吉林大学学报: 工学版, 2023, 53(9): 2591-2600.

[8]	Huo Guang, Lin Da-wei, Liu Yuan-ning, et al. Lightweight iris segmentation model based on multiscale feature and attention mechanism[J]. Journal of Jilin University(Engineering and Technology Edition), 2023, 53(9): 2591-2600.

[9]	Deng L Y, Yang M, Li H, et al. Restricted deformable convolution-based road scene semantic segmentation using surround view cameras[J]. IEEE Transactions on Intelligent Transportation Systems, 2019, 21(10): 4350-4362.

[10]	Lu C Y, Wan de, Gerardus M J G, Dubbelman G.Monocular semantic occupancy grid mapping with convolutional variational encoder-decoder networks[J].IEEE Robotics and Automation Letters, 2019, 4(2):445-452.

[11]	Pan B, Sun J, Leung H Y T, et al. Cross-view semantic segmentation for sensing surroundings[J]. IEEE Robotics and Automation Letters, 2020, 5(3): 4867-4873.

[12]	Philion J, Fidler S. Lift, splat, shoot: Encoding images from arbitrary camera rigs by implicitly unprojecting to 3D[C]∥The 16th European Conference on Computer Vision, Glasgow, UK, 2020: 194-210.

[13]	Khalil Y H, Mouftah H T. End-to-end multi-view fusion for enhanced perception and motion prediction[C]∥IEEE 94th Vehicular Technology Conference, Piscataway, USA, 2021: 1-6.

[14]	Hendy N, Sloan C, Tian F, et al. FISHING net: Future inference of semantic heatmaps in grids[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Piscataway, USA, 2020.

[15]	Ma Y, Wang T, Bai X, et al. Vision-centric BEV perception: a survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024,46(12):1-20.

[16]	Akan A K, Güney F. Stretchbev: Stretching future instance prediction spatially and temporally[C]∥European Conference on Computer Vision, Tel Aviv, Israel, 2022: 444-460.

[17]	Li P I, Ding S X, Chen X Y L, et al. PowerBEV: a powerful yet lightweight framework for instance prediction in bird's-eye view[DB/OL]. [2023-10-22].

[18]	Hu Y H, Yang J Z, Chen L, et al. Planning-oriented autonomous driving[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Piscataway, USA, 2023: 17853-17862.

[19]	Hu A, Murez Z, Mohan N, et al. FIERY: Future instance prediction in bird's-eye view from surround monocular cameras[C]∥Proceedings of the IEEE/CVF International Conference on Computer Vision,Piscataway,USA, 2021: 15273-15282.

[20]	Yuan F N, Zhang L, Xia X, et al. A gated recurrent network with dual classification assistance for smoke semantic segmentation[J]. IEEE Transactions on Image Processing, 2021, 30: 4409-4422.

[21]	Mao Y X, Zhang J, Xiang M C, et al. Multimodal variational auto-encoder based audio-visual segmentation[C]∥Proceedings of the IEEE/CVF International Conference on Computer Vision, Piscataway, USA, 2023: 954-965.

[22]	Tan M X, Le Q V. Efficientnet: Rethinking model scaling for convolutional neural networks[C]∥International Conference on Machine Learning, Long Beach, USA, 2019: 6105-6114.

[23]	Riaz F, Rehman S, Ajmal M, et al. Gaussian mixture model based probabilistic modeling of images for medical image segmentation[J]. IEEE Access, 2020, 8: 16846-16856.

[24]	Lyu S W, Fan Y B, Ying Y M, et al. Average top-k aggregate loss for supervised learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 44(1): 76-86.

[25]	Caesar H, Bankiti V, Lang A H, et al. nuscenes: A multimodal dataset for autonomous driving[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Piscataway, USA, 2020: 11621-11631.

[26]	Mandal S, Biswas S, Balas V E, et al. Lyft 3D object detection for autonomous vehicles[M]∥Rabindra Shaw,Artificial Intelligence for Future Generation Robotics: Amsterdam: Elsevier, 2021: 119-136.

[27]	Gong S, Ye X, Tan X Q, et al. GitNet: Geometric prior-based transformation for birds-eye-view segmentation[C]∥European Conference on Computer Vision, Tel Aviv, Israel, 2022: 396-411.

基金资助

国家自然科学基金项目(U2333206)

国家重点研发计划项目(2021YFF0603902)

中央高校基本科研业务费项目(3122021063)

AI Summary AI Mindmap

PDF (1560KB)

访问

被引

详细

导航

Received	Accepted	Published
2023-12-30
Issue Date
2026-06-15

摘要

Abstract

Graphical abstract

关键词

Key words

引用本文

0 引 言

1 融合多源时空信息的场景细粒度鸟瞰图表征

1.1 鸟瞰图生成

1.2 多尺度时空特征融合

2 融合未来时序编码和样本特征的鸟瞰图实例分割预测

2.1 生成鸟瞰图状态特征分布

2.2 预测未来场景细粒度鸟瞰图

2.3 解码未来鸟瞰图状态特征

3 实 验

3.1 实验数据集

3.2 数据集栅格化鸟瞰图标签生成

3.3 实验参数设置

3.4 实验基准算法

3.5 评价指标

3.6 实验结果