基于跨模态融合的玻璃类似物分割方法

万应才; 房立金; 赵乾坤

doi:10.12068/j.issn.1005-3026.2025.20230204

东北大学学报(自然科学版) ›› 2025, Vol. 46 ›› Issue (01) : 1 -8. DOI: 10.12068/j.issn.1005-3026.2025.20230204

信息与控制

基于跨模态融合的玻璃类似物分割方法

作者信息 +

Segmentation Method for Glass-like Object Based on Cross-Modal Fusion

Author information +

文章历史 +

PDF (1619K)

摘要

玻璃和镜子等物体因缺乏明显纹理和形状，使得传统语义分割方法难以有效识别，影响视觉任务准确性.为了解决这个问题提出了一种基于Transformer的RGBD跨模态融合方法，用于玻璃类似物的分割.该方法采用Transformer网络，通过跨模态融合模块提取RGB和深度特征的自注意力，并利用多层注意力机制（MLP）整合RGBD特征，实现3种注意力特征的融合.RGB和深度特征被反馈到各自分支，以增强网络的特征提取能力.最终，语义分割解码器结合4个阶段的融合特征输出玻璃类似物的分割结果.结果表明，本文方法与EBLNet方法相比在GDD，Trans10k和MSD数据集上的交并比分别提高1.64%，2.26%，7.38%，与PDNet方法比较在RGBD-Mirror数据集上交并比提高了9.49%，验证了其有效性.

Abstract

Due to the lack of distinct textures and shapes， objects such as glass and mirrors pose challenges to traditional semantic segmentation algorithms， compromising the accuracy of visual tasks. A Transformer‑based RGBD cross‑modal fusion method is proposed for segmenting glass‑like objects. The method utilizes a Transformer network that extracts self‑attention features of RGB and depth through a cross‑modal fusion module and integrates RGBD features using a multi‑layer perceptron （MLP） mechanism to achieve the fusion of three types of attention features. RGB and depth features are fed back to their respective branches to enhance the network's feature extraction capabilities. Finally， a semantic segmentation decoder combines the features from four stages to output the segmentation results of glass‑like objects. Compared with the EBLNet method， the intersection‑and‑union ratio of the proposed method on the GDD， Trans10k and MSD datasets is improved by 1.64%， 2.26%， and 7.38%， respectively. Compared with the PDNet method on the RGBD-Mirror dataset， the intersection‑and‑union ratio is improved by 9.49%， verifying its effectiveness.

Graphical abstract

关键词

注意力 / 语义分割 / 玻璃类似物 / 跨模态 / 深度估计

Key words

attention / semantic segmentation / glass‑like object（GLO） / cross‑modal / depth estimation

引用本文

引用格式 ▾

[Author(id=1261761597211914733, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1160014322543026486, orderNo=0, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1261761597274829297, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1160014322543026486, authorId=1261761597211914733, language=EN, stringName=Ying-cai WAN, firstName=Ying-cai, middleName=null, lastName=WAN, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=School of Robot Science & Engineering，Northeastern University，Shenyang 110169，China., bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1261761597320966644, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1160014322543026486, authorId=1261761597211914733, language=CN, stringName=万应才, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=东北大学机器人科学与工程学院，辽宁沈阳 110169, bio={"content":"

万应才（1990—），男，甘肃靖远人，东北大学博士研究生

"}, bioImg=null, bioContent=

万应才（1990—），男，甘肃靖远人，东北大学博士研究生

, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1261761597136417255, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1160014322543026486, xref=null, ext=[AuthorCompanyExt(id=1261761597153194472, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1160014322543026486, companyId=1261761597136417255, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=School of Robot Science & Engineering，Northeastern University，Shenyang 110169，China.), AuthorCompanyExt(id=1261761597165777385, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1160014322543026486, companyId=1261761597136417255, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=东北大学机器人科学与工程学院，辽宁沈阳 110169)])]), Author(id=1261761597371298297, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1160014322543026486, orderNo=1, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=1, authorType=1, ext={EN=AuthorExt(id=1261761597438407166, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1160014322543026486, authorId=1261761597371298297, language=EN, stringName=Li-jin FANG, firstName=Li-jin, middleName=null, lastName=FANG, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=School of Robot Science & Engineering，Northeastern University，Shenyang 110169，China., bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1261761597488738817, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1160014322543026486, authorId=1261761597371298297, language=CN, stringName=房立金, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=东北大学机器人科学与工程学院，辽宁沈阳 110169, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1261761597136417255, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1160014322543026486, xref=null, ext=[AuthorCompanyExt(id=1261761597153194472, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1160014322543026486, companyId=1261761597136417255, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=School of Robot Science & Engineering，Northeastern University，Shenyang 110169，China.), AuthorCompanyExt(id=1261761597165777385, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1160014322543026486, companyId=1261761597136417255, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=东北大学机器人科学与工程学院，辽宁沈阳 110169)])]), Author(id=1261761597534876165, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1160014322543026486, orderNo=2, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1261761597593596425, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1160014322543026486, authorId=1261761597534876165, language=EN, stringName=Qian-kun ZHAO, firstName=Qian-kun, middleName=null, lastName=ZHAO, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=School of Robot Science & Engineering，Northeastern University，Shenyang 110169，China., bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1261761597639733771, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1160014322543026486, authorId=1261761597534876165, language=CN, stringName=赵乾坤, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=东北大学机器人科学与工程学院，辽宁沈阳 110169, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1261761597136417255, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1160014322543026486, xref=null, ext=[AuthorCompanyExt(id=1261761597153194472, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1160014322543026486, companyId=1261761597136417255, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=School of Robot Science & Engineering，Northeastern University，Shenyang 110169，China.), AuthorCompanyExt(id=1261761597165777385, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1160014322543026486, companyId=1261761597136417255, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=东北大学机器人科学与工程学院，辽宁沈阳 110169)])])] 万应才,房立金,赵乾坤. 基于跨模态融合的玻璃类似物分割方法[J]. 东北大学学报(自然科学版), 2025, 46(01): 1-8 DOI:10.12068/j.issn.1005-3026.2025.20230204

登录浏览全文

4963

注册一个新账户忘记密码

室内玻璃类似物（glass‑like object，GLO）包括镜面类物体和玻璃类物体.镜面类物体是指具有镜面反射特性的物体，它们能够反射周围场景.玻璃类物体是指透明的玻璃物体，它们通过透射将背后的场景投影出来.由于玻璃类似物的存在，许多计算机视觉任务可能会失败，例如语义分割、深度估计、目标检测、机器人导航、3D场景重建、Lidar测量等^［1-4］. GLO没有特定的形状和视觉纹理特征，很难直接利用现有的语义分割方法对其进行检测和分割.因此研究高精度的GLO分割方法对计算机视觉具有重要的意义^［5］.

近年来研究人员结合深度学习提出一些玻璃类似物分割方法，例如Yang等^［6］构建了一个大规模镜像分割数据集（mirror segmentation dataset，MSD），并利用注意力模块生成多层次的纹理对比特征进行分割.在MirrorNet的基础上，Lin等^［7-8］采用了关系语境对比局部模块（relational contextual contrasted local module，RCCLM）提取和比较镜面与上下文特征之间的关系，并采用边缘检测和融合模块提取多尺度的镜像边缘特征.Mei等^［9］扩展了玻璃对象数据集，丰富了玻璃场景，通过大场景上下文特征融合模块实现了鲁棒的玻璃检测.在此基础上，He等^［10］提出了一种新方法，利用边缘预测来指导GLO的分割结果.该方法利用了细化差分模块（refinement difference module，RDM）生成精确的边缘，并采用高效的基于点的图卷积网络模块（point‑based graph convolution module，PGM）进行全局边缘特征学习.此外，一些研究人员探索了利用深度相机获取的深度信息来增强GLO分割的方法，如Mei等^［11］提出了一种考虑图像和深度信息的镜像检测方法.Chang等^［12］基于全景透明物体数据集提出了一种大视野可变形上下文特征（large‑view deformable context feature，LDCF）来获取全景玻璃图像的宽视场和扭曲边界.

综上所述，当前玻璃类似物分割研究主要集中在其上下文特征提取及边界信息提取两个方面.具体而言，玻璃类似物表面包括反射周围场景的镜像对象和透明玻璃中从后方投射周围场景.由于它的反射和透射特性，当前的玻璃类似物特征提取网络难以高效提取纹理上下文特征.此外，玻璃类似物的深度信息很难准确测量，但是观察深度估计结果可以发现在受到玻璃类似物的折射和反射时，镜面或者玻璃表面深度与周围边界深度相比会发生突变，这些玻璃类似物边界信息能够辅助分割网络对其边界进行定位.然而，现有方法在挖掘跨模态特征方面仍存在局限性，并且过于依赖深度传感器的深度图，限制了跨模态方法的应用范围.

针对上述问题，本文提出一种基于Transformer多层注意力机制的RGBD（red‑green‑blue‑depth）跨模态融合玻璃类似物分割网络.该方法在玻璃类似物特征提取与边界提取两个方面都进行了改进.其中特征提取网络使用Transformer作为骨干网络分别对图像RGB（red‑green‑blue）与深度进行特征提取，并在每个Transformer解码层加入跨模态融合模块，然后网络解码器输入4层跨模态融合特征，输出玻璃类似物分割结果.特别地，本文通过跨模态融合模块引入深度信息增加网络感知空间信息的能力，以更加精确地定位玻璃类似物区域.实验结果表明，本文提出的方法在4个不同数据集上与其他先进方法相比均取得了领先.通过消融实验验证了本文提出的RGBD跨模态融合网络的有效性.

1 本文方法

1.1 网络结构

如图1所示，本文网络框架解码阶段分别由RGB与深度两个分支组成，每个分支分别包含4个阶段Transformer模块，并在不同阶段的Transformer模块之间加入特征融合模块，解码器融合不同阶段的融合特征，输出最终预测结果.图1左下方为Transformer模块之间的融合模块具体结构，上半部分表示RGB分支，下半部分表示深度图分支，两部分融合为RGBD分支.融合模块对RGB和深度分支的特征在空间与通道两个方向进行注意力操作，分别输出下一阶段RGB特征、下一阶段深度特征和融合特征.语义编码器结合各个阶段输出的融合特征，输出玻璃类似物分割预测结果.

1.2 玻璃类似物特征提取

由于玻璃类似物没有固定纹理信息，容易受到周围环境的影响，本文将视觉Transformer作为RGB与深度特征提取的骨干网络对玻璃类似物的各层级上下文信息特征进行提取.本文的Transformer结构采用Liu等^［13］提出的Swin Transformer，它能通过自注意力机制实现全局信息的交互和依赖关系建模，具有处理任意大小图像和学习全局上下文信息的能力.此外，与其他融合深度传感器的方法不同，本文采用深度估计网络预测RGB图像对应的深度作为跨模态玻璃类似物检测的输入，其中深度估计网络为AdelaiDepth^［14］.

1.3 玻璃类似物跨模态融合模块

为了能够更好地利用RGB与深度模态的纹理、空间与结构等特征，本文设计了一种基于注意力机制的跨模态特征融合模块对玻璃类似物特征进行特征融合与特征交换.跨模态融合模块分别加入到4个不同的RGB与深度特征提取阶段，如图1上半部分所示.每个跨模态融合模块分别包括RGB、深度和融合特征3个部分自注意力特征提取，最后输出3个部分自注意力特征的融合特征.其中特征融合模块的通道注意力与空间注意力具体结构如图2所示.

1.3.1 RGB与深度通道方向注意力特征提取

RGB与深度通道方向注意力特征提取用于在融合模块中自适应地学习每个通道的重要性权重，以更好地提取特征.该通道注意力可以通过对每个通道进行加权平均来实现特征的加权融合，从而提高模型的性能和准确率.该通道注意力采用并行提取结构，对输入RGB与深度特征

F i n c

分别进行通道注意力提取，其中平均池化的注意力

F a v g c

为

F a v g c = C R C O p, a v g F i n c .

（1）

式中：

O p, a v g

为平均池化操作；

C

为卷积核为1的卷积操作；R为激活函数ReLU.

最大池化的注意力

F m a x c

为

F m a x c = C R C O p, m a x F i n c .

（2）

式中，

O p, m a x

为最大池化操作.

然后合并两种不同的注意力操作并经Sigmoid激活函数，得到输出通道注意力特征

F o u t c

：

F o u t c = S f F a v g c, F m a x c .

（3）

式中：

f ⋅

为特征融合操作；

S ⋅

为Sigmoid激活函数.

1.3.2 RGB与深度空间方向注意力特征提取

RGB与深度空间方向注意力特征提取用于融合模块中自适应地学习每个空间位置权重，以提取玻璃类似物的空间特征.与1.3.1节中通道注意力类似，本文空间注意力也采用并行结构.输入特征

F i n s

分别经过平均池化和最大池化操作得到融合特征

F A M

：

F A M = f O p, a v g F i n s, O p, m a x F i n s .

（4）

F A M

经过两层卷积操作得到输出空间注意力特征

F o u t s

：

F o u t s = C C F A M .

（5）

1.3.3 RGB与深度融合特征提取

在分别提取RGB与深度融合特征提取之后，本文采用多层感知机（multi-layer perceptron，MLP）对RGB与深度融合的特征进行特征提取.MLP是一种注意力机制，它使用多层感知机来计算每个位置的权重，以更好地提取特征^［15］.具体而言，将输入的RGB与深度融合为RGBD的特征向量，通过MLP进行注意力特征提取，然后使用Softmax函数将变换后的向量转换为概率分布，最后将概率分布与输入RGBD特征进行加权平均，得到注意力加权后的融合RGBD特征.具体过程如下：RGB与深度拼接的特征

F R G B D

经过多层感知机进行特征提取得到特征

F R G B D M L P

：

F R G B D M L P = f M L P F R G B D .

（6）

式中，

f M L P ⋅

为MLP操作.

1.3.4 跨模态特征融合

利用本文的跨模态注意力融合模块对每个阶段的输入RGB特征

F R G B

和深度特征

F d

分别进行通道注意力、空间注意力和MLP特征提取得到RGB特征

F R G B

、深度特征

F d

和MLP特征

F R G B D M L P

.其中

F R G B

和

F d

分别作为下一阶段RGB和深度Transformer的输入，然后与

F R G B D M L P

组成新的跨模态融合特征

F f u s i o n

：

F f u s i o n = F R G B + F d + F R G B D M L P .

（7）

1.4 损失函数

本文采用交叉熵二值（binary cross‑entropy，BCE）损失函数作为监督训练损失函数. BCE损失函数是一种用于二分类问题的常见损失函数，其基本思想是将模型的输出（通常是一个概率值）与真实标签进行比较，从而计算模型预测错误的程度.训练数据中真实标签为

G t

，解码器输出分割预测结果为

P s

，则输出损失为

L B C E P s, G t = - 1 N ∑ i = 1 N [G t, i l n P s, i + (1 - G t, i) l n (1 - P s, i)] .

（8）

式中：

L B C E

为BCE损失函数的输出损失；

N

表示样本数量；

G t, i

为第

i

个样本的真实标签（0或1）；

P s, i

为模型对第

i

个样本预测为正类（1）的概率.

2 实验结果与分析

2.1 实现细节

本文方法在PyTorch框架上实现，并使用随机梯度下降（stochastic gradient descent，SGD）优化网络，动量为0.9，权重衰减为

5 × 10 - 4

.本文实验将批次大小设置为14.在NVIDIA RTX 3090Ti显卡、8核AMD 5800X 3.8 GHz CPU和64 GB RAM上进行200轮训练.在训练和测试时，将输入图像的大小调整为416像素

×

416像素，并通过随机水平翻转进行增强.

2.2 数据集和评估指标

2.2.1 数据集

1） GDD数据集^［9］为镜子分割任务创建的，该数据集是从室内外场景中选取的大量类似玻璃的数据集，其中包含3 916张镜子图像和标签.在实验过程中，将数据集分为2 980个训练图像和936个测试图像.

2） RGBD-Mirror数据集^［11］是第一个RGB-D镜面数据集，其中包含3 094张RGB图像和深度图. RGBD-Mirror 是一个综合性的数据集，它从4个流行的室内数据集（Matterport 3D，SUNRGBD，ScanNet和2D3DS）中选择包含镜子的图像、对应的深度图及镜面的真实标签.实验中，选取2 000个进行训练，其余1 046个用于测试.

3） MSD^［6］是第一个可用的大型镜面数据集，包括4 018张图像及其对应的标签.在数据集的分割中，将3 063张图片用于训练，其余955张图片用于测试.

4） Trans10k是一个大规模的透明物体数据集，包含10 428张图像和对应的深度图. Trans10k包括两种类别的透明物体，即房间图像和物体.在本文的实验中，使用5 000，1 000和4 428个图像与标签组成的图像对进行训练、验证和测试.

2.2.2 评估指标

本文采用平均交并比

R m I o U

和

F β

评估分割性能，其中

R m I o U

衡量预测与真实分割的重叠程度，

F β

结合精确度和召回率进行评估.此外，使用MAE（mean absolute error）和平衡误差率

R b e

评估预测结果与真实标签的差异，使用模型区分GLO与非GLO区域的平衡性.

2.3 玻璃类似物分割实验结果

本实验选择了包含玻璃类和镜子类物体的4个数据集进行实验，并对实验结果进行定性与定量分析.

2.3.1 GDD和Trans10k数据集结果分析

本文方法在GDD和Trans10k数据集上与其他分割方法对比.在表1中，其他方法包括语义分割方法ICNet^［1］，DeepLabv3+^［16］；显著目标检测方法MINet-R^［17］，ITSD^［18］；玻璃类似物分割方法MirrorNet^［6］，TransLab^［19］，GDNet^［9］，PGSNet^［8］，GSD^［7］和EBLNet^［10］.由表1可知，本文方法在GDD数据集^［9］和Trans10k数据集^［19］上，

R m I o U

指标分别达到了89.61%和92.32%，领先EBLNet方法1.64%，2.26%.本文方法的

M A E

和

R b e

均取得了领先，证明了本文方法的有效性.

2.3.2 MSD数据集结果分析

在表2中，本文方法与ICNet^［1］，DeepLabv3+^［16］，MirrorNet^［6］，EBLNet^［10］对比.结果显示本文方法表现较好.本文方法与EBLNet相比，

R m I o U

与

F β

分别提高了7.38%和2.94%，而

M A E

和

R b e

分别下降了8.16%和6.95%，在多个关键性能指标上显著优于EBLNet方法，显示出更准确和更稳定的性能.

2.3.3 RGBD-Mirror数据集结果分析

由表3可知，本文方法在所有指标上都超过了其他方法.在

R m I o U

指标上，本文方法达到了85.15%，而最接近的方法PDNet^［11］为77.77%.

在表3中，与PDNet方法对比，本文方法的

R m I o U

和

F β

分别提高了9.49%和11.76%，

M A E

和

R b e

分别降低了11.90%和21.10%.由此可知，本文方法对于镜面物体分割任务具有更高的准确性，进一步验证了本文方法的有效性.

2.4 定性分析

从表4可知，本文方法在4个数据集上都能够获得令人满意的分割结果，证明该方法适用于不同类型的玻璃类似物的分割.

此外，本文方法在小物体和细节方面也表现出较好的分割结果.例如，在数据集Trans10k对透明玻璃杯子进行分割时，本文方法可以准确地分割出杯子把手.通过定性分析，验证了本文方法对于玻璃类似物的分割能力.

2.5 消融实验

2.5.1 深度影响

在RGBD跨模态学习中，本文选择网络预测深度作为跨模态深度输入.为了验证本文用网络估计深度替代RGBD相机采集的有效性，在带有深度相机采集深度数据集RGBD-Mirror上，分别对比相机采集深度和网络估计深度对于玻璃类似物分割的影响.

由表5可知，网络估计深度的分割结果明显高于使用相机采集深度的结果.本文选取的网络估计深度图相比相机采集深度滤除了深度噪声，网络估计深度图的边缘锐利，深度值相对较平滑，具有较高质量的深度图.由此可知，本文采用网络估计深度既提高了玻璃类似物分割的准确性又提高了方法的通用性，使其不依赖于深度传感器.

2.5.2 注意力模块及骨干网络的影响

为了验证本文提出基于Transformer的跨模态融合玻璃类似物分割方法的有效性.本文对骨干网络ResNet和Swin-s^［11］及融合模块进行消融实验，如表6所示.

相比ResNet网络，本文采用了基于Transformer的Swin-s结构作为骨干网络，明显提升了玻璃类似物的分割精度，在此基础上特征融合模块进一步提升了平均交并比

R m I o U

，验证了特征融合模块的有效性.

在图3所示的注意力分布可视化图中，“RGB输入”表示只有RGB分支，“RGB+深度”表示直接融合RGB与深度作为网络输入，“RGB+深度+融合模块”表示跨模态融合模块融合RGB与深度.如图3所示，当只使用RGB分支时注意力无法集中在扶梯玻璃区域上，在引入深度后，注意力的分布得到了显著改善.特别地，跨模态融合模块融合RGB与深度，网络的注意力分布进一步提升，网络注意力效率显著提高，证明本文所提出的跨模态注意力融合机制是有效的.

2.5.3 跨模态融合模块消融实验

本文在Transformer解码阶段采用多阶段融合策略，为了研究不同融合阶段对分割结果的影响，实验过程中设计了不同融合阶段及其组合的消融实验.表7的第2至第5行展示单个融合模块被集成至Transformer编码第1至第4阶段，而第6至第8行则呈现多个融合模块在多个编码阶段的组合加入.实验结果如表7所示，在不同融合阶段下，

R m I o U

随着融合阶段增加逐步提高，结果表明在4个Transformer解码阶段均加入融合模块能够最大限度提升分割结果.

2.5.4 真实场景玻璃类似物测试

为了验证本文提出方法的通用性，收集了日常环境中手机拍摄的含有玻璃窗户、玻璃门、眼镜和镜子的玻璃类似物数据，其中包括镜面和玻璃类物体.由图4可知，在实际场景中测试表明，本文方法能够准确地分割出玻璃类似物区域，从而验证了本文方法在实际应用中的有效性.特别是在周围复杂反射和干扰的场景，本文方法依然能从干扰物中分割出镜子.

2.6 玻璃区域深度恢复

受到玻璃类似物透射或反射的影响，玻璃类似物区域的深度无法得到真实值，从而影响了3D重建和机器人导航.

玻璃类似物区域通常为平面且其表面深度与周围边界的深度相似，而本文方法能够分割得到玻璃类似物区和边界.为了进一步验证本文所提出的融合深度估计镜面分割的优势，设计了一种深度恢复方法，将边界10个像素宽的扩展区域的平均深度作为玻璃类似物区域的深度.

图5展示了如何利用玻璃类似物分割恢复镜面深度.如图5所示，首先，使用边缘来定位需要恢复的深度区域，然后使用边界（图5e）外的10个像素区域的平均深度作为玻璃区域深度的基准，调整玻璃区域的深度.调整后的深度图如图5f所示，借助镜面周围边界的深度，将镜面深度估计结果修正为边界附近深度，使其接近镜面真实物理深度.这种深度恢复的方法能够对镜面或玻璃平面区域的深度进行整体估计，为机器人导航、2D或3D语义分割和3D重建等提供深度参考.

3 结语

针对玻璃类似物分割任务的挑战，本文提出了一个基于Transformer的RGBD跨模态融合分割方法.该方法结合了2个Transformer分支，通过1个跨模态融合模块来整合RGB和深度信息，并利用空间、通道及多层注意力机制优化特征提取，增强对玻璃类似物纹理及深度空间结构的识别能力.实验结果表明，本文方法与EBLNet方法相比，在GDD，Trans10k和MSD数据集上

交并 比

分别提高1.64%，2.26%，7.38%，与PDNet方法比较在RGBD-Mirror数据集上交并比提高了9.49%.消融实验进一步验证了本文方法对玻璃类似物区域的识别能力及设计的合理性；相比传统深度传感器，使用深度估计网络生成的深度图更为有效.未来工作计划将此技术应用于机器人导航、语义分割及3D重建等领域，以提高任务的精度和通用性.

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	Zhao H S， Qi X J， Shen X Y，et al.ICNet for real‑time semantic segmentation on high‑resolution images［C］//Proceedings of the European Conference on Computer Vision （ECCV 2018）.Munich：Springer International Publishing，2018：418‑434.

[2]	Wang D Q， Zhang T， Süsstrunk S.NEMTO：neural environment matting for novel view and relighting synthesis of transparent objects［C］//2023 IEEE/CVF International Conference on Computer Vision （ICCV）.Paris：IEEE，2023：317-327.

[3]	王璐，王帅，张国峰，等.基于语义分割注意力与可见区域预测的行人检测方法［J］.东北大学学报（自然科学版），2021，42（9）：1261-1267.

[4]	Wang Lu， Wang Shuai， Zhang Guo‑feng，et al. Pedestrian detection based on semantic segmentation attention and visible region prediction［J］.Journal of Northeastern University （Natural Science ），2021，42（9）：1261-1267.

[5]	张之敏，乔建忠，林树宽，等.一种基于深度网络的视图重建方法［J］.东北大学学报（自然科学版），2020，41（8）：1065-1069.

[6]	Zhang Zhi‑min， Qiao Jian‑zhong， Lin Shu‑kuan，et al.A view reconstruction method based on deep network［J］.Journal of Northeastern University （Natural Science），2020，41（8）：1065-1069.

[7]	Wang Z Y， Li Y C， Cheng X N，et al.Key points trajectory and multi‑level depth distinction based refinement for video mirror and glass segmentation［J］.Multimedia Tools and Applications，2024，83（39）：86513-86535.

[8]	Yang X， Mei H Y， Xu K，et al.Where is my mirror？［C］//2019 IEEE/CVF International Conference on Computer Vision （ICCV）.Seoul：IEEE，2019：8808-8817.

[9]	Lin J Y， He Z B， Lau R W H.Rich context aggregation with reflection prior for glass surface detection［C］//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.Nashville：IEEE，2021：13410-13419.

[10]	Lin J Y， Wang G D， Lau R W H.Progressive mirror detection［C］//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.Seattle：IEEE，2020：3694-3702.

[11]	Mei H Y， Yang X， Wang Y，et al.Don’t hit me！glass detection in real‑world scenes［C］//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.Seattle：IEEE，2020：3684-3693.

[12]	He H， Li X T， Cheng G L，et al.Enhanced boundary learning for glass‑like object segmentation［C］//2021 IEEE/CVF International Conference on Computer Vision （ICCV）.Montreal：IEEE，2021：15839-15848.

[13]	Mei H Y， Dong B， Dong W，et al.Depth‑aware mirror segmentation［C］//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.Nashville：IEEE，2021：3043-3052.

[14]	Chang Q L， Liao H H， Meng X F，et al.PanoGlassNet：glass detection with panoramic RGB and intensity images［J］.IEEE Transactions on Instrumentation and Measurement，2024，73：5019015.

[15]	Liu Z， Lin Y T， Cao Y，et al.Swin transformer：hierarchical vision transformer using shifted windows［C］//2021 IEEE/CVF International Conference on Computer Vision （ICCV）.Montreal：IEEE，2021：9992-10002.

[16]	Yin W， Zhang J M， Wang O，et al.Learning to recover 3D scene shape from a single image［C］//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.Nashville：IEEE，2021：204-213.

[17]	Taud H， Mas J F.Multilayer perceptron （MLP）［M］//Cámacho O M T，Paegelow M，Mas J F，et al.Geomatic Approaches for Modeling Land Change Scenarios.Cham：Springer，2018：451-455.

[18]	Zhao H S， Shi J P， Qi X J，et al.Pyramid scene parsing network［C］//2017 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.Honolulu：IEEE，2017：6230-6239.

[19]	Deng J J， Pan Y W， Yao T，et al.MINet：meta‑learning instance identifiers for video object detection［J］.IEEE Transactions on Image Processing，2021，30：6879-6891.

[20]	Zhou H J， Xie X H， Lai J H，et al.Interactive two‑stream decoder for accurate and fast saliency detection［C］//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.Seattle：IEEE，2020：9138-9147.

[21]	Xie E Z， Wang W J， Wang W H，et al.Segmenting transparent objects in the wild［C］//Computer Vision and Pattern Recognition.Cham：Springer International Publishing，2020：696-711.

[22]	Wei　J， Wang　S H， Huang Q M.F3Net：fusion，feedback and focus for salient object detection［C］//Proceedings of the AAAI Conference on Artificial Intelligence.New York：IEEE，2020：12321-12328.

基金资助

国家自然科学基金资助项目(62273081)

辽宁省基础研究计划项目(2022JH2/101300202)

AI Summary AI Mindmap

PDF (1582KB)

304

访问

被引

详细

导航

Received	Accepted	Published
2023-07-17
Issue Date
2025-03-26

摘要