基于交叉融合自注意力的点云语义分割

舒军; 王帅; 杨莉; 陈宇

doi:10.20056/j.cnki.ZNMDZK.20250730

中南民族大学学报（自然科学版） ›› 2025, Vol. 44 ›› Issue (01) : 96 -106. DOI: 10.20056/j.cnki.ZNMDZK.20250730

物理与电子信息科学

基于交叉融合自注意力的点云语义分割

舒军 ¹ ,
王帅 ¹ ,
杨莉 ² ,
陈宇 ²

作者信息 +

Point cloud semantic segmentation algorithm based on cross fusion self-attention

Jun SHU ¹ ,
Shuai WANG ¹ ,
Li YANG ² ,
Yu CHEN ²

Author information +

文章历史 +

PDF (6520K)

摘要

针对目前点云语义分割算法通常采用简单的串联三维原始坐标信息方式建模几何信息，导致建模不完整问题.提出了交叉融合自注意力网络，在该网络的编码层中设计了交叉融合自注意力机制模块，通过交互学习坐标和特征信息，提高局部细粒度特征描述能力，使得几何信息建模更加完整.同时为了更好地结合浅层与高层特征，提出了一种层级特征融合模块，通过自适应地连接网络不同层，实现不同层的特征整合.在S3DIS、Semantic3D和SemanticKITTI数据集上实验表明：该算法优于RandLA-Net等先进算法.

Abstract

In response to the existing issue of incomplete geometry modeling caused by the prevalent approach of simply concatenating raw 3D coordinate information in current point cloud semantic segmentation algorithms， a Cross-Fusion Self-Attention Network is proposed. Within the encoding layers of the network， the Cross-Fusion Self-Attention Mechanism module is introduced， which leverages interactive learning between coordinate and feature information to enhance the capability of describing fine-grained local features. This leads to a more comprehensive modeling of geometric information. Additionally， to effectively integrate shallow and deep-level features， a Hierarchical Feature Fusion module that adaptively connects different layers of the network is proposed， enabling the integration of features from various levels. Experimental results on the S3DIS， Semantic3D， and SemanticKITTI datasets demonstrate the superiority of our algorithm over advanced approaches such as RandLA-Net.

Graphical abstract

关键词

点云 / 语义分割 / 交叉融合自注意力 / 层级特征融合

Key words

point cloud / semantic segmentation / cross-fusion self-attention / hierarchical feature fusion

引用本文

引用格式 ▾

舒军,王帅,杨莉,陈宇. 基于交叉融合自注意力的点云语义分割[J]. 中南民族大学学报（自然科学版）, 2025, 44(01): 96-106 DOI:10.20056/j.cnki.ZNMDZK.20250730

登录浏览全文

4963

注册一个新账户忘记密码

点云数据是由一系列三维点组成的数据集，用于表示三维空间中的几何结构或物体表面.相较于二维图像数据，三维点云是无序和非结构化的数据^［1］，但是点云提供了更加丰富的信息，能够更加充分的表征一些复杂场景.针对点云数据结构，设计一个神经网络对三维点云进行语义分割是一项具有挑战性的工作.

为应对点云语义分割这一挑战，近年学者们提出了越来越多的3D点云分割深度学习框架.主要可以分为基于投影、体素和点的三种方法^［2-3］.基于投影的方法^［4-5］是通过将三维点云数据投影到二维图像上，利用神经网络对投影图像进行特征提取，以获取三维模型表面信息.然而，基于投影的方法会降低点云维度，从而在聚合几何和结构信息方面存在一定缺陷.基于体素的方法^［6-7］是将点云体素化为密集的3D网格，再通过神经网络进行处理.然而，体素方法需要不断提升体素分辨率以提高整体精度，但这会导致内存增加的问题.基于点的方法是对每个点直接进行处理，提取出点云中特征信息，并使用这些特征进行后续的处理.QI等人提出了具有里程碑意义的PointNet^［8］，是第一个直接使用神经网络处理点云数据而无需额外操作的网络.受到PointNet启发，相关学者提出了一系列直接处理原始点云数据的网络.QI等人提出PointNet++^［9］网络，该网络设计了一种多层次局部特征聚合模块，可以更好聚合局部特征.THOMAS等人提出了KPConv^［10］，引入了一个新概念Kernel Points，即在点云中自适应选取一些点作为卷积核的模板，然后通过对这些模板进行插值来构造卷积核.HU等人提出了RandLA-Net^［11］，专门针对大规模点云数据，提高分割效率.现有的算法忽略了以下两个关键问题：首先，在建模几何信息时，由于缺乏交互融合坐标特征信息的能力，难以准确捕捉点云数据中空间信息；其次，在编码层，由于缺乏结合浅层和高层语义特征的能力，难以有效地分割出特征相似样本.

输入点云数据

P = {p i, f i | i = 1,2, 3, ⋯, N}

是坐标和特征信息的集合，其中N是点云数量，

p i ∈ R 1 × 3

为坐标信息，

f i ∈ R 1 × d

为特征信息（例如，颜色、法向量等）.以往工作通常是将特征信息和坐标信息分开处理.在特征提取过程中仅简单的串接3维原始坐标信息对几何信息建模，可能导致模型泛化能力和鲁棒性下降.在2D图像中，合理的解决方案是使用卷积来考虑提取特征过程中相对位置关系.由于点云数据的无序性，无法使用大的卷积核进行操作.然而，如果在点云中执行相似的操作，可以有效地增强模型的特征提取能力.

随着点云神经网络研究深入，在二维图像与自然语言处理领域取得了显著成果的自注意力机制，被广泛应用于三维点云处理^［12-13］.REN等人提出PA-Net^［14］，该网络设计了两个并行的自注意力机制，同时关注坐标和特征信息.ZENG等人提出LEARD-Net^［15］，通过自注意力机制，让网络同时关注空间几何结构、颜色信息和语义特征.然而，上述网络均未考虑坐标特征的交互融合问题.

层级特征融合在二维图像处理中同样有着广泛应用.例如，GU等人^［16］使用两个并行编码器来提取不同层信息并将它们合并.ZHAO等人^［17］使用不同大小的全局平均池来构建空间金字塔以融合不同层特征.在点云中，HUANG等人^［18］提出了一种基于特征的多尺度网络来完成点云任务.LI等人^［19］提出了一种多尺度域特征和聚合模型，增强网络特征提取能力.GENG等人^［20］提出了一种多尺度注意力聚合网络，从编码器和解码器捕获全局特征.本文提出了一种新的层级特征融合方式，以自适应地连接网络的不同层.

为了解决点云数据中坐标信息和特征信息交互融合问题，本文设计了交叉融合自注意力（Cross-fusion self-attention，CFSA）机制模块，该模块能够交互地考虑点云特征和坐标信息.在CFSA模块中，所有特征和坐标都能自适应地增强彼此的表达能力，从而实现了坐标和特征的有效融合.

为了解决点云数据中浅层特征和高层语义特征结合问题，本文提出了一种层级特征融合（Hierarchical feature fusion，HFF）模块.该模块从上到下融合编码部分的特征，通过自适应地合并前一层特征来实现特征融合.总的来说，本文贡献可以总结如下：

（1）设计了CFSA模块，该模块不仅具有置换不变性，无论输入点的顺序如何变化，该模块都能给出相同的特征提取结果.而且能够交互地提取坐标和特征信息，自适应增强坐标和特征的信息，建模更加完整的几何信息.

（2）设计了HFF模块，自适应地捕获不同尺度的特征.它可以很容易地嵌入到网络的不同层中，为网络带来更丰富的尺度和梯度信息.

（3）基于CFSA和HFF模块，提出了一个新的点云语义分割网络.能够有效地处理点云的分割任务，在S3DIS、Semantic3D和SemanticKITTI数据集上获得了有竞争力的结果.

1 本文算法

模型如图1所示，使用包含N个点的点云集合，其中每个点具有xyz坐标位置信息和特征信息作为输入，采用具有跳跃连接的编解码器结构.将点云输入到五个编解码层来学习每个点的特征.在编码端，点云通过基于交叉融合自注意力的局部特征提取（Local feature extraction，LFE）模块，丰富坐标信息，交互融合坐标和特征信息，扩大每个点感受野.使用随机采样（Random Sampling，RS）减小点云规模.同时通过设计层级特征融合模块，聚合每一层的语义信息，并级联到编码层的最后.解码端每个点采用（K-NearestNeighbor，KNN）方式获得最邻近点，通过线性插值方法^［21］进行上采样（Up Sampling，US），同时与对应编码端的特征进行合并.最后通过全连接（Full Connection，FC）和Dropout操作获得最终的分割结果.

1.1 基于交叉融合注意力的局部特征提取（CFSA-LFE）

局部特征提取（LFE）是编码层的核心，主要由三个模块组成，包括局部坐标编码模块（Local coordinate encoding，LCE）、交叉融合自注意力（CFSA）池化模块和残差优化（Residual optimization，RO）模块.

（1）局部坐标编码（LCE）.

为丰富增强坐标信息，LCE模块采用KNN方法获取每个点的K个最近邻点的位置信息

{p i 1 ⋯ p i m ⋯ p i K}

，并对其进行编码.具体结构如图2所示.编码过程定义如下：

r i K = G (M L P (g (p i, p i m, p i - p i m, p i - p i m)))

，（1）

式中

p i ∈ R 1 × 3

为

i

点坐标，

i ∈ {1 ⋯ N}

；

p i m ∈ R 1 × 3

为

i

点的第

m

个邻点坐标，

m ∈ {0 ⋯ K}

；

(p i - p i m) ∈ R 1 × 3

为

i

点与邻居点相对坐标；

p i - p i m ∈ R 1 × 1

为

i

点与其邻居点欧式距离；g表示连接操作，即将

p i

和

p i m, p i - p i m, p i - p i m

进行拼接，得到维度为

(1,10)

的相对空间位置信息；多层感知机（Multilayer Perceptron，MLP）将连接后的相对空间位置信息扩展到和

f i ∈ R 1 × d

一样的维度，得到

i

点的第

m

个邻点高维度的相对空间位置信息，MLP是一种基本的前馈人工神经网络模型，通过堆叠多个全连接层和非线性激活函数，允许MLP在输入数据的多个维度上进行组合和交互，以逐层逐渐拓展特征的维度.最终，将

i

点的K个最近邻点高维度的相对空间位置信息拼接，得到

i

点的局部坐标编码

r i K ∈ R K × d

，将K个最近邻点特征拼接得到

i

点的局部特征

f i K ∈ R K × d

（2）交叉融合自注意力池化.

自注意力机制的原理是通过计算每个位置与其他位置之间的相关性来捕捉序列中元素之间的依赖关系，然后根据相关性对不同位置的元素进行加权求和，生成上下文表示.CFSA模块使用强大的自注意力机制交互增强局部坐标和特征信息，它所接收的输入由LCE模块的输出构成，即LCE后的坐标和特征信息.该模块结构具体如图3所示，具体的计算方法如下：

上半部分输入为

r i K

，将

r i K

线性变换之后得到

r i - q u e r y K, r i - k e y K, r i - v a l u e K

三个新的特征描述.同理，

f i - q u e r y K, f i - k e y K, f i - v a l u e K

是由下半部分输入

f i K

线性变换之后得到，线性变换过程可以描述为：

r i - q u e r y K, r i - k e y K, r i - v a l u e K = L (r i K) f i - q u e r y K, f i - k e y K, f i - v a l u e K = L (f i K)

，（2）

其中L代表线性变换，query、key、value分别代表查询、键和值.在注意力机制中，将输入向量转换为查询（query）、键（key）和值（value）向量的过程通常被称为"线性变换".这个线性变换是通过矩阵乘法实现的.

具体而言，给定输入向量 X，可以通过以下线性变换将其转换为查询向量 Q 、键向量 K 和值向量 V ：

Q = X · W Q, K = X · W K, V = X · W V

，其中

W Q, W K, W V

是可学习的权重矩阵，它们分别用于对输入向量进行查询、键和值的线性变换.

然后通过交叉自注意力运算得到

r i - o K, f i - o K

，该过程定义如下：

r i - o K = r i - v a l u e K ⊗ f i - a K + r i K f i - o K = f i - v a l u e K ⊗ r i - a K + f i K

，（3）

其中

⊗

表示矩阵乘法，其中

r i K, f i K

表示原始的残差分支，由式（3）可以看出，CFSA模块交互增强了坐标和特征信息，上式中的

r i - a K, f i - a K

由查询和键加权得到，具体过程定义如下：

r i - a K = s o f t m a x (s u m ((r i - q u e r y K) T ⊗ r i - k e y K)) f i - a K = s o f t m a x (s u m ((f i - q u e r y K) T ⊗ f i - k e y K))

，（4）

其中

⊗

同样也是表示矩阵乘法，sum表示将矩阵乘法的结果的每一行与第一行相加，最后通过softmax分配权重.

相较于传统自注意力机制，CFSA机制在LCE后实现了坐标和特征信息的交互作用增强.最终，通过连接和池化处理，得到查询点新特征描述

F i - K o u t

，具体定义如下：

F i - K o u t = M L P (∑ i = 1 K g (r i - o K, f i - o K))

.（5）

（3）残差优化.

为处理大规模点云数据，编码阶段采用随机抽样下采样.随机抽样具有低时间和空间复杂度、内存占用少、高效率等优点.然而，随机采样可能会导致关键点信息丢失.为减轻关键点信息丢失的影响，本文引入残差优化模块，在本研究中堆叠LCE模块和CFSA池化模块以有效扩大每个点的感受野.根据以往的理论，LCE模块和CFSA池化模块堆叠次数越多，扩展效果越好.然而，考虑计算效率和模块可迁移性，本文通过对LCE模块和CFSA池化模块进行了两次堆叠，并添加跳跃连接以实现残差学习.具体结构见图4.

1.2 层级特征融合

鉴于点云具有广泛的范围和复杂多样的物体尺度，为了扩大模型的感受野并保留更多的局部细粒度信息，本文提出了一种层级特征融合模块，用于有效地融合不同尺度的特征.该模块将相邻尺度的特征进行组合，以实现这一目标.

HFF采用层级融合策略对不同层次特征进行融合，将邻近层特征信息采用一个上下文注意力融合模块进行融合，结合浅层语义特征和高层语义特征生成注意力权重，考虑不同尺度特征间的差异，对原始点和采样点之间进行跨级别长依赖关系建模.HFF模块详细结构如图5所示.

该模块采用跨层次注意力机制将低层语义信息

F L ∈ R N L × D L

和高层语义信息

F H ∈ R N H × D H

（

N L > N H

）进行融合，该模块以采样后的高层特征

F H

为查询集，以低层特征

F L

为键和值集.模块中亲和力矩阵计算过程可描述为如下：

F M = s o f t m a x (M L P (F H) ⊗ (M L P (F L)) T)

，（6）

其中MLP表示多层感知器，

⊗

表示矩阵乘法，T表示转置，最后通过softmax分配权重.接着通过在

F M

和值集之间应用矩阵乘法，建立采样之前和之后的特征映射.其表示为：

F V = F M ⊗ (M L P (F L))

，（7）

其中

F V

表示跨层上下文信息，其进一步与

F H

融合以用于增强信息，最后再经过MLP得到与

F H

同尺寸的输出

H F F o u t

.具体过程如下：

H F F o u t = M L P (C (F H, F V))

，（8）

其中C表示通道维度中的级联.图5中，最后一层

H F F o u t

表示聚合的多层上下文信息，并且其被级联到编码器最后一层后.通过这种方式，HFF可以分层补偿信息损失并丰富特征编码.

2 实验结果分析

在本节中，对提出的网络在三个主流的语义分割数据集（S3DIS，Semantic3D，SemanticKITTI）上进行了评估.此外，还进行了一些相关的消融实验，包括网络结构分析和自注意力机制方式选择，以验证所提出的各个模块.

2.1 数据集介绍和实验环境参数设定

本文主要在3个数据集上进行评估，分别是S3DIS、Semantic3D和SemantiKITTI.S3DIS是室内场景数据集，Semantic3D是室外场景数据集，SemanticKITTI是无人驾驶场景数据集，不同数据集有不同的点数和特征，每个数据集的详细介绍如下.S3DIS是大型室内场景点云数据集，该数据集包含6个教学和办公场景区域，包含13个类别，共271个房间.每个点云数据具有9个特征，即坐标信息x、y、z、颜色信息R、G、B和3个对应的法向量.

Semantic3D数据集是一个庞大的自然场景点云数据集，包含超过40亿个点.该数据集覆盖了多个场景，包括街道、广场、村庄和城堡等.每个点云数据都包含7个特征，包括坐标信息（x、y、z）、反射强度以及颜色信息（R、G、B）.

SemanticKITTI是自动驾驶领域的权威数据集.该数据集类别既包括行人、车辆等交通参与者，也包括停车场、人行道等地面设施，每个点云数据具有4个特征，即坐标信息x、y、z和反射强度.

实验参数设置如下：在Ubuntu20.04系统上基于TensorFlow2.6.0框架进行计算，使用NVIDIA Quadro P6000 GPU进行加速.采用Adam优化器，并将三个数据集的Batchsize分别设置为6、3、3.初始学习速率均设置为0.01，最大迭代次数均为100.

2.2 评价指标

整体准确率（OA），平均准确率（mAcc），平均交并比（mIoU）是常见定量评估点云语义分割性能的三个指标.其中OA表示分类器对所有样本的分类正确率，mAcc每个标签准确率的平均值，mIoU表示各个类别的预测标签与真实标签的交集和并集之比的平均数.这些指标具体计算公式分别如下：

O A = ∑ i = 1 c T P ∑ i = 1 c (T P + F N)

，（9）

m A c c = 1 c · ∑ i = 1 c T P + T N T P + F P + F N + T N

，（10）

m I o U = 1 c · ∑ i = 1 c T P T P + F N + F P

，（11）

上式中，c指类别数量；TP（true positives）表示真实为真，预测也为真的数量；FP（false positives）表示真实为假，预测为真的数量；FN（false negtives）表示真实为真，预测为假的数量；TN（true negtives）表示真实为假，预测也为假的数量.

2.3 S3DIS数据集实验结果评估

本研究使用S3DIS数据集，将271个房间划分为6个区域，通过对这六个区域进行6倍交叉验证，评估所提出算法的性能.将所提出算法与其他算法在6个区域中的定量结果进行对比，结果如表1所示，其中最优的结果用加粗表示.本文算法在OA、mAcc和mIoU三个指标上均优于其他算法，分别为87.5%、82.4%和71.1%.在地板、柱子、椅子、写字板和杂物类别上的mIoU取得了最佳性能，分别比表中其他算法的最佳结果分别提升了1.0%、0.4%、1.7%、0.6%和0.3%.此外，在窗户和门等类别上，分割精度同样表现突出.

然后，本文将提出的算法与PointNet++、RandLA-Net进行比较，并将其定性结果进行对比，证明了本文算法的优势.如图6所示，第一列为会议室场景，第二列为走廊场景，第三列为办公室场景.每个场景都包含场景真实标签、PointNet++预测、RandLA-Net预测和本文算法预测.可以观察到本文的算法可以准确预测出相似度高的物体、小物体的边缘轮廓和使嵌入物体的轮廓更平滑，如柱子、梁和墙的拐角等几何形状相似的物体，摆放着书籍和杂物的书架等小物体的边缘，墙上的黑板等嵌入物体的轮廓.这归功于局部坐标编码模块和交互自注意力模块，局部坐标编码模块保留了丰富的局部几何信息，交叉自注意力模块增强了坐标和特征的交互学习.

2.4 Semantic3D数据集实验结果评估

采用Semantic3D数据集中的reduce-8进行实验评估，其包含15个地区的训练点云数据和4个地区的测试点云数据.实验定量结果如表2所示，本文算法在Semantic3D数据集上的平均交并比和总体准确率均优于对比算法，mIoU为78.3%，OA为95.1%.在建筑（教堂、市政厅、车站等）、硬景观（一个杂乱的类，例如加登墙，喷泉，银行等）和汽车上表现最佳，相较于本文对比算法的最佳结果分别提升了0.3%、1.3%和0.5%.此外，在人造地形和自然地形等类别上也取得了较好的效果.

测试结果可视化图像如图7所示，由于该数据集并未公布测试集的真实标签，图中从左往右分别是输入点云数据和预测标签.从整体上看，提出算法的分割效果较好，能够有效区分建筑物、道路等目标的边界.值得注意的是，硬景观类别分布不均匀，其形状和结构变化较大，内部的几何形状、颜色和纹理特征也随场景变化而变化，但提出的算法在这种复杂情况下仍获得了最佳的分割性能.通过数据分析和结果可视化可以看出，该算法能够识别点云结构中的细节和复杂部分，有效区分不同目标的特征和细节.这表明网络具有优秀的特征提取、空间信息聚合和精确分割的能力，充分验证了特征提取模块的效果.

2.5 SemanticKITTI数据集实验结果评估

SemanticKITTI数据集是基于KITTI数据集的扩展，表3为本文算法在SemanticKITTI数据集上与现有的一些基于点、基于投影和体素的经典算法定量结果对比.从表中结果可以看出，本文的算法优于大多数的算法，mIoU为55.3%，并且在车、植被和地形上取得最优的分割结果.本文算法在基于点的方法中具备显著的优越性，并且在基于投影和体素的方法中也表现出一定的优势，仅次于SalsaNext算法.虽然有些对比算法在SemanticKITTI数据集上在更多标签上表现优秀，但它们会牺牲模型大小和计算效率.本文算法的目标是提供一个在自动驾驶领域具有实际应用潜力的算法，综合考虑了多个因素的平衡，在具备一定实时性的同时，具有较为先进的分割结果.

本文算法在SemanticKITTI数据集上的分割结果可视化结果具体如图8所示.从左到右分别是真实标签、SqueezeSegV2预测结果、RandLA-Net预测结果和本文算法预测结果.从图中可以看出，本文在车的预测上与真实标签最为接近，在植被范围和地形边缘上也有很好的分割效果.从可视化分析可以看出，即使在点云密度比较稀疏的大型室外场景数据集，本文仍能取得较好的分割效果，体现出本文网络特征提取能力的有效性.

2.6 消融实验

（1）网络结构分析.

为了验证提出的CFSA和HFF模块的有效性，在相同的网络框架下通过对逐个模块调整进行测试，并在S3DIS数据集上进行评估.如表4所示，在任何模块都没有添加时，mIoU仅为68.5%.当单独选用CFSA和HFF模块时，mIoU分别提高了1.8%和0.5%，达到了70.3%和69.0%.当把两个模块一起加入，在两个模块共同作用下，mIoU提高了2.6%，达到了71.1%.通过该消融实验的结果，证明了所提出模块在提取特征时的关键作用.

（2）自注意力机制方式选择.

表5展示了在S3DIS数据集上不同自注意力机制的消融实验结果，通过在构建的局部特征提取模块中分别加入通道自注意力（Channel self-attention， CSA）机制、空间自注意力（Spatial self-attention， SSA）机制、空间和通道并行作用的双通道自注意力（Dual-channel self-attention， DCSA）机制和CFSA机制，评估了这些不同自注意力机制对点云语义分割性能的影响.从表中的结果可以看出，CFSA机制取得了最好的效果，证明了该机制的有效性.

3 结论

本文提出了一个新的算法来处理点云语义分割任务，通过改进的自注意力机制，提升网络特征提取能力.具体地，提出了CFSA模块和HFF模块对算法进行优化.CFSA模块通过在特征提取中交互融合坐标和特征信息，解决了点云几何建模不完整问题.HFF模块通过在编码部分帮助模型充分整合不同层次和尺度之间的语义信息，可以获取更加丰富的特征信息.与其它算法相比，本文所提出的算法在大规模语义分割任务上取得了更好的性能.从预测的可视化图像可以看出，提出的算法能够适应目标形状、结构和外观的变化，并在复杂场景中准确分割点云，表现出强大的适应性和泛化能力.

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	双丰，黄兴文，李勇，等. 基于深度学习的大规模点云语义分割方法综述［J］. 测绘科学， 2023， 48（2）： 195-209.

[2]	侯伟鹏，王蕾. 基于全局上下文注意力的点云语义分割［J］. 现代电子技术， 2023， 46（9）： 120-125.

[3]	于魁梧，宋玉琴，徐轩. 基于双注意力融合和残差优化的点云语义分割［J］. 国外电子测量技术， 2022， 41（8）： 12-18.

[4]	WU B C， ZHOU X Y， ZHAO S C， et al. SqueezeSegV2： Improved model structure and unsupervised domain adaptation for road-object segmentation from a LiDAR point cloud［C］//2019 International Conference on Robotics and Automation （ICRA）. Montreal：ACM， 2019： 4376-4382.

[5]	ROSU R A， SCHÜTT P， QUENZEL J， et al. LatticeNet： Fast spatio-temporal point cloud segmentation using permutohedral lattices［J］. Autonomous Robots， 2022， 46（1）： 45-60.

[6]	GAN L， ZHANG R， GRIZZLE J W， et al. Bayesian spatial kernel smoothing for scalable dense semantic mapping［J］. IEEE Robotics and Automation Letters， 2020， 5（2）： 790-797.

[7]	ZHOU W， ZHANG X D， HAO X X， et al. Multi Point-Voxel Convolution （MPVConv） for deep learning on point clouds［J］. Computers & Graphics， 2023， 112： 72-80.

[8]	CHARLES R Q， HAO S， MO K C， et al. PointNet： Deep learning on point sets for 3D classification and segmentation［C］//2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Honolulu：IEEE， 2017： 77-85.

[9]	QI C R， YI L， SU H， et al. PointNet++： Deep hierarchical feature learning on point sets in a metric space［C］// Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach：ACM， 2017： 5105-5114.

[10]	THOMAS H， QI C R， DESCHAUD J E， et al. KPConv： Flexible and deformable convolution for point clouds［C］//2019 IEEE/CVF International Conference on Computer Vision （ICCV）. Seoul：IEEE， 2019： 6410-6419.

[11]	HU Q Y， YANG B， XIE L H， et al. Learning semantic segmentation of large-scale point clouds with random sampling［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2022， 44（11）： 8338-8354.

[12]	ENGEL N， BELAGIANNIS V， DIETMAYER K. Point transformer［J］. IEEE Access， 2005， 9： 134826-134840.

[13]	GUO M H， CAI J X， LIU Z N， et al. PCT： Point cloud transformer［J］. Computational Visual Media， 2021， 7（2）： 187-199.

[14]	REN D Y， WU Z Y， LI J W， et al. Point attention network for point cloud semantic segmentation［J］. Science China Information Sciences， 2022， 65（9）： 192104.

[15]	ZENG Z Y， XU Y Y， XIE Z， et al. LEARD-Net： Semantic segmentation for large-scale point cloud scene［J］. International Journal of Applied Earth Observation and Geoinformation， 2022， 112： 102953.

[16]	GU F， BURLUTSKIY N， ANDERSSON M， et al. Multi-resolution networks for semantic segmentation in whole slide images［C］//International Workshop on Ophthalmic Medical Image Analysis， International Workshop on Computational Pathology. Cham： Springer， 2018： 11-18.

[17]	ZHAO H S， SHI J P， QI X J， et al. Pyramid scene parsing network［C］//2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Honolulu：IEEE， 2017： 6230-6239.

[18]	HUANG Z T， YU Y K， XU J W， et al. PF-net： Point fractal network for 3D point cloud completion［C］//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Seattle：IEEE， 2020： 7659-7667.

[19]	LI D W， SHI G L， WU Y H， et al. Multi-scale neighborhood feature extraction and aggregation for point cloud segmentation［J］. IEEE Transactions on Circuits and Systems for Video Technology， 2021， 31（6）： 2175-2191.

[20]	GENG X X， JI S P， LU M， et al. Multi-scale attentive aggregation for LiDAR point cloud segmentation［J］. Remote Sensing， 2021， 13（4）： 691.

[21]	朱芬芬，王蕾，刘华. 特征自适应融合插值的点云语义分割算法［J］. 现代电子技术， 2023， 46（12）： 175-181.

[22]	LANDRIEU L， SIMONOVSKY M. Large-scale point cloud semantic segmentation with superpoint graphs［C］//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City：IEEE， 2018： 4558-4567.

[23]	ZHAO H S， JIANG L， FU C W， et al. PointWeb： Enhancing local neighborhood features for point cloud processing［C］//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Long Beach：IEEE， 2019： 5560-5568.

[24]	BOULCH A， LE SAUX B， AUDEBERT N. Unstructured point cloud semantic labeling using deep segmentation networks［C］//Proceedings of the Workshop on 3D Object Retrieval. ACM， 2017： 17–24.

[25]	ZHANG Z Y， HUA B S， YEUNG S K. ShellNet： Efficient point cloud convolutional neural networks using concentric shells statistics［C］//2019 IEEE/CVF International Conference on Computer Vision （ICCV）. Seoul：IEEE， 2019： 1607-1616.

[26]	WANG L， HUANG Y C， HOU Y L， et al. Graph attention convolution for point cloud semantic segmentation［C］//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Long Beach：IEEE， 2019： 10288-10297.

[27]	WU B C， WAN A， YUE X Y， et al. SqueezeSeg： Convolutional neural nets with recurrent CRF for real-time road-object segmentation from 3D LiDAR point cloud［C］//2018 IEEE International Conference on Robotics and Automation （ICRA）. Brisbane：IEEE， 2018： 1887-1893.

[28]	MILIOTO A， VIZZO I， BEHLEY J， et al. RangeNet： Fast and accurate LiDAR semantic segmentation［C］//2019 IEEE/RSJ International Conference on Intelligent Robots and Systems （IROS）. Macau： IEEE， 2019： 4213-4220.

[29]	ZHANG Y， ZHOU Z X， DAVID P， et al. PolarNet： An improved grid representation for online LiDAR point clouds semantic segmentation［C］//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Seattle：IEEE， 2020： 9598-9607.

[30]	CORTINHAL T， TZELEPIS G， AKSOY E.SalsaNext： Fast semantic segmentation of LiDAR point clouds for autonomous driving［J］. arXiv： 2020， 2003.03653.