融合CLIP和3D高斯的多模态场景编辑算法

曹仰杰; 王伟平; 李振强; 谢俊; 吕润峰

doi:10.13705/j.issn.1671-6833.2025.05.016

郑州大学学报（工学版） ›› 2025, Vol. 46 ›› Issue (05) : 35 -42. DOI: 10.13705/j.issn.1671-6833.2025.05.016

融合CLIP和3D高斯的多模态场景编辑算法

曹仰杰, 王伟平, 李振强, 谢俊, 吕润峰

作者信息 +

Author information +

文章历史 +

PDF

摘要

针对3D场景编辑算法对标注数据过度依赖和计算复杂度高的问题，提出了一种融合CLIP与3D高斯的多模态场景编辑算法(CLIP2Gaussian)。首先，利用SAM从多视角图像中提取目标掩码，并引入双向传播策略实现不同视角之间的掩码一致性；其次，将提取的掩码通过CLIP进行语义标签分配，并映射到3D高斯点，实现3D场景的语义嵌入；最后，采用可微分渲染机制对3D高斯参数进行优化，同时引入空间一致性正则化策略，通过聚类增强语义标签在3D空间中的一致性与稳定性。实验结果表明：CLIP2Gaussian在LERF数据集上IoU达到61.23%,语义分割任务中单次文本查询响应时间为0.57 s,准确率和效率均优于LERF。消融实验进一步验证了所提算法在最小扰动原始场景的前提下对目标区域的精准编辑。