单目视频图像序列三维重建方法

沙晓鹏 ,  曹加奇 ,  李文静 ,  秦晔

东北大学学报(自然科学版) ›› 2024, Vol. 45 ›› Issue (12) : 1680 -1687.

PDF (2712KB)
东北大学学报(自然科学版) ›› 2024, Vol. 45 ›› Issue (12) : 1680 -1687. DOI: 10.12068/j.issn.1005-3026.2024.12.002
信息与控制

单目视频图像序列三维重建方法

作者信息 +

Three-Dimensional Reconstruction Method of Monocular Video Image Sequences

Author information +
文章历史 +
PDF (2776K)

摘要

针对单目场景下的三维重建,由于运动模糊和小基线图像的存在导致图像模糊、特征点匹配低、重建精度差等问题,提出一种单目视觉系统的三维重建方法.首先,根据图像的边缘信息利用小波变换检测原始数据中的模糊图像并剔除,通过几何鲁棒性准则筛选出宽基线图像,得到用于三维重建的清晰图像;其次,提出了基于区域划分的错误匹配特征点剔除算法,剔除重复匹配和错误匹配特征点;最后,提出3种不同区域增长方式获取更多特征点进行三维点计算.结果表明,提出的方法有效地去除了错误匹配特征点,提高了特征点匹配的准确率,获得了更多的点云数量,提高了重建模型的精度和完整度.

Abstract

For 3D reconstruction in uncalibrated monocular scene, due to the existence of motion blur and small baseline image, there are still problems such as blurred image, low feature matching, and reconstruction accuracy. A 3D reconstruction method of monocular vision system is proposed. Firstly, the fuzzy image in the original data is detected and removed by wavelet transform algorithm according to the edge information of the image, and the wide baseline image is screened by geometric robustness criterion to obtain clear images for 3D reconstruction. Then, an algorithm for eliminating mismatched feature points based on region division is proposed to eliminate repeated matching and mismatched feature points. Finally, three different regional growth methods are proposed to obtain more feature points for three‑dimensional point calculation. The results show that the proposed method can effectively remove mismatched feature points, improve the accuracy of feature point matching, obtain more point clouds, and improve the integrity and accuracy of the reconstructed model.

Graphical abstract

关键词

三维重建 / 关键帧筛选 / 特征提取 / 稀疏稠密化 / 区域增长

Key words

3D reconstruction / key frame screening / feature extraction / sparse and dense / regional growth

引用本文

引用格式 ▾
沙晓鹏,曹加奇,李文静,秦晔. 单目视频图像序列三维重建方法[J]. 东北大学学报(自然科学版), 2024, 45(12): 1680-1687 DOI:10.12068/j.issn.1005-3026.2024.12.002

登录浏览全文

4963

注册一个新账户 忘记密码

三维重建技术广泛应用于增强现实、考古、生物医学等领域.随着手机、摄像机等拍摄设备的快速普及,大量高分辨率图像和视频数据可被用来进行重建物体的三维模型.然而,对于这些海量图像数据,由于运动模糊等原因,会导致图像模糊、检测出的特征点较少、有较多的误匹配特征点等问题,因此重建的精度较低1-2.
相邻帧之间视角变化太小会导致基线过短,计算三维点时深度不确定性较大.因此,筛选出视频序列中关键帧是为了从大量的图像数据中筛选出基线大、清晰度高、特征点匹配度较高的图像,从而减小误匹配在三维点计算时的不准确性.现有关键帧筛选方法主要基于特征匹配比率、几何鲁棒性准则(geometrical robust information criterion,GRIC)和结构相似准则(structural similarity,SSIM). Fang等3提出一种基于深度补全校正和位姿融合的自动选择关键帧方法,利用边缘梯度变化剔除模糊图像比值和结构相似性准则筛选出关键帧. Zhang等4基于多特征融合的四元数傅立叶变换,构造了一种利用融合特征映射提取关键帧的自适应关键帧滤波准则,实现了关键帧的准确提取.
关键帧筛选后,图像特征的准确检测及图像之间特征点的精确匹配,对于从图像中准确地恢复出物体的三维结构信息至关重要5.在图像匹配中,经常会出现一些误匹配的特征点,这些误匹配点可能是由图像噪声、图像变形或者其他因素引起的,这将导致重建精度降低或者直接失败.常用匹配算法有暴力(brute‑force)匹配、K-最近邻匹配等.随着深度学习与卷积神经网络理论的不断发展,越来越多的图像特征点检测算法诞生,如MatchNet,D2-Net等.基于深度学习的特征点检测算法在检测效果以及描述子匹配度等方面优于传统算法,但在检测速度、数据集的依赖度和算法泛用性等方面依然存在问题.RANSAC (random sample consensus)6即随机采样一致性算法,是一种鲁棒性较强的特征点匹配算法,常用于解决匹配过程中存在误匹配或外点的情况和匹配点剔除、鲁棒拟合等问题.
在三维信息重建中,利用运动相机在不同角度和方向获取的图像通过特征点的准确匹配后恢复出场景的三维结构信息.运动恢复结构(structure from motion,SFM)是典型的三维重建算法7.但通过SFM完成稀疏三维点云重建后展示效果相对较差,为了更好地展示场景和物体的三维结构信息,可以结合多视角立体(multi‑view stereo,MVS)方法来实现对场景和物体的稠密三维点云重建.基于MVS的方法包括深度图融合、空间Patch点云扩张、体素等稠密重建方式. Ito等8将归一化互相关与双边权值和视点之间的几何一致性相结合,提高了目标边界和纹理差区域深度和法线图的估计精度,通过加权中值滤波器和基于一致性的多视图几何滤波器,从重建的三维点云中去除异常值. Li等9提出了从未标定的小运动视频片段中重建场景三维模型的方法,利用图像中的关键点和线段特征来缓解小基线引起的三维点计算不确定性问题,改进了PatchMatch立体匹配模块,提高了稠密三维点云重建的精度.
本文针对模糊图像导致的特征点提取与匹配困难、图像特征点错误匹配去除和稀疏三维点云数目较少等问题,提出了单目视觉系统的三维重建方法.首先,融合哈尔小波变换算法和GRIC算法对图像的边缘信息检测进行关键帧筛选,剔除模糊图像;其次,提出基于区域划分的误匹配特征点去除算法剔除SIFT(scale-invariant feature transform)特征点匹配后存在的重复匹配特征点及错误匹配特征点;最后,提出改进基于区域特征点增长方法获得点云数量,得到更多的三维点云信息,提高重建精度和完整度.

1 方法简介

本文提出的单目视觉系统的三维重建方法流程如图1所示,由图像预处理(模糊图像检测和关键帧)、特征点检测与匹配以及三维点云重建组成.

1.1 图像预处理

图像清晰度与图像间的差异决定着三维重建的精度.相机在拍摄时,每秒可生成30~60帧图像,为了更好地从视频序列中筛选出清晰度高、具有关键信息的图像,本文提出模糊图像和关键帧筛选算法,如图2所示.

1) 模糊图像剔除.本文采用基于哈尔小波变换(Haar wavelet transform,HWT)的模糊图像检测方法,剔除输入图像序列中模糊图像.给定同一场景下的N幅图像Ii对图像进行水平、垂直、对角等变换,构建边缘图像,如式(1)所示:

Ei(x,y)=ωHi2(x,y)+ωVi2(x,y)+ωDi2(x,y).

其中,ωHi2(x,y)ωVi2(x,y)ωDi2(x,y)分别是在图像上进行的水平、垂直、对角变换操作.

Dirac‑Structure和Astep‑Structure是边缘图像结构10,模糊时2种结构类型的边界点会消失,由此可以判断图像是否模糊.计算2种结构与所有类型边的比值,得到模糊度量因子,如式(2)所示:

perDA=NDANedge>BtperAS=NASNedge>Bt. 

其中:Nedge是边界点总数目;NDANAS分别是Dirac‑Structure和Astep‑Structure结构下边界点数目;Bt为接近并大于零的模糊度量因子.若满足式(2)所示条件,即NDANAS都不为0,则认为当前图像为清晰图像,否则为模糊图像.

2) 关键帧筛选.为了筛选出输入图像中的关键帧,需要计算出每一张图像的基础矩阵 F 和单应性矩阵 H . F 反映空间一点P的像素点在不同视角摄像机下图像坐标系中的表示之间的关系,根据RANSAC算法可计算出每2张匹配图像对应的基础矩阵 F .描述了空间中同一平面上的三维点在2张图像中的对应关系,根据 FH 之间的几何关系可以计算出 H 值.然后使用GRIC准则来筛选关键帧,GRIC数学表达式如式(3)式(4)所示:

GRIC=ρ(ei2)+λ1dlnr+λ2ln(rλ1),
ρ(ei2)=min(e2σ2,2(r-d)).

其中:r表示数据的维度;λ1表示图像中总的特征点数;λ2表示选择模型的自由度;d表示选择模型的尺度;ei表示匹配残差;σ2表示方差.参数dλ2的选择如式(5)所示.

d=2GRIC(H),3GRIC(F).λ2=8GRIC(H),7GRIC(F).

d=2λ2=7时可计算出GRIC(H)的值,当d=3λ2=8时可计算出GRIC(F)的值11.给定一幅图像,计算矩阵模型 HF 的GRIC得分.若GRIC( H )<GRIC( F ),则将该图像排除为备选关键帧,再根据GRIC准则筛选出输入图像中的关键帧图像.

1.2 特征错误匹配去除算法

SIFT特征提取算法可以在图像上提取出大量的特征点,并生成相应的描述子,但在实际使用时会存在同一图像中的多个不同区域的点可能会匹配到另一张图像的同一区域、同一区域点匹配到多个区域等问题.为了去除SIFT检测出的重复点和错误匹配,本文提出基于区域划分的错误匹配特征点剔除算法,算法流程图如图3所示.

首先,对图像1和图像2使用SIFT特征检测器进行特征点提取,得到特征点的关键点kpA,kpB,及对应描述子DescA,DescB信息,根据描述子信息计算欧氏距离,如式(6)所示:

d(x,y)=i=1nxi-yi2.

由于初步匹配后的特征点存在较多重复点,根据数据唯一性去除重复点.再对去重后的关键点kpA'坐标进行区域划分,划分成多组相邻近的坐标组GroupA1,2,,N,并得到每组内点PAi对应的索引.根据索引IndexAikpB′进行分组GroupB1,2,,N,对GroupB1,2,,N分组内的点利用式(7)进行相邻判断.

kpBi-kpBi+1,,N<=max(relTol*max(kpBi,kpBi+1,,N),absTol).

其中:relTol为相对容差(ab之间允许的最大差值);absTol为最小绝对容差.

判断对应匹配点PBi是否相邻,即坐落在同一区域内并利用基于欧氏距离K-means的聚类算法判断点之间的相似度,若坐落在同一区域内且具有较高的相似度则认为该组匹配正确,若GroupAiPAi对应点PBi出现异常值,则根据相邻组且相近点坐标进行判断,剔除组内错误匹配的点.依次对每个分组进行遍历,从而剔除存在的错误匹配点.

1.3 稀疏点云重建算法

为获得更多三维点用于增加三维点云的完整度,本文提出了基于区域特征点增长的稀疏点云重建算法,区域增长示意图如图4所示.

在本文中主要采用3种不同的增长方式获取更多的特征点来进行三维点的计算.利用光束法平差(bundle adjustment,BA)优化后得到的三维点经过反向投影到图像1与图像2上,得到对应的投影点,并利用光度一致性约束判断在2幅图像投影点周围的4像素点、8像素点、16像素点之间的相似性,筛选出进行二次计算的特征点.具体如下.

首先,将BA优化后的稀疏三维点云作为种子点反向投影到2幅图像上,投影点为PP′.根据光度一致性约束计算投影点周围4,8,16像素点灰度值大小所得的归一化互相关(normalized cross correlation,NCC)系数值,如式(8)所示,并与预设值比较.

PNCC=i=1n(Pi-Pi¯)(Pi'-Pi'¯)i=1nPi-Pi¯2i=1nPi'-Pi'¯2.

其中,Pi为种子点pi周围的Patch块.采用归一化互相关系数作为判断标准.若PNCC大于预设值,则将PP'周围新生成的点列入二次三维点计算范围内,依次对稀疏三维点遍历,直到遍历结束.再对通过区域增长获得的特征点利用三角测量的方式计算出对应三维点坐标,将获得的三维点通过点云融合加入初始点云中,构成新的三维点云.

2 实验分析

2.1 模糊图像剔除与关键帧筛选

为验证本文提出的图像预处理方法的有效性,利用手机从任一角度对图5所示重建物体进行视频拍摄,视频图像序列共278帧,其中模糊图像66帧,清晰图像212帧.实验结果如表1所示,通过对比Harr+对应约束和Harr+SSIM这2种方法,本文所提出的方法最终确定关键帧为175帧,可获得更多的关键帧用于三维重建.

2.2 特征点匹配

为了验证提出的基于区域划分的错误匹配特征点剔除算法的有效性,分别用RANSAC错误匹配算法及本文方法对文献[12-13]提供的开源数据集中的LUsphinx,Golden_statue图像数据和本文采集的图像数据进行了匹配实验.在RANSAC置信度为70,迭代次数为100的情况下与本文所提出的误匹配特征点去除算法进行对比,如图6表2所示.

2.3 点云重建

为了验证本文提出的改进稀疏三维点云重建方法的性能和效果,分别利用运动恢复结构算法SFM以及本文方法采用不同的区域增长(region growing,RG)半径(4,8,16)对公开图像数据LUsphinx(70张)和Golden_statue(18张)进行稀疏三维点云重建实验,结果如图7图8所示.通过稀疏三维点云重建的效果图和点云数据统计表3可以看出,随着区域增长半径的增加,三维点云数量逐渐增加,重建效果也逐渐变好.这一结果表明,本文提出的改进方法在稀疏三维点云重建方面具有一定的优势和适用性.

2.4 稠密三维点云重建

为了更好地展示场景和物体的三维结构信息,本文主要基于空间Patch点云扩展的方式,使用PMVS方法对本文方法输出的稀疏三维点云进行稠密重建.结果如图9所示.通过计算得到稠密三维模型的各个顶点之间的均方差距离RMSE和Hausdorff距离2种评价指标,数据如表4所示.

可以看出2种方法的模型重建精度相近,但本文提出的方法在某些细节展示方面具有一定优势,点云的精度和覆盖率有所提高,如图9中方框区域所示.但本文算法重建时间还有待进一步优化和提升.为了更好地表示物体的三维模型,本文对稠密后的三维点云进行了网格表面重建,实验结果如图10所示.稠密三维点云在完成表面重建后的结果更加精细和真实.这是因为稠密三维点云具有更高的采样密度,而本文重建结果更加清晰,表面形状更加精准,且不存在明显的空洞和不连续的表面,如图10中方框区域所示.

3 结 语

本文提出了一种任意场景下视频图像序列的三维重建方法.基于提出的模糊关键帧筛选方法和改进误匹配剔除算法提高了特征点检测和提取的准确率.通过基于区域划分的错误匹配特征点去除算法剔除错误和重复匹配点,提高了图像特征点匹配的准确性.通过改进区域增长算法,获取了更多点云的数量,提高了重建精度和完整度.实验数据表明,所提出的视频图像序列的三维重建方法特征点匹配精度和三维点云结构信息的完整度较好.

参考文献

[1]

Barrile VBernardo EBilotta G.An experimental HBIM processing:innovative tool for 3D model reconstruction of morpho‑typological phases for the cultural heritage[J].Remote Sensing202214:1288.

[2]

胡正乙,谭庆昌,孙秋成.基于RGB-D的室内场景实时三维重建算法[J].东北大学学报(自然科学版)201738(12):1764-1768.

[3]

Hu Zheng‑yiTan Qing‑changSun Qiu‑cheng.RGB-D based indoor scene real‑time 3D reconstruction algorithm[J].Journal of Northeastern University (Natural Science)201738(12):1764-1768.

[4]

Tian F GGao Y BFang Z Jet al.3D reconstruction with auto‑selected keyframes based on depth completion correction and pose fusion[J].Visual Communication Image Represent202179:103199.

[5]

Zhang Y ZZhang J YLiu R Xet al.Key frame extraction based on quaternion Fourier transform with multiple features fusion[J].Expert Systems with Applications2023216:11119467.

[6]

何鑫睿,李秀梅,孙军梅,.基于改进Pix2Vox的单图像三维重建网络[J].计算机辅助设计与图形学学报202234(3):364-372.

[7]

He Xin‑ruiLi Xiu‑meiSun Jun‑meiet al.Improved Pix2Vox based 3D reconstruction network from single image[J].Journal of Computer-Aided Design & Computer Graphics202234(3):364-372.

[8]

Won JPark J WSong M Het al.Robust vision‑based displacement measurement and acceleration estimation using PANSAC and Kalman filter[J].Earthquake Engineering and Engineering Vibration202322(2):347-358.

[9]

Nielsen M SNikolov IKruse E Ket al.Quantifying the influence of surface texture and shape on structure from motion 3D reconstruction[J].Sensors202323(1):178-200.

[10]

Ito KIto TAoki T.PM-MVS:PatchMatch multi‑view stereo[J].Machine Vision and Applications202334:32-48.

[11]

Li Z XZuo W MWang Z Qet al.Robust 3D reconstruction from uncalibrated small motion clips[J].The Visual Computer202238(5):1589-1605.

[12]

Tong H HLi M JZhang H Jet al.Blur detection for digital images using wavelet transform[C]//IEEE International Conference on Multimedia & Expo.Taipei,2004:17-20.

[13]

Torr P H S.Geometric motion segmentation and model selection[J].Philosophical Transactions of the Royal Society of London.Series A:Mathematical,Physical and Engineering Sciences1998356:1321-1340.

[14]

Olsson CEnqvist O.Stable structure from motion for unordered image collections[C]// Proceedings of the Scandinavian Conference on Image Analysis.Berlin:Springer,2011:524-535.

[15]

Enqvist OKahl FOlsson C.Non-sequential structure from motion[C]//2011 IEEE International Conference on Computer Vision Workshops.Barcelona,2011:264-271.

[16]

Furukawa YPonce J.Accurate,dense,and robust multiview stereopsis[J].IEEE Transactions on Pattern Analysis and Machine Intelligence201032(8):1362-1376.

基金资助

河北省自然科学基金资助项目(F2021501021)

AI Summary AI Mindmap
PDF (2712KB)

216

访问

0

被引

详细

导航
相关文章

AI思维导图

/