基于线性变换余弦球面分布的光照估计方法

于连江 ,  刘洪娟

东北大学学报(自然科学版) ›› 2025, Vol. 46 ›› Issue (09) : 34 -40.

PDF (2192KB)
东北大学学报(自然科学版) ›› 2025, Vol. 46 ›› Issue (09) : 34 -40. DOI: 10.12068/j.issn.1005-3026.2025.20240030
信息与控制

基于线性变换余弦球面分布的光照估计方法

作者信息 +

Illumination Estimation Method Based on Linear Transformation of Cosine Spherical Distribution

Author information +
文章历史 +
PDF (2243K)

摘要

为了精确描述和参数化场景光源,实现高精度的单一图像光照估计,提出了一种基于线性变换余弦球面分布的光照表示方法,构建了回归神经网络,用于从单一图像中推断光源的参数化分布和强度.创新性地引入基于奇异值分解的损失函数,该函数可以精确简洁地衡量两个参数化光源的距离,能够显著提升回归网络的精度.实验结果表明,与现有方法相比,该方法在复杂光照条件下表现优异,尤其在捕捉光照各向异性信息方面有明显改进.

Abstract

To accurately describe and parameterize scene light sources and achieve high-precision single-image illumination estimation, an illumination representation method based on linear transformation of cosine spherical distribution was proposed. A regression neural network was designed to infer the parametric distribution and intensity of light sources from a single image. A loss function based on singular value decomposition was innovatively introduced. This function could precisely and succinctly measure the distance between two parameterized light sources, significantly enhancing the accuracy of the regression network. Experimental results demonstrate that,compared with existing methods, this method performs exceptionally well under complex illumination conditions, particularly showing a notable improvement in capturing anisotropic illumination information.

Graphical abstract

关键词

光照估计 / 线性变换 / 余弦球面分布 / 回归网络 / 奇异值分解

Key words

illumination estimation / linear transformation / cosine spherical distribution / regression network / singular value decomposition

引用本文

引用格式 ▾
于连江,刘洪娟. 基于线性变换余弦球面分布的光照估计方法[J]. 东北大学学报(自然科学版), 2025, 46(09): 34-40 DOI:10.12068/j.issn.1005-3026.2025.20240030

登录浏览全文

4963

注册一个新账户 忘记密码

光照估计旨在从视角受限的单幅图像中推断整体环境的照明信息,例如利用高动态范围(HDR)光照对虚拟现实中的物体进行重新照明,在计算机视觉和图形学领域的众多应用中具有重要意义.
尽管这一领域的研究已有显著进展,但从有限视角恢复全景光照图仍是一个具有挑战性的任务.传统的光照估计方法通常依赖于大量的先验信息来估计场景的照明条件.这些先验信息可能包括对场景照明模型的详细理解1、光源位置的精确标注2,以及场景的几何假设3.此外,这些方法有时需要使用专门的光源探测设备4-5,有些方法还需要确定场景的几何结构6-8或深度信息9,这表明光照估计是一个条件受限的过程.相比之下,采用深度学习技术可以弥补传统方法依赖假设的局限性,从而能够在更为受限的条件下进行光照估计,比如仅从单一低动态范围(LDR)图像中进行估计.目前流行的光照估计技术大致分为两类:基于生成的方法和基于回归关键照明参数的方法.基于生成的方法中最经典的是使用生成对抗网络的技术10-12,虽然能够产生高频的全景照明图,但其在光照分布精度上显著受制于网络训练质量和数据集的全面性,且对硬件要求较高.鉴于此,本文聚焦于基于回归关键光照参数的方法.
在基于回归的光照估计方法中,一般将环境光照图分解为光照分布、光强度、光源颜色和环境项,分别描述光源的能量分布、强度、颜色和除去光源部分后的环境平均能量.在处理光源颜色、光强度和环境项时,这些方法通常依赖于标量回归;对于光照分布的回归参数,大多数研究选择使用球面谐波(spherical harmonics, SH)函数13和球面高斯(spherical Gaussian, SG)函数1214-15作为其表示函数.SH主要适用于低频光照分布的拟合,在表达高频信息时,不仅需要依赖SH函数族中更多的高阶基函数进行拟合,而且高阶SH通常会产生大量不希望出现的“振铃”伪影.而SG作为一种本质上中心对称的分布,无法实现各向异性的表达.此外,多个基函数的叠加与融合程度在很大程度上取决于初始基函数位置的选择.
为了解决SH和SG方法在实际使用中存在的问题,本文提出了一种基于线性变换余弦16的光照估计方法——LTCLight.该方法通过线性变换的余弦球面分布(LTC)来表示参数化的光源分布,基于该表示方法,设计了一个回归神经网络用于从单一LDR图像中回归场景光照分布的参数化表示,并在回归网络中设计了一种能够精确衡量线性变换的损失函数,从而更精确有效地衡量光照分布的差异.

1 LTCLight

本文提出的基于线性变换余弦球面分布的LTCLight光照估计方法框架如图1所示.图1上半部分给出了采用线性变换的余弦球面分布对真实光照图进行参数化的步骤;图1下半部分给出了从单一LDR图像预测全景光照图的模型.该模型通过回归网络生成具有高频特征的参数化光照图.

1.1 基于线性变换余弦球面分布的光照分布表示

在环境光源建模中,将环境光照中的光源视为球面分布是一个普遍接受的假设.现有研究,无论采用SG还是SH表示,均基于此思想.本文采用D0(w0)表示原始的标准余弦球面分布,其中分布参数w0为单位球面上的1个立体角.为了找到新的球面分布D(w)来拟合球面上的单一光源分布Ew,需要对D0(w0)上的每一个立体角w0应用1个由3×3矩阵M表示的线性变换.考虑到分布的归一化要求,经过线性变换后的立体角w可表示为

w=Mw0||M-1w|| .

从变换后的立体角恢复到原始立体角w0

w0=M-1w||M-1w|| .

则此次变换可以表示为

Dw=D0w0w0w=D0M-1w||M-1w|| M-1||M-1w||3.

其中,w0w=M-1||M-1w||3w0立体角变换的雅可比行列式16,用于确保变换后分布的归一化.因此,球面分布的查找任务转化为以下优化问题:

minM  KLD0M-1w||M-1w|| M-1||M-1w||3Ew,s.t.   M33=1.

其中,KL散度作为目标函数,量化经过M线性变换后的分布D(w)与原始光源分布Ew之间的差异.此处M33=1的限制条件是为了保证优化过程的稳定性并避免陷入局部最优解,同时开放M矩阵中其他位置元素的限制,这样可以尽可能保留原始光分布的空间信息以及重要的各向异性信息.

因此,通过遍历原始照明图中的所有光源,求解其参数化分布及记录各自的光照强度,构建出环境照明图L(w)的参数化表示.具体表达式为

Lw=Ambient+i=0N-1Ii·RGB(Ti)Diw.

其中:Ambient标量表示环境遮蔽项;N表示环境照明图中的独立光源数量;Ii表示第i个光源的光照强度;Ti表示第i个光源的色温;RGB函数根据色温返回RGB色值.这里通过光色温值来记录光源颜色而不是RGB色值,有效降低了回归网络估计光源颜色参数的难度.值得注意的是,标准余弦球面分布为单峰分布,它不能直接通过线性变换转化为双峰或多峰分布.这表明在表征具有多峰特性的光源分布时,线性变换余弦球面分布存在其局限性.为了克服这一局限,本文采用提高光源分割阈值等预处理步骤,以减少对多峰光源拟合的需求.为了确保分割光源的独立性以及过滤掉环境杂光从而准确捕捉核心光源,本文将亮度阈值设定为97.5%,即当且仅当连续像素的亮度超过阈值时,才将其识别为单一光源,该值是在Laval HDR数据集上经过实验分析确定的经验值.

此外,在分割光源时,必须考虑环境照明图的几何特性,这些照明图通常以矩形HDR图像的形式存在.光源在球面上是连续分布的,但当映射到HDR图像并与边缘接触时,可能会被错误地分割为两个独立的光源.因此,不能仅依赖阈值来计数光源,需要对分割过程中深度优先搜索(DFS)算法的边界条件进行调整,使其能够考虑边缘分割问题,以确保正确识别并合并为同一光源.

1.2 LTC光照表示模型的特性

针对传统SG和SH方法在光照分布表征上的局限性,LTC光照分布表示模型能够解决SG方法的中心对称性限制、各向异性表达不足,以及由多个基函数重叠所引起的分布发散问题.此外,LTC模型还克服了SH方法在处理高频光照分布时产生的振铃伪影等缺陷.

LTC通过对余弦球面上的分布向量应用线性变换矩阵生成新的光照分布,矩阵的前8个参数定义了光照分布的特性.从图2给出的高频光照分布可以看出,通过对线性变换矩阵元素进行不同控制,可以实现缩放、旋转、斜切、挤压和偏置等各向同性或各向异性的变换效果.这对单个光源的拟合已经足够;而对于整个光照图中多个光源的拟合,仅需根据每个光源的强度在球面上分配相应的光照分布即可,无需局限于基函数的初始位置.

1.3 回归网络的设计

回归网络的结构如图1所示,网络处理LDR图像,输出参数化照明图的关键参数,包括光分布矩阵 M 、光强度 I 、光色温 T 和环境项 A .模型首先根据HDR像素照度的通道贡献权重生成HDR照度图.在照度图中,选择亮度值前2.5%的像素作为光源区域,并计算它们的连通分量,将其分离为N个光源.每个连通分量的光强度 I 由该分量的最大亮度确定;光色温 T 由其单个分量的平均RGB值计算;环境项 A 则通过计算排除所有连通分量后的剩余像素的平均值来获得.针对每个光源区域,通过优化式4计算得出最佳拟合该光源区域线性变换的余弦球面分布所对应的矩阵 M 的前8个元素.这样,所有光源区域处理完成后,可以得到8N个参数.然而,由于N值不同,不同光照图的矩阵元素规模可能不同;为了标准化训练过程,本文固定N=10,即仅考虑每个光照图中亮度最高的前10个光源.对于不足10个光源的情况,将剩余光源的光强度设为0.在典型室内HDR光照图中,最亮的前几个光源贡献了绝大部分(>95%)能量;亮度排序超过10的光源贡献通常小于5%,对整体光照影响微弱.因此,设定N=10以聚焦于对场景照明起主导作用的关键光源.

本研究中的回归网络基于改进的ResNet-101架构,采用4个独立分支分别回归光分布矩阵 M 、光强度 I 、光色温 T 和环境项 A .对于 ITA,采用标准的L2损失函数进行回归.然而,对于具有实际线性变换意义的光分布矩阵 M,简单的L2损失函数无法充分利用球面分布的空间信息和线性变换的几何特性.为此,本文创新性地提出了一种基于奇异值分解(SVD)的损失函数,专门用于光分布矩阵回归,以便更准确地捕捉其几何意义和结构特征.

1.4 SVD损失函数的设计

对于两个光源在球面映射的分布,可以通过标准余弦球面分布经过1个三维线性变换来拟合;对于不同光分布之间的距离衡量,可以转化为对这两个线性变换的距离衡量.在设置光分布矩阵参数的损失函数时,常见的简化方法是采用矩阵 M 的范数损失或将 M 视作向量并运用L2损失进行回归,但这些方法存在一定的局限性.首先,矩阵范数损失仅能反映线性变换的强度,却无法捕捉线性变换的方向信息,而方向信息是决定变换效果的关键要素.其次,使用L2损失进行回归会忽略矩阵的空间结构特性.此外,通过L2损失回归80个参数,隐含地假定这些参数具有相同的权重并彼此独立,这与实际情况不符;在LTC环境中,决定光照方向属性的矩阵元素的权重是不同的,并且光照图中不同光源的能量贡献也不相同.

为了充分利用线性变换矩阵的变换属性和球面分布的空间信息,需要考虑矩阵 M 在空间变换中的作用.对于一个3×3的实矩阵 M 来说,经过奇异值分解后可以得到:M=USVT,其中S是包含 M 的奇异值的对角矩阵,而UVT的列向量分别是左右奇异向量.SVD分解的旋转与缩放示意图如图3所示,这些奇异值表示变换中的缩放因子,而左右奇异向量分别代表旋转操作.

为了量化两个矩阵之间的变换差异,引入了一种基于奇异值分解的损失函数,该函数综合考虑了UVT的奇异向量间的余弦相似度和奇异值的差异.令A=UASAVA TB=UBSBVBT分别表示两个进行SVD分解的矩阵,则SVD损失函数定义为

SVD_Loss=i=132-1+uAi,uBi2×2-1+vAi,vBi2×λlgSAi-lgSBi.

式中:uAi,uBi表示UAUB的对应奇异向量间的余弦相似度;vAi,vBi表示VATVBT的对应奇异向量间的余弦相似度;λlgSAi-lgSBi则表示相应奇异值之间的差异;λ为缩放因子权重,对数变换用于处理奇异值的尺度敏感性.需要注意的是,在控制线性变换中旋转变换的相位时,须同时考虑UVT的奇异向量.

基于单光源的损失函数,得到整张光照图的损失,即为N个光源损失的总和:

Loss=i=0N-1SVD_Lossi.

其中,SVD_Lossi是第i个光源的损失.

这种SVD损失函数在球面光分布矩阵回归中具有明显优势.首先,它充分利用了矩阵 M 在表征光分布时的几何意义,明确了线性变换中旋转和缩放的组合效应,有效地惩罚了偏离真实线性变换的预测.其次,这种方法提供了一种更细致的方式来量化光分布之间的差异,从而促进网络权重更精确地更新,尤其是在处理复杂的光照场景时.

2 实验结果与分析

2.1 数据集与实验设置

本文使用的数据为Laval室内HDR数据集17,包含2 233张各类室内环境的HDR全景图.该数据集不仅用于模型训练,也作为评估所提光照估计方法性能的基准.仿照文献[17]的方法,从每个全景图中均匀截取8张LDR图像,覆盖8个水平方位角.在裁剪得到的LDR图像中,剔除了信息量较低的(如仅包含墙面或门而无明显光影变化)以及光线闪烁过度的图像,以增强网络训练的稳定性和泛化能力.经过筛选后,共生成16 301对训练样本.所有网络输入图片均按照文献[17]的方法进行了图像反扭曲处理.在回归网络的验证实验中,本文随机选取200张图像作为测试集,其余图像用于网络训练.

2.2 评估方法和指标

本研究包含两部分实验:实验1在200种环境光照条件下对LTC光表示法与SH和SG光表示法进行定量和定性评估;实验2对所提出的光照估计方法进行定量和定性评估.两个实验均采用与文献[18]相似的评估架构,设计了3种材质的测试球体:80%灰漫反射材质(DM)、哑光银色金属材质(SM)和镜面材质(MM).在不同方法模拟的光照条件下,通过基于物理的光线追踪技术渲染这些材质球,以获得环境光照的渲染结果,并将其与真实环境光照的渲染结果进行对比,以评估模拟方法的准确性.所有渲染均在线性RGB色彩空间中进行,确保渲染结果与光的物理强度直接相关.评估指标采用广泛应用的均方根误差(RMSE)、尺度不变RMSE(si-RMSE)和RGB空间中每像素的角度误差(AE)对光强分布的准确性进行评估.

2.3 定量分析

3种方法的评估指标结果如表1所示.实验结果表明,本文提出的LTC光照表示法在各种评估指标和材质上均优于SG和SH方法.通过简洁的光源表示,LTC能够有效地减少表示误差,这归功于其能实现高频、各向异性且与初始基无关的光照表示.基于10阶球谐函数的SH方法产生了难以忽视的振铃伪影,并且缺失了高频光源细节.而基于196个锚点的SG方法过分依赖初始基位置的选择,生成的光源分布无法保持原始形态,实际上暴露了SG方法在高频信息表达上的不足.

实验1对LTC光照表示法与SG和SH方法进行了对比.从Laval室内HDR数据集中选取200张测试场景图像,3个球体分别采用漫反射、哑光银色和镜面材质,获取每种方法组合在5种不同视角下的渲染结果,如图4所示.

3种方法的综合指标评估结果如表2所示.实验2将LTC方法与EMLight的回归网络19Gardner 2019的方法17进行了对比.得到的回归参数化光源对比图如图5所示.结果表明,本文的LTCLight方法在所有评估指标和材质上均优于现有基于回归的光照估计方法,这得益于LTC光照表示的强大能力以及回归网络中高效准确的SVD损失函数配置.

2.4 定性分析

图4给出的实验1的结果可见,LTC方法在光源的各向异性表达上表现突出,成功拟合了光源的高频特征,有效解决了SG方法的中心对称性限制和各向异性表达不足的问题,同时也不存在由多个基函数重叠引起的分布发散问题.此外,LTC方法还避免了SH方法在处理高频光照分布时产生的振铃伪影等缺陷.

图5给出的实验2的结果可见,LTCLight在渲染过程中有效地保留了高光区域的各向异性特征,突显了线性变换8个自由度的卓越表现能力.与此相反,EMLight的回归结果过度依赖锚点的初始位置和数量,导致光源分散,无法精确保持高光区域的形状.Gardner等17采用过于简化的照明图,光源数量有限,导致频率缺失,进而在渲染中产生了不准确的高光和阴影效果.

3 结 语

本文提出一种基于线性变换的余弦球面分布函数的光照表示方法LTC,并在LTC基础上设计了一个基于回归网络的光照估计方法.该方法通过从LDR图像回归关键LTC光照参数来实现光照估计,引入了基于LTC中光分布线性变换矩阵的奇异值分解损失函数,有效测量了预测光照与真实光照之间的差异,精确指导了回归网络的权重更新.大量实验结果及定量和定性分析表明,LTC光照表示方法在有效性和准确性上都具有显著优势,且LTCLight光照估计方法能够准确地根据单张LDR室内图像预测参数化光照图.

参考文献

[1]

Debevec P E. Rendering synthetic objects into real scenes: bridging traditional and image-based graphics with global illumination and high dynamic range photography[C]// Special Interest Group on Graphics and Interactive Techniques. New York: Association for Computing Machinery, 1998: 189-198.

[2]

Karsch KHedau VForsyth Det al. Rendering synthetic objects into legacy photographs[J]. ACM Transactions on Graphics201130(6): 1-12.

[3]

Marschner S RDonald P G. Inverse lighting for photography [C]//Color and Imaging Conference. Scottsdale. Arizona: International Society for Optical Engineering, 1997: 262-265.

[4]

Tocci M DKiser CTocci Net al. A versatile HDR video production system[J]. ACM Transactions on Graphics201130(4): 1-10.

[5]

Barron J TMalik J. Intrinsic scene properties from a single RGB-D image[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence201638(4): 690-703.

[6]

Wu C LWilburn BMatsushita Yet al. High-quality shape from multi-view stereo and shading under general illumination[C]//CVPR 2011. Colorado: Springs, 2011: 969-976.

[7]

Liu BXu KMartin R R. Static scene illumination estimation from videos with applications[J]. Journal of Computer Science and Technology201732(3): 430-442.

[8]

Lombardi SNishino K. Reflectance and illumination recovery in the wild[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence201638(1): 129-141.

[9]

Maier RKim KCremers Det al. Intrinsic3D: high-quality 3D reconstruction by joint appearance and geometry optimization with spatially-varying lighting[C]//2017 IEEE International Conference on Computer Vision (ICCV). Venice, 2017: 3133-3141.

[10]

Zhan F NYu Y CZhang C Get al. GMLight: lighting estimation via geometric distribution approximation[J]. IEEE Transactions on Image Processing202231: 2268-2278.

[11]

Wang G CYang Y NLoy C Cet al. StyleLight: HDR panorama generation for lighting estimation and editing[C]//Computer Vision-ECCV 2022. Cham: Springer Nature Switzerland, 2022: 477-492.

[12]

Karimi D M REisenmann JHold-Geoffroy Yet al. EverLight: indoor-outdoor editable HDR lighting estimation[C]//2023 IEEE/CVF International Conference on Computer Vision (ICCV). Paris, 2023: 7386-7395.

[13]

Garon MSunkavalli KHadap Set al. Fast spatially-varying indoor lighting estimation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, 2019: 6901-6910.

[14]

Gardner M AHold-Geoffroy YSunkavalli Ket al. Deep parametric indoor lighting estimation[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, 2019: 7175-7183.

[15]

Li M TGuo JCui X Fet al. Deep spherical Gaussian illumination estimation for indoor scene[C]//Proceedings of the ACM Multimedia Asia. Beijing, 2019: 1-6.

[16]

Heitz EDupuy JHill Set al. Real-time polygonal-light shading with linearly transformed cosines[J]. ACM Transactions on Graphics201635(4): 1-8.

[17]

Gardner M ASunkavalli KYumer Eet al. Learning to predict indoor illumination from a single image[J]. ACM Transactions on Graphics201736(6): 1-14.

[18]

LeGendre CMa W CFyffe Get al. DeepLight: learning illumination for unconstrained mobile mixed reality[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, 2019: 5911-5921.

[19]

Zhan F NZhang C GYu Y Cet al. EMLight: lighting estimation via spherical distribution approximation[C]// Proceedings of the AAAI Conference on Artificial Intelligence. California: AAAI, 2021: 3287-3295.

基金资助

中央高校基本科研业务费专项资金资助项目(N2317003)

AI Summary AI Mindmap
PDF (2192KB)

9

访问

0

被引

详细

导航
相关文章

AI思维导图

/