基于3D⁃CA⁃GAN的岩石体纹理合成技术

段炼 ,  冯云 ,  花卫华 ,  陈启浩 ,  刘修国 ,  张坤 ,  付伟

地球科学 ›› 2025, Vol. 50 ›› Issue (11) : 4499 -4513.

PDF (4930KB)
地球科学 ›› 2025, Vol. 50 ›› Issue (11) : 4499 -4513. DOI: 10.3799/dqkx.2025.134

基于3D⁃CA⁃GAN的岩石体纹理合成技术

作者信息 +

Rock Solid Texture Synthesis Based on 3D⁃CA⁃GAN

Author information +
文章历史 +
PDF (5047K)

摘要

基于二维样本(深度学习)的体纹理合成是一种重要的岩石体纹理生成途径,目前岩石体纹理合成存在无法长距离依赖和颜色失真的问题.提出一种基于三维坐标注意力生成对抗网络(3D-Coordinate Attention Generative Adversarial Network, 简称3D-CA-GAN)的创新方法.通过将坐标注意力机制(Coordinate Attention, 简称CA)扩展至三维空间,结合内容感知上采样模块和多尺度判别器,实现了矿物颗粒空间分布的高保真建模.实验表明,该方法在SSIM(0.773)、PSNR(提升24.92%)和LPIPS(降低0.110)等指标上显著优于现有技术,消融实验进一步验证3D-CA模块使方向性纹理的SSIM提升14.69%.本研究为地质建模提供了具有真实感纹理合成的新解决方案,其三维注意力框架对通用生成任务具有借鉴意义.

Abstract

Solid texture synthesis based on 2D samples (deep learning) is an important pathway for rock solid texture generation, which currently suffers from the inability of long distance dependence and color distortion. In this paper, it proposes an innovative method based on 3D coordinate attention generative adversarial network (3D-CA-GAN). By extending the coordinate attention mechanism to three-dimensional space (3D-CA) and combining the content-aware upsampling module and multi-scale discriminator, high-fidelity modeling of the spatial distribution of mineral particles is achieved. Experiments show that the method significantly outperforms existing techniques in terms of SSIM (0.773), PSNR (24.92% enhancement), and LPIPS (0.110 reduction), and ablation experiments further validate that the 3D-CA module improves the SSIM of directional textures by 14.69%. This study provides a new solution to texture synthesis with realism for geological modeling, and its 3D attention framework is useful for generic generation tasks.

Graphical abstract

关键词

岩石 / 体纹理 / 混合空洞卷积 / 注意力模块 / 3D⁃CA⁃GAN / 三维建模.

Key words

rocks / solid texture / hybrid dilated convolution / attention module / 3D⁃CA⁃GAN / 3d⁃modeling

引用本文

引用格式 ▾
段炼,冯云,花卫华,陈启浩,刘修国,张坤,付伟. 基于3D⁃CA⁃GAN的岩石体纹理合成技术[J]. 地球科学, 2025, 50(11): 4499-4513 DOI:10.3799/dqkx.2025.134

登录浏览全文

4963

注册一个新账户 忘记密码

三维岩石模型能够表达岩石的力学特性、破裂过程以及矿物颗粒的几何特征和分布,广泛应用于地球科学、环境工程和岩土工程等领域.高保真的非匀质天然岩石模型可以精确再现矿物颗粒的形态、大小、拓扑关系及分布规律.然而,传统纹理映射技术难以全面表现三维模型内部和外表的矿物颗粒分布与拓扑关系,且获取自然岩石体纹理困难,导致模型真实感不足.因此,迫切需要基于样本的体纹理合成技术,以生成任意尺寸、非均质的岩石体纹理,提升模型的真实性.
现有体纹理合成方法分为程序生成法和样本生成法.程序生成法效率低、依赖专业知识;样本生成法包括统计特征匹配和非参数方法,前者局限于特定特征,后者虽能保持局部一致性但生成效果有限.随着深度学习技术的发展,神经网络因其强大的学习能力在纹理合成中得到广泛应用.当前基于深度学习的体纹理合成方法主要存在两个根本性局限:首先,在长距离依赖建模方面,由于三维卷积的局部感受野特性,现有网络难以建立矿物颗粒间的全局空间关联,导致生成的纹理结构缺乏物理合理性;其次,在颜色保真度方面,传统的上采样方法由于采用固定插值核而导致纹理细节丢失和颜色失真.
针对上述挑战,本文提出一种三维坐标注意力生成对抗网络(3D⁃Coordinate Attention Generative Adversarial Network, 简称3D⁃CA⁃GAN)的体纹理生成方法,用于岩石体纹理合成.在该方法中,在生成器中引入3D⁃CA和基于内容感知的上采样模块来解决无法长距离依赖和颜色失真的问题.鉴别器对体纹理的切片和真实样本进行判别,在多尺度训练策略下设计判别器,增强模型学习能力的同时,提高多样性.
本文的主要贡献如下:
(1)将3D⁃CA注意力机制引入到体纹理的合成中,解决了体纹理合成中长距离依赖的问题.
(2)引入基于内容感知的上采样模块,更精确的模拟样本纹理中的细微特征和颜色,一定程度解决体纹理合成颜色失真的问题.
本技术在多个领域具有重要应用价值:(1)地质建模领域,可生成高精度三维岩石模型辅助油气勘探;(2)岩土工程中提升数值模拟的真实性;(3)虚拟现实领域实现岩石标本数字化教学;(4)游戏影视行业快速生成自然场景.技术优势在于基于有限样本生成任意尺寸的高保真岩石纹理,显著提升建模效率和真实感.
本文的其余部分,在第二节中概述体纹理合成的相关工作,在第三节中详细阐述我们的方法,在第四节中展示了我们的实验结果和验证.

1 相关工作

1.1 传统体纹理合成

在体纹理合成的研究历史上,1985年Perlin(1985)Peachey(1985)提出基于程序的体纹理合成方法,用于生成大理石、云或火等对象的体纹理.然而,这种方法参数调整困难,非专业用户难以使用.相比之下,基于样本的方法能够直接从样本图像中学习纹理分布特征信息,更容易形成逼真的体纹理.Heeger and Bergen(1995)开创使用二维样本合成体纹理的方法,独立处理每个颜色通道,再对处理后的颜色通道进行重组,得到合成纹理. Qian et al.(2015)Kwatra et al.(2005)的二维纹理优化技术扩展到三维纹理.Du et al.(2013)通过分析三个正交示例图像,获取每个粒子的候选邻域信息.上述方法提高合成体纹理的质量,但是往往未能充分利用样本的整体信息.

1.2 深度学习的体纹理合成

相较于传统体纹理合成方法,基于深度学习的方法取得了更好的效果.Gutierrez et al.(2020)首次将CNN的方法引入到体纹理合成中,取得较好的三维可视化效果.它以VGG⁃19的一部分作为图像描述符,对从样本中提取的特征进行抽象化.该算法可以生成任意大小的立体纹理,并能沿特定方向重建样本概念化的视觉特征,但很难学习长距离的特征,当样本中存在长距离的纹理特征时,合成的体纹理无法保证长距离特征的连续.Henzler et al. (2020)提出了另一种基于点运算的神经网络解决方案,该方法的效率较高,但是效果受限于训练样本的质量.Zhao et al.(2023)提出了基于生成对抗网络的立体纹理分层学习方法Solid Texture Synthesis⁃Generative Adversarial Network(STS⁃GAN),通过多尺度生成器学习二维样本分布并扩展至三维.由生成器学习二维样本的内部分布,并将其扩展到三维空间.基于GAN的方法能生成较高质量的体纹理.但由于训练的不稳定性,存在颜色失真问题.特别针对各向异性的体纹理合成,合成的体纹理颜色失真严重.此外,该方法的计算成本较高.

除上述方法外,还有一些其他的体纹理合成方法.例如,Qian et al.(2015,2023)提出了聚合实体纹理的矢量表示方法,随后提出一种基于径向基函数(RBF)的矢量固体纹理表示方法.此外,还有一些基于扩散模型(Cao et al., 2023Huo et al., 2024)的体纹理合成方法.

1.3 体纹理在地质领域的应用

大多体纹理合成方法往往是针对任意三维模型的.对于地质等领域的三维模型,已经有许多方法对三维模型的可视化效果进行提升(花卫华等,2022;邰文星等,2023;扶金铭等,2024),但往往侧重于建模技术.目前有部分学者利用体纹理合成技术取得较好的效果(Xiao et al, 2022Zirek,2023),但是这些方法未解决基于深度学习的体纹理合成方法中存在的问题.

2 本文方法

图1是本文方法的总体架构.首先,一组多尺度噪声Z被输入到体纹理生成器(Solid Texture Generator),生成器负责重建体纹理v,然后进行切片,将切片和样本输入到实体纹理判别器(Solid Texture Discriminator,简称STD)进行判断真伪.

2.1 网络架构

在生成对抗网络中,生成器G的特征提取能力对于生成体纹理的质量起着决定性的作用,因此优化生成器的特征提取能力十分重要.本章的生成器网络架构整体如图2所示.

在生成器中,输入一组多尺度随机体噪声,使得每次生成的输出都不同,增加了生成体纹理的多样性.其中{c0,,cK}表示每一个空间维度依赖所需要的附加值,这些附加值取决于生成器的网络架构.在本文所采用的架构下,这些附加值通常是{4,5,6,6,6,4}(以k=5举例).将输入的噪声通过固定的卷积块进行处理,以生成不同尺度的临时特征图.为了将这些临时特征图进行融合,采用基于内容感知的上采样方法对低尺度的特征图进行扩展.在生成器中,除了最小尺寸的特征图外,其他尺寸的特征图在经过与其次级尺寸的通道连接后,需要通过一个空洞卷积块进行进一步处理.空洞卷积通过引入扩张率(dilation rate)来扩大感受野,从而在不增加参数数量的情况下增加网络的接收域,有助于提取多尺度特征.这种设计有助于在保留细节信息的同时,提升网络的性能.经过多次卷积和上采样之后,最大尺寸的数据需要经过一个注意力卷积层.该层主要目的是增强模型的特征表达能力以及将临时实体通道转至标准的数量,即三通道.最后,N表示输出体纹理的尺寸大小,一般是2的整数幂(例如,128、256、512等).

受Sin⁃GAN(Shaham et al., 2019)的启发,本文生成对抗网络的鉴别器的网络整体设计采用多尺度的鉴别器,每个尺度的鉴别器结构参考STS⁃GAN中的鉴别器(STD),整体结构如图3所示,Wn表示不同尺度权重值.一组切片纹理鉴别器在多尺度上区分假切片与给定的二维样本.输入的切片通过生成器生成的体纹理进行采样,形成不同尺度的体纹理进行切片.输入的二维样本通过采样操作将输入图像调整到不同尺度,然后在每个尺度上运行相应的STD.为了提高真实样本的多样性,从真实样本中随机裁剪多个预定义尺寸的纹理块,然后将这些块的大小调整到相同的分辨率,为鉴别器提供多尺度的“真实”纹理.本文的损失函数采用Gram⁃GAN(Portenier et al., 2020)中提出的结合Wasserstein Generative Adversarial Network with Gradient Penalty(WGAN⁃GP)(Gulrajani et al., 2017)损失和风格损失(Gatys et al., 2015,2016)的损失函数.

2.2 混合空洞卷积块

在标准的卷积操作中,卷积核的每个元素与输入特征图的相应位置进行乘法运算,然后求和得到输出特征图的一个元素.在空洞卷积中,卷积核的元素被插入空位,这些空位由0填充.如图4所示,图4a是展示的空洞率为1的情况,图4b是在图4a的基础上展示空洞率为2的情况,其实际卷积仍为3×3,但是对应一个7×7大小的感受野.图4c是在图4b的基础上展示空洞率为4的卷积,其实际卷积仍为3×3,但是对应一个15×15大小的感受野.可以看到随着空洞率的增加,空洞卷积的感受野呈指数扩张.这种方式保持卷积核权重数量的同时,不会丢失数据信息,而且让卷积核的有效接收野增大,从而扩大像素点的感受野,能够有效应对池化期间发生的数据信息丢失问题,进而获得更丰富的信息,提高特征提取的准确性.空洞率是指卷积核中各个数值之间的间隔,当空洞率为d时(d≥1, dN∗),卷积核中各个数值之间的间隔为d-1个.

尽管空洞卷积能够较好解决深度卷积神经网络中感受野受限的问题,但是空洞卷积也存在“网格效应”问题.当使用固定大小的空洞率时,卷积核的权重可能会以规律性的方式覆盖输入特征图,从而在输出特征图中形成周期性的模式,这会不仅导致提取特征的偏差,还存在一些原图上的像素点一直未被利用和局部信息丢失的问题.如图4d所示,当固定一个空洞率时,随着卷积层的叠加,中心像素只能从下一层的特定位置(按照棋盘格模式)接收信息.这使得中心像素无法接收到来自其邻近位置的信息,从而丢失了大量可能对图像特征提取有帮助的局部信息.

Wang et al.(2018)提出混合空洞卷积(Hybrid Dilated Convolution,简称HDC).HDC的目标是让一系列卷积运算的感受野的最终大小完全覆盖一个方形区域,没有任何孔或缺失的边缘.如图4e所示,分别展示了使用空洞率为0、1、2下的视觉效果.通过使用不同的扩张率,中心像素可以从更多的非零位置接收信息,减少信息覆盖的不均匀性,从而捕捉更丰富的局部和全局信息,提高网络性能.通过引入混合空洞卷积,结合了不同扩张率的空洞卷积,使用多个扩张率的卷积核来提取不同尺度的特征.在本文的生成器模型中,使用混合空洞卷积在更好的学习纹理特征分布的同时,还减少了卷积所使用的参数量,提高模型训练速度.

本文设计的混合空洞卷积块如图5所示,图5a所示为基于CNN和STS⁃GAN方法中的原始卷积块,所有卷积空洞率都为1.图5b为本文设计的混合空洞卷积块,输入特征图经过三次卷积,卷积核大小分别是1×1×1、3×3×3、1×1×1,卷积核空洞率d分别为1、2、1,每次卷积后分别经过一个归一化层和激活层,归一化层采用Batch Normalization算法,激活层采用Leaky Relu激活函数.这样既保持卷积层数不变的同时,减少了卷积核的参数量.同时,对于连续卷积层使用不同空洞率防止网格效应.此外,该结构能够保证在输入张量大小相等情况下,混合空洞卷积块的输出和原始卷积块保持一致,这极大地方便了混合空洞卷积块在生成器网络架构中的集成和使用.

2.3 3D⁃Coordinate attention注意力模块

因为CA注意力机制(Hou et al., 2021)不仅考虑到通道和空间的关系,还考虑到长程依赖问题.此外,CA模块足够的灵活和轻量.为增强网络对纹理特征的表达能力,本文将CA注意力机制扩展至三维空间,在生成器中引入3D⁃CA注意力模块,进行权重调整,突出关键信息并提高特征表示的有效性.这对于具备长距离特征的岩石纹理,如沉积岩等,能够有效保证合成的岩石体纹理中长距离特征的连续.

为了在体纹理的长、宽、高三个方向上获取注意力权重,并对精确位置信息进行编码.本文基于CA注意力模块,设计一种针对三维数据的注意力模块,即3D⁃Coordinate attention(3D⁃CA),如图6所示.对尺寸为C×D×H×W输入特征图在XYZ三个方向上进行全局平均池化,获得三个大小分别为C×D×1×1、C×1×H×1、C×1×1×W的特征图.将三个特征图变换后进行拼接,并经过一层卷积核为1×1×1的卷积层,将其通道维度降低为C/rr是控制输出通道大小的超参数,得到C/r×1×1×(D+H+W)大小的特征图.接着,特征图经过归一化层和激活层,其中归一化层采用Batch Normalization算法,激活层采用Leaky Relu激活函数.然后,沿着空间维度,进行split操作,恢复三个方向特征图,获得三个大小分别为C×D×1×1、C×1×H×1、C×1×1×W的特征图.随后,三个特征图分别经过一个卷积层和一个激活层,卷积层采用大小为1×1×1的卷积核,激活层采用Sigmoid激活函数,得到三个方向上特征图的注意力权重.之后,将得到的三个方向上特征图的注意力权重在原始特征图上通过乘法加权计算得到在长、宽、高方向上带有注意力权重的特征图.最后,将该特征图通过一个1×1×1的卷积模块将通道维度转换为标准的三个维度.

2.4 基于内容感知的上采样模块

在神经网络中,上采样的主要功能是放大输入特征图的尺寸,恢复图像的细节信息.在体纹理合成中,上采样通过将低分辨率特征图放大,能够更精确地模拟样本中的细微纹理特征,从而生成高保真且纹理丰富的体纹理.因此,上采样模块在体纹理生成器网络中起着重要作用.传统的上采样往往只考虑像素点的位置关系和分布情况,忽略了图像像素点所代表的特征信息如颜色、纹理、边缘等.这往往导致结果中出现纹理不连续,边缘模糊等问题.

CARAFE模块可以利用内容信息来预测重组内核,并在预定义的附近区域内重组特征,实现比插值等上采样操作更好的性能.因此,可以产生更多的图像细节特征,同时,在一定程度上解决体纹理颜色失真的问题,本文引入CARAFE模块进行上采样工作.

CARAFE分为两个主要模块,分别是上采样核的预测模块和特征重组模块.由于CARAFE模块被设计处理二维图像数据,而本文体纹理生成器目的是生成体数据.因此,在内容编码中输出特征通道为σ3×Kup3,预测的上采样核为σH×σW×σD×Kup3.此外,输入特征图的通道数要满足Cm=C/(2×2×2)的结果为正整数,对于小尺度数据的上采样,本文采用最邻近上采样的方法.本文的基于内容感知的上采样模块设计如图7所示.

3 实验结果与分析

3.1 岩石纹理数据集构建

体纹理生成每次训练仅需少量二维样本图像,因此本文通过高清典型岩石纹理图像构建数据集.三维实体模型纹理的高度自相似性是基于单张二维样图生成三维实体模型的关键前提.二维图像作为低维信息,直接扩展至三维空间可能导致信息缺失.然而,当二维图像的分布特征与三维空间高度自相似时,信息缺失可显著减少.因此,本文在构建数据集时优先选择具有高度自相似性的典型岩石纹理图像.

图8所示,本文首先基于网络收集大量的高清高分辨率真实岩石图像,如图8a分辨率在1 000×1 000以上.从中挑选出适合裁剪的真实岩石图像,对图像中大块纹理区域进行裁剪,如图8b所示,裁剪后的分辨率为600×600左右.最后,对图像重采样形成128、256、512分辨率的纹理图片,如图8c,作为本文的真实样本数据集.

3.2 实验环境及参数设置

为了探究本文的体纹理生成网络的可行性,基于上述岩石数据集进行实验本章的实验环境配置如表1表2所示,参数设置如表3所示.

Zhao et al.(2023)通过学习尺度的值分析模型,证明了在体纹理合成当中,随着学习尺度的增加,合成体纹理的整体结构和细节都更加接近于给定的样本,证明了多尺度的学习策略更容易捕捉纹理的多样性,且通常学习尺度为5时能够生成逼真的体纹理.基于此本文将生成器的学习尺度设置为5,以更全面地学习纹理特征.训练过程中采用AdamW优化器,训练时默认输出的样本的切片分辨率和输入的样本分辨率一致.同时,引入学习率衰减策略,每6 000次训练将学习率减半,以优化模型的训练效果.

3.3 岩石体纹理合成效果展示实验

为了展示本文提出的体纹理合成方法的可行性和有效性.本节在4.1中构建的岩石纹理数据集中挑选出多种岩石纹理图像进行实验.图9展示了本节实验使用的所有岩石纹理图像从图9a到9o共15种岩石图像.

图10展示了本文方法对部分数据进行体纹理合成的结果示意图.其中第一列为12种样本图像,从上到下依次为三堡红花岗岩、斜长石、辉长石、绿色橄榄岩、介壳灰岩的真实纹理图像.第二列为体纹理合成结果,第三到六列是在该实体纹理的三个正交方向和沿着对角线45°方向的切片效果.从图中可以看到本文所提出的方法能够较好地学习二维纹理图像上的纹理特征分布,并将其扩展至三维空间,在三维空间的不同方向上均能表现出良好的一致性.

图11展示了图10中五个岩石图像在体纹理生成的训练过程中的损失值的变化.随着训练的进行损失值逐渐减小,表明网络正在更好地学习纹理分布特征,当达到收敛时,便可以认为网络模型训练结束.本文采用每个切片方向的10个样本作为一个批次,每个批次中每个样本单独计算梯度.

图12展示了将本文生成的岩石体纹理应用在一些简单的三维模型的渲染效果.第一列为真实样本图像,依次为拉斑玄武岩、灰绿色斑状金伯利岩、白榴石响岩、海百合灰岩、伊丁石化气孔状玄武岩.第二列为体纹理,第三列到第五列分别展示三棱锥、球体、不规则岩石的渲染效果.其中三棱锥为手动构建的三维模型,球体和不规则岩石为虚幻引擎(Unreal Engine,UE)建模生成.

图13展示了利用本文提出的方法生成的岩石体纹理在一些经典的三维模型上的渲染效果,分别将杏仁状玄武岩、文象伟晶岩、斜长玢岩、中粒蚀变辉长岩、黄绿色细粒纯橄岩的纹理图片生成的体纹理映射到兔子、手、多孔结构、犰狳、茶壶五个三维模型上.其中手模型来自free3d.com,犰狳和兔子模型来自斯坦福大学的三维模型库,犹他茶壶来自Martin Newell,这些都是计算机图形学领域中最为经典的三维模型.多孔结构模型是材料学领域中常用的一个三维模型,常被用于观察内部结构,在此次实验中,本文用于观察内部的纹理效果.从图上可以看出本文所提出的方法,将合成的不同岩石体纹理在不同的三维模型上均能取得较好的效果.

图14展示了本文方法对于变质岩中一些非均匀的岩石纹理合成体纹理的效果.其中图14b、14c、14d三个岩石样本,合成的体纹理效果较好.对于图14a样本合成的体纹理效果和原始样本中有明显的差异.

3.4 对比实验

本节使用CNN、STS⁃GAN及本文的方法进行对比实验.将生成的体纹理三个方向上的正交切片进行对比展示.所有样本均采用256×256分辨率大小,生成的体纹理为256×256×256,通过对不同方法生成的体纹理进行切片操作得到二维切片进行对比.图15为定性对比实验结果,为了在方向性上进行对比,采用一个岩石沉积物纹理和文象伟晶岩纹理.

图15中可以看出,CNN的方法,对样本(图15a),产生了许多不连续的条纹以及一些明显的浅色区域;对样本(图15b),会出现明显的重复的深色色块.因此,基于传统CNN的方法无法满足岩石体纹理合成的需求.STS⁃GAN的方法,对于样本(图15a),能保证长条纹特征连续,但会出现许多细小的伪影和像素化效果,其原因可能是采用了简单粗暴的线性插值上采样;对于样本(图15b),出现整体颜色上的失真,其原因是没有对通道信息进行权重的调整,使用了一些不重要的特征信息,导致合成纹理的颜色失真.本文的方法能够较好地解决体纹理合成出现伪影的问题和颜色失真的问题.

为了定量的对比本文所提出体纹理合成方法和基于CNN的方法以及STS⁃GAN的方法合成体纹理的质量.本文针对真实样本图像和生成体纹理的二维切片,使用了传统的全参考指标PNSR和SSIM以及深度学习方法LPIPS(Wang et al., 2022)和DISTS(Zhang et al., 2018)模型进行纹理质量的评价,以及分布相似性指标FID进行综合评估.对于体纹理的三维特性,最终评价结果为三个正交方向二维切片指标的平均值.实验结果如表4所示.

表4可以看出,本文方法在五项指标上均表现出显著优势.在纹理(a)中,本文方法在结构相似性(SSIM=0.773,较CNN提升68.0%,较STS⁃GAN提升10.3%)、峰值信噪比(PSNR=14.678,较CNN提升7.3%,较STS⁃GAN提升9.0%)、感知相似性(LPIPS=0.263,降幅达29.5%/4.0%)、深度图像结构相似性(DISTS=0.156,降幅达35.5%/38.3%)以及FID(11.0,较CNN降低59.7%,较STS⁃GAN降低51.8%)方面均取得最优结果.对于纹理(图15b),本文方法的FID(12.3)同样显著优于CNN(26.3,降幅53.2%)和STS⁃GAN(23.6,降幅47.9%),表明生成纹理与真实纹理在特征空间中的分布更为接近.尽管STS⁃GAN在纹理(图15b)的SSIM指标(0.689)略高于本文方法(0.621),但综合五项指标来看,本文方法在保持视觉真实性的同时,能更有效地保留纹理的全局结构和感知质量.

本节还将本文方法和STS⁃GAN方法应用在不同迭代次数下所合成体纹理的切片的对比实验中.如图16所示,图中样本为STS⁃GAN方法中所使用的数据,从图中可以看出,在训练迭代的500次时1 500次时STS⁃GAN方法均出现了不同程度的颜色失真情况,即出现一些样本中不存在的绿色斑点,而本文所提出的方法则未出现该情况.这证明了本文所提出的方法在体纹理合成时能够明显减弱颜色失真的问题.

针对颜色失真问题,尤其是针对各向异性的体纹理合成颜色失真问题,采用STS⁃GAN方法和本文体纹理合成方法进行对比实验,如图17所示.图中样本来源STS⁃GAN,图17a是STS⁃GAN方法合成的各向异性体纹理,来源于STS⁃GAN的论文,图17b是本文所提方法合成的各向异性体纹理效果.从图中可以看出STS⁃GAN方法不仅仅导致合成体纹理颜色失真,同时存在较多模糊区域,细节特征不明显,本文方法生成的体纹理效果明显优于STS⁃GAN的方法.

综上所述,本文所提出的方法能够较好地解决体纹理合成颜色失真和长距离依赖的问题,更好地保留岩石纹理的长距离的纹理特点,消除明显重复色块,产生的体纹理的二维切片具有更高的图像质量.

3.5 消融实验

本节设计消融实验来验证3D⁃CA注意力模块和基于内容感知的上采样模块的有效性.基线模型使用STS⁃GAN模型,实验结果如图18所示.其中+CA注意力机制表示在基线模型中添加3D⁃CA注意力模块,+上采样模块表示在基线模型中添加基于内容感知的上采样模块.

图18上可以看出,对于具有连续长条纹纹理特征的高方向性岩石纹理(图18a).在引入3D⁃CA注意力机制时能够有效地提取到一些细节信息,对于图像的细节保留起到了很好的作用.如图18a中的蓝色方框所示,STS⁃GAN会产生一些细小的伪影和像素化效果,在使用3D⁃CA注意力之后,不仅消除了伪影现象,而且还产生了较多的中等长度条纹,如图18a的红色方框所示,但是产生的中等长度条纹过多.在引入基于内容感知的上采样模块时,同样消除了伪影现象,虽然能够保证条纹的连续,但是会产生局部区域无条纹的现象.对于低方向性岩石纹理,如图18b.在引入3D⁃CA注意力机制和内容感知的上采样模块时均能够明显减少重复色块的出现,3D⁃CA注意力模块能够产生较多的细节特征,内容感知的上采样模块在保留部分纹理特征时会产生局部平滑的区域.综上,本文结合内容感知的上采样模块和3D⁃CA注意力机制,使得两者优缺点互补,有效地提升最终的合成效果.

定量消融结果如表5所示,从表中可以看出,对于具有连续长条纹的高方向性岩石纹理,加入3D⁃CA注意力模块能够明显提高基于岩石图片合成的体纹理切片的SSIM和PNSR值,提升幅度分别为14.69%、24.92%,可见3D⁃CA注意力机制确实有效地丰富了图像的细节信息,对于LPIPS和DISTS指标则变化不大.在引入内容感知的上采样模块侯,图18a的SSIM和PNSR分别提高2.995%、13.81%,LPIPS和DISTS分别降低8.76%、34.38%.在同时引入两者时,DISTS进一步降低.对于方向性低的岩石纹理(图18b),加入3D⁃CA注意力模块后,SSIM、PNSR有明显的改善.当结合内容感知的上采样模块后,LPIPS和DISTS的效果进一步改善,在单独的3D⁃CA注意力模块的基础上LPIPS和DISTS分别降低4.43%、13.98%.

综上所述,3D⁃CA注意力机制能够通过对纹理特征信息权重的调整,加强细节特征信息的重要性,解决了细节特征提取不足的问题,一定程度上减弱了伪影的出现.内容感知的上采样通过CARAFE⁃3D模块实现基于特征图的上采样,极大地减弱了伪影的出现,但是仅仅使用内容感知的上采样容易导致高频信息的丢失,产生局部平滑的现象.通过引入3D⁃CA注意力在一定程度上解决内容感知的上采样模块带来的问题,产生更多的细节特征,进一步提高体纹理合成的效果.

此外,本节在验证3D⁃CA注意力机制和基于内容感知的上采样模块的可行性之后,为了验证混合空洞卷积对于模型速率的提高,针对混合空洞卷积模块进行定量消融实验.采用相同的样本,设置训练次数为8 000次,其余参数保持一致.从表6中可以看出在引入混合空洞卷积之后,模型的参数量极大的减少,在相同的训练次数下采用混合空洞卷积块的方法所用时间明显低于普通卷积的方法.

4 总结

本文针对现有体纹理合成中存在长距离依赖的问题及颜色失真的问题,提出了一种基于3D⁃CA⁃GAN的岩石体纹理生成方法.通过引入3D⁃CA模块和一组基于内容感知的上采样模块,成功解决了长距离依赖的问题在一定程度解决颜色失真的问题,同时保证生成具有丰富细节的岩石体纹理,最后通过引入混合空洞卷积减少网络训练时长.实验结果表明,本文方法在生成体纹理的多样性和真实感方面均优于传统方法,有效改善了三维岩石模型的视觉表现力和应用价值.未来的研究可以进一步优化体纹理合成算法效率,针对体纹理质量的定量评价作进一步研究,探索更复杂的纹理特征合成技术,为地球科学、岩石学及相关领域提供更强大的技术支持.

参考文献

[1]

Cao, T. S., Kreis, K., Fidler, S., et al., 2023. TexFusion: Synthesizing 3D Textures with Text⁃Guided Image Diffusion Models. IEEE International Conference on Computer Vision (ICCV), Paris, 4169-4181. https://arxiv.org/abs/2310.13772

[2]

Du, S. P., Hu, S. M., Martin, R. R., 2013. Semiregular Solid Texturing from 2D Image Exemplars. IEEE Transactions on Visualization and Computer Graphics, 19(3): 460-469. https://doi.org/10.1109/TVCG.2012.129

[3]

Fu, J. M., Hu, M. S., Fang, F., et al., 2024. Complex Orebody 3D Modeling Using Radial Basis Function Surface Incorporating Stacking Integration Strategy. Earth Science, 49(3): 1165-1176 (in Chinese with English abstract).

[4]

Gatys, L. A., Ecker, A. S., Bethge, M., 2015. Texture Synthesis Using Convolutional Neural Networks. Advances in Neural Information Processing Systems (NIPS), La Jolla, 1-9. https://doi.org/10.5555/2969239.2969269

[5]

Gatys, L. A., Ecker, A. S., Bethge, M., 2016. Image Style Transfer Using Convolutional Neural Networks. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, 2414-2423. https://doi.org/10.1109/CVPR.2016.265

[6]

Gulrajani, I., Ahmed, F., Arjovcky, M., et al., 2017. Improved Training of Wasserstein GANs. Proceedings of the 31st International Conference on Neural Information Processing Systems, Long Beach, 5769-5779. https://doi.org/10.5555/3295222.3295327

[7]

Gutierrez, J., Rabin, J., Galerne, B., et al., 2020. On Demand Solid Texture Synthesis Using Deep 3D Networks. Computer Graphics Forum, 39(1): 511-530. https://doi.org/10.1111/cgf.13889

[8]

Heeger, D. J., Bergen, J. R., 1995. Pyramid⁃Based Texture Analysis/Synthesis. Proceedings of the22nd Annual Conference on Computer Graphics and Interactive Techniques, New York,229-238. https://doi.org/10.1145/218380.218446

[9]

Henzler, P., Mitra, N. J., Ritschel, T., 2020. Learning a Neural 3D Texture Space from 2D Exemplars. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, 8353-8361. https://doi.org/10.1109/cvpr42600.2020.00838

[10]

Hou, Q. B., Zhou, D. Q., Feng, J. S., 2021. Coordinate Attention for Efficient Mobile Network Design. Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 13708-13717. https://doi.org/10.1109/CVPR46437.2021.01350

[11]

Hua, W. H., Xiao, Y. N., Wang, Z. J., et al., 2022. Real⁃Time Generation Technology of Vector Geological Profile Based on 3D Geological Model. Earth Science, 47(11): 4256-4266 (in Chinese with English abstract).

[12]

Huo, D., Guo, Z. X., Zuo, X. X., et al., 2024. TexGen: Text⁃Guided 3D Texture Generation with Multi⁃View Sampling and Resampling. In: Leonardis, A., Ricci, E., Roth, S., eds., Computer Vision⁃ECCV 2024. Springer, Cham, 352-368. https://doi.org/ 10.1007/978⁃3⁃031⁃72920⁃1_20

[13]

Kwatra, V., Essa, I., Bobick, A., et al., 2005. Texture Optimization for Example⁃Based Synthesis. ACM SIGGRAPH 2005 Papers,Los Angeles, 795-802. https://doi.org/10.1145/1186822.1073263

[14]

Peachey, D. R., 1985. Solid Texturing of Complex Surfaces. ACM SIGGRAPH Computer Graphics, 19(3): 279-286. https://doi.org/10.1145/325165.325246

[15]

Perlin, K., 1985. An Image Synthesizer. ACM SIGGRAPH Computer Graphics, 19(3): 287-296. https://doi.org/10.1145/325165.325247

[16]

Portenier, T., Bigdeli, S., Goksel, O., 2020. GramGAN: Deep 3D Texture Synthesis from 2D Exemplars. Proceedings of the 34th International Conference on Neural Information Processing Systems, Montreal, 6994-7004. https://doi.org/10.5555/3495724.3496311

[17]

Qian, Y. L., Shi, J., Sun, H. Q., et al., 2023. Vector Solid Texture Synthesis Using Unified RBF⁃Based Representation and Optimization. The Visual Computer, 39(9): 3963-3977. https://doi.org/10.1007/s00371⁃022⁃02541⁃y

[18]

Qian, Y. L., Shu, Y., Sun, H. Q., et al., 2015. Vector Solid Texture Synthesis Using Two⁃Scale Shaping Model. Proceedings of the 21st ACM Symposium on Virtual Reality Software and Technology,Beijing, 27-36. https://doi.org/10.1145/2821592.2821605

[19]

Shaham, T. R., Dekel, T., Michaeli, T., 2019. SinGAN: Learning a Generative Model from a Single Natural Image. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, 4569-4579. https://doi.org/10.1109/iccv.2019.00467

[20]

Tai, W. X., Zhou, Q., Yang, C. F., et al., 2023.3D Geological Visualization Modeling and Its Application in Zhexiang Gold Deposit, Southwest Guizhou Province. Earth Science, 48(11): 4017-4033 (in Chinese with English abstract).

[21]

Wang, J. Q., Chen, K., Xu, R., et al., 2022. CARAFE: Unified Content⁃Aware Re⁃Assembly of FEatures. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44(9): 4674-4687. https://doi.org/10.1109/TPAMI.2021.3074370

[22]

Wang, P. Q., Chen, P. F., Yuan, Y., et al., 2018. Understanding Convolution for Semantic Segmentation. 2018 IEEE Winter Conference on Applications of Computer Vision (WACV), Lake Tahoe, 1451-1460. https://doi.org/10.1109/WACV.2018.00163

[23]

Xiao, H. G., He, L., Zheng, Y. L., et al., 2022.3D Solid Digital and Numerical Modeling of Multimineral Heterogeneous Rocks Based on Deep Learning. Geomechanics and Geophysics for Geo⁃Energy and Geo⁃Resources, 8(6): 188. https://doi.org/10.1007/s40948⁃022⁃00495⁃y

[24]

Zirek, S., 2023. Synthesising 3D Solid Models of Natural Heterogeneous Materials from Single Sample Image, Using Encoding Deep Convolutional Generative Adversarial Networks. Systems and Soft Computing, 5: 200051. https://doi.org/10.1016/j.sasc.2023.200051

[25]

Zhang, R., Isola, P., Efros, A. A., et al., 2018. The Unreasonable Effectiveness of Deep Features as a Perceptual Metric. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 586-595. https://doi.org/10.1109/CVPR.2018.00068

[26]

Zhao, X., Guo, J. F., Wang, L., et al., 2023. STS⁃GAN: Can We Synthesize Solid Texture with High Fidelity from Arbitrary 2D Exemplar? In: Proceedings of the Thirty⁃Second International Joint Conference on Artificial Intelligence (IJCAI). International Joint Conferences on Artificial Intelligence Organization, Macao, 1768-1776. https://doi.org/10.24963/ijcai.2023/196

基金资助

中铁第一勘察设计院集团有限公司科研项目(2022KY53ZD(CYH)⁃10)

中国铁建股份有限公司重大专项(2024⁃W04)

AI Summary AI Mindmap
PDF (4930KB)

38

访问

0

被引

详细

导航
相关文章

AI思维导图

/