矿物组分识别与智能解释在不同岩性之间的信息共享与迁移学习

刘烨 ,  韩雨伯 ,  朱文瑞

地学前缘 ›› 2024, Vol. 31 ›› Issue (4) : 95 -111.

PDF (13833KB)
地学前缘 ›› 2024, Vol. 31 ›› Issue (4) : 95 -111. DOI: 10.13745/j.esf.sf.2024.5.8
深度学习与图像识别

矿物组分识别与智能解释在不同岩性之间的信息共享与迁移学习

作者信息 +

Mineral component identification and intelligent interpretation: Information sharing and transfer learning across different lithologies

Author information +
文章历史 +
PDF (14164K)

摘要

在地球科学领域,岩石微观观测数据的采集过程繁琐且效率低下,这不仅增加了研究成本,降低了可靠性,同时也限制了数据的开源共享。此外,由于岩性的多样性和观测手段的差异,单一数据集的规模通常较小,这对于依赖大规模数据集的深度学习框架而言是一大挑战。为此,本研究探索迁移学习如何促进不同岩性间的信息共享,并通过此机制提高矿物组分识别与智能解释任务的模型性能。通过采集不同区域、岩性、矿物组分和偏光模式下的铸体薄片样本,本文深入研究了深度学习模型在不同观测对象和手段下的迁移学习机制,并聚焦于探索地质信息的深层表征。研究成果不但揭示了迁移学习在促进地质学领域信息共享与模型性能提升中的关键作用,还为自动化和智能化地质认识融合奠定了基础。实验结果显示,通过迁移学习,本文模型在智能解释任务中的准确率显著提高,从53.3%提高至98.73%,而在矿物组分识别任务中,准确率也实现了近10%的提升。这些成果证明了迁移学习在地质学领域内解决实际问题和提高模型泛化能力、性能和稳定性方面的巨大潜力。

关键词

迁移学习 / 薄片矿物组分识别 / 薄片图像智能解释 / 地质认识融合

Key words

transfer learning / thin section mineral composition identification / thin section image intelligent interpretation / geological understanding integration

引用本文

引用格式 ▾
刘烨,韩雨伯,朱文瑞. 矿物组分识别与智能解释在不同岩性之间的信息共享与迁移学习[J]. 地学前缘, 2024, 31(4): 95-111 DOI:10.13745/j.esf.sf.2024.5.8

登录浏览全文

4963

注册一个新账户 忘记密码

0 引言

岩石微观特征的观测往往通过光学显微镜、电子显微镜和CT扫描等技术实现,然而对它们的信息提取、分析和解释均依赖于大量的专业技术人员。这种传统研究方式的优势在于能够充分利用技术人员的专业知识并且能够实现经验的积累。其缺点一方面是所需的人力资源巨大,尤其随着显微镜与数据处理技术的不断发展,数据量远超传统数据,人工解释难以适应数据的快速增长;另一方面,技术人员水平参差不齐使得研究结果的一致性与可靠性较低。岩石薄片、SEM(扫描电镜)等数据要求鉴定技术人员具有充足的专业知识与经验积累,而这个条件却在实际中难以保证。传统方法的局限性促进了自动化分析方法的发展,从图像处理到机器学习,再到深度学习[1]。近年来,深度学习的进步推动了岩石数据自动分析和解释的研究,并产生了众多技术和成果。

岩石图像自动识别研究对象分为单体和多体岩石,对于单体岩石识别的研究,徐述腾等[2]、程国建等[3]、白林等[4]和谭永健等[5]多位学者应用并验证了不同卷积神经网络的可靠性。除了使用单一的卷积神经网络,许多研究中还结合其他深度学习技术,如:Polat等[6]用深度迁移学习对火山岩分类,精度超过99.5%。多体岩石识别通常用图像分割和目标检测技术,如姜枫[7]使用超像素、区域合并等方法得到识别结果。Qiao等[8]提出基于深度学习的岩石碎片实时识别法,能预测岩性和调整开挖参数。Yin等[9]结合骰子损失和焦点损失提出改进U-Net架构,提升少量数据下的分割准确率9%。刘烨等[10]提出了一种岩石薄片的智能识别方法,该方法通过图像处理、超像素分割和实例分割等技术,自动地确定岩石矿物的边缘和对应类别等信息,减少人为主观因素对识别结果的影响。

岩石图像智能解释研究将计算机视觉与自然语言处理两大方向紧密地结合在了一起[11],其使用的主流框架有Encoder-Decoder结构,Encoder对图片的区域信息进行编码,建立不同物体之间的关系后,使用Decoder解码生成句子。Encoder部分通常使用CNN,Decoder部分为RNNs,后由于Transformer兴起,RNN被替换为Self Attention Networks。随着图像描述领域的迅速发展,逐渐加入Attention机制,通过对深度学习网络的不断改进,以此得到更加准确的实验结果[12]

然而深度学习作为黑盒模型,缺乏可解释性与泛化性限制了其在专业领域的应用。在岩石数据分析中,模型因缺少专业知识而对数据集的微小变动过度敏感,导致分析结果不准确。其根本原因在于,深度学习的数据驱动特性受限于训练数据的范围,而岩石观测数据昂贵、收集成本高,且通常为企业私密数据,难以扩充训练数据集。此外,专业化标注训练数据既费时又费力,导致研究工作依赖传统的人工方法。

面对模型扩展的限制,深度挖掘现有数据集的内在联系并充分利用其价值是解决核心问题的关键。迁移学习提供了有效的解决方案,通过挖掘数据间的联系来显著提高模型泛化性,同时减少对大量数据集的需求。

迁移学习[13-15]最初在一些较为简单的神经网络模型中应用,常见的做法是从一个较小的标注数据集扩展到较大数据集中实现半监督学习。近年来,一些研究成果已经成功地将迁移学习方法应用于测井曲线[16]、井眼成像、薄片图像、CT扫描图像和岩心图像的岩性分类、识别领域。例如Pires 等[17]使用迁移学习识别碳酸盐岩的岩心岩相,并推广至广泛岩相识别。Koeshidayatullah等[18]也用迁移学习完成了碳酸盐岩岩相识别。Dawson等[19]测试了不同大小的碳酸盐岩数据集对于迁移学习的效果。然而,迁移学习研究大多在碳酸盐岩中应用,这是由于碳酸盐岩矿物组分相对较为一致,对于迁移学习的机理支持较为明确,效果也较为明显。此类实验数据所面对的迁移性问题较为简单直接,更为复杂的问题鲜有被讨论。

综合上述研究思路和现在仍未解决的问题,本文针对复杂岩石类别,跨越多种因素如区块、岩性、偏光模式和矿物组分,提出新的岩石图像信息迁移与共享方法,其主要创新点如下。

(1)建立复杂砂岩体系迁移学习范式,通过共享地质信息提取和分析模式,提高深度学习模型的可解释性和泛化性。

(2)应用上述模式,跨越了从砂岩到片麻岩、从单偏光到单偏光加正交偏光和从铸体薄片到常规薄片的鸿沟。将预训练模型迁移新的数据集中,验证了上述学习范式所能实现的地质信息提取与分析的迁移共享能力。

(3)扩展该范式至语义智能解释领域,从信息提取跨越到信息的生成中,实现了从砂岩到片麻岩数据集的智能解释迁移学习实验,分析并验证了该范式在信息生成网络中的效果。

1 方法流程与数据集

1.1 原始数据集

本文所选用的数据集是为了模拟由于泛化性和数据量不足造成的问题。因此我们设计了一个较大的数据集A作为预训练数据集,而另外一个数据集B则数据量较小,并且在岩性等诸多方面的特征与数据集A具有明显的差异,这样才能够验证本方法是否能够解决上述泛化性和数据量不足的问题。

本文实验所用的数据集来自两个不同的区块,其中数据量较为充足的A数据集(图1a)来自鄂尔多斯盆地上古生界延长组致密砂岩储层,该批样品的平均孔隙度为9.66%,渗透率为0.494×10-4 μm2,拍摄自单偏光显微镜下,矿物组分主要包括石英、高岭石、岩屑、杂基和孔隙等,数据量为1 000。B数据集则来自渤海盆地太古界,岩性主要为片麻岩(图1b,c),矿物组分组成主要为石英、斜长石和钾长石等,拍摄具有单偏光与正交偏光两套图像,数据量为32。

A和B数据集的区别:首先表现在A数据集为砂岩,而B则为片麻岩,由此也造成两者的矿物组分与形态都具有较大差异;其次A数据集为铸体薄片图像,孔隙颜色为红色,B数据集则为常规薄片图像,并未充注铸体;最后A数据仅拍摄了单偏光图像,而B数据集则同时具有单偏光与正交偏光图像两种数据。

1.2 方法流程

本文总体的方法流程如图2所示,目标是以数据量较为充足的数据集A作为基础和预训练数据集,通过矿物组分识别和智能语义解释两个模型的迁移,实现从数据集A到数据集B的迁移,跨越不同岩性、不同观测手段来验证方法的泛化性,同时数据集B仅依靠32个样品,便能够取得相对更为准确的识别与智能解释结果,以此验证本方法在面对小数据集时的表现。

总体来说,本文所提出的研究方法分为4个主要步骤。

(1)数据集建立与预处理。本文所使用的原始数据集均为显微镜下拍摄的薄片图像,要对图像中的矿物组分进行分类,需要先将其分割为单体岩石才能实现进一步分析,本文2.3节中对该预处理方案进行了阐述。为了解决该问题,本文基于半监督学习的单偏光砂岩铸体薄片识别方法[10]将图像割成为组分块。后续的组分识别操作所使用的数据集都由该预处理方法获得,该方法也在2.3节中进行了简要阐述。

(2)组分识别预训练。预训练部分数据为数据集A,原始图像为1 000张,通过预处理对这些原始数据进行分割、标注等操作后,将其分割成不同类型矿物的单体图像。这些数据会被用于矿物组分识别模型的预训练,这部分数据集详细介绍可见2.4节。通过对该数据集的训练,让这套简单的模型能够学习到岩石图像中蕴含的地质信息,具体的模型细节见3.2节。

(3)组分识别迁移学习。本文选择渤海湾某区块的片麻岩样品进行迁移学习,该数据集中每个样品均含有单偏光与正交偏光两套图像,也就是说,输入的数据维度上,两个数据集并不相同。此外该区块的薄片为常规薄片,并未给孔隙中注入铸体,同时岩石组分也有较大差异。在这种数据集的差异基础上,我们在预训练组分识别模型基础上进行了简单修改(见3.2节),便通过非常少量(50个)碎片样品训练实现了准确的矿物组分分类结果。

(4)智能解释迁移学习。最后我们又将常用于图像领域的迁移学习进行了扩展,从信息的提取和分析能力的迁移跨越到具有语义生成能力的智能解释迁移。本部分研究将由数据集A中训练出来的编码器模型迁移到数据集B中,以数据集B中的32个数据来进行训练,并以此测试迁移学习在语义生成能力迁移中的作用。

1.3 数据集预处理

图3所示,我们需要对原始数据集进行预处理分割算法,从而使进一步进行分析的数据为分割后的碎片。本小节所述的数据集预处理的目标便是通过一套融合超像素与区域合并的组分预处理分割算法从原始图像数据集中分割出矿物组分的碎片。

现有研究成果中,端到端的目标识别方法能够实现直接从原始图像对图中的组分进行识别,但该方法标注难度较大,数据质量要求较高,人工和时间耗费成本高。而本文使用分割与识别两段处理流程,显式地进行数据集的预处理,确保从原始图像数据集中准确分割出组分碎片。选择这种方法的原因是双重的。

(1)深入探究分割处理:显式的预处理步骤允许对分割过程进行深入的优化和调整,确保得到的组分碎片是尽可能准确和完整的。

(2)专注于地质意义的分类识别:相比在多个步骤上模糊处理,我们更希望集中精力解决有深入地质意义的问题。这种分步骤的处理方式更有助于深入挖掘和解读地质薄片图像中的信息。

综上所述,本文在数据集预处理部分采用笔者所提出的一套融合超像素和区域合并的组分预处理分割算法,获取预训练和迁移学习所使用的数据集,详细内容见参考文献[10]。

所用方法使用以下流程(图4):

(1)对原始数据集使用简单超像素算法中的线性迭代聚类算法[20](simple linear iterative cluster,SLIC)生成过分割的超像素块;

(2)使用合并策略对超像素块进行粗合并,按合并区域分割得到无标注单体岩石数据集;

(3)利用人工标注数据,获得有标签的单体岩石数据集。

1.4 组分识别数据集

通过1.3的预处理后,得到如图5所示的组分识别数据集,其中数据集A资料较为充足,因此我们在处理后的数据集中为每类组分挑选1 200张图片组成预训练集A-a。

随后从预处理后的数据集B中为每类组分挑选50对组分图组成迁移学习训练集B-a,每一个组分图包括一张单偏光图像和一张正交偏光图像,如图6所示。组分识别数据集的组成如表1所述。

1.5 智能解释数据集

本文中的智能解释数据集由组分识别分类结果和岩石成分描述组成。其中数据集C的组分识别标注图片通过本文的预训练组分识别模型和数据集A生成,岩石成分描述来自人工标注,如图7所示。数据集C的大小为1 000。

数据集D的组分识别标注图片是通过组分识别迁移模型得到的,标注的岩石成分描述来自人工,如图8所示。由于数据集B图像较少,仅有32张图像,此时训练难以收敛,因此本节对数据集通过左右镜像、上下翻转和旋转进行了数据增强,将数据集扩充到256后再进行后续的训练与测试分析。

2 迁移模型与实验设计

根据1.3节所述研究思路和创新点,在本节首先对方法流程进行详细设计,明确不同流程步骤的研究内容和研究目的,随后对本文中所使用的深度学习模型进行介绍,最后进行实验设计。

2.1 迁移学习流程

该部分内容是本文研究的重点,通过深度学习模型的模型迁移,实现从砂岩到片麻岩,由单偏光到正交偏光加单偏光数据集之间的信息共享与迁移学习。迁移学习的基本流程如图9所示:

(1)首先在预训练数据中,以1 000个原始数据图像进行预训练,样品为单偏光铸体薄片图像。本文中设计了两个预训练模型,分别为矿物组分识别模型和语义智能解释模型。如图9所示,在第一部分预训练中,模型能够学习到矿物成分特征与类别之间的关系,同时还学习了从图像特征到语义描述之间的关系。

(2)随后从学习完成后的模型1和模型2中取出部分模块进行迁移重构,搭建模型1重构与模型2重构。这时新的数据集降低到仅有32个,并且岩性由砂岩变为片麻岩,矿物组分也有了差异,同时观测手段也在单偏光的基础上增加了正交偏光。在这种改变条件下,本文会对共享信息与迁移模型后的迁移学习表现进行综合评估,并尝试论证深度学习模型在不同类型岩石观测数据之间进行迁移的机制和局限性。

2.2 组分识别模型迁移

2.2.1 预训练模型

预训练阶段的主要任务为训练一个具有良好性能的单体岩石分类模型,这个任务本质上是一个图像分类问题。因此,在本小节中,我们基于图像分类领域常用的经典卷积神经网络模型VGG16[21],对其进行了结构上的改进,以设计出适用于预训练的组分识别模型,其结构示例如图10所示。

预训练组分识别模型的主干网络为带批量归一化的VGG16架构的前14层,即图10中“VGG16[∶ 14]”部分。主干网络主要由两部分组成,其结构都包括两个卷积块(一个用于卷积运算,另一个进行Batchnorm处理和激活函数ReLU)和一个最大池化层。模型输入数据的大小为(3,32,32),经过主干网络后,输出的张量大小为(128,8,8)。

随后,张量通过展平操作,得到尺寸为(1,8 192)的张量。该张量通过两个线性层处理,其中应用了激活函数ReLU,并使用Dropout技术随机丢弃50%的神经元,进一步优化了模型,减少了过拟合出现的可能。最终,将尺寸为(1,N)的张量经过SoftMax函数处理,获得N个类别的概率。选择具有最高概率的标签作为预测结果输出。

2.2.2 模型迁移

预训练模型基于数据集A,为一套单偏光砂岩铸体薄片样品。在预训练过程中,其能够得到提取相应数据集的特征信息,并进行分析识别的能力。下一步是将部分模型模块迁移至数据集B当中,设计模型如图11所示。

由于数据集B中每张样品均含有单偏光和正交偏光两套图像,因此迁移模型改为双输入。迁移模型在输入端嵌入卷积块注意力模块[22],两个输入首先通过公共的注意力模块,以帮助模型更有针对性地关注对当前任务最有帮助的特征。由于迁移模型训练使用的数据集较小,因此添加注意力机制有助于抑制不相关或冗余的特征,从而提高模型的泛化能力。注意力模块结构如图12所示,分为通道注意力模块和空间注意力模块。

迁移模型保留预训练模型的主干网络,对其余网络根据特定问题进行了重新设计。在迁移模型下,输入数据的尺寸为(3,32,32),并经过注意力模块的处理。两个输入数据在共享的迁移主干网络中传递,生成的输出张量尺寸为(128,8,8)。

鉴于迁移模型所使用的训练数据相对有限,模型舍弃了预训练模型中间的线性层和Dropout操作。同时,由于两个输入数据在颜色和纹理等特征上因观测光学系统的不同而存在差异,因此需要各自进行进一步的特征提取。最终得到尺寸为(1,128)的张量,这个张量通过一个线性层,产生维度为(1,N)的结果。

将得到的两个结果Out1和Out2按比例相加,再经过SoftMax函数处理,最终得到对于N种类别的预测概率。这种结合多输入、多层次的特征提取和整合的方法,使得迁移模型能够在有限数据条件下更加精确地进行图像分类任务。

2.3 智能解释模型迁移

2.3.1 预训练模型

智能解释所使用的语义模型基于编码器和解码器思想进行设计,其结构如图13所示,模型输入为组分识别的结果,经过基于卷积神经网络的编码器和基于循环神经网络的解码器后,生成岩石成分的文字解释。

编码器负责从输入的图像中提取特征,并将其转化为中间状态。在图14中,展示了语义模型编码器的结构。编码器的主干网络通过3.2.1节组分识别预训练模型的主干网络修改得到。编码器接收的输入图像尺寸为(3,32,32),在经过主干网络处理后,输出的张量尺寸变为(128,8,8)。

随后,这个张量通过全局平均池化层和线性层进行处理,最终被转化为尺寸为(1,1 024)的图像特征。这一系列操作能够从原始图像中提取出关键信息,为后续的任务提供有用的语义表示。

在将获取的图像特征输入解码器之前,需要根据描述的最大长度对图像特征在维度上进行复制。这样做是为了保持图像特征与描述在维度上的一致性。此外,解码器在训练过程中需要将图像特征与预描述进行融合。为了实现这一点,首先需要将描述通过数据字典进行独热编码,以替换每一个词组,并在描述的开头和结尾加入标识符,表示描述的开始和结束。这样的处理确保了图像特征和描述之间的一致性,同时为解码器提供了正确的输入,使其能够学习如何生成与图像内容相符的描述。

图15显示了语义模型解码器的结构。解码器的输入包括图像特征和描述。图像特征首先通过图像嵌入层进行尺寸转换。同时,描述经过掩码层进行处理,以屏蔽数值为0的部分,以便在后续的训练过程中忽略无关信息。随后,描述通过文本嵌入层,将其尺寸转换为与图像特征相同。将调整后的图像特征和描述相加,进行融合,然后输入到循环卷积网络GRU[23]中。

图16展示了融合特征在GRU中的训练过程。图中每一行表示一个时间步,即一个词组。每个红色方块代表GRU的一个节点,每一行组成了GRU的一个隐藏层。在时间步t,每一个节点通过当前隐藏层的前一个隐藏状态ht-1计算自身的隐藏状态ht,并将这个隐藏状态传递给下一个时间步的节点,用于计算下一个时间步的隐藏状态。这种逐时间步的计算方式允许模型学习描述和图像特征之间的关联,并在每一个隐藏层逐步生成与图像内容相符的描述。这些通过GRU得到的特征将传递给Output层,用于生成与图像内容相符的描述。

Output层由一个全连接层和一个SoftMax函数构成。它将GRU的输出转化为一个概率分布,这个概率分布用于最终的描述生成,其中每个元素表示生成相应词汇的概率大小。这个过程赋予模型在给定上下文和输入图像特征的情况下生成合适描述语句的能力。

2.3.2 模型迁移

智能解释预训练模型基于数据集C,为一套单偏光砂岩铸体薄片样品的组分标注结果与描述。在预训练过程中其能够生成正确的岩石粒度和岩石组分描述。智能解释模型迁移便是将部分预训练模型模块迁移至数据集D当中。

迁移模型与预训练模型的模型结构相同,仅在部分层的输入输出尺寸根据数据集D进行调整。首先,根据组分标注图片的尺寸将迁移模型编码器的输入改为(3, 224, 224)。其次,由于数据集C描述的最大长度和构建的字典大小与数据集D不同,因此需要调整迁移模型解码器的掩码层和文本嵌入层,使模型适应新的词汇表。最后,保证迁移模型嵌入层的输出尺寸与预训练模型相同,对嵌入层运算后的图像特征和描述进行相加融合,输入到使用预训练模型参数构建的GRU网络中进行训练获得特征,将特征通过迁移模型的Output层后得到生成结果。

2.4 实验设计

本文将整个实验分为两个子实验,通过不同的实验,从多个角度来验证深度学习模型的可迁移性。

实验1:组分识别。本次实验主要是为了对比分析迁移学习在岩石组分识别中起到的作用,并通过组分识别模型实现对原始图像数据进行标注。

本次实验共分为两个部分,第一部分进行组分识别模型预训练,测试预训练模型在数据集A-a中的原始表现,得到一个性能较好的单体岩石组分识别模型;第二部分为组分识别迁移学习,我们将会对比在同样的模型结构下,使用和不使用由预训练集所迁移的模型模块在数据集B-a中的表现,同时生成组分标注图片。

组分识别实验预训练和迁移训练的数据集划分均为随机80%数据作为训练集,20%数据作为测试集,模型训练超参数如表2所示。

实验2:智能解释。本次实验旨在对比分析迁移学习在岩石成分智能解释中的作用。

本次实验同样分为两个部分:第一部分主要是测试智能解释预训练模型对数据集C的智能解释生成能力,为后续模型的迁移创造了条件;第二部分为智能解释迁移学习,我们将会在同样的模型结构下,对比使用和不使用由预训练所迁移的模型模块在数据集D中的表现。同时在实验中,编码器仅用于提取图像特征,并不会进行参数更新,只有解码器会进行训练并更新参数。

智能解释实验预训练和迁移训练的数据集划分同样为随机80%数据作为训练集,20%数据作为测试集,模型训练超参数如表3所示。

3 实验分析

3.1 评价指标

精确率:指预测为正类的数据中,真实类别确实是正类的概率,用来衡量一个模型预测出真正例的能力,其计算方式见式(1)。

Precision= T P T P + F P

召回率:指真实类别为正类的数据中,预测类别也为正类的概率,用来衡量一个模型能把所有的正例都找出来的能力,其计算方式见式(2)。

Recall= T P T P + F N

实际问题中通常会使用准确率来评估模型的全局预测能力,其计算方式见式(3)。

Accuracy= T P + T F T P + F P + T N + F N

F1_score是模型精确率和召回率的调和平均,有时会出现模型精确率和召回率相互矛盾的情况,此时便需要F1_score综合考虑两者,其计算方式见式(4)。式(4)计算的是单一类别的F1_score,当考虑所有种类的F1_score时,一般计算其均值得到 F 1 _ s c o r e ¯对整个模型进行综合评价,其计算方式见式(5)。

F1_score= 2 P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l= 2 T P 2 T P + F N + F P
F 1 _ s c o r e ¯ = 1 n i = 1 n F 1 _ s c o r e i

式中:TP是模型正确地预测为正类的实例数;FN是模型错误地预测为负类的实例数;TN是模型正确地预测为负类的实例数;FP是模型错误地预测为正类的实例数。

本文使用准确率和 F 1 _ s c o r e ¯对组分识别模型进行衡量,使用准确率对智能解释模型进行衡量。

3.2 实验1:组分识别实验分析

3.2.1 预训练

本小节将对预训练组分识别模型的结果进行分析。图17展示了预训练模型准确率的变化曲线。从图中可以看出,在迭代次数达到80次时,预训练模型基本收敛,最终训练集的准确率能够达到93.6%,测试集的准确率则为96.2%。

根据数据集A-a绘制混淆矩阵,如图18所示,图18a为训练数据的混淆矩阵,图18b为测试数据的混淆矩阵。

图18可以得出结论:除“其他”类别以外,各类别数据的分类准确率都高于96.0%,而最低的“其他”类别的准确率为89.0%。并且计算测试数据集的 F 1 _ s c o r e ¯为96.4%,证明该预模型对于本单体岩石数据集的分类已经达到了很好的效果。

3.2.2 组分识别迁移学习对比分析

本小节将对组分识别迁移学习的结果进行对比与分析,主要目标是测试这种特征提取与分析能力被迁移到新数据集中时,对于模型的表现会产生什么样的影响。图19展示了迁移模型和原始模型的训练结果对比。当迭代次数达到40次时,两个模型均基本收敛。通过图19ab的对比,我们可以清晰观察到迁移模型整体损失远低于原始模型,这表明迁移模型的性能优于原始模型。

通过表4可知,模型收敛后,在训练集上迁移模型的准确率为92.5%,而原始模型的准确率为86.6%。然而,迁移模型在测试集上的表现更加显著,其准确率达到96.8%。相比之下,原始模型的准确率仅为87.5%,这证实了迁移学习对模型性能的积极影响。

在数据集B-a中每类随机挑选20%绘制混淆矩阵,如图20所示,图20a为迁移模型的混淆矩阵,图20b为原始模型的混淆矩阵。通过混淆矩阵可以计算出迁移模型的 F 1 _ s c o r e ¯为98.2%,而原始模型的 F 1 _ s c o r e ¯仅为90.4%。

这些结果进一步验证了迁移学习在岩石组分识别任务中的有效性。虽然在相似特征的情况下仍存在一些挑战,但整体而言,迁移模型在类别识别方面表现出了更强的泛化能力。

3.2.3 组分识别在原始图像中的标注

预训练模型对数据集A样本进行识别标注的结果如图21所示,图21a展示了数据集A中的一个样本,需要指出这个样本并未包含在数据集A-a中。我们采用了简单线性迭代聚类算法和粗合并的方法对其进行处理,从而获得待识别区域,如图21b所示。

预训练对待识别区域进行分类,我们得到了标注结果,如图21c所示。其中黄色部分代表石英,黑色部分代表孔隙,蓝色部分代表岩屑,白色部分代表其他,青绿色部分代表杂基,灰色部分代表高岭石。

通过训练后的迁移模型对数据集B样本进行识别标注的结果如图22所示,图22a图22b展示了数据集B中的一对样本,需要指出这对样本并未包含在数据集B-a中。鉴于正交偏光图像中斜长石和钾长石之间的差异相对明显,我们采用简单线性迭代聚类算法和粗合并的方法对正交偏光图像进行处理,从而获得待识别区域,如图22c所示。迁移模型对待识别区域进行分类得到标注结果,如图22e所示。其中黄色部分代表钾长石,绿色部分代表斜长石,黑色部分代表石英。

对标注结果的分析表明,上述标注基本正确。然而,在处理岩石缝隙时,由于分割的精确度受到一定的限制,会出现一些过分割的现象,从而导致少量错误标记。这一情况需要在进一步的研究中得到更准确的处理和改进。

3.3 实验2:智能解释实验分析

3.3.1 预训练

本小节将针对预训练的岩石组分智能解释模型的结果进行分析。在迭代次数达到150次时,预训练模型基本收敛,在训练集中的准确率达到97.3%,测试集的准确率则为96.5%。图23展示了预训练模型的生成结果。

图23可以清楚地看到,智能解释预训练模型能够很好地根据组分识别的标注图片对岩石薄片种类进行命名,同时可以对岩石主要包含的种类等做出较好的概括描述,实验达到了预期效果,可以在后续对其进行迁移和共享。

3.3.2 智能解释迁移学习对比分析

在这一小节中,我们将比较分析基于迁移学习的智能解释语义模型和原始模型的训练结果。如图24所示,展示了迁移模型和原始模型的训练结果对比。当迭代次数达到50次时,两个模型均基本收敛。从图24a图24b的对比中,可以非常清晰地观察到在训练损失函数和测试损失函数的曲线变化方面,迁移模型的整体损失远低于原始模型,迁移模型取得了更好的训练效果。

通过表5的比较,我们可以观察到迁移模型的准确率在整体上显著优于原始模型。在模型收敛后,迁移模型在训练集中的准确率达到100%,并且没有发生过拟合现象。相比之下,原始模型的准确率仅为57.6%。在测试集方面,迁移模型同样表现出色,其准确率达到了98.3%。而原始模型在相同条件下的测试集准确率仅为53.3%,无法生成正确的描述。综上所述,这些结果充分证明迁移学习可显著提升智能解释语义模型的性能。

测试集部分生成结果如图25所示,可以清楚地看到,智能解释迁移模型能够很好地根据组分识别的标注图片生成准确的岩石成分描述,实验达到了预期效果。

3.4 实验总结

经过实验研究,迁移学习在组分识别和智能解释两方面,准确率和效率均取得了提升。从算法的收敛速度和性能两个维度看,模型训练效果都明显地受益于迁移学习的引入。尤其在智能解释中,就数据集B的规模来说,它几乎无法有效地支撑深度学习,但通过迁移学习,可成功地将准确率从53.3%提升到98.73%。与此同时,在组分识别任务上,准确率也从原来的87.5%提升到96.8%,增幅近10%。这些实验数据充分佐证了迁移学习在地质学领域内,对于解决深度学习泛化性能不佳和数据不足的问题,确实具有极大的帮助。

4 结论与讨论

4.1 结论

在科技迅猛发展的今天,地球科学领域迫切需要借助先进计算方法强化传统岩石微观观测技术。尽管深度学习在模式识别方面表现卓越,但它在地质学中的应用因数据数量、质量和多样性方面的限制而难以广泛推行。

本研究深入探讨了问题的根源,并提出运用深度学习模型中的迁移学习策略来共享地质信息,以此实现模型的快速普及和广泛应用。通过将迁移学习应用于地质薄片数据,并在数据量大、岩性和观测手段多样的实验环境中对该策略进行了全面测试,以验证其在信息提取、分析和生成方面的效能。

实验结果证明迁移学习在提升深度学习模型性能方面效果显著,特别是在数据有限的智能解释任务中。这为地质学领域提供了一种解决数据不足的有效工具,并实现了更精确的地质信息提取。本研究不仅关注技术应用,还深入分析了深度学习模型在迁移学习中的地质信息表征,为未来地质学和智能解释方法的融合奠定了基础。总体而言,本文的发现对于推进地球科学领域的数据驱动研究具有极其重要的意义,并为未来的研究提供了新的视角和方向。

4.2 讨论

(1)分割精度的影响:在组分识别中,较精确的图像分割可以提供更准确的区域或对象边界,从而有助于识别算法更准确地提取和分析目标对象的特征,同时有助于减少类间混淆,提高识别的准确性。

(2)模型多样性:在本次实验中,所采用迁移学习策略主要集中在卷积网络和编码器这两种结构上。为了更全面地探讨迁移学习的潜能和适用性,未来应该考虑在更为丰富和多样的模型结构与方法上进行测试。

(3)数据集的多样性和组合:本次实验所采用的数据集是固定选择的。实际上,地质学领域内有众多不同的数据集和数据组合方式,未来的研究应该尝试对不同的数据集组合进行迁移学习的测试,从而进一步明确该方法的最佳应用场景。

参考文献

[1]

周永章, 张良均, 张奥多, 地球科学大数据挖掘与机器学习[M]. 广州: 中山大学出版社, 2018.

[2]

徐述腾, 周永章. 基于深度学习的镜下矿石矿物的智能识别实验研究[J]. 岩石学报, 2018, 34(11): 3244-3252.

[3]

程国建, 郭文惠, 范鹏召. 基于卷积神经网络的岩石图像分类[J]. 西安石油大学学报(自然科学版), 2017, 32(4): 116-122.

[4]

白林, 魏昕, 刘禹, 基于VGG模型的岩石薄片图像识别[J]. 地质通报, 2019, 38(12): 2053-2058.

[5]

谭永健, 田苗, 徐德馨, 基于Xception网络的岩石图像分类识别研究[J]. 地理与地理信息科学, 2022, 38(3): 17-22.

[6]

POLAT Ö, POLAT A, EKICI T. Automatic classification of volcanic rocks from thin section images using transfer learning networks[J]. Neural Computing and Applications, 2021, 33(18): 11531-11540.

[7]

姜枫. 基于语义识别的砂岩薄片图像分割方法研究[D]. 南京: 南京大学, 2018.

[8]

QIAO W D, ZHAO Y F, XU Y, et al. Deep learning-based pixel-level rock fragment recognition during tunnel excavation using instance segmentation model[J]. Tunnelling and Underground Space Technology, 2021, 115: 104072.

[9]

YIN B Q, HU Q H, ZHU Y Y, et al. Paw-Net: stacking ensemble deep learning for segmenting scanning electron microscopy images of fine-grained shale samples[J]. Computers and Geosciences, 2022, 168: 105218.

[10]

刘烨, 吕锦涛. 基于超像素与半监督的岩石图像分割与识别[J]. 工程科学与技术, 2023, 55(2): 171-183.

[11]

廖启俊. 基于递归网络的图文标注算法研究[D]. 广州: 华南理工大学, 2017.

[12]

SHI Y L, YANG W Z, DU H X, et al. Overview of image captions based on deep learning[J]. Acta Electonica Sinica, 2021, 49(10): 2048-2060.

[13]

PAN S J, YANG Q. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10), 1345-1359.

[14]

SHIN H C, ROTH H R, GAO M, et al. Deep convolutional neural networks for computer-aided detection: CNN architectures, dataset characteristics and transfer learning[J]. IEEE Transactions On Medical Imaging, 2016, 35(5): 1285-1298.

[15]

TAN C, SUN F, KONG T, et al. A survey on deep transfer learning: with an emphasis on domain adaptation techniques[C]// Artificial neural networks and machine learning-ICANN 2018: 27th international conference on Artificial Neural Networks. Rhodes: Springer International Publishing, 2018: 270-279.

[16]

TSCHANNEN V, DELESCLUSE M, RODRIGUEZ M, et al. Facies classification from well logs using an inception convolutional network[EB/OL]. (2017-06-02)[2024-01-15]. https://doi.org/10.48550/arXiv.1706.00613.

[17]

PIRES DE LIMA R, SURIAMIN F, MARFURT K J, et al. Convolutional neural networks as aid in core lithofacies classification[J]. Interpretation, 2019, 7(3): SF27-SF40.

[18]

KOESHIDAYATULLAH A, MORSILLI M, LEHRMANN D J, et al. Fully automated carbonate petrography using deep convolutional neural networks[J]. Marine and Petroleum Geology, 2020, 122: 104687.

[19]

DAWSON H L, DUBRULE O, JOHN C M. Impact of dataset size and convolutional neural network architecture on transfer learning for carbonate rock classification[J]. Computers and Geosciences, 2023, 171: 105284.

[20]

ACHANTA R, SHAJI A, SMITH K, et al. SLIC superpixels compared to state-of-the-art superpixel methods[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(11): 2274-2282.

[21]

SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL].(2014-09-04)[2024-01-16]. https://doi.org/10.48550/arXiv.1409.1556.

[22]

WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 3-19.

[23]

CHUNG J, GULCEHRE C, CHO K H, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling[EB/OL]. (2014-12-11)[2024-01-21]. https://doi.org/10.48550/arXiv.1412.3555.

基金资助

国家自然科学基金项目(52004214)

陕西省自然科学基金项目(2022JM-301)

西安石油大学研究生创新与实践能力培养计划项目(YCS22212030)

AI Summary AI Mindmap
PDF (13833KB)

315

访问

0

被引

详细

导航
相关文章

AI思维导图

/