0 引言
地球上蕴藏着丰富的矿产资源,它们是在复杂的物理、化学和生物作用下形成,是推动当今社会发展至关重要的关键资源
[1]。然而,掠夺式开采并利用陆地矿产资源,导致大规模高品位矿床的勘探难度急剧增大,促使人们不得不开发低品位矿点以及在偏远地区或更深的矿床
[2]。同时,随着人口稳定的增长和科技的发展,全球矿产资源的需求量正成倍增加。因此,海洋矿产资源开始逐渐被世界各国重视,并被视为战略矿产的潜在来源
[3]。近几十年,石油勘探加速向深海深水进军,一些大型边际油田的发现不仅满足了国民经济的飞速发展需求,也带动了海底能源勘探的快速发展、成矿与成藏理论研究水平的不断发展、勘探与开发技术的不断进步。在这期间,许多国家对海洋展开了大规模的矿产资源勘探调查,发现海底蕴藏着丰富的关键矿产资源、能源
[4],包括海洋石油与天然气
[5]、多金属结核
[6]、富钴结壳
[7]、多金属硫化物
[8]、天然气水合物
[9]等,其储量远大于陆地矿产资源。同时,海量的海底勘探数据被获取,但数据的解释与分析有待提高,亟须进行深入研究并为指导矿产勘查提供帮助。
面对海量的海底勘探数据,海洋地质学家面临的巨大挑战是:如何从这些数据中提取有用的信息并获取新的见解
[10]。随着信息时代计算机技术的快速发展,机器学习领域必将会在海底智能勘探中发挥关键作用。机器学习最早被应用于计算机视觉和自然语言处理等传统领域,但机器学习也迅速地被广泛应用于地球科学领域以获取更广泛的认识
[11⇓⇓-14]。十多年的跨越式发展,大数据和人工智能算法正在改变地球科学研究的范式,向着智能化的地质学发展
[14-15]。与传统的解释和分析技术相比,机器学习作为人工智能的核心可自动地学习并识别数据中的复杂模式和关系且具有稳健性和高效性
[10]。因此,机器学习在地球科学领域具有很好的应用前景。当前,机器学习主要的两个类别为有监督学习和无监督学习。有监督学习算法使用带有标签的训练数据学习输入数据(特征向量)与输出数据(标签)的映射关系或模型关系。无监督学习算法在不依赖标签的情况下学习数据的统计规律或内在结构。两种算法及其衍生算法都具有各自的优缺点。因此,在算法选择时需要考虑多个因素,如标签数据的可用性、特征向量的维度、数据量、模型合理性和解释性等
[10]。在地球科学领域的应用中,值得关注的是模型合理性和解释性。特别是当模型对自然规律产生新见解时,可解释性是必不可少的,且需要符合自然现象
[16]。
本文系统综述并展望了未来海底矿产资源智能勘探中机器学习的潜在发展空间,首先概述了各种机器学习方法,然后讨论如何在各种海底矿产资源领域应用机器学习,最后总结了当前的发展状况,提出了存在的问题以及下一步研究方向。
1 常见机器学习方法
机器学习旨在从经验中学习并识别数据中的复杂模型和关系。近些年,机器学习技术发展迅速(
图1),其性能有重大的突破,包括深度神经网络的出现、易于操作的机器学习工具箱的应用等,吸引了众多地质学家。在地球科学领域中,研究人员利用机器学习完成各种任务,如自动识别、建模、反问题研究等
[10]。在机器学习中,这些任务被归纳为回归和分类两大问题。本章概述经典的机器学习模型,其他高级的方法都是从经典模型发展而来。
1.1 有监督学习
1.1.1 逻辑回归
逻辑回归(LR)是一种简单的线性分类器,常用于预测二分类问题
[17]。它主要是根据一个或多个自变量的线性组合预测某件事的发生概率,其优点在于模型的可解释性强、自变量既可以是连续值也可以是离散值。在LR模型中,使用逻辑函数计算在特征值
X的作用下Y事件发生的条件概率。为了给每个特征选择最优的权重系数以最小化训练中的错误分类,数值优化算法被采用(例如牛顿法、拟牛顿法和随机梯度法等)。然后,使用“最佳拟合”的逻辑函数预测未知特征值属于Y事件的概率。如果概率高于“阈值”(通常为0.5),则将其归类为正(
图2a)。
1.1.2 支持向量机
支持向量机(SVM)是一种基于统计学习理论和结构风险最小化原理的有监督分类器
[18],常用于确定类之间的最佳边界。SVM的主要优点是:(1)适用于高维空间;(2)可以对复杂的现实问题建模;(3)在多属性的数据集中方面表现良好。这也使得支持向量机在解决高维海洋勘探数据的分类问题中可能有显著效果。
SVM的基本思想是使用核函数实现数据从低维到更高维特征空间的隐式映射,并在该空间中创建一个称为超平面的高维决策面来最好地分离数据
[19](
图2b)。它被划分为线性模型和非线性模型,两者的主要区别在于所使用的核函数。线性模型是使用线性核函数将数据映射到特征空间,并采用直线或超平面分离数据,而非线性模型使用径向基函数或多项式函数将数据转化为高维特征空间来解决问题。关于SVM更详细的数学原理可以参考文献[
20-
21]。
1.1.3 随机森林
随机森林(RF)是一种强大的集成学习算法
[22]。集成学习的思想是将几个弱分类器组合成一个强分类器。RF算法是一种基于决策树模型的平均算法(
图2c)。构建RF主要包括三个步骤:抽取样本、建立决策树和投票表决。首先,采用Bagging算法从原始数据集中有放回地随机抽取
N个训练子集,且每个子集的数据容量都与原始数据集相同,从而为每棵树生成训练数据
[23]。其次,对每个训练子集分别建立一颗决策树,每棵决策树任其生长,无需剪枝处理;在每棵树生长过程中,随机从
M个特征中等概率抽取一个特征子集(通常取log
2M+1);再从子集中选择最优特征对节点进行分裂。最后,根据构建的
N棵决策树对待测数据进行分类,将每棵数的分类结果进行汇总,票数最多的类别将作为随机森林的最终输出结果。更详细的介绍可以参考文献[
22]。
1.1.4 深度神经网络
深度神经网络(DNN)或深度学习(DL)是经典人工神经网络的扩展应用
[24]。DL不是一种算法,而是代表一类具有不同网络架构的广泛方法(例如卷积神经网络(CNN)、循环神经网络(RNN))。多层感知器(MLP)是一种典型的DL架构。DL架构包含多个处理层和非线性转换,低层的输出会作为更高层的输入传递给下一层(
图2d)。DL能够从大量的数据中挖掘有效的特征信息,同时也能学习特征与目标之间的映射关系,在学习过程中无需人工精心挑选特征就能获取良好的模型性能。
CNN是一种流行且有效的深度神经网络模型,受视觉系统的结构启发而产生
[25]。它主要采用卷积层提取特征并用全连接层进行分类和回归。然而,DL模型面临两难的困境。更深的DL架构有助于获得更好的性能,但对高算力具有依赖性。轻量化的DL模型的开发可有效解决算力依赖性。同时,复杂的DL架构会使模型难以解释,让人无法理解模型是如何学习输入与输出的映射关系的。
1.2 无监督学习
1.2.1 聚类
聚类是一种常用的数据统计分析技术,可以发现数据集中内在结构。聚类是根据某个特定的距离度量标准把数据集划分成不同的类或簇,使得同一簇中的数据尽可能相似而不同簇中的数据相异(
图3b)。许多不同的聚类算法被开发,包括K均值聚类、层次聚类和自组织映射等。K均值算法是一种基于划分方法的聚类算法
[26],由于简单、高效且适用于处理大规模数据,被广泛应用于各种领域。聚类的一个后续用途是通过添加聚类标签作为新特征来提高监督机器学习的准确性
[27],这对于海量无标签的海洋勘探数据非常有利。
1.2.2 自编码器
自编码器(AE)属于深度学习中的无监督学习方法,能够自动地从无标签数据中学习得到有效特征。传统上,AE主要应用于降维或特征提取
[28-29],随着深度学习模型的流行,AE算法被引入到建模领域,这对于勘查矿产资源也非常重要。发展至今,研究人员提出了许多扩展的AE模型,大致可分为收缩自编码器、正则编码器和积分编码器三类
[30]。
AE由编码器和解码器两个部分组成(
图3c),它们通常由神经网络实现。编码器和解码器可以被视为两个函数
z=
f 和
r=
g 。函数
f(
x)是将数据映射到特征空间;而函数
g 是通过将
z从特征空间重建数据空间。在扩展的AE模型中,
z=
f 和
r=
g 这两个函数通常采用随机函数
pencoder 和
pdecoder ,这里的
r是重建的数据
x。在应用AE模型时,不希望遇到AE模型简单地学习复制输入数据
x,即AE可能在某些方面受到限制,允许它们近似地学习输入的副本。
2 应用
2.1 海洋能源矿产
2.1.1 海洋油气
陆地和浅海油气资源因长期被开发利用而迅速减少,勘探对象逐渐转向海洋油气。海洋油气资源丰富,占据全球的三分之一。海洋油气的勘探投入巨大,准确快速评估其储层特征极大程度地影响着开发的正确决策(
图4[31⇓⇓-34])。
储层特征和岩石类型是储层动态预测的关键要素。Mondal和Singh
[33]利用岩心数据、测井数据和机器学习技术(人工神经网络或自组织映射)对印度近海的碳酸盐岩储层的岩石结构分类、孔隙结构表征、流动单元分类和储层渗透率建模。针对南黄海盆地的油气勘探区,Pang等
[35]通过受热解、流体包裹体分析和CSDP-2钻孔测井数据约束的SVM算法识别出多套烃源岩和储层。同时,层次聚类分析表明多个油藏的油源是混合的,证明了该区域具有巨大的油气资源潜力。此外,沉积相分布是近海油气勘探的重要依据。Han等
[36]将AE算法引入到传统的具有地震和测井信息的多点地质统计模拟中,以提高多点地质统计学模拟的适用性,解决沉积相分类问题。
在处理和解释海洋油气勘探数据时,人工处理与解释被高度依赖。为了避免传统手动分析所需的大量时间和精力,Lim等
[31]使用CNN自动进行海洋三维地震数据的振幅随偏移距的变化分析,以确定韩国东海岸附近的气藏。Brown等
[37]将训练有素的机器学习模型用于整个岩石物理解释工作流程(例如预测孔隙度、流体饱和度、矿物成分和岩性等方面),优化了处理与解释流程并补充石油物理学家探测碳氢化合物的活动情况,这不仅极大地缩短了处理与解释的时间,还提高了预测的准确性。
2.1.2 天然气水合物
天然气水合物是一种潜在的新型清洁能源,未来有可能代替传统化石燃料。但是,与传统化石燃料相比,天然气水合物的研究还处于探索阶段。当前的研究主要集中于如何更加精准地评估水合物储层。
准确的储层参数评估对于天然气水合物勘探至关重要。众多研究者利用机器学习建立测井曲线与水合物储层参数之间的非线性关系
[38⇓-40]。考虑到测井曲线具有序列特征,Li和Liu
[41]采用RNN中长短期记忆(LSTM)网络从南海神狐区域两个站点的数据集学习了电阻率和声波速度测井曲线与水合物饱和度的非线性关系。Zhu等
[32]利用深度波尔茨曼机扩充原始数据以获取大量未标记数据,再采用6条测井曲线(中子孔隙度、密度、自然伽马、去铀伽马、钍和钾)训练半监督深度学习模型预测含水合物沉积物的孔隙度。Mukherjee和Sain
[38]开发了一种人工神经网络应用于Krishna-Godavari盆地的电缆测井数据,并预测了水合物的孔隙度和饱和度。该网络可以用于评估同一储层中任何其他井的储层参数,而无需进行严格的计算以及校正阿尔奇常数。
此外,机器学习重建曲线对于测井资料缺失的情况十分有利。You等
[34]采用LSTM网络学习有限的横波波速测量值以预测Alaminos Canyon区块21井的完整横波波速曲线,并联合使用预测的横波波速和测量的纵波波速估计了水合物分布、形态和饱和度。Lee等
[42]应用K均值聚类算法从阻抗(声波阻抗和剪切阻抗)和两个附加属性(均方根振幅和瞬时频率)高于围岩的区域描绘出更准确的水合物储层分布,其中阻抗由地震数据和均方根速度反演获得。
2.2 海洋金属矿产
海洋金属矿产主要有多金属结核、富钴结壳和多金属硫化物,其矿产资源潜力巨大。近年来,金属矿产资源的定量评估和勘探区未来采矿前景的划定吸引了许多研究人员的兴趣。机器学习在定量评估和远景区圈定方面展示出良好的应用前景(
图5[43⇓⇓⇓-47])。
2.2.1 多金属结核
对结核进行空间建模对于更科学地了解其形成和分布以及对其开发进行可行性分析研究至关重要。Hari等
[45]提出利用人工神经网络学习开放区域中的有限数据对Clarion-Clipperton区域的结核参数进行空间建模,成功地模拟了结核密度、镍钴含量百分比以及结核存在的概率。当存在空间自相关且海底形态变化时,使用机器学习对多金属结核空间建模需要进行空间交叉验证
[47]。Schoening等
[48]应用人工神经网络方法将水下视频或图像数据映射到多金属结核覆盖率。Dutkiewicz等
[43]收集了与多金属结核生成相关的关键环境参数(沉积速率、氧含量、岩性、夏季地表生产力、底栖生物量浓度和总有机碳含量),利用这些参数训练出预测结核赋存概率的机器学习模型并绘制了全球结核概率分布图。邓君兰等
[49]使用了一种用于目标检测的神经网络快速准确地挖掘了结核分布信息以提高深海多金属结核资源的评估精度。
准确量化海底结核丰度有助于评估海底资源。Prabhakaran等
[50]通过有监督的机器学习检测不同照明条件下水下多金属结核及其有效丰度估计。Gazis等
[51]将自主水下航行器在比利时锰结核采矿许可区内获得的水声数据与光学图像数据进行组合,用以训练RF机器学习模型来预测锰结核丰度并揭示锰结核分布与地形特征之间的非线性关系。
2.2.2 富钴结壳
Hu等
[52]通过Fisher判别分析算法降低特征维度设计了概率神经网络、支持向量数据描述和K近邻分类器三个基础分类器,并将三个分类器融合应用于超声波识别深海采矿区中的富钴结壳。Hong等
[53]利用声波探头采集的回波数据进行深度学习以识别富钴结壳,发现基于一维CNN端到端的二分类方法对仅以声学方式识别富钴结壳具有良好的优势。Neettiyath等
[54-55]使用支持向量机识别出三维重建地图的三种海底类型——结壳、沉积物和结核,更好地使用自主水下航行器估算大面积富钴锰结壳的分布。
2.2.3 多金属硫化物
Liu等
[56]将模糊逻辑与RF结合提出了一种模糊随机森林方法,使用地形、地质、热液羽状流等数据训练该模型,绘制了西南印度洋海底块状硫化物的远景区,进一步缩小了勘探范围。Zhang等
[57]提出一种加权最小二乘SVM回归模型,很好地解决了Solwara1海底热液硫化物矿床的矿石品位估计问题。由于矿床的样本数据不完整,KNN算法被应用于缺失值的填补。Zhang等
[58]从Solwara1的样品中选取四种岩性类型的166个样本用于训练贝叶斯分类算法,训练完成的模型自动识别出未知岩性的样本类型。
3 结论与展望
随着计算机的高速发展,机器学习已逐步被应用于不同领域,海底矿产智能勘探也不例外。从现阶段机器学习在海底矿产智能勘探中的各种应用可以看出,机器学习推动了该领域的发展,改变了传统的海底矿产智能勘探数据处理与分析方式,提高了数据解释的效率与准确度,并为该领域的科学问题提供了解决方案。
机器学习对评估海底矿产资源和预测矿床远景区具有重要意义。在未来,以海底成矿系统理念为指导,侧重海底能源和金属矿产资源的形成、保存和演化研究,突破传统海洋地质、海洋地球化学、海洋地球物理勘探技术约束,催生新的数字金属-能源资源勘探理论与技术体系,服务海底金属-能源资源勘探开采行业快速发展,催生一场新的金属-能源资源革命,结合数字勘探、精准勘探、智能勘探手段,建立金属-能源资源勘探的新范式,服务国民经济主战场的国家资源安全。同时,广泛使用机器学习处理海底探测数据产生的亟待解决的问题。
(1)海底矿产智能勘探数据的大量收集会造成维度灾难、利用率低、应用范围小。在选择机器学习算法时,数据的特征和数量起到关键作用。为了获取合理的数据,特征工程是必不可少的步骤,通常包括数据预处理、降维、特征选择、特征提取、特征组合等。
(2)机器学习发展至今诞生出大量的算法,尤其当前热门的深度学习。面对众多的机器学习算法,如何选择合适的算法成为难题之一。考虑到海底矿产智能勘探中获取了有限的标签样本和足够丰富的无标签样本,半监督学习的使用既可以避免标签样本不足又可以减少手动标记错误率。
(3)虽然机器学习可以自动学习并准确预测结果,但是众多研究中没有解释模型如何学习数据之间的逻辑关系。增强机器学习模型的可解释性有助于加速海底矿产资源的形成、保存和演化过程的研究,并可提供可靠的预测结果以及指导人为决策。