0 引言
埃达克质岩是一类富集轻稀土元素(LREE)、强烈亏损重稀土元素(如
w(Yb)≤1.9×10
-6且
w(Y)≤18×10
-6)、富Sr(一般
w(Sr)≥400×10
-6)、高La/Yb(≥20)和Sr/Y(≥40)值、无明显Eu负异常的中酸性岩浆岩,其研究可为岩浆起源、熔体-地幔作用、板块构造启动、地壳生长和恢复构造演化过程提供关键证据,其构造背景识别是解决岩石成因问题并确定地球动力学和金属成矿意义的第一步
[1⇓⇓⇓⇓⇓⇓⇓-9]。尽管不同构造背景下形成的埃达克质岩具有特殊的地球化学特征,但由于埃达克质岩的源区、热源、产生机制、迁移和演化过程复杂,所以利用地球化学特征去破译地质历史时期的古构造环境充满挑战和争议
[10]。主微量元素判别图解((Yb+Ta)-Rb, (Y+Nb)-Rb,Rh/30-Hf-3Ta,Nb/Yb-Th/Yb,Hf/3-Th-Nb/16,Th-La/Yb,Mg
#-SiO
2和TiO
2-SiO
2等图解)被广泛应用于判别埃达克质岩构造背景
[11⇓⇓⇓⇓-16]。尽管上述图解基于地球化学演化过程提出,但是实际应用过程中仅依靠有限的数据和特征,并不能很好地约束岩石构造背景。这些图解常会给出模棱两可或互相矛盾的解释
[17],因此需要构建更高准确率的构造背景判别模型。
机器学习是多领域交叉学科,是人工智能的核心,是让计算机更加智能化的根本方法,是一个源于数据训练过程的模型,最终给出最优的性能度量决策
[18⇓⇓-21]。地球大数据和人工智能技术的发展推动了新研究范式的产生,新世纪的地学发展日益呈现密集数据驱动和学科交叉的趋势
[19,22⇓⇓⇓-26]。融合机器学习的岩石构造背景研究应用如下:分析地质历史时期的玄武岩,结合板块重建模型,完善全球古地理恢复工作
[10];分析中国东北新生代玄武岩,揭示其形成与太平洋板块的俯冲流体密切相关
[27];开展辉长岩构造背景智能判别
[28]等。尽管机器学习揭示岩石构造背景具有良好的应用前景,但已有的研究较少且集中在玄武岩等基性岩构造背景与源区性质研究领域
[10,27⇓⇓⇓⇓⇓⇓⇓-35]。Web of Science和中国知网等数据库查阅发现,目前尚未开展融合机器学习揭示埃达克质岩构造背景的研究。
机器学习可以分为无监督学习和有监督学习。在无监督学习中,数据并没有被特别标识,学习模型是为了对数据内部的一些结构进行推断
[21]。主成分分析(Principal Component Analysis, PCA)和t分布-随机近邻嵌入(t-Distributed Stochastic Neighbor Embedding, t-SNE)是两种常用的无监督学习方法。PCA通常以原始变量的某种线性组合来表示,是一种通过降维技术将多个原始变量重新组合成几个互不相关的主成分的统计分析方法,主成分可以反映原始变量的绝大部分信息
[36-37]。t-SNE是一种非线性无监督降维技术,通过对两个分布之间的距离散度进行优化,得到低维空间的样本分布,有效解决数据拥挤的问题
[38]。随机森林(Random Forest,RF)、支持向量机(Support Vector Machine,SVM)、人工神经网络(Artificial Neural Network,ANN)和K近邻(K-Nearest Neighbors, KNN)是当前机器学习领域普遍使用的4种经典有监督学习算法
[39⇓⇓-42]。在有监督学习中,每组训练数据都有一个标识值或者结果值。有监督学习在建立预测模型时,将预测结果与训练数据的实际结果进行比较,不断对预测模型进行调整,直到模型的预测结果达到预期的准确度为止
[21]。
GEOROC(Geochemistry of Rocks of the Oceans and Continents)是地球化学样品数据库,其收集了全球各地的地球化学样品数据,包括岩石、沉积物、矿物、地热水和大气气体等。这些数据通常包括特征元素含量、同位素比值、地球化学分类和地质年代的信息。GEOROC数据库的目的是为研究人员提供一个广泛的地球化学数据集,以更好地了解地球化学过程、地壳演化和全球环境变化,可用于地球化学和地质学领域的研究
[28,43⇓⇓-46]。前人研究积累了大量高精度的埃达克质岩主、微量元素数据,为从高维度分析埃达克质岩构造背景提供了大数据基础和可行性。本文利用GEOROC收集全球不同地区1 075条埃达克质岩主、微量元素数据(
表1),使用无监督机器学习方法对数据进行高维降维分析筛选,并用4种经典有监督机器学习方法进行模型训练,构建埃达克质岩构造背景机器学习判别模型,最后结合端员穷举法绘制可视化判别图解。
1 工作平台与数据来源
机器学习模型的训练和图表的制作主要在Python环境中完成,借助pandas和numpy库进行数据分析和操作,geopandas库进行地理空间数据分析,matplotlib库进行图表绘制,sklearn库进行机器学习,itertools库进行端员穷举,mlxtend库进行决策边界绘制。收集并整理了GEOROC (
https://georoc.eu/georoc/new-start.asp)中1 075条埃达克质岩的主、微量数据(
表1),构建埃达克质岩不同构造背景主、微量数据集。
图1展示了不同类型的埃达克质岩数据在全球各地的分布情况,包括汇聚板块边缘、板内火山活动和太古宙克拉通(包括绿岩带)3种构造背景类型。
2 方法与流程
工作流程如下:(1)全球埃达克质岩数据集建立;(2)异常数据清洗、对数变换和零-均值规范化预处理;(3)PCA和t-SNE等方法高维数据降维;(4)随机森林、支持向量机、人工神经网络和K近邻等机器学习算法训练、调参及评估,获得准确率最高的机器学习判别模型;(5)穷举并筛选特征元素端员;(6)机器学习算法训练并绘制决策边界;(7)综合模型评估及视觉审查结果得出可视化判别图解。
2.1 机器学习构造背景判别模型构建
2.1.1 数据预处理
收集的全球埃达克质岩数据来源广泛,每组数据情况存在差异,因此拟采取删除记录和数据插补等方式对空值、负值和异常值的数据进行清洗处理。然后,进行对数变换和零-均值规范化等预处理,获得利于机器学习训练分布相对集中的数据
[21,47-48]。该数据集包含SiO
2、MgO、Al
2O
3、Na
2O、K
2O、TiO
2、CaO、MnO、P
2O
5和Fe
2O
3等10种主量元素,Sr、Rb、Zr、Y、Ba、Co、La、Nb、Nd、Th、Yb、Ce、Eu、Sm、Ni、U、Dy、Hf、Er、Lu、Gd、Pr和Ho等23种微量元素。由于Fe
2O
3和Co数据的空缺率大于50%(
表2),为避免过度填充空缺值而导致结果不确定性增大,故将其数据删除,保留其他31种特征元素,数据分布情况通过箱形图展示(
图2)。
2.1.2 高维数据的降维
本研究中埃达克质岩数据集主要包括主量元素(SiO
2、Al
2O
3和K
2O等)和微量元素(Sr、Zr和Ba等)。这些海量高精度的高维数据为机器学习提供了基础,然而,信息不足或有噪声的维度会破坏数据聚类,影响机器学习训练结果
[21]。本文将利用统计分析和机器学习技术,结合地球化学数据特点,采用PCA和t-SNE方法分析埃达克质岩构造背景特征元素数据。
PCA是一种线性降维方法,PCA的载荷图是分析PCA结果的重要工具
[49]。载荷图中的向量可以用3种方式解释: 长度反映变量对主成分的贡献大小;方向展示变量在主成分空间中的分布模式;向量之间的角度则揭示变量之间的相关性
[50-51]。PCA成分矩阵则是PCA的核心输出结果之一,是一个包含所有主成分的权重矩阵,可以用于重构原始数据
[52]。主成分分析结果为变量的线性组合,可以影响后续的元素选择决策。t-SNE是一种非线性无监督的降维算法,通过保留数据之间的相对距离,从而降低数据的维度,将高维数据映射到二维或三维空间中,以便于可视化
[53-54]。由于t-SNE本身是不同维度空间下条件概率的映射,其结果没有任何明确的表达式,但在可视化的应用中,t-SNE比PCA效果要好,因此拟使用PCA与t-SNE相结合的方式对数据深层次关系进行分析
[55]。
2.1.3 机器学习模型
针对筛选出的关键特征元素数据进行机器学习训练并对比,训练出埃达克质岩的构造背景判别模型。在机器学习中,不同的算法对输出结果的影响非常大,因此在训练分类器时需要选择和调整不同的参数来优化性能
[56-57]。本文主要使用随机森林、支持向量机、人工神经网络和K近邻4种经典机器学习算法。随机森林是一种基于决策树的集成学习方法,通过对多棵决策树的投票来进行分类或回归预测,比传统决策树具有更强的泛化能力和更好的分类效果
[39,58]。支持向量机是一种通过找到最大化间隔的超平面来进行分类或回归预测的模型
[59]。除了典型线性分类预测,还可以使用不同的核函数来实现非线性分类,例如多项式核、高斯核等
[40]。人工神经网络是一种模拟人脑神经元之间的连接关系来进行学习和预测的模型。它由多个神经元层组成,每层神经元将输入的数据进行加权和激活函数的处理,输出给下一层神经元。通过对神经元之间的权重和偏置进行不断调整来实现模型的优化,使其能够对数据进行更精确的分类或回归预测
[41]。K近邻是以实例为基础的学习方法,通过计算未知样本与训练数据集中距离最近的
K个样本的类别来预测此样本的类别。
K值的选择和距离度量方法会影响模型的性能,需要根据具体问题进行调整
[42]。总的来说,它们在不同的数据集和任务中具有不同的优势和适用性,在实际应用中,需要针对特定问题和数据特点选择恰当的模型。
2.1.4 网格搜索优化超参数及模型评估
在训练机器学习分类器时,通常对分类器的一个或多个参数进行调整,以优化输入特征和目标类的性能
[60]。网格搜索是一种常用的机器学习超参数优化方法,通过穷举所有可能的超参数组合进行训练和评估,从而找到最优的超参数组合。在网格搜索中,需要预先设定每个超参数的取值范围,并针对特定问题和数据特点选择恰当的超参数。此外,为了避免过拟合,提高模型性能,本文结合K折交叉验证等模型评估指标进行模型选择和调优
[61]。K折交叉验证是一种常用的机器学习模型评估方法,它将数据集分成
K个子集,并将其中一个子集作为验证集,其余
K-1个子集作为训练集,然后重复这个过程
K次,每次将不同的子集作为验证集,最终将
K次评估结果的平均值作为模型的评估结果
[62]。
预测评估对于评估分类结果的有效性至关重要,通常采用分类器未利用过的测试数据集进行评估。而机器学习的评价指标有很多,混淆矩阵是一种常用的机器学习模型评估方法,能表明模型的分类结果与真实结果之间的差异
[10,63⇓⇓-66]。混淆矩阵将预测结果分为4类:真正类(True Positive, TP)、真负类(True Negative, TN)、假正类(False Positive, FP)和假负类(False Negative, FN)。其中TP表示模型正确预测为正例的样本数,TN表示模型正确预测为负例的样本数,FP表示模型错误地将负例预测为正例的样本数,FN表示模型错误地将正例预测为负例的样本数(
图3)。学习曲线是机器学习中用于评估模型性能和确定是否需要更多数据的一种工具
[62],是一个将训练集大小与模型性能之间关系表示出来的图像。通常情况下,学习曲线包括两条,分别表示训练集和验证集的性能随着数据量增加而变化的趋势。当模型过于简单或数据量不足时,学习曲线会呈现欠拟合的趋势,也就是训练集和验证集的误差都较高且相似。而当模型复杂度过高或数据量过多时,学习曲线会呈现过拟合的趋势,也就是训练集误差非常低,但验证集误差非常高。通过学习曲线,我们可以根据训练集和验证集的性能趋势,判断模型是否欠拟合或过拟合,并且可以根据需要增加或减少训练集样本数量
[67-68]。
2.2 可视化判别图解构建
由于数据的多维性和算法的复杂性,大部分机器学习方法都被称为黑箱模型,不知道模型在做出预测时具体采取了哪些操作,这使得我们难以解释模型的工作原理,只能知道模型的结果,而不知道其内部运行机制
[69]。因此,为了使分类模型更加可视化,综合上述数据进行深层次关系分析,对上述PCA筛选后的特征元素进行端员穷举,以轮廓系数为标准进行降序,结合主成分分析,进一步精简特征元素,绘制二元图解
[70]。
将上述PCA筛选后的所有特征元素与计算后的元素含量比值联合,进行对数转换,得到图解的端员。利用正态化的数据,通过穷举投图得到二维图解。穷举端员图解通过列举所有可能的情况,从而得出结论。在穷举端员图解中,将所有可能的情况用图形化的方式表示出来,并对每种情况进行分类和统计,最终得出结论
[71-72]。为量化且准确地筛选有效的埃达克质岩构造背景二元分类图解,引入轮廓系数。轮廓系数是无监督学习中常用来衡量聚类算法效果的指标
[70],取值范围在-1到1之间,越接近1表示聚类效果越好,即表示各类型构造背景的区分度越好。
使用最佳图解端员的特征元素数据训练机器学习分类器,并利用所得分类模型对二维平面中所有的数据进行预测计算,从而推断出决策边界,即将数据分为不同类别的“分界线”。当所呈现的决策边界为埃达克质岩不同构造背景边界时,便可得到埃达克质岩构造背景的判别图解。
3 结果
3.1 机器学习模型构建
针对SiO
2、MgO、Sr和Rb等31个特征元素的机器学习模型,通过网格搜索5折交叉验证,寻找机器学习方法对3种埃达克质岩构造背景类型分类最优的超参数。使用测试集对网格搜索后所拟合的模型进行评测,其结果为:支持向量机准确率为0.985,K近邻准确率为0.983,人工神经网络准确率为0.951,随机森林准确率为0.924。根据混淆矩阵和准确率的综合评判,最优的分类器模型为“参数
C=10,
γ=0.1”的高斯核支持向量机模型,准确率为0.985,97%的汇聚板块边缘、100%的板内火山活动和100%的太古宙克拉通得到正确分类。混淆矩阵显示了机器学习模型在测试集上的预测结果(
图4a)。学习曲线显示训练集的准确率很高,验证集的准确率随着数据量增加而增加,增加数据量对准确率提升有帮助(
图4b)。
3.2 可视化决策边界绘制
使用穷举端员法,计算SiO2、MgO、Sr和Rb等31种元素中任意两元素含量的比值,得到SiO2/MgO、SiO2/Sr、SiO2/Rb、MgO/Sr、MgO/Rb和Sr/Rb等465个比值组合。将初始的31种元素与计算后的465种元素比值联合,进行对数转换,得到496个构建图解的端员。利用正态化的数据,穷举投图得到122 760幅二维图解,计算二维图解的轮廓系数并降序。为使二维图解显示更多元素信息,取出横纵坐标无重复元素的端员组合,得到埃达克质岩判别效果最好的前9个二维图解,其中Ba-Sr/Nd图解的轮廓系数最大,为0.505;结合PCA分析结果,拟使用Ba和Sr/Nd组合作为判别图解的成图端员。
利用机器学习算法对Ba和Sr/Nd特征端员的训练集进行训练,然后使用测试集对所拟合的模型进行评测,得出4种机器学习分类算法在不同埃达克质岩构造背景判别的决策边界(
图5),其结果为:随机森林准确率为0.823,K近邻准确率为0.792,线性内核支持向量机准确率为0.775,人工神经网络准确率为0.765。
4 讨论
4.1 数据处理分析
数据预处理在数据挖掘过程中占有重要地位,在收集到的各种数据中,数据缺失是非常常见的现象。对于数据空缺值,采用KNN算法填充,KNN算法使用缺失点附近的数据点对缺失值进行估计并填充,得出人工神经网络模型准确率最高,为91.0%。为进一步提高准确率,删除数据空缺值,对无空缺值特征元素数据进行机器学习训练,得到的高斯核支持向量机模型准确率为98.5%,较KNN填充处理的准确率提升了7.5%,说明采集到的数据较填充的数据更具有真实性,因此本研究使用31个特征元素无空缺值的数据进行下一步分析。
对埃达克质岩主、微量元素数据进行PCA和t-SNE分析,PCA载荷图(
图6a)结果显示,主成分1(PC1)和主成分2(PC2)分别占数据集47.1%和17%的方差,能解释数据集64.1%的信息,因此采用PC1和PC2的载荷图来进一步分析元素数据。从载荷图中可看出,第三象限中无元素分布,即这31种元素在PC1或者PC2上都具有一定的贡献率。同时,尝试删除Na
2O、Al
2O
3、Ni、Ba、Lu、Zr、MnO、Nb、K
2O、U和Hf等多种元素组合,但是删除元素后的机器学习判别模型准确率都较现在的98.5%有所降低,因此,本研究保留31个特征元素进行机器学习模型训练。t-SNE图(
图6b)显示,埃达克质岩3种构造背景类型的数据分布交集极少且存在聚类现象,表明可以尝试通过机器学习方法对其进行分类,进一步表明此方法的可行性及有效性。
4.2 机器学习模型算法比较
4种机器学习算法的准确率均在0.90以上。混淆矩阵显示了机器学习模型在测试集上的预测结果(
图4a)。水平标签和垂直标签分别代表预测类和实际类,对角线元素表示预测分类与实际分类一致的样本比例,而非对角线元素则表示分类器错误标记的样本比例。
核函数的选择对支持向量机起着至关重要的作用,高斯内核的支持向量机更适合解决中等特征数量和中等样本数量的问题,本研究选取31个特征元素,高斯核SVM算法模型表现出良好的性能。从混淆矩阵图来看(
图4a),板内火山活动和太古宙克拉通都能100%准确预测,仅0.03%的汇聚板块边缘出现预测偏差,因此建议在此问题上使用高斯内核的支持向量机。线性内核支持向量机具有较强的抗过拟合能力,适用于样本集合线性可分的情况,但对埃达克质岩3种构造背景类型判别表现一般(
图7a)。K近邻算法简单易懂,易于实现,对于非线性数据有较好的表现,而且适用于小数据集,需要保存所有的训练数据,虽然计算复杂度高,但是在此问题中表现良好,100%太古宙克拉通判别准确,98%的汇聚板块边缘和板内火山活动判别准确(
图7b)。人工神经网络能够处理非线性数据,对于复杂问题有很好的表现,并且可以自适应调整权重,但是需要大量的训练数据和时间,对于过拟合和欠拟合问题比较敏感,在此问题上对3种类型判别,准确率均在95%左右,偏差较小,表现良好(
图7c)。随机森林是一种集成学习算法,由多个决策树组成,能够处理大量特征和样本数据,但对于此问题的大规模高维数据集,只有71%的太古宙克拉通判别准确,24%判别为板内火山活动,5%判别为汇聚板块边缘,判别误差较大,不宜用于埃达克质岩构造背景类型的判别(
图7d)。综合考虑,在测试集上表现稳定且具有较高准确率的模型包括高斯核支持向量机、K近邻和人工神经网络,此处选择准确率最高的高斯核支持向量机。
4.3 穷举并筛选判别图解端员
在绘制图解时,为了保证数据点的分布范围相对均匀并更好显示判断区分效果,对数据集进行对数变换,以二维图解的轮廓系数降序排列,得到横纵坐标无重复元素的排列前九的图解,分别为:Ba-Sr/Nd图解,轮廓系数为0.505;Ce-SiO2/La图解,轮廓系数为0.503;Al2O3/Ba-Sr/Nd图解,轮廓系数为0.499;Sr/Hf-Rb/Ni图解,轮廓系数为0.498;Ba-Sr/Pr图解,轮廓系数为0.497;Al2O3/Ba-Sr/Pr图解,轮廓系数为0.497;TiO2/CaO-Sr/Zr图解,轮廓系数为0.496;Ce-Pr图解,轮廓系数为0.493;Ba-Sr/La图解,轮廓系数为0.493。其中埃达克质岩构造背景判别效果最好的为Ba-Sr/Nd图解,轮廓系数为0.505。需要注意的是,在二维空间中,区分3种类型的埃达克质岩时,产生数据点叠盖是难以避免的。与单一元素相比,不同元素及比值能携带更多的信息,因此在判别图解上普遍表现更好。
为确定组合特征的重要性,对9个图解中的Sr/Nd、Ba、Ce、SiO
2/La、Al
2O
3/Ba、Sr/Hf、Rb/Ni、Sr/Pr、Sr/Zr、Sr/La、TiO
2/CaO和Pr等12个端员组合进行主成分分析。在这9个二维图解中,Ba元素出现5次,Sr元素出现6次,证明Ba、Sr对埃达克构造背景判别效果较好。同时,从PCA载荷图(
图8)和PCA成分矩阵(
表3)可看出Sr/Nd和Ba是PC1和PC2非常重要的两个特征组合,结合二维图解轮廓系数值,拟使用Ba和Sr/Nd组合作为判别图解的成图端员。
4.4 建议的埃达克质岩构造背景判别图解
在Ba和Sr/Nd特征组合可视化图解端员的机器学习模型中,随机森林算法的准确率最高,为0.823。但是由综合决策边界图(
图5)的视觉审查可看出,K近邻和随机森林可视化决策边界图的边界线不规整且较嘈杂,线性支持向量机和人工神经网络的边界线较清晰明了。因此,不宜使用上述决策边界图直接作为判别图解。为了使得判别图解判别更有效,将4种机器学习算法的准确率作为权重,按照随机森林、K近邻、线性内核支持向量机和人工神经网络的决策边界线顺序,优先选择规整清晰的线条进行边界拟合,可得到最终的判别图解(
图9)。随着未来更多埃达克质岩主、微量元素数据被挖掘,此判别图解还有待进一步优化。
5 结论
(1)本研究经过超参数调整优化,对比多种机器学习算法,得出准确率为98.5%的基于高斯核支持向量机的埃达克质岩构造背景判别模型,可用来区分汇聚板块边缘、板内火山活动和太古宙克拉通(包括绿岩带)3种埃达克质岩构造背景类型。
(2)本研究运用机器学习方法,以高维度特征为研究对象,得出Ba-Sr/Nd作为端员的二维可视化图解,此图解具有约82.3%的准确率,能有效区分构造背景类型,为可视化研究埃达克质岩主、微量元素提供借鉴,将是未来的研究方向。
6 展望
该机器学习模型对埃达克质岩构造背景判别的准确性非常高,是利用大数据与机器学习方法在地质学领域进行交叉研究的探索。随着埃达克质岩地球化学数据的不断挖掘和更优算法的出现,埃达克质岩构造背景模型会进一步得到优化。后续仍需完善埃达克质岩多种构造背景类型的数据集,以达到更准确更全面的分类效果,提高判别图解的准确度及适用性。如果数据足够,本工作流程也将适用于其他地球化学判别图解的研究与建立。
感谢编委和审稿人为本文提供的宝贵意见。