鄂尔多斯盆地延长组多油源贡献比例与分布规律:基于机器学习与可解释性研究

苏恺明 ,  徐耀辉 ,  徐旺林 ,  张月巧 ,  白斌 ,  李阳 ,  严刚

地学前缘 ›› 2024, Vol. 31 ›› Issue (3) : 530 -540.

PDF (6942KB)
地学前缘 ›› 2024, Vol. 31 ›› Issue (3) : 530 -540. DOI: 10.13745/j.esf.sf.2023.9.56
人工智能与地质应用

鄂尔多斯盆地延长组多油源贡献比例与分布规律:基于机器学习与可解释性研究

作者信息 +

Contribution ratio and distribution patterns of multiple oil sources in the Yanchang Formation of the Ordos Basin: A study utilizing machine learning and interpretability techniques

Author information +
文章历史 +
PDF (7108K)

摘要

鄂尔多斯盆地延长组发育多套潜在的烃源岩,但不同烃源岩之间生物标志物特征相似,常规油源对比方法效果不佳,相关认识长期存在争议。基于这样的问题,本文提出了一种基于深度学习的油源对比方案,将人工智能方法应用于油源对比研究,所开展的工作和认识有:(1)以延长组不同层位大量泥岩、页岩样品的42种生物标志物参数作为学习数据,构建了一种识别未知样品油源类别的深度神经网络模型,对长7泥页岩、长8—长10泥页岩的判别正确率分别达到了79.6%和83.0%,实现了延长组主要烃源岩生烃产物的有效区分;(2)通过模型分析了大量砂岩、原油样品的油源分类,统计了不同烃源岩对于延长组各个油层组原油的贡献比例,总结了它们的分布规律;(3)基于目前较为先进的置换特征重要性(PFI)算法,对所得模型进行了敏感性分析,初步揭示了延长组两类主要烃源岩的生物标志物差异。本文对于人工智能方法、技术在石油分子地球化学领域的发展具有积极的参考价值。

关键词

机器学习 / 深度神经网络 / 敏感性分析 / 鄂尔多斯盆地延长组 / 油源对比

Key words

machine learning / deep neural network / sensitivity analysis / Yanchang Formation of Ordos Basin / oil-source correlation

引用本文

引用格式 ▾
苏恺明,徐耀辉,徐旺林,张月巧,白斌,李阳,严刚. 鄂尔多斯盆地延长组多油源贡献比例与分布规律:基于机器学习与可解释性研究[J]. 地学前缘, 2024, 31(3): 530-540 DOI:10.13745/j.esf.sf.2023.9.56

登录浏览全文

4963

注册一个新账户 忘记密码

0 引言

自1907年中国陆上第一口油井在延安地区钻探成功,以及新中国之后近50余年石油勘探工作以来,鄂尔多斯盆地(后文简称“盆地”)年产油气当量已经超过八千万吨,成为我国目前最大的油气生产基地[1]。在石油勘探方面,盆地三叠系延长组发育了多套规模较大的湖相烃源岩,生烃能力强[2],使得延长组成为盆地最重要的产油层位(图1)。

然而,多烃源岩系统也给盆地延长组的分子地球化学评价及油源对比工作带来了挑战。由于各套潜在烃源岩之间分子地球化学特征相似,缺乏代表性的油源判识依据,延长组的油源问题始终未能达成共识[3-7],争议主要在于长7烃源岩之外的其他层位(以长9油层组为主)的泥页岩是否进行了较大规模的生烃。一般认为延长组乃至更浅层的延安组的大量油藏均是长7烃源岩生烃产物扩散运移的结果,但这不易解释比长7烃源岩更深的长8—长10油层组的大规模成藏[8-9]。相反地,也有学者认为延长组丰富的油气资源是长7至长10油层组多套烃源岩共同供烃的结果[6-7],但却难以给出充分的地化依据。

C30重排藿烷(C30*)曾被许多研究用作区分长7、长9烃源岩的分子地球化学标志[10-11],前者一般被认为贫C30*,后者则富集C30*。但事实上仍然有大量样品并未遵照这一规律,许多长7烃源岩同样存在富集C30*的现象(图2A),而长9烃源岩也可见贫C30*的样品(图2B)。近些年的研究则认为热成熟作用是影响C30*相对丰度的主导因素[12-14],类似的关系也体现在本文样品C30*/C30αβ与甾烷成熟度参数C2920S/(20R+20S)之间的相关性(图2C)。这可能意味着C30*在延长组不同烃源岩中的差异富集主要受成熟度控制,而非生源或环境因素。诸如此类的争论很大程度体现了传统油源对比方法面对延长组问题时的困难。

油源认识的模糊性进一步导致了更深层问题的研究迟滞,例如“量化各烃源岩的资源分配比例”、“延长组油气系统在立体空间下的差异富集规律”等内容均受其影响,悬而未决、不可想象。随着近些年对致密油的再理解[15]、页岩油勘探逐渐提上日程[16-17]以及盆地外围远源油气藏的陆续发现[18],对延长组油源乃至整个油气系统的准确认识关系到后续勘探的宏观决策,再次突显了解决这一问题的必要性。

更多、更广泛的样品和参数有望提高地球化学研究的精确性和可靠性[19],从而为上述问题带来新的理解,但这一角度却因缺乏高效的数据分析手段而进展缓慢。常规的目检法、参数-图版法在面对大量样品、多参数时非常局限;聚类分析、主成分分析等计量学方法[20-22]虽实现了一定进步,但却存在不同参数组合引起的多解性[19]、处理非线性关系不理想[23]等问题,应用效果有限。

而21世纪以来逐渐火热的人工智能、机器学习方法为科学研究带来了传统统计分析之外的新途径,神经网络等机器学习模型在模式识别等问题上的优异表现使其能够完成许多传统方法无法胜任的地质研究工作[24-25],如智能储层流体判断[26]、镜下影像资料自动分析[27]、地震微断裂识别[28]等。这给予了分子地球化学研究通过“大数据”“数据驱动”等思想[29]解决油源对比难题的全新方式,同时也令复杂的分子地球化学数据成为机器学习方法施展能力的舞台。

基于这样的角度,笔者开展了大量机器学习方法与分子地球化学研究的学科交叉探索,并在鄂尔多斯盆地延长组油源问题方面取得了积极进展。本文以延长组的大量泥页岩为学习数据,实现了一种判别未知样品油源分类的深度神经网络模型,基于此讨论了不同油源产物在盆地平面上及延长组垂向上的分布规律,并通过变量敏感性分析提取了它们的生物标志物特征。

1 区域地质概况与样品

鄂尔多斯盆地在整个延长组时期经历了比较完整的湖进-湖退旋回(图3[30-31])。其中,长7油层组沉积时期为湖泊发育的鼎盛,水体多为淡水-微咸水环境,沉积了一套厚度达20~60 m的富有机质泥岩和油页岩[32]。这套烃源岩具有相当高的有机质丰度,其中油页岩有机质类型主要为I、II1型,总有机碳(TOC)含量介于8%~16%,平均值13.81%[2];泥岩有机质类型主要为II1、II2型,总有机碳含量介于2%~6%,平均值3.75%[2],二者的镜质体反射率(Ro)平均值分别达0.62%、0.72%[33],处于生烃演化的成熟期。

除此之外,在次级沉积旋回控制下(图3),其他油层组也发育着规模不一的泥页岩沉积。其中,以长9油层组的暗色泥岩规模最大,主要分布在盆地东北部的志丹地区,主体厚度超过30 m[34],总有机碳含量多介于3%~7%,平均值则为4.60%[35],镜质体反射率平均值为0.84%[33];长8油层组也存在局部分布的小规模的暗色泥岩,总有机碳含量平均可达3.57%[35],镜质体反射率平均值为0.85%[33]

为探究这些潜在烃源岩与延长组原油的成因联系,本文以整个鄂尔多斯盆地为研究区,采集到73口井共计203块(个)井下岩心样品及原油样品,用于本文的油源对比工作(图1)。其中,泥页岩样品91块,主要来自长7、长8和长9油层组;砂岩样品102块,主要来自长2、长6、长8、长9和长10油层组;原油样品10个,均来自长9油层组。所采集的样品先后经过预处理、粉碎、抽提及族组分分离等一系列操作(油样直接进行分离),随后按照国家标准GB/T 18606—2017《气相色谱-质谱法测定沉积物和原油中生物标志物》对饱和烃进行色谱-质谱分析,并计算相关的生物标志物参数。

2 深度神经网络模型与训练数据集

人工神经网络是一种代表性的监督学习方法,极大地推动了机器学习在近些年所获得的成功[36](图4A)。它是对人脑中神经元连接的借鉴,旨在模拟人类的学习过程[37](图4B),让机器能够“思考”[38]。以一定量的训练数据作为范例,通过调节神经网络内部大量节点(神经元)相互之间的连接关系(权重系数),对输入数据执行一系列的加工、运算,使其转变为所需要的结果,从而达到分析判断的目的。

2.1 多层感知机

多层感知机(MLP)属于最经典的人工神经网络模型[39],也是最具代表性的模型之一。MLP包含输入层、隐藏层、输出层三个基本的部分,每层均包含多个节点(神经元),各层节点之间彼此全连接。隐藏层可以是单层或多层,多隐藏层的MLP属于深度学习模型,有着更多的计算单元,能够拟合更加复杂的非线性函数,实现对于复杂问题的分析判断。

图4A为MLP的一个基本计算单元,它显示的是MLP复杂结构中的某一条连接,一个深度的MLP中可能包含成百上千个这样的计算单元。输入层用于承接输入的数据,其节点数量等于输入数据的维数。正向传播时,隐藏层的输入值的计算公式如公式(1)[37,40-41]:

H = i = 1 n w i · x i + b

式中:wi表示输入层第i个节点与该隐藏层节点之间连接的权重;xi表示输入层第i个节点的输入数据;b为偏置。

隐藏层的输入值经过激活函数的计算后,作为隐藏层的输出层向下一层传递。激活函数使得神经网络具备了对非线性问题的拟合能力[42]。本文采用适合于分类问题的Sigmoid函数作为激活函数,其表达式为公式(2)[43]:

Sigmoid(x)= 1 1 + e - x

正向传播完成后,通过交叉熵损失函数评价计算结果与样本标签(真实结果)之间的误差(Loss),其表达式为公式(3)[44]:

$ \operatorname{Loss}=-[y \cdot \lg \hat{y}+(1-y) \cdot \lg (1-\hat{y})] $

式中:$ \widehat{y} $是模型预测样本是正例的概率;y是样本标签,如果样本属于正例,取值为1,否则取值为0。

本文所构建的MLP神经网络使用自适应矩估计(Adam)优化算法进行训练,其权重更新规则为公式(4)[45]:

$ \theta_{t+1}=\theta_{t}-\frac{\alpha}{\sqrt{\widehat{s_{t}}}+\epsilon} \cdot \hat{v}_{t} $

式中:vt是一阶梯度矩阵;st是二阶梯度矩阵;$ \hat{v}_{t} $$ \widehat{s_{t}} $分别是对原始值的偏差修正;α是学习率,其值设定为0.001;$ \epsilon $是一个很小的常数,其值为10-8,以避免除数为零。

2.2 训练数据集

训练数据集是实现神经网络模型的关键,它必须包含特征数据和标签数据两个部分,前者是用于分析判断的数据,后者是样品的某种属性、结论。在本文油源对比的需求中,特征数据为各个样品的生物标志物参数,标签数据则是该样品的油源分类结论。

2.2.1 特征变量

特征数据的构建难点主要在于生物标志物参数的选取,在这方面神经网络方式与常规方式存在理念差异。传统的油源(油)分类常常受到成熟度、生物降解等次生地质作用的干扰,因此对比参数的选取需要保持谨慎,只有具有明确地质含义、不受次生作用影响的参数才能够用于对比分析[46-47]。而神经网络方法的优势在于,算法能够根据给定的训练数据,通过大量的迭代运算自动确定各个参数与结果之间的权重关系,并排除不相关的参数。因此不宜对生物标志物参数进行人为挑选,而应以避免偏差,客观、全面反映样品的地球化学特征为目标。

本文通过Peters等的专著[19]及近年来的研究案例[48-49]搜集了42种常用的萜烷、甾烷生物标志物参数(表1)(由于本文部分样品缺少正构烷烃数据,故相关的参数未选用),计算出所有样品各个参数的数值作为数据集中的特征数据。同时,按照机器学习一般的流程,需对特征数据进行归一化处理,以消除数据间的量纲、维度差异,从而提高模型的训练速度并降低错误[50]。这里采用Min-Max归一化方法(公式(5)),它将数据统一地缩放至0至1之间:

x'= x - m i n ( x ) m a x ( x ) - m i n ( x )

式中:xx'分别代表原始数据和归一化后的数据;min(x)和max(x)分别代表等待归一化处理的一组元素中的最小值和最大值。

2.2.2 标签变量

标签变量必须是确切的结果。但对于本文的油源问题,砂岩样品相对疏松多孔的性质使得二次运移以及混源作用广泛存在,难以获知其准确且肯定的油源信息,故不宜作为训练数据(原油样品同理);相对比地,泥岩/页岩样品致密少孔,一般可不考虑外源污染的影响,可认为其抽提物即是自身的生烃产物。

因此,本文的训练数据均为泥页岩样品。结合泥页岩样品实际的数量及比例,笔者将它们分为两类:采自长7油层组的47块泥页岩样品统一赋以“长7油源”的标签(实际数据中以数字“0”表示),采自长8—长10油层组的44块泥页岩样品统一赋以“长8—长10油源”的标签(实际数据中以数字“1”表示)。

3 分类模型的训练及效果评价

神经网络的训练是一种循环往复的过程,通过不断对比计算值与标签值的差距,修正网络模型中相关节点之间的连接权重,使得计算结果逐渐向正确结果逼近(图4B)。

3.1 模型结构

通过大量对比测试,本文选定了具有两层隐藏层的深度MLP结构(图5),其输入层、隐藏层1、隐藏层2和输出层的节点数量分别为42、30、10和1,输入值为经过归一化(公式(5))处理的42个生物标志物参数,输出值为“二分类”情形下的概率值(其值趋近0代表“长7油源”,趋近1代表“长8—长10油源”)。模型搭建及训练基于Python(v3.9)、Tensorflow(v2.1)和Keras(v2.1)的编程环境,训练算法为前文提及的自适应矩估计(Adam)(公式(4)),相关参数设定均遵照2.1小节中的流程,循环次数(epoch)设定为10 000。

3.2 分类准确性评估

通过划分数据集为“训练集”、“测试集”两个部分,可检验模型的分类性能。即取出少量样本独立于训练数据之外,不参与模型的构建,待训练完成后使用它们对模型的分类准确性进行验证、评估。本文按照80%、20%的比例将所有的泥页岩样品(即2.2节构建的数据集)随机划分进训练集、测试集,以分类结果的正确率作为评价指标。由于神经网络算法内部的随机性,每次所得的模型可能略有差异[51],因此这里执行了100轮“随机划分数据集→训练模型→测试评估”的过程,从而充分展示模型准确率的分布情况。

结果显示(图6),本文的深度MLP神经网络能够有效区分延长组两类主要的泥页岩,其对长7泥页岩的判别正确率平均达79.6%,对长8—长10泥页岩的判别正确率平均达83.0%,总正确率平均达到了80.9%。在目前相对有限的样品规模下,这一测试结果令人惊喜,它传达出两层信息:一方面,机器学习神经网络方法能够有效解决油源对比问题;另一方面,延长组这两类泥页岩的生物标志物特征是具有差异的。可预见随着数据集样品的进一步扩充,神经网络所能获得的分类结果将得到进一步的提升和细化,这显示了神经网络方法在油源对比研究中的积极前景。

4 对砂岩抽提物及原油的分类

成功验证MLP神经网络解决延长组油源分类的可行性之后,可尝试将所构建的油源分类模型应用于对这两类泥页岩生烃产物(砂岩抽提物、原油)的判识。这里以3.2小节100轮“训练-测试”过程中分类准确性最高的MLP神经网络模型为标准,将本文数据集中的112块(个)砂岩抽提物、原油样品的生标物参数数据作为对模型的输入并进行运算,记录模型对于各个样品的输出结果。

表2以各油层组为区分,按照样品的数量比例估算两类油源对于各油层组原油的贡献率,对模型输出的结果进行了总结。从这一结果来看,两类油源在垂向上的分配具有明确的规律性,从浅至深长7油源的贡献率逐渐降低、长8—长10油源的贡献率则相应增加。长7及以上层位为100%的长7油源,而深部的长9、长10油层组中长8—长10油源的贡献率则达到了三分之一左右。

而在平面上,两类油源的分布也有据可循(图7[2,52])。总体上长7油源的样品呈现全盆分布的特征,而长8—长10油源的样品则主要分布在盆地中部及陕北地区(华池—吴起—志丹—安塞),这与延长组长7、长9两套主力烃源岩的分布特征基本一致。

5 生物标志物参数的敏感性分析

上述对于砂岩、原油的分类情况与地质预期吻合,展现了深度神经网络对于复杂的非线性关系极强的拟合能力,但由于神经网络的分析属于一种“黑箱”过程,无法像常规统计学方法一样直观呈现数据之中的各种关系、规律[53],因此难以为盆地延长组的生物标志物研究工作提供直接指导。但近些年,许多学者在增强对于神经网络模型的可理解性方面取得了一定进展,其中,旨在衡量各输入变量对于输出结果影响力的大小的敏感性分析是解决上述困难的有效方式[53]。因此本文在这方面开展了进一步的探索,采用目前较为先进的置换特征重要性(PFI)算法对本文生物标志物数据集及所得的油源分类模型进行了进一步的分析,以深度挖掘延长组两类泥页岩的生物标志物差异。

5.1 置换特征重要性算法(PFI)

置换特征重要性算法(Permutation Feature Importance,PFI)最早见于Breiman[54]的论文中,其后又有许多不同领域的研究使用这一算法并获得了良好效果[55-57]。PFI算法属于一种事后解释,其思想是基于已经训练好的模型,通过随机打乱测试集中某一变量的数据的顺序(图8),对比打乱前后模型输出结果精度下降的程度,精度降低越大,则表明模型对该变量的依赖度越大[57]。具体可以通过模型预测误差的变化量表征这种精度的降低(公式(6)):

PFI=Lossshaffle-Lossorigin

式中:Lossorigin和Lossshaffle分别是打乱数据前、后模型的预测误差(通过公式(3))。计算得到的PFI值越大,表明该变量对于模型输出结果的影响力越大。

本文通过Eli5库[58]的编程实现上述过程,Eli5是一个Python库,它允许使用统一的API可视化解释各种不同框架下的机器学习模型。这里选取与第4节相同的MLP神经网络模型并对其执行30轮PFI算法分析(避免随机性的干扰),以各次结果的平均值作为各生物标志物参数的PFI结果值。

5.2 两类泥页岩的生物标志物差异

图9展示了本文所用42个生物标志物参数PFI重要性排序,自上而下重要程度逐渐降低。对比延长组的两类泥页岩,长8—长10泥页岩在排序靠前的生标参数上均明显大于长7泥页岩(图10)。结合Peters等[19]前人学者对于相关化合物的认识,这些参数主要指向了三个方面的生物标志物特征,其中甾烷/藿烷、甾烷C27αα20R/C29αα20R与有机质母质类型有关,萜烷C29βα/C29αβ、C30*/C29Ts、Ts/(Ts+Tm)、Ts/C30αβ等参数则与成熟度有关,三环萜烷(TT)[59]、四环萜烷(TET)[60]相关的参数则被认为可能与水体盐度相关。

从这些信息中不难推断,延长组这两类泥页岩主要在成熟度、母质类型及水体盐度方面存在差异,长8—长10泥页岩相较于长7泥页岩成熟度更高、陆源高等植物贡献稍大、水体盐度略高。通过重要性最高的3个参数绘制而成的三维散点图能够显示出长7泥页岩、长8—长10泥页岩样品数据点的分布差异(图11A),总体上长7泥页岩样品更靠近坐标原点,长8—长10泥页岩样品则相对远离原点(且较为发散);类似地,模型对于砂岩、原油样品的分类结果同样包含了这一特征(图11B)。但需要说明的是,图11所示的结果只能作为理解MLP神经网络分类逻辑的参考,并不能机械地认为这三个参数所呈现的差异特征就是模型的分类依据。就图11A而言,长7泥页岩样品与长8—长10泥页岩样品的分布仍然存在一定交错、叠合,因此仅依赖这三个参数可能无法达到令人满意的分类性能,模型实际的分类过程必然包含了其他参数所提供的信息。

6 结论与建议

本文以鄂尔多斯盆地延长组大量泥页岩、砂岩及原油样品的生物标志物参数为数据集,探索了深度神经网络在研究区的应用,获得了积极结果。主要认识如下。

(1)深度神经网络模型能够有效应用于油源对比研究,本文所构建的油源分类模型对于长7泥页岩、长8—长10泥页岩的判别正确率分别可达79.6%和83.0%,其工作复杂度、分类准确性等方面均优于现有方法。

(2)通过模型对于砂岩、原油样品的分析和统计,垂向上,长7泥页岩对于延长组各个油层组原油的贡献率由浅至深呈现逐渐降低的规律,长8—长10泥页岩的贡献率由浅至深逐渐增加(在深部的长9、长10油层组均超过了三分之一);平面上,长7油源样品具有全盆分布的特征,而长8—长10油源样品则集中在盆地中部及陕北地区,这与两类烃源岩的发育范围基本一致。

(3)根据置换特征重要性算法所进行的敏感性分析结果,长8—长10泥页岩相较于长7泥页岩成熟度更高、陆源高等植物贡献更大、水体盐度可能略高。两类泥页岩的差异在萜烷C24TET/C26TT、C24TET/C23TT、C30*/C29Ts、ΣC19~26TT/C30αβ、C29βα/C29αβ和甾烷/藿烷等参数上有所体现。

参考文献

[1]

付金华, 李士祥, 牛小兵, 鄂尔多斯盆地三叠系长7段页岩油地质特征与勘探实践[J]. 石油勘探与开发, 2020, 47(5): 870-883.

[2]

杨华, 牛小兵, 徐黎明, 鄂尔多斯盆地三叠系长7段页岩油勘探潜力[J]. 石油勘探与开发, 2016, 43(4): 511-520.

[3]

陈建平, 黄第藩. 鄂尔多斯盆地东南缘煤矿侏罗系原油油源[J]. 沉积学报, 1997, 15(2): 100-104.

[4]

侯林慧, 彭平安, 于赤灵, 鄂尔多斯盆地姬塬—西峰地区原油地球化学特征及油源分析[J]. 地球化学, 2007, 36(5): 497-506.

[5]

王传远, 段毅, 杜建国, 鄂尔多斯盆地三叠系延长组原油中性含氮化合物的分布特征及油气运移[J]. 油气地质与采收率, 2009, 16(3): 7-10.

[6]

郭艳琴, 李文厚, 陈全红, 鄂尔多斯盆地安塞—富县地区延长组—延安组原油地球化学特征及油源对比[J]. 石油与天然气地质, 2006, 27(2): 218-224.

[7]

张文正, 杨华, 李善鹏. 鄂尔多斯盆地长91湖相优质烃源岩成藏意义[J]. 石油勘探与开发, 2008, 35(5): 557-562.

[8]

张景廉. 油气“倒灌”论质疑[J]. 岩性油气藏, 2009, 21(3): 122-128.

[9]

李传亮. 油气倒灌不可能发生[J]. 岩性油气藏, 2009, 21(1): 6-10.

[10]

张文正, 杨华, 候林慧, 鄂尔多斯盆地延长组不同烃源岩17α(H)-重排藿烷的分布及其地质意义[J]. 中国科学(D辑: 地球科学), 2009, 39(10): 1438-1445.

[11]

邹贤利, 陈世加, 路俊刚, 鄂尔多斯盆地延长组烃源岩17α(H)-重排藿烷的组成及分布研究[J]. 地球化学, 2017, 46(3): 252-261.

[12]

张敏, 李谨, 陈菊林. 热力作用对烃源岩中重排藿烷类化合物形成的作用[J]. 沉积学报, 2018, 36(5): 1033-1039.

[13]

李红磊, 张敏, 姜连, 利用芳烃参数研究煤系烃源岩中重排藿烷成因[J]. 沉积学报, 2016, 34(1): 191-199.

[14]

李姗姗, 白斌, 严刚, 泥页岩热模拟排出油与滞留油中17α(H)-重排藿烷的成熟度指示规律[J]. 石油实验地质, 2022, 44(5): 887-895.

[15]

付锁堂, 金之钧, 付金华, 鄂尔多斯盆地延长组7段从致密油到页岩油认识的转变及勘探开发意义[J]. 石油学报, 2021, 42(5): 561-569.

[16]

付金华, 牛小兵, 李明瑞, 鄂尔多斯盆地延长组7段3亚段页岩油风险勘探突破与意义[J]. 石油学报, 2022, 43(6): 760-769.

[17]

范柏江, 晋月, 师良, 鄂尔多斯盆地中部三叠系延长组7段湖相页岩油勘探潜力[J]. 石油与天然气地质, 2021, 42(5): 1078-1088.

[18]

王龙, 陈培元, 孙福亭, 鄂尔多斯盆地彭阳地区延长组、延安组原油地球化学特征与油源对比[J]. 海洋地质前沿, 2019, 35(12): 49-54.

[19]

PETERS K E, WALTERS C C, MOLDOWAN J M. The biomarker guide: Volume 2, biomarkers and isotopes in petroleum systems and Earth history[M]. 2nd ed. New York: Cambridge University Press, 2007.

[20]

SU K M, CHEN S J, HOU Y T, et al. Application of factor analysis to investigating molecular geochemical characteristics of organic matter and oil sources: an exploratory study of the Yanchang Formation in the Ordos Basin, China[J]. Journal of Petroleum Science and Engineering, 2022, 208: 109668.

[21]

王遥平. 基于化学计量学的油气源对比与实例研究[D]. 广州: 中国科学院广州地球化学研究所, 2019.

[22]

ALIZADEH B, ALIPOUR M, CHEHRAZI A, et al. Chemometric classification and geochemistry of oils in the Iranian sector of the southern Persian Gulf Basin[J]. Organic Geochemistry, 2017, 111: 67-81.

[23]

王遥平, 邹艳荣, 史健婷, 化学计量学在油-油和油-源对比中的应用现状及展望[J]. 天然气地球科学, 2018, 29(4): 452-467.

[24]

NIU X X, SUEN C Y. A novel hybrid CNN-SVM classifier for recognizing handwritten digits[J]. Pattern Recognition, 2012, 45(4): 1318-1325.

[25]

LIN J D, WU X Y, CHAI Y, et al. Structure optimization of convolutional neural networks: a survey[J]. Acta Automatica Sinica, 2020, 46(1): 24-37.

[26]

韩玉娇. 基于AdaBoost机器学习算法的大牛地气田储层流体智能识别[J]. 石油钻探技术, 2022, 50(1): 112-118.

[27]

KOESHIDAYATULLAH A, MORSILLI M, LEHRMANN D J, et al. Fully automated carbonate petrography using deep convolutional neural networks[J]. Marine and Petroleum Geology, 2020, 122: 104687.

[28]

杜炳毅, 张广智, 王磊, 基于机器学习的复杂储层微小断裂系统识别方法研究与应用[J]. 石油物探, 2021, 60(4): 621-631.

[29]

周永章, 左仁广, 刘刚, 数学地球科学跨越发展的十年: 大数据、人工智能算法正在改变地质学[J]. 矿物岩石地球化学通报, 2021, 40(3): 556-573.

[30]

QU H J, YANG B, GAO S L, et al. Controls on hydrocarbon accumulation by facies and fluid potential in large-scale lacustrine petroliferous basins in compressional settings: a case study of the Mesozoic Ordos Basin, China[J]. Marine and Petroleum Geology, 2020, 122: 104668.

[31]

ZHANG K, LIU R, LIU Z J. Sedimentary sequence evolution and organic matter accumulation characteristics of the Chang 8-Chang 7 members in the Upper Triassic Yanchang Formation, Southwest Ordos Basin, central China[J]. Journal of Petroleum Science and Engineering, 2021, 196: 107751.

[32]

LI Q, WU S H, XIA D L, et al. Major and trace element geochemistry of the lacustrine organic-rich shales from the Upper Triassic Chang 7 member in the southwestern Ordos Basin, China: implications for paleoenvironment and organic matter accumulation[J]. Marine and Petroleum Geology, 2020, 111: 852-867.

[33]

邓南涛, 张枝焕, 鲍志东, 鄂尔多斯盆地南部延长组有效烃源岩地球化学特征及其识别标志[J]. 中国石油大学学报(自然科学版), 2013, 37(2): 135-145.

[34]

姚泾利, 高岗, 庞锦莲, 鄂尔多斯盆地陇东地区延长组非主力有效烃源岩发育特征[J]. 地学前缘, 2013, 20(2): 116-124.

[35]

周世颖. 鄂尔多斯盆地周家湾—高桥地区长7—长9烃源岩评价及油源研究[D]. 成都: 西南石油大学, 2017.

[36]

MALEKI F, OVENS K, NAJAFIAN K, et al. Overview of machine learning, part 1: fundamentals and classic approaches[J]. Neuroimaging Clinics of North America, 2020, 30(4): e17-e32.

[37]

周永章, 张良均, 张奥多, 地球科学大数据挖掘与机器学习[M]. 广州: 中山大学出版社, 2018.

[38]

BARROW H. Connectionism and neural networks[M]//BODEN M A. Handbook of perception and cognition. New York: Academic Press, 1996: 135-155.

[39]

SAIKIA P, BARUAH R D, SINGH S K, et al. Artificial neural networks in the domain of reservoir characterization: a review from shallow to deep models[J]. Computers & Geosciences, 2020, 135: 104357.

[40]

李苍柏, 肖克炎, 李楠, 支持向量机、随机森林和人工神经网络机器学习算法在地球化学异常信息提取中的对比研究[J]. 地球学报, 2020, 41(2): 309-319.

[41]

王琪琪, 汤井田, 张良, 利用多层感知机的地震数据去噪[J]. 石油地球物理勘探, 2020, 55(2): 272-281.

[42]

LESHNO M, LIN V Y, PINKUS A, et al. Multilayer feedforward networks with a nonpolynomial activation function can approximate any function[J]. Neural Networks, 1993, 6(6): 861-867.

[43]

黄毅, 段修生, 孙世宇, 基于改进sigmoid激活函数的深度神经网络训练算法研究[J]. 计算机测量与控制, 2017, 25(2): 126-129.

[44]

邓建国, 张素兰, 张继福, 监督学习中的损失函数及应用研究[J]. 大数据, 2020, 6(1): 60-80.

[45]

KINGMA D P, BA J. Adam: A method for stochastic optimization[C]//Proceeding of the 3rd international conference for learning Representations (ICLR 2015). San Diego: ArXiv, 2015.

[46]

ENEOGWE C, EKUNDAYO O. Geochemical correlation of crude oils in the NW Niger Delta, Nigeria[J]. Journal of Petroleum Geology, 2003, 26(1): 95-103.

[47]

AHMED M, VOLK H, ALLAN T, et al. Origin of oils in the Eastern Papuan Basin, Papua New Guinea[J]. Organic Geochemistry, 2012, 53: 137-152.

[48]

XIAO H, LI M J, LIU J G, et al. Oil-oil and oil-source rock correlations in the Muglad Basin, Sudan and South Sudan: new insights from molecular markers analyses[J]. Marine and Petroleum Geology, 2019, 103: 351-365.

[49]

SPAAK G, EDWARDS D S, FOSTER C B, et al. Geochemical characteristics of early Carboniferous petroleum systems in Western Australia[J]. Marine and Petroleum Geology, 2020, 113: 104073.

[50]

ANYSZ H, ZBICIAK A, IBADOV N. The influence of input data standardization method on prediction accuracy of artificial neural networks[J]. Procedia Engineering, 2016, 153: 66-70.

[51]

WEI X, ZHANG L L, YANG H Q, et al. Machine learning for pore-water pressure time-series prediction: application of recurrent neural networks[J]. Geoscience Frontiers, 2021, 12(1): 453-467.

[52]

李吉君, 吴慧, 卢双舫, 鄂尔多斯盆地长9烃源岩发育与排烃效率[J]. 吉林大学学报(地球科学版), 2012( 增刊1): 26-32.

[53]

GEVREY M, DIMOPOULOS I, LEK S. Two-way interaction of input variables in the sensitivity analysis of neural network models[J]. Ecological Modelling, 2006, 195(1/2): 43-50.

[54]

BREIMAN L. Random Forests[J]. Machine Learning, 2001, 45: 5-32.

[55]

MI X, ZOU B, ZOU F, et al. Permutation-based identification of important biomarkers for complex diseases via machine learning models[J]. Nature Communications, 2021, 12: 3008.

[56]

RAMIREZ S G, HALES R C, WILLIAMS G P, et al. Extending SC-PDSI-PM with neural network regression using GLDAS data and Permutation Feature Importance[J]. Environmental Modelling & Software, 2022, 157: 105475.

[57]

LI Z, SHI H, YANG X, et al. Investigating the nonlinear relationship between surface solar radiation and its influencing factors in North China Plain using interpretable machine learning[J]. Atmospheric Research, 2022, 280: 106406.

[58]

VIJ A, NANJUNDAN P. Comparing strategies for post-hoc explanations in machine learning models[M]//SHAKYA S, BESTAK R, PALANISAMY R, et al. Mobile computing and sustainable informatics lecture notes on data engineering and communications technologies. Singapore: Springer Nature Singapore, 2021: 585-592.

[59]

KRUGE M A, HUBERT J F, AKES R J, et al. Biological markers in Lower Jurassic synrift lacustrine black shales, Hartford Basin, Connecticut, U.S.A.[J]. Organic Geochemistry, 1990, 15(3): 281-289.

[60]

CONNAN J, BOUROULLEC J, DESSORT D, et al. The microbial input in carbonate-anhydrite facies of a sabkha palaeoenvironment from Guatemala: a molecular approach[J]. Organic Geochemistry, 1986, 10(1/2/3): 29-50.

基金资助

中国博士后科学基金面上资助(2023M730365)

湖北省自然科学基金计划青年项目(2023AFB232)

中石油科学研究与技术开发项目(2021DJ0404)

AI Summary AI Mindmap
PDF (6942KB)

272

访问

0

被引

详细

导航
相关文章

AI思维导图

/