管窥人工智能与大数据地球科学研究新进展

周永章 ,  肖凡

地学前缘 ›› 2024, Vol. 31 ›› Issue (4) : 1 -6.

PDF (640KB)
地学前缘 ›› 2024, Vol. 31 ›› Issue (4) : 1 -6. DOI: 10.13745/j.esf.sf.2024.6.99
专辑综述

管窥人工智能与大数据地球科学研究新进展

作者信息 +

Overview: A glimpse of the latest advances in artificial intelligence and big data geoscience research

Author information +
文章历史 +
PDF (654K)

摘要

本期是《地学前缘》组织出版的“人工智能与大数据地质”主题专辑。它由17篇学术论文组成,涵盖了知识图谱、基于深度学习的图像识别、非结构化地质信息的机器可读表达、图形大数据与社区发现、关联规则算法、三维地质模拟与成矿预测、物联网与在线监测系统等不同主题,提供了极其有价值的应用场景和研究案例,在一定程度上反映了中国人工智能与大数据地球科学领域研究的最新进展,值得同行关注。

关键词

知识图谱 / 深度学习 / 图像自动识别 / 非结构地质信息 / 社区发现 / 大数据挖掘 / 三维地质建模 / 物联网标识

Key words

knowledge graph / deep learning / automatic image recognition / unstructured geological information / community detection / big data mining / 3D geological modeling / Internet of Things identifier

引用本文

引用格式 ▾
周永章,肖凡. 管窥人工智能与大数据地球科学研究新进展[J]. 地学前缘, 2024, 31(4): 1-6 DOI:10.13745/j.esf.sf.2024.6.99

登录浏览全文

4963

注册一个新账户 忘记密码

0 引言

2016年,中国学者发起成立中国矿物岩石地球化学学会大数据与数学地球科学专业委员会,由周永章担任主任委员,从而在我国开启了有组织地开展矿物岩石地球化学大数据和人工智能的专业研究。2018年,专委会组织出版研究型教材《地球科学大数据挖掘与机器学习》[1]。作为地学大数据和人工智能领域的第一本系统性研究型教材,它提出了地学大数据与人工智能技术研究的新范式,建立了地学大数据挖掘与机器学习的基本框架,重点分析高维数据降维、分类与预测、大图形社区结构识别、无限流数据处理、机器学习及人工智能地质学的建模过程,对必要的应用场景,使用Python语言给出案例,它的出版引领了一代新人投身地质大数据和人工智能领域研究[1-3]。2023年,经上级学会批准,大数据与数学地球科学专业委员会改名为“人工智能与大数据地球科学专业委员会”。

在上述背景下,《地学前缘》编委会委托组织、出版一期“人工智能与大数据地质”主题专辑。本专辑收录的稿件,涉及知识图谱、基于深度学习的图像识别、非结构化地质信息的机器可读表达、图形大数据与社区发现、关联规则算法、三维地质模拟与成矿预测、物联网与在线监测系统等不同内容,尽管没能覆盖人工智能与大数据地质的全部,但从中仍可清晰窥见人工智能与大数据地质研究前沿的一些突出纹理。我期待本专辑的出版,对人工智能与大数据地球科学研究工作有参考和促进作用。

1 知识图谱与智能推理

知识图谱是人工智能技术的组成部分,它以其强大的语义处理能力和开放组织能力,为大数据时代信息的知识化组织和智能应用提供了有效工具[3-5]。本期有4篇论文提供知识图谱研究案例,反映了知识图谱在人工智能与大数据地球科学研究中当属最重要的前沿热点之一。

张前龙等[6]从数据源和文献中收集了钦杭成矿带斑岩铜矿的相关知识,利用自然语言处理技术构建了知识图谱并与机器学习技术进行知识的自动化提取和推理。作者通过构建找矿知识图谱模型,将钦杭成矿带斑岩铜矿的实体、属性和关系进行了表达和存储,利用自然语言处理技术对知识图谱进行了语义关联和推理,实现了知识的自动化提取和推理。此外,还基于Java语言研发了GoldMiner知识图谱可视化系统平台,配置实体查询、关系查询、知识问答、图算法应用等功能组件。王成彬等[7]结合知识图谱相关技术的特点,探讨了融合知识图谱技术的矿产资源定量预测智能化和自动化的可行性和技术方法路线,剖析了面向矿产预测的成矿−勘查系统多时序全要素知识图谱构建、基于知识图谱如何从“求同”和“求异”的角度建立找矿预测模型,知识图谱中的知识如何嵌入到地物化遥异常信息提取以及融入知识图谱的资源定量预测工作的机遇和挑战。叶育鑫等[8]以综合信息矿产预测理论为指导,建设本体层并融合时空语义,在本体数据链接和映射基础上,形成矿产预测知识图谱,为矿产预测研究提供深入、全面的数据资源底座。

季晓慧等[9]提出基于知识图谱多跳推理的矿物复杂知识问答方法,采用ComplEx模型将矿物实体、关系及问句表示为复数向量,以更好地获取相互之间的语义及推理关系。输入矿物问句后通过Bert-LSTM-CRF获取其中心词,采用基于编辑距离及分词的方法获得中心词的候选实体集合,而后采用全连接网络确定最相关的实体作为推理起点,与矿物问句拼接后通过全连接网络获得当前跳的最相关关系。根据当前跳的起始实体及最相关关系在矿物知识图谱中获得另一实体作为下一跳的推理起点,并将下一跳的问句更新为原问句,与当前跳最相关关系的拼接,以将当前跳的推理信息带入到下一跳推理中,直到获得的最相关推理关系为预定义的结束标识符,推理结束,返回最后一跳的实体为答案,并给出推理路径。作者开发了基于知识图谱多跳推理的矿物复杂知识问答系统,为矿物知识获取及相关地质研究提供了平台和工具。

2 基于深度学习的图像自动识别

矿石矿物鉴定的智能化是人工智能地质学的基础技术之一。计算机视觉技术和深度学习理论使矿石矿物鉴定的智能化成为可能[10]

在本期论文中,万成舟等[11]提出了一种基于渐进多粒度训练深度学习的矿物识别方法,试图将矿物图像按不同粒度裁剪并随机拼接后形成新的图像。图像经多步训练Next-ViT提取矿物不同粒度的特征并融合进行矿物识别,从而融合多个粒度的信息。实验结果显示,该模型在常见36种矿物数据集上取得较高的准确率,有效地提高了矿物识别的准确率。王琳等[12]对数据集中矿物图像较少的类别采用DCGAN生成图像进行数据增强,以解决原本数据集样本数量分布不平衡的问题。使用扩充后的数据训练ResNet、RegNet、EfficientNet及Vision Transformer模型,针对训练好的基模型分别使用平均软投票法、加权软投票法两种方法进行集成得到最终识别结果。实验结果显示,使用DCGAN进行数据增强,不同的模型对36种常见矿物的识别准确率均有显著提升,其中加权软投票4种基模型的集成模型有最高的准确率。

刘烨等[13]探索迁移学习促进不同岩性间的信息共享的途径,以提高矿物组分识别与智能解释任务的模型性能。作者通过采集不同区域、岩性、矿物组分以及偏光模式下的铸体薄片样本,深入探讨了深度学习模型在不同观测对象和手段下的迁移学习机制,并聚焦于探索地质信息的深层表征。研究揭示了迁移学习在促进地质学领域信息共享与模型性能提升中的关键作用,还为自动化和智能化地质认识融合奠定了基础。实验结果显示,迁移学习在地质学领域内解决实际问题和提高模型泛化能力、性能及稳定性方面的巨大潜力。

3 非结构化地质信息机器可读表达

非结构化数据在地质找矿领域广泛存在,地层、岩性、断裂、地质图、地质报告文本都是经常见到的非结构化地质数据。一般说来,挖掘结构化数据中的隐含信息和关系是机器学习算法的强项,然而,面对非结构化数据时,很多机器学习算法无法直接处理。它要求首先把定性非结构化类别型数据转化为定量结构化数值型数据才能进行分析[14]

大数据挖掘与机器学习算法应用已成为成矿预测研究的重要趋势,但如何使非结构化地质数据进行机器可读表达成为需要克服的难点。在本期论文中,王堃屹和周永章[15]以粤西庞西垌矿集区为例,开展地层、岩性、断裂等非结构化地质信息的面向机器可读的转换处理。作者应用独热编码算法与空间加权主成分分析中的权重变量方法组合等实现地层、岩性、断裂构造等非结构化地质信息的结构化转化,并最大限度地保留其所包含的地质信息。最后,应用支持向量机和自编码网络分类器等机器学习算法对水系沉积物地球化学测试数据以及构造、地层等综合地质信息进行挖掘,提取致矿异常特征,最终实现智能圈定致矿异常找矿靶区。对多源地质数据的集成与综合生成的预测结果与研究区铅锌矿床的空间分布以及实际的地质构造情况相对一致。

张前龙等[6]在构建地质图谱中,采用自然语言处理技术,实现矿床文本抽取,包括关键词提取、实体识别、关系抽取等,将矿床文本抽取为(实体1,关系,实体2)以及(实体1,关系,实体2)的知识图谱三元组数据。作者使用Neo4j图数据库进行知识图谱存储,图中的节点表示知识图谱的实体,图中的边表示知识图谱的关系,具有灵活直观的数据模型和强大的查询遍历能力。图数据库可以支持各种图挖掘算法,在查询速度上要优于关系型数据库,特别是多跳查询的性能较好。

4 图形大数据与社区发现

图形大数据是地质学领域的客观存在,比如,形形色色的地质图就是一张张大图形,背后是复杂的图形大数据。地质大图形问题有时可以转化为大型的复杂网络空间问题,具有模块结构(社区结构)特性。

大图形数据信息挖掘的重要思想在于,网络是描述研究系统的一种方式,社区发现在梳理整个网络结构、分析各元素间的关系时发挥着重要作用。社区结构属于网络的中观尺度结构。除小世界效应、无标度性等复杂网络基本特征外,网络聚簇结构是复杂网络重要的拓扑结构特征之一。这种结构特征隐含着复杂网络中存在社区结构,即社区内部节点之间关系相对紧密、社区之间节点关系相对稀疏。因此,社区发现成为社区结构研究的基础和核心问题[1]

在本期论文中,张前龙等[6]应用路径算法、中心性算法、相似度算法和社区发现算法等图算法,基于知识图谱开展知识推理应用。作者使用基于随机游走的Node2Vec算法对矿床知识图谱中的节点进行特征学习,形成特征向量,利用Louvain算法对矿床知识图谱进行社区发现,通过计算每个节点的相似性度量,将相似的节点聚集到同一个社区中。通过比较不同社区间节点的相似性度量和节点间的连接关系,可以推断出不同矿床之间的相似性和差异。基于Node2Vec嵌入后的LOUVAIN社区发现方法在钦杭成矿带斑岩型铜矿床知识推理实验结果中显示,该法效果良好,有望为矿产资源的合理开发和利用提供理论支持和决策辅助。

朱彪彪等[16]以中国知网(CNKI)核心期刊和Web of Science(WoS)核心数据库收集的地质学领域的大数据和人工智能文献为基础,对合作作者、研究国家、研究机构、关键词等进行图形社区发现。作者基于社区结构分析软件CiteSpace的分析揭示,机器学习类方法应用和知识图谱构建,以及大数据和人工智能在固体矿产资源预测、地质灾害防治、地震解释、石油与天然气勘查等方向为研究热点。研究前沿为以深度学习、集成学习、智能平台搭建等为手段的地球演化过程中的重大地质事件研究、全球性气候变化、极地及海洋地质研究、数字地质建模及定量分析、地震预报、地灾易发性精准评估等。此外,作者还揭示,中国的研究机构主要与国内研究机构之间的交流合作居多,与国外的研究机构交流合作较少,国外研究机构则与之相反。

5 基础大数据算法

关联规则算法和推荐系统算法是最常用的基础大数据算法,也是较早引入地质领域研究的大数据算法[17-19]。其中,Apriori算法最为经典和常用,其主要思想是找出存在于事务数据集中最大的频繁项集,利用最大频繁项目集与预先设定的最小置信度阈值生成强关联规则,置信度(support)、支持度(confidence)和提升度(lift)是Apriori算法中3个最基础的概念[1]

在本期论文中,曹胜桃等[20]应用关联规则算法,挖掘滇黔桂“金三角”卡林型金矿床内微量元素与金矿化海量数据之间的关联性,提取元素异常组合,定量构建找矿标志。作者在案例研究中显示,矿床内元素异常组合分为强正关联显著富集元素(As,Sb,Hg,Tl,Ag,W,Rb)、较强正关联略富集元素(Zr,Th,Ta,Nb,Hf)和强负关联强迁出元素(Li,Sr),与硫化、黏土化(Rb)和去碳酸盐化作用具有明确对应关系。较强正关联略富集元素(Sn,Zn,Ni,V,Co,Cu)与Au成矿关系密切。通过关联规则算法分别对与硫化和去碳酸化相关的元素建立定量找矿标志,硫化找矿标志:样品中As、Hg、Sb、Tl、W、Ag和Rb等元素内中高含量项数≥1、≥2、≥3、≥4和≥5时,对应的Au矿化分别为≥4.5×10−9、≥47.0×10−9、≥150×10−9、≥500×10−9和≥1 000×10−9,样品中高含量项数≥1、≥2和≥3时,对应的Au矿化分别为≥150×10−9、≥500×10−9和≥1 000×10−9;找矿过程中两组指标配合使用,确保不漏矿,高效圈矿。去碳酸盐化找矿标志:样品中Zr、Th、Ta、Nb和Hf含量任意两项出现异常,认为样品经历过去碳酸盐化作用。作者基于关联规则算法定量构建找矿标志的方法可为其他类型矿床构建定量找矿标志提供新思路。

6 三维地质建模与成矿预测

三维地质建模利用各种地质原始数据,采用计算机图形学与可视化技术,建立表达各种地质体几何形态、三维空间结构及相互关系的三维几何实体与属性模型。三维地质结构模型是地质空间内地质构造以及地质体对象边界的数字化表征模型。它们是地质虚拟现实、数字地质孪生、三维地质信息分析的基础支撑技术。

在本期论文中,袁峰等[21]从多尺度三维成矿预测方法体系不完善、不确定性分析与优化研究薄弱、三维成矿预测要素挖掘存在瓶颈、缺少针对三维成矿预测的三维深度学习模型和方法等三维成矿预测领域存在的关键问题出发,对目前三维成矿预测领域相关方面的研究进展进行综合分析,提出了针对上述关键问题可能的解决方案和研究方向。牛露佳等[22]针对规则网格、PillarGrid、SBRT模型等难以实现复杂地质结构的精细表达问题,提出了InterfaceGrid数据模型,以充分考虑地质结构和属性的地下分布具有极强的非均匀性、不连续性以及空间多尺度性且表现出纵向分层特性和多属性场耦合的相关性。基于InterfaceGrid设计理论模型和数据结构,构建统一描述三维地质结构的InterfaceGrid数据模型,实现复杂地质结构的矢量栅格一体化表达。基于GeoAtom地原子理论构建InterfaceGrid的形式化表达框架,提出InterfaceGrid的构建流程,以及基于InterfaceGrid模型设计数据更新和空间查询算法。采用GPU光线投射和自适应采样策略实现地质网格的体可视化以及在线浏览,结果显示,相比较SBRT模型InterfaceGrid能够更加真实地描述地质边界情况,提高了三维地质结构模型的准确性。在全球岩石圈三维网格化构建应用InterfaceGrid,验证了InterfaceGrid在大规模地质数据组织管理中的适用性,相比较PillarGrid数据量减少约1/3,更加适合基于大数据量的网络地学应用服务。

7 物联网与在线监测系统

随着自动化技术、新一代信息技术的不断更新以及智慧地球概念的不断深入,基于标识的物联网在线自动监测已成为各类地质监测的发展趋势。

城市土壤污染具有累积性、隐蔽性、潜在性和不可逆性特点,对城市土壤污染进行预防和科学系统的监测至关重要。王汉雨等[23]研发了一套基于物联网的实时在线监测、处理和分析城市土壤污染数据的系统。作者基于微服务框架Spring Cloud Alibaba,整合开发基于EMQX平台的订阅端,实现土壤数据的采集和入库。开发与Geoserver服务器对接的WebGIS功能模块,利用OpenLayers渲染地图和土壤元素浓度图,实现对土壤状态的监控和可视化分析,进而实现对土壤污染的预测和预警。

CO2地质封存是实现碳中和目标的兜底技术,但在CO2地质封存过程中,安全性和有效性风险需要得到持续的监测。马建华等[24]认为,物联网在线监测技术可以较好地契合地质封存场地的监测需求,提出底层传感技术的设计思路,分析传感器选择和传感器节点部署的依据,建立了地质封存场地的物联网在线监测系统。杨慧等[25]面向新疆维吾尔自治区的能源资源开发现状,以准噶尔盆地、吐哈盆地和塔里木盆地为研究区,采集并分析了研究区轨道碳观测卫星和物联网CO2监测数据,分析研究区大气碳浓度的时间变化趋势和空间分布格局,构建深度森林回归模型分析各影响因素对碳浓度时空变化的驱动作用。研究结果显示,研究区XCO2浓度在2015—2021年均呈周期性上升趋势,增长率呈“先减后增”,且季节变化趋势呈现出明显的“春季高冬季低”;在春、秋和冬季新疆XCO2浓度空间格局呈现出“北高南低”的趋势,在盆地区域及能源资源开发区域出现XCO2高浓度积聚的现象,夏季则呈现“北低南高”趋势。地形起伏、风场流速、NDVI、地表温度、降水量等影响因素和能源开发强度对区域XCO2浓度时空分布有显著影响,各因素呈现出明显的空间异质性和显著差异。

8 结论

大数据思维方式和人工智能是应对大数据超常增长、开展大数据信息提取的最重要选项,而人工智能的核心是使计算机具有智能的根本途径。大数据和人工智能在地球科学研究中应用是不可回避的重大前沿课题。目前,人工智能与大数据地球科学的研究无论从广度还是从深度来看,都有巨大的发展空间,可以说,它面临着前所未有的挑战与机遇。

本专辑发表的16篇论文,从知识图谱、基于深度学习的图像识别、非结构化地质信息的机器可读表达、图形大数据与社区发现、关联规则算法、三维地质模拟与成矿预测、物联网与在线监测系统等不同侧面,严肃、认真地探索,提供了极其有价值的应用场景和研究案例,是人工智能与大数据地球科学领域最新研究进展的一部分,希望对同行同业研究有所启发,以共同拥抱大数据和人工智能时代。

参考文献

[1]

周永章, 张良均, 张奥多, 地球科学大数据挖掘与机器学习[M]. 广州: 中山大学出版社, 2018: 1-269.

[2]

翟明国. 大数据定将改变地质: 向读者推荐《地球科学大数据挖掘与机器学习》[J]. 矿物岩石地球化学通报, 2018, 37(6): 1209.

[3]

周永章, 张前龙, 黄永健, 钦杭成矿带斑岩铜矿知识图谱构建及应用展望[J]. 地学前缘, 2021, 28(3): 67-75.

[4]

周永章, 陈川, 张旗, 地质大数据分析的若干工具与应用[J]. 大地构造与成矿学, 2020, 44(2): 173-182.

[5]

韩枫. 城市土壤污染的知识图谱构建与应用研究[D]. 广州: 中山大学, 2023: 228.

[6]

张前龙, 周永章, 郭兰萱, 找矿知识图谱的智能化应用: 以钦杭成矿带斑岩铜矿为例[J]. 地学前缘, 2024, 31(4): 7-15.

[7]

王成彬, 王明果, 王博, 融合知识图谱的矿产资源定量预测[J]. 地学前缘, 2024, 31(4): 26-36.

[8]

叶育鑫, 刘家文, 曾婉馨, 基于本体指导的矿产知识图谱构建研究[J]. 地学前缘, 2024, 31(4): 16-25.

[9]

季晓慧, 董雨航, 杨中基, 基于知识图谱多跳推理的中文矿物知识问答方法与系统[J]. 地学前缘, 2024, 31(4): 37-46.

[10]

徐述腾. 基于深度学习的镜下矿石矿物图像自动识别与分类[D]. 广州: 中山大学, 2018: 44.

[11]

万成舟, 季晓慧, 杨眉, 基于渐进多粒度训练深度学习的矿物图像识别[J]. 地学前缘, 2024, 31(4): 112-118.

[12]

王琳, 季晓慧, 杨眉, 基于数据增强和集成学习的矿物图像识别[J]. 地学前缘, 2024, 31(4): 87-94.

[13]

刘烨, 韩雨伯, 朱文瑞. 矿物组分识别与智能解释在不同岩性之间的信息共享与迁移学习[J]. 地学前缘, 2024, 31(4): 95-111.

[14]

周永章, 左仁广, 刘刚, 数学地球科学跨越发展的十年: 大数据、人工智能算法正在改变地质学[J]. 矿物岩石地球化学通报, 2021, 40(3): 556-573.

[15]

王堃屹, 周永章. 粤西庞西垌地区非结构化地质信息机器可读表达与致矿异常区域智能预测[J]. 地学前缘, 2024, 31(4): 47-57.

[16]

朱彪彪, 曹伟, 虞鹏鹏, 基于CiteSpace的地质大数据与人工智能研究热点及前沿分析[J]. 地学前缘, 2024, 31(4): 73-86.

[17]

常力恒, 朱月琴, 张戈一, 面向矿产资源信息的空间关联性分析[J]. 岩石学报, 2018, 34(2): 314-318.

[18]

王堃屹, 周永章, 王俊, 推荐系统算法在钦杭成矿带南段文地幅矿床预测中的应用[J]. 地学前缘, 2019, 26(4): 131-137.

[19]

刘心怡, 周永章. 关联规则算法在粤西庞西垌地区元素异常组合研究中的应用[J]. 地学前缘, 2019, 26(4): 126-130.

[20]

曹胜桃, 胡瑞忠, 周永章, 基于大数据关联规则算法的卡林型金矿床元素富集规律及找矿方法研究[J]. 地学前缘, 2024, 31(4): 58-72.

[21]

袁峰, 李晓晖, 田卫东, 三维成矿预测关键问题[J]. 地学前缘, 2024, 31(4): 119-128.

[22]

牛露佳, 石成岳, 王占刚, 三维复杂地质结构模型的InterfaceGrid表达方法[J]. 地学前缘, 2024, 31(4): 129-138.

[23]

王汉雨, 周永章, 许娅婷, 基于微服务架构的城市土壤污染物联网监测及可视化系统研究[J]. 地学前缘, 2024, 31(4): 165-174.

[24]

马建华, 周永章, 刘金锋, 面向地质封存及其泄露风险评价的CO2物联网在线监测[J]. 地学前缘, 2024, 31(4): 139-146.

[25]

杨慧, 范怀伟, 徐晓, 能源资源开发区域碳浓度时空变化及影响因素分析[J]. 地学前缘, 2024, 31(4): 147-164.

基金资助

国家重点研发计划项目(2022YFF0801201)

国家自然科学基金联合基金重点项目(U1911202)

AI Summary AI Mindmap
PDF (640KB)

620

访问

0

被引

详细

导航
相关文章

AI思维导图

/