基于CiteSpace的地质大数据与人工智能研究热点及前沿分析

朱彪彪 ,  曹伟 ,  虞鹏鹏 ,  张前龙 ,  郭兰萱 ,  原桂强 ,  韩枫 ,  王汉雨 ,  周永章

地学前缘 ›› 2024, Vol. 31 ›› Issue (4) : 73 -86.

PDF (11073KB)
地学前缘 ›› 2024, Vol. 31 ›› Issue (4) : 73 -86. DOI: 10.13745/j.esf.sf.2024.5.10
大数据算法与图形大数据

基于CiteSpace的地质大数据与人工智能研究热点及前沿分析

作者信息 +

Research hotspots and cutting-edge analysis of geological big data and artificial intelligence based on CiteSpace

Author information +
文章历史 +
PDF (11338K)

摘要

为研究地质学领域的大数据和人工智能研究现状、热点和前沿,在中国知网(CNKI)核心期刊和Web of Science(WoS)核心数据库收集了2000—2022年相关中文文献3 600篇、英文文献1 803篇,利用社区结构分析软件CiteSpace,从合作作者、研究国家、研究机构、关键词聚类、关键词时空分布图谱等进行可视化分析,并统计了2021—2022年间,地质学领域国际顶级期刊(综合影响因子10以上)的文献进行前沿分析。分析结果表明,近10年内该研究领域全球累计发文量激增,以中国为代表的亚洲国家和以美国为代表的欧美国家研究为主,双方累计发文量相差不大,论文中介中心性欧美国家普遍较高。我国研究机构之间的交流合作居多,与国外的研究机构交流合作较少,国外研究机构则与之相反。该领域以应用机器学习类方法、知识图谱构建等,在地质灾害防治、地震解释、石油与天然气勘查、固体矿产资源预测等方向进行的科学研究为研究热点,以深度学习、集成学习、智能平台搭建等为手段的地球演化过程中的重大地质事件研究、全球性气候变化、极地及海洋地质研究、数字地质建模及定量分析、地震预报、地灾易发性精准评估等为研究前沿。

关键词

地质大数据 / 人工智能 / 知识图谱 / CiteSpace / 社区发现 / 可视化

Key words

geological big data / artificial intelligence / knowledge graph / CiteSpace / community discovery / visualization

引用本文

引用格式 ▾
朱彪彪,曹伟,虞鹏鹏,张前龙,郭兰萱,原桂强,韩枫,王汉雨,周永章. 基于CiteSpace的地质大数据与人工智能研究热点及前沿分析[J]. 地学前缘, 2024, 31(4): 73-86 DOI:10.13745/j.esf.sf.2024.5.10

登录浏览全文

4963

注册一个新账户 忘记密码

0 引言

传统的地质学研究主要以问题驱动为导向开展相关的野外地质调查、地质年代学、地球化学和地球物理等研究[1-3]。然而,尽管经历了上百年的发展,地质学中还有许多人类未知的问题等待探索,这是传统地质学研究范式难以完成的[4-6]。近年来,大数据与机器学习的崛起使地质学研究的范式产生转变,它不再以因果关系为必然前提[7-8],大数据与数学地球科学的跨越式发展,为解决地球科学问题提供了新思路[9-14]

大数据社区发现和知识图谱,属于大数据挖掘和人工智能的科学范畴[15-16]。作为大数据网络社区和社区结构发现的工具,CiteSpace软件广泛应用于特定领域文献计量分析和可视化呈现[17-18],在地质学领域该方法亦获得了应用[19-24]。但针对蓬勃发展的地质大数据与人工智能学科领域,基于CiteSpace的社区分析尚未开展。

为此,本文基于CNKI核心期刊和WoS核心数据库的学术论文文献,应用CiteSpace对地质大数据领域文献进行社区分析,给予可视化呈现,旨在通过对地质大数据与人工智能方向的研究现状、热点和前沿进行分析,为地质科技工作者提供参考。

1 数据处理

1.1 数据来源

本文所用数据来自CNKI核心期刊和WoS核心数据库,统计年份为2000—2022年,选择领域为地质学、地球化学、地球物理学、地质灾害与防治等地学相关领域,搜索与大数据和人工智能领域相关的学术期刊文献,并对检索到的文章进行人工筛选确保其相关性。累计获得CNKI中的SCI、EI、中文核心期刊、CSSCI、CSCD和AMI六大核心期刊文献共3 600篇,WoS核心数据库文献1 803篇,具体见表1

1.2 数据处理

将检索到的CNKI和WoS文献分别以Refworks和纯文本文件导出,命名为download_+序号。在对合作作者社区分析时,分别从作者的发文数量和作者被引两个维度进行了相关统计分析。在进行前沿分析时,考虑到国际顶级期刊的影响力、代表性和时效性,统计了这些期刊的近两年文献,以起到对科学前沿有更好的把控作用。

将在CNKI和WoS检索到的文献导入CiteSpace 6.2.R2,Time Slicing选择2000—2022,Year Per Slice选择1,Pruning选择Pathfinder、Pruning sliced networks。其余选项及参数都为默认认值。WoS文献在Node Types分别选择Author、Institution、Country、Keywords和Reference进行可视化,得到各类知识图谱;CNKI文献分析则选择Author、Institution、Country和Keywords进行可视化,得到各类知识图谱,并对相关重要的节点进行细化分析,以了解更为深层的信息。

2 结果分析

2.1 发文量统计分析及时间特征

一个领域的科研发展,能在学术论文数量的时间分布上体现出来。图1展示了CNKI和WoS发文量随时间变化的关系。从图中可以看出,我国对于地质大数据与人工智能的研究基本与世界同步,发展历程相似,2006年和2016年是两个明显的拐点。据此,地质大数据与人工智能的研究可以大致划分为3个时期。第一个时期为2000—2005年,这个阶段地质学领域对于大数据理论及方法的使用处于起步阶段,发文量普遍不高且趋势平缓。第二个时期为2006—2015年,这一阶段的发展总体处于较为波动状态,发文总量缓慢上升。2016年以来的第三个时期为蓬勃发展时期,发文量持续增高,并且一直到现在没有下降趋势,仅2022年一年CNKI数据库的累计发文量超过500篇。

可见,地质大数据与人工智能的研究在未来地质学研究中的分量将越来越重,有越来越多科研人员从事该领域的研究。

2.2 发文期刊分析

学术期刊一定程度上是文献质量的体现,也是对本文分析数据可靠性的反映。表2统计了WoS中收录量前10的期刊信息。数据显示,这些期刊上的文献数量占WoS总文献数的36%,发表在中国科学院分区地球科学2区以上的期刊占收录量前十位期刊的50%,文献数量占比20%,其中有44篇文献发表于地球科学1区Top期刊Economic Geology上。发表在ORE GEOLOGY REVIEWS上的文献最多,共计138篇,该期刊2022年影响因子3.71,在中科大分区中属于地球科学2区,其他期刊详细信息如表2所示。可见本次数据中的文章整体质量较高,分析结果具有一定的参考价值。

2.3 国际、国内研究分析

2.3.1 国际研究分析

图2展示了国家及地区的合作网络关系。从图2可以看出,该领域的研究可大致分为亚洲和欧美两大阵营。亚洲以中国、日本、伊朗、印度和澳大利亚(本为大洋洲,但离亚洲较近,算入亚洲)为代表,其中中国的发文量最多,达483篇,约占发文总量的27%。欧美以美国、法国、德国、西班牙、英国和加拿大为主要代表,其中美国发文量为424篇,约占发文总量的24%,仅次于中国。

数据显示,欧美国家的中介中心性较高,而亚洲国家则较低(图3节点外围的紫色圈层越宽,中介中心性越高)。中介中心为一个节点在网络中处于中枢位置,连接几个其他节点,起着枢纽的作用。中介中心性的数值越大,其在网络中的位置越重要[24],究其可能原因有两点:一是亚洲国家之间的学术交流没欧美国家之间紧密,可能是大多数留学生多往欧美留学,而在亚洲留学的较少;二是欧美国家在该领域的学术研究整体略早于亚洲国家,这导致一些理论、方法的借鉴或发展是以欧美国家的学术研究为参考的。

2.3.2 发文机构分析

(1)国际发文机构分析。对科研机构进行分析,有助于了解该研究领域的重点科研机构,可为学者选择合作交流机构提供指导[25]。通过对两数据库中统计到的发文机构进行可视化分析,从图3可以看出,国际上以中国地质大学、中国科学院、“UDICE-French Research Universities”(法国研究型大学)、“Centre National de la Recherche Scientifique (CNRS)”(法国国家科学研究中心)、“Helmholtz Association”(亥姆霍兹联合会)和“University of California System”(加州大学系统)等为主。其中,中国地质大学发文132篇,排名第一,其次是中国科学院,发文88篇,排名第二,其他研究高校的数据如表3所示。将图谱节点按照以中国地质大学的节点和“Centre National de la Recherche Scientifique (CNRS)”(法国国家科学研究中心)的节点聚类,左边为国内研究机构合作网络,右边为国际研究机构合作网络,中间为与国内和国外均有交流的网络团体(图3),由其结果可以看出,中国地质大学的合作机构大部分都是国内其他高校、研究所,而法国国家科学研究中心的合作机构大部分为其他国家的高校或研究院,这就导致其在国际上中心性较强,而中国地质大学和中国科学院在国内中心性强,这也启示国内的相关研究机构,要积极与国外的高校、研究院合作,以在国际上取得更为重要的学术地位。

(2)国内发文机构分析。图4展示的是国内研究机构合作关系网络,共有节点465个,关系线609条,节点颜色选择彩虹色(颜色越暖时间越新,下同)。从中可知,国内研究机构之间交流合作相对密切,以吉林大学地球探测科学与技术学院、中国地质调查局发展研究中心等为代表的这类研究机构节点颜色跨度大,可见其研究起步较早,而中山大学地球环境与地球资源研究中心等机构的研究与地质大数据蓬勃发展期基本同步,北京大学地球与空间科学学院、成都理工大学地球物理学院等是近几年在该领域研究较多的机构。

2.4 合作作者关系网络分析

2.4.1 从作者发文维度分析

了解一个研究领域的核心作者,有利于掌握该领域的研究热点和研究前沿。学术论文是体现学者学术水平的一个重要指标,表4展示了CNKI数据库作者发文数量。国内作者在该领域的研究中,发文10篇以上的共计20人,这里统计前15位,发文数量最多达25篇。从图5(节点和线条颜色随着时间由冷色变为暖色)可见,在国内该领域的研究以周永章、张旗团队和殷坤龙、黄发明团队为核心;WoS数据的作者合作网络如图6所示,以左仁广团队和Johnson与Paul团队等为核心,其中左仁广发文数量最多,达42篇。从文章发文数量上看,我国学者在该领域具有一定的优势,但从作者的合作关系网线数量及分布来看,国内(图7)除了目前较为核心的团队以外,其他作者分布较为散乱,没形成小型的合作团体。而国际(图8)上,除了核心团队,已有小型网络关系出现,这启示近年来国内该领域的学者要及时在同行之间交流合作,形成新生的科研力量。

2.4.2 从作者被引维度分析

了解一个研究领域的核心作者,除发表学术论文数量外,作者被引频次同样是一个重要参数。图7(节点和线条颜色随着时间由冷色变为暖色)展示了作者被引维度下WoS的作者互引关系网络,从图中可以看出,我国研究学者以左仁广等为中心形成了良好的被引关系网络。为进一步挖掘作者的核心程度,除了对CNKI和WoS上的论文被引次数进行了统计,还以文献共被引次数/发文量计算其被引率,结果分别如表45所示。表中可见,CNKI数据中殷坤龙文章累计被引量最多,为622次,以周永章文章被引率最高,达32.2;WoS数据中,文章共被引次数100次以上共5人,其中左仁广文章累计被引最高,达209次,文章被引率最高的是成秋明,被引率为24.8。

2.5 研究热点及研究前沿分析

2.5.1 关键词分析

关键词是对文献研究内容的高度概括,在一定程度上可以代表一篇文献的主要研究内容。网络节点的中心性是反映节点核心程度的重要指标之一[26],用CiteSpace对CNKI和WoS的数据进行关键词可视化分析,CNKI的关键词节点共458个,线条1 882条,WoS关键词节点共473个,网络线共2 439条,Node类型选择“Tree ring history”,颜色选择彩虹色(节点和线条颜色随着时间由冷色变为暖色)。从图89可见,地质大数据与人工智能方向的研究内容可分为3个阶段:第一个阶段是研究人工神经网络、遗传算法等,主要应用于地质灾害中的滑坡和泥石流监测、油气领域的储层预测、测井曲线识别和储层物性划分、地震研究方向的地震属性、地震相等研究,相对而言,此阶段的方法偏于传统,参与的数据量较小;第二个阶段是以研究机器学习、随机森林和支持向量机为重点,主要用于岩石力学、岩性识别、图像和其他分类任务等方向;第三个阶段是以深度学习、迁移学习、集成学习和语义分割为主,主要用于地质图像处理、矿物识别、智能识别和地灾易发性评估等。结合图10,可以看到各个关键词出现演进的历程,关键词有大数据、神经网络、滑坡、深度学习、测井解释、预测和地震预测等7个聚类,可以发现神经网络的搭建从始至终一直都是研究重点,这表明算法和各类神经网络在地质大数据发展过程中不断地更新,而机器学习、深度学习、大数据挖掘和随机森林等是目前乃至未来的一些热点研究方法,地质灾害、岩性识别、岩石力学、地震预测、测井解释和知识图谱等为热点研究方向。

图11图12是CNKI和WoS的关键词突现图谱,结合图10节点颜色变更情况,能更好地看出一个领域的研究前沿。研究前沿不同于研究热点,它是一组凸显的动态概念和潜在的研究问题,研究前沿术语出现频次快速增加的专业术语[27]。由此可以发现,以机器学习、深度学习、迁移学习、集成学习、语义分割、图像分割、数据库、智能平台搭建、“earthquake prediction”、“geochemical data”和“diagrams”为核心的科学问题成为地质大数据与人工智能方向的部分研究前沿。

2.5.2 顶刊文献分析

研究一个领域的科学前沿,除了关键词演进和突变分析,领域内国际顶级期刊上的文章研究内容同样至关重要。本文在前述分析的基础上,统计了近两年发表在综合影响因子10以上的期刊上的文献(具体数目见表6),其中Chen等[28]利用机器学习重建了全球氧合历史,Ghorbanzadeh等[29]利用U-net和ResU-Net研究高精度滑坡检测,Rouet-Leduc等[30]应用深度学习对InSAR时间序列毫米尺度形变实现自动提取,Li等[31]用有监督的机器学习方法对南极沉积盆地进行了分类。再对这些文献的关键词进行分析,如图13所示,图片中的节点时间演化由早到晚表示为颜色从紫色到红色。结果发现:采用机器学习类方法,在这些顶级期刊文献中,地质学数据集处理、全球性地质大事件分析、全球气候变化、地质建模、断层变形识别、地震预报和滑坡精准预测等涉及较多。

3 结论

本文收集了2000—2022年间CNKI和WoS两大数据库中与地质大数据与人工智能相关的文献,从CiteSpace社区发现的角度,进行相关分析,获得了有意义的结果。

(1)地质大数据与人工智能方向的研究目前主要以中国为代表的亚洲国家和以美国为代表的欧美国家为主,双方累计发文量相差不大,文章中介中心性欧美国家普遍较高。

(2)研究机构主要为国内外著名高校和研究所,国内以中国地质大学为代表的研究机构与国内研究机构之间的交流合作居多,与国外的研究机构交流合作较少;国外以法国国家科学研究中心为代表的研究机构则与之相反。

(3)地质大数据领域与人工智能领域的研究热点有人工神经网络、遗传算法、深度学习等常见机器学习算法,研究方向聚焦在地质灾害防治、地震解释、石油与天然气勘探和固体矿产资源预测等方面。

(4)研究前沿以深度学习、迁移学习、卷积神经网络、集成学习和智能平台搭建等为手段,涉及重大地质事件分析、全球气候变化、数字地质建模及定量分析、地震预报和地灾易发性精准评估等。

从本研究来看,大数据与人工智能和地质学的交叉还处于发展阶段,在地学领域拟解决的问题越发广泛,但是总体上还处于用不同的大数据与人工智能领域的方法来解决同一问题、类似问题、旧问题的研究阶段,比如在智能识别任务上,很多研究致力于搭建出对于该任务更为准确的网络,而不是更普适、多应用场景的网络,因此当应用场景更换以后,网络结构可能存在不能直接使用的现象。数字地质学应是一门有独立的方法论、独立的行业标准来推动解决新问题,发现传统地质发现不了的新规律的学科,而不只是用计算机领域的方法来处理数据、得出结论的工具,这也是我们国内的数字地质专家和学者把国内研究带到世界前列的努力方向。

参考文献

[1]

CAWOOD P A, CHOWDHURY P, MULDER J A, et al. Secular evolution of continents and the earth system[J]. Reviews of Geophysics, 2022, 60(4): e2022RG000789.

[2]

WALTER L P. Economic geology, principles and practice: metals, minerals, coal and hydrocarbons-introduction to formation and sustainable exploitation of mineral deposits[J]. Mineralogy and Petrology, 2021, 115(4): 487-488.

[3]

董树文, 陈宣华, 史静, 20世纪地质科学学科体系的发展与演变: 根据地质论文统计分析[J]. 地质论评, 2005, 51(3): 275-287, 354.

[4]

万渝生. 最古老陆壳是如何形成的?[J]. 地球科学, 2022, 47(10): 3776-3778.

[5]

ZHU R X, HOU Z Q, GUO Z T, et al. Summary of “the past, present and future of the habitable Earth: development strategy of Earth science”[J]. Chinese Science Bulletin, 2021, 66(35): 4485-4490.

[6]

成秋明. 什么是数学地球科学及其前沿领域?[J]. 地学前缘, 2021, 28(3): 6-25.

[7]

张旗, 焦守涛, 卢欣祥. 论地质研究中的因果关系和相关关系: 大数据研究的启示[J]. 岩石学报, 2018, 34(2): 275-280.

[8]

罗建民, 张旗. 大数据开创地学研究新途径: 查明相关关系, 增强研究可行性[J]. 地学前缘, 2019, 26(4): 6-12.

[9]

周永章, 张良均, 张奥多, 地球科学大数据挖掘与机器学习[M]. 广州: 中山大学出版社, 2018.

[10]

周永章, 左仁广, 刘刚, 数学地球科学跨越发展的十年:大数据、人工智能算法正在改变地质学[J]. 矿物岩石地球化学通报, 2021, 40(3): 556-573, 777.

[11]

李灿锋, 刘达, 周德坤, 人工智能在地质领域的应用与展望[J]. 矿物岩石地球化学通报, 2022, 41(3): 668-677.

[12]

翟明国, 杨树锋, 陈宁华, 大数据时代: 地质学的挑战与机遇[J]. 中国科学院院刊, 2018, 33(8): 825-831.

[13]

左仁广, 彭勇, 李童, 基于深度学习的地质找矿大数据挖掘与集成的挑战[J]. 地球科学, 2021, 46(1): 350-358.

[14]

周永章, 陈川, 张旗, 地质大数据分析的若干工具与应用[J]. 大地构造与成矿学, 2020, 44(2): 173-182.

[15]

HAN F, DENG Y R, LIU Q Y, et al. Construction and application of the knowledge graph method in management of soil pollution in contaminated sites:a case study in South China[J]. Journal of Environmental Management, 2022, 319: 115685.

[16]

周成虎, 王华, 王成善, 大数据时代的地学知识图谱研究[J]. 中国科学: 地球科学, 2021, 51(7): 1070-1079.

[17]

CHEN C M. CiteSpace II: detecting and visualizing emerging trends and transient patterns in scientific literature[J]. Journal of the American Society for Information Science and Technology, 2006, 57(3): 359-377.

[18]

LIU X C, ZHAO S, TAN L L, et al. Frontier and hot topics in electrochemiluminescence sensing technology based on CiteSpace bibliometric analysis[J]. Biosensors and Bioelectronics, 2022, 201: 113932.

[19]

ZUO Z L, CHENG J H, GUO H X, et al. Knowledge mapping of research on strategic mineral resource security:a visual analysis using CiteSpace[J]. Resources Policy, 2021, 74: 102372.

[20]

CHEN W W, XING J H. Global research on submarine landslides, 2001-2020[J]. Frontiers in Earth Science, 2023, 11: 982482.

[21]

郭永丽, 章程, 吴庆, 基于文献计量学分析岩溶水文地质学研究热点[J]. 中国岩溶, 2020, 39(6): 817-828.

[22]

王广才, 王焰新, 刘菲, 基于文献计量学分析水文地球化学研究进展及趋势[J]. 地学前缘, 2022, 29(3): 25-36.

[23]

刘娅楠, 刘森, 贾超, 基于文献计量学的深远海地质研究分析与展望[J]. 海洋地质前沿, 2021, 37(12): 88-95.

[24]

贺炬翔, 张前龙, 许娅婷, 钦杭成矿带研究进展: 基于CiteSpace社区发现结果分析[J]. 地质论评, 2023, 69(5): 1919-1927.

[25]

盛强, 郑建明, 刘江山, 基于CiteSpace的内表面缺陷检测研究进展与趋势[J]. 光谱学与光谱分析, 2023, 43(1): 9-15.

[26]

任利强, 郭强, 王海鹏, 基于CiteSpace的人工智能文献大数据可视化分析[J]. 计算机系统应用, 2018, 27(6): 18-26.

[27]

陈悦, 陈超美, 刘则渊, CiteSpace知识图谱的方法论功能[J]. 科学学研究, 2015, 33(2): 242-253.

[28]

CHEN G X, CHENG Q M, LYONS T W, et al. Reconstructing Earth’s atmospheric oxygenation history using machine learning[J]. Nature Communications, 2022, 13(1): 5862.

[29]

GHORBANZADEH O, CRIVELLARI A, GHAMISI P, et al. A comprehensive transferability evaluation of U-Net and ResU-Net for landslide detection from Sentinel-2 data (case study areas from Taiwan, China, and Japan)[J]. Scientific Reports, 2021, 11(1): 14629.

[30]

ROUET-LEDUC B, JOLIVET R, DALAISON M, et al. Autonomous extraction of millimeter-scale deformation in InSAR time series using deep learning[J]. Nature Communications, 2021, 12: 6480.

[31]

LI L, AITKEN A R A, LINDSAY M D, et al. Sedimentary basins reduce stability of Antarctic ice streams through groundwater feedbacks[J]. Nature Geoscience, 2022, 15: 645-650.

基金资助

国家重点研发计划项目(2022YFF0801201)

广东省重点领域研发计划项目(2020B1111370001)

国家自然科学基金联合基金项目(U1911202)

广东省引进人才创新创业团队项目(2021ZT09H399)

广东省自然科学基金青年提升项目(2024A1515030216)

AI Summary AI Mindmap
PDF (11073KB)

294

访问

0

被引

详细

导航
相关文章

AI思维导图

/