融合知识图谱与大语言模型的地学知识抽取与信息挖掘:以卡林型金矿为例

刘国庆 ,  陈国雄

地球科学 ›› 2026, Vol. 51 ›› Issue (03) : 1009 -1024.

PDF (7981KB)
地球科学 ›› 2026, Vol. 51 ›› Issue (03) : 1009 -1024. DOI: 10.3799/dqkx.2026.036

融合知识图谱与大语言模型的地学知识抽取与信息挖掘:以卡林型金矿为例

作者信息 +

Geological Knowledge Extraction and Information Mining via the Fusion of Knowledge Graphs and LLMs: A Case Study of Carlin-Type Gold Deposits

Author information +
文章历史 +
PDF (8172K)

摘要

针对地质勘查领域海量非结构化数据难以被有效利用以及通用大模型存在“事实幻觉”与专业逻辑匮乏等问题,本文提出了一种融合知识图谱(KG)与检索增强生成(RAG)的垂直领域智能知识挖掘框架,并以中国黔西南与美国内华达地区的卡林型金矿成矿规律总结和对比研究为例进行了验证.首先,构建了基于本地化部署DeepSeek-32B的RAG智能问答系统,通过向量检索与生成式阅读理解,实现了专业知识的精准溯源与高可信问答.其次,利用大模型监督微调(SFT)技术,从数百份多源异构地质资料中高效构建了系统涵盖地层构造、蚀变矿物及控矿要素的跨区域成矿知识图谱.实验结果表明,该系统在客观准确性上显著优于GPT-4o,在主观生成上具备高忠实度与完全可溯源性,有效解决了幻觉问题.基于图谱拓扑学的分析不仅定量揭示了两地成矿的宏观异同,还量化了从矿石实体、蚀变组合到地球化学元素异常的级联指示路径,证实了其发现隐性找矿线索的能力.该研究实现了从非结构化文本到结构化知识的智能转化与深度挖掘,为解决地学领域“海量数据、知识饥饿”困境提供了新的技术路径.

Abstract

To address the challenges in effectively utilizing massive unstructured data within geological exploration and the issues of hallucination and lack of specialized logic in general Large Language Models (LLMs), we propose an intelligent knowledge mining framework for vertical domains by integrating Knowledge Graph (KG) and Retrieval-Augmented Generation (RAG). This framework is validated through a comparison case study of Carlin-type gold deposits in the Southwest Guizhou, China, and in Nevada, USA. Firstly, a RAG-based intelligent question-answering system was constructed using a locally deployed DeepSeek-32B model. Through vector retrieval and generative reading comprehension, the system achieved precise traceability of professional knowledge and highly reliable Question & Answer (Q&A). Secondly, leveraging Supervised Fine-Tuning (SFT) techniques on the LLM, we developed a cross-regional metallogenic knowledge graph systematically covering stratigraphy, structure, alteration minerals, and ore-controlling factors based on hundreds of multi-sources, and heterogeneous geological documents. The results demonstrate that the proposed system significantly outperforms GPT-4o in terms of objective accuracy. For subjective content generation, it exhibits high faithfulness, full traceability and effectively mitigate the hallucination. Analyses based on graph topology not only quantitatively reveal the macroscopic similarities and differences of Au mineralization between the two regions but also quantify the cascading indicative pathways⁃from orebody entities and alteration assemblages to geochemical element anomalies, confirming the system’s capability to discover implicit clues for mineral exploration. This study realizes the intelligent transformation and in-depth mining of knowledge from unstructured text to structured representations, offering a novel technical pathway to address the dilemma of "data-rich yet knowledge-poor" prevalent in the geoscience domain.

Graphical abstract

关键词

卡林型金矿 / 大语言模型 / 知识图谱 / 检索增强生成 / 知识抽取.

Key words

Carlin⁃type gold deposit / large language model / knowledge graph / retrieval⁃augmented generation / knowledge extraction

引用本文

引用格式 ▾
刘国庆,陈国雄. 融合知识图谱与大语言模型的地学知识抽取与信息挖掘:以卡林型金矿为例[J]. 地球科学, 2026, 51(03): 1009-1024 DOI:10.3799/dqkx.2026.036

登录浏览全文

4963

注册一个新账户 忘记密码

0 引言

以大数据与人工智能为代表的信息技术迅速迭代,正驱动当前科学研究范式发生深刻变革.地质学作为典型的数据密集型科学,地学数据的收集、更新、维护以及有效挖掘与分析已成为该领域关注和研究的热点(赵鹏大, 2019; 周永章等, 2021a).然而,地质学家长期积累的宝贵经验与智慧,大量以非结构化形态沉淀于文献、报告和图件之中,导致了“海量数据、知识饥饿”等困境(成秋明, 2025).面对这一困境,目前获取知识的主要途径仍高度依赖于对海量文献的手动梳理与查阅.传统信息检索方法高度依赖关键词匹配,其在语义覆盖、推理能力及结果可解释性方面的固有缺陷,使其难以从复杂语料中自动提炼关键知识、识别隐含关系并进行逻辑推演,无法满足当前对精准知识挖掘与智能推理日益增长的需要(周永章等, 2021b; 董宇浩等, 2025; 冯婷婷等, 2025).

与此同时,大语言模型(Large Language Models, LLMs)在语义理解、文本生成与智能问答等方面展现出了卓越能力,并正加速渗透至金融、医疗、法律等专业领域(Raiaan et al., 2024).相关研究已开始探索LLMs在地学知识理解与问题解决中的应用潜力(Hu et al., 2023Zhang et al., 2024).尽管如此,在面对地质勘查与矿产资源研究等高度专业化的应用场景时,通用大语言模型仍面临严峻挑战.一方面,地质领域知识体系结构复杂、术语系统庞大且高度异构,通用模型难以准确解析专业概念及其层级关系;另一方面,由于缺乏面向特定任务的深层地质逻辑推理能力,模型生成内容常出现“事实幻觉”、语义漂移及逻辑跳跃等问题,难以满足精细化知识获取与深层次智能问答的实际需求(师路易和左仁广,2026; 张宝一等,2026).

为弥补通用模型在专业性、时效性以及可靠性等方面的局限,检索增强生成(Retrieval⁃Augmented Generation, RAG)技术为构建高效、可信的领域知识服务系统提供了新途径(Lewis et al., 2020).RAG框架通过将外部知识库与语言生成模块动态融合,显著提升了模型对上下文信息的整合与利用能力,有效缓解了“模型幻觉”现象.然而,RAG框架主要依赖向量空间的隐式语义匹配,通常局限于碎片化的文本片段获取,难以捕捉地质实体间跨文档的复杂关联.知识图谱(Knowledge Graph, KG)作为一种结构化的语义网络,能够以“实体‒关系‒实体”的形式清晰表达领域概念及其复杂的内在联系,是实现海量数据深度挖掘与宏观成矿规律总结的关键工具(Ma, 2022; 张宝一等,2026).在地学领域,融合知识图谱的智能系统已取得初步进展.例如,Fu et al.(2025)开发的GeoMinLM系统,通过整合专家知识图谱减少了模型幻觉,提升了矿产勘探问答的专业性;李博文等(2025)围绕地质领域复杂语义知识的组织与检索需求,基于GraphRAG和LLMs,构建了一个面向胶东金矿的智能搜索系统.

然而,构建高质量的知识图谱依赖于高效的知识抽取(Knowledge Extraction, KE)技术(邱芹军等,2025).KE技术已从早期的规则与统计方法,发展到以BERT⁃BiLSTM⁃CRF为代表的深度学习模型;但传统深度学习方法对高质量标注数据依赖性强,泛化能力弱,且在处理复杂关系时能力受限(彭晶晶和林锴, 2024; 王成彬等, 2024; 冯婷婷等,2025).近年来,大语言模型(LLMs)在处理海量非结构化文本及地学知识抽取方面引起了广泛关注,展现出显著的应用潜力(Sutanto et al., 2024),但通用模型在零样本或少样本条件下,往往难以严格遵循复杂的地质图谱模式定义,常出现实体类型混淆或输出格式不规范等问题(Li et al., 2023Zhang et al., 2025).鉴于此,监督微调(Supervised Fine⁃Tuning, SFT)技术成为了破解这一瓶颈的关键.SFT 能够通过少量高质量的指令数据,将地质专家的抽取逻辑“注入”模型参数中,使其在保持通用语义理解能力的同时,具备了严格的指令遵循与结构化输出能力,从而为快速、低成本地构建高精度领域知识图谱提供了新的范式(Yang et al., 2025Zhao et al., 2025).

卡林型金矿是全球最重要的金矿类型之一,尤以美国内华达地区和中国右江盆地最为典型(谭仕敏等, 2007;谢卓君等, 2019).这两大矿集区在地质特征上表现出显著的相似性(图1),例如金均以晶格金形式赋存于含砷黄铁矿中,且矿床位于大陆地壳边缘的造山后伸展环境,受控于背斜、单斜及伸展断层构造(Wang and Groves, 2018).然而,中国右江盆地卡林型金矿的分类与成因至今仍存在广泛争议:部分学者认为其属于典型的“卡林型(Carlin⁃type)”,而另一部分观点则将其归为“类卡林型(Carlin⁃like)”甚至“造山型(Orogenic)”金矿(Deng and Wang, 2016Pi et al., 2017).这些分类上的争议,本质上源于对成矿流体来源(大气降水、岩浆水或变质水)及成矿物理化学环境认识的显著分歧(Hu et al., 2017Goldfarb et al., 2019).要厘清这些争议,必须采用多尺度的对比分析方法,从矿集区尺度到矿床尺度对中美两大矿集区进行系统对比.然而,针对跨尺度对比这一挑战,现有的解决方案往往局限于定性描述,难以从海量混杂信息中系统识别出能够有效区分不同矿床亚类的关键判别指标.此外,支撑这种对比的海量地质数据,目前正面临着严重的知识壁垒,现有的研究体系仍呈现出高度的碎片化特征.一方面,核心研究成果被割裂在中英文不同的语言体系与数据库中,缺乏统一的语义标准与共享平台;另一方面,目前的研究正处于从现象描述向系统建模与智能预测跨越的转型期(Cao et al., 2026).传统的人工文献梳理已无法满足对海量、多源、跨语言数据的深度挖掘需求,因此亟须构建一种结合大语言模型与知识图谱的新型智能系统,在统一的语义框架下对中美两大矿集区的信息进行结构化重组与推理.

鉴于此,本文拟结合大语言模型与知识图谱技术,旨在构建一个面向跨区域卡林型金矿领域的智能知识挖掘系统,为矿产勘查领域的信息智能化提供新的理论基础和技术实现路径.本文的主要研究内容包括:(1)构建一个高性能、高安全性的本地化垂直领域大语言模型,以满足专业地学问答的需求;(2)论证并采用基于大语言模型微调(SFT)的知识抽取方法,构建首个覆盖中国黔西南‒美国内华达两大矿集区的卡林型金矿知识图谱;(3)依托该知识图谱开展多维度的智能挖掘,对比分析两大矿集区的成矿规律异同,并探索图谱中隐藏的知识关联.

1 研究方法

由于地质勘查数据中文本描述多、实体关系复杂,通用大模型容易产生幻觉且缺乏专业逻辑,而知识图谱虽然结构清晰,但难以覆盖非结构化的语义细节;为此,本文提出了一种融合大语言模型与知识图谱的“双驱动”知识抽取与信息挖掘架构(图2).

该架构主要通过以下两种方式实现技术融合:(1)构建阶段,利用经指令微调(SFT)的垂直领域大模型作为实体和关系的抽取工具,来解决地质非结构化文本向知识图谱转化的难题.(2)应用阶段,建立基于RAG和KG“显隐互补”的协同挖掘模式;其中,RAG模块主要负责处理“隐性知识”,通过向量检索保留文献中的具体描述和上下文(如具体的蚀变特征描述),解决精准问答与溯源的问题;KG模块主要负责处理“显性知识”,通过结构化网络揭示地质实体间的关联路径(如成矿要素的共生组合),解决规律分析的问题.两者结合能够实现从单一知识点的查询到复杂成矿规律的挖掘.

1.1 垂直领域大语言模型构建

为充分利用非结构化文献中的专家知识,并构建针对特定地质场景的专业问答系统,本研究选择本地化部署大语言模型方案.其必要性主要体现在:(1) 领域适配与系统可控性:本地化部署允许针对地质领域特有的多源异构数据(如各类公开地质报告、图件描述等)进行深度的参数微调与系统集成,避免了通用云端模型在处理特定专业语境时的局限性;(2)成本优化:高频专业使用场景下,本地部署的边际成本低于按次计费的云API.具体流程如下:

首先,针对黔西南卡林型金矿这一核心研究对象,从非结构化语料库中(详见1.2.1节)优选了近200余篇高质量核心学术文献,并利用PDFMiner等工具进行格式转换,构建了一个高质量、领域专注的本地专业知识库;之后在RTX 4090D×2的算力支持下,采用RAGFlow框架,该框架整合了文本解析、知识库构建、向量嵌入、大模型生成等多个环节;选用Qwen3⁃Embedding⁃8B作为高性能向量化模型,负责将知识库文本精准地转换为向量表示;采用DeepSeek⁃R1⁃Distill⁃Qwen⁃32B作为生成式大模型,通过Ollama框架进行本地化部署.构建了离线问答系统,整个系统在完全离线的环境中运行,用户输入专业问题后,系统首先将问题向量化,并在向量知识库中检索最相关的文本片段,然后将这些片段作为上下文与原始问题一同送入生成式大模型,最终生成精准、可靠且附带参考文献来源的回答,确保了知识的准确性和可追溯性.

1.2 跨区域知识图谱构建

为系统性地整合与对比全球两大代表性卡林型金矿集区的成矿规律,本文设计并实现了一套完整的跨区域知识图谱构建工作流程.该流程包括语料库构建、本体设计、知识抽取与图数据库存储四个核心阶段.

1.2.1 非结构化语料库构建

知识图谱的数据基础源于海量的非结构化文献.本文首先进行了系统性的文献搜集,共搜集整理了涵盖中国黔西南与美国内华达两个地区的学术论文、可公开获取的地质报告及专著等405份关键资料.为构建标准化的非结构化语料库,本文对这批多源异构的资料进行了严格的预处理.首先,利用光学字符识别(OCR)技术处理扫描版报告与图件,将其转换为可编辑的文本格式;随后,通过文本提取与格式转换脚本,对所有文档进行统一的格式化清洗,去除无关信息(如目录索引、页眉、页脚、参考文献列表及乱码符号等),并规范化文本结构.这一流程确保了后续知识抽取所需语料的纯净度与规范性.

1.2.2 地学本体层设计

本体层是知识图谱的模式层,它定义了知识的组织结构和语义规则.为确保图谱的专业性和可扩展性,本文基于《矿床学》等教科书,并结合卡林型金矿的领域特点,自顶向下地设计了地学本体层架构(图3).该架构共定义了9个核心实体类型,包括宏观的“构造单元”、“赋矿地层”,以及微观的“蚀变矿物”、“矿石矿物”等.同时,为描述实体间的复杂地质联系,设计了12个关键关系类型,如“位于”(空间关系)、“产于”(赋存关系)、“受...控制”(因果关系)和“包含”(组成关系)等.这套本体架构为后续的结构化知识抽取提供了清晰的框架和语义约束.

1.2.3 基于模型微调的知识抽取

知识抽取是图谱构建的核心技术环节,其技术路线的选择直接影响数据质量与构建效率.本文在模型选择阶段,对主流方案进行了系统性评估.以BERT⁃BiLSTM⁃CRF为代表的传统深度学习方案,虽在命名实体识别(NER)任务上表现成熟,但存在两个难以克服的局限;其一,标注成本高昂,模型严重依赖海量的字词级(Token⁃level)精细标注(如BIO体系),耗时费力;其二,跨语言迁移与对齐能力不足,传统模型缺乏统一的语义表征能力,不仅要求针对中英文文献分别构建训练集并进行独立标注,且不同语言模型抽取出的实体与关系难以在同一语义空间下实现高效的对齐与融合,限制了图谱构建的整体连贯性(Yang et al., 2025; Zhao et al., 2025).

鉴于传统方案的局限性,本文转向基于大语言模型的抽取路径.本文首先评估了未微调的基座大模型(如Qwen2.5⁃7B (Base)),如后续性能评估(图4)所示,基座模型在零样本条件下无法准确理解地质领域的特定抽取指令,表现为输出格式混乱、关键信息遗漏,F1值极低.与此相对,基于大模型指令微调(SFT)的方案展现出显著的综合优势(Zhang and Soh, 2024).该方案的数据构建成本相对可控,仅需构建“指令‒答案”(Q&A)样本,远低于全量token级标注的成本(Jiang et al., 2024Tian et al., 2024).更重要的是,SFT赋予了模型卓越的任务灵活性,使其能够精确理解指令并严格按照预定义的JSON格式输出结构化结果,高度契合了知识图谱构建的技术需求.因此,综合考量数据成本、模型灵活性与抽取性能,本文最终确定采用指令微调(SFT)作为知识抽取的技术路线.

首先,基于设计的本体层,利用Easydataset工具从语料库中人工构建一个包含1 126对高质量“指令‒问题‒答案”(Q&A)的微调数据集.该数据集(示例如图5所示)旨在覆盖所有预定义的实体与关系类型.接着,选用Qwen2.5⁃7B为基座模型,并利用LLaMA⁃Factory框架与上述1 126条Q&A数据对模型进行指令微调.此过程旨在使模型能精准理解地质专业术语并严格执行结构化抽取任务. 为定量评估SFT的有效性,本文从语料库中预留10%的文献作为测试集并进行人工标注.如图4所示,微调后的Qwen2.5⁃7B模型的抽取性能相较于基座模型取得了显著提升.最后,在性能验证后的SFT模型基础上,结合提示词工程,对全部405份预处理文献进行逐段自动化抽取,最终获取了“实体‒关系‒实体”三元组知识.

1.2.4 图数据库存储与可视化

自动化抽取的原始三元组数据(超过一万条)不可避免地存在冗余、歧义和不一致问题.为此,本文设计了一套清洗、消歧和合并的后处理程序,例如将“普安‒马场断裂”与“普马断裂”等不同表述合并为同一规范化实体.还特别处理了中英双语信息;例如,对于地层、断层、元素等核心地质术语,系统以中文为基准进行归一化;对于同时包含英文名称的实体(如来自美国内华达地区的文献),则将英文名称作为实体的别名或属性一并保留,以确保跨语言检索的准确性.经过处理后,最终成功构建了包含6 221个核心实体和11 779个有效关系的中国黔西南‒美国内华达卡林型金矿知识图谱(表1图6).为实现图谱的有效管理和应用,本文将所有结构化数据存入Neo4j图数据库中,并利用自研改进的SmartKG知识图谱管理平台,实现了图谱的可视化管理、多跳查询和智能检索.用户可通过该平台,直观地浏览两大矿集区的知识全貌,并进行深度的挖掘分析.

1.3 知识图谱挖掘与分析算法

1.3.1 矿床社区发现聚类算法

为了定量揭示不同矿床在成矿要素上的内在关联与聚类模式,本文基于构建的知识图谱拓扑结构,采用层次聚类算法对典型矿床进行了社区发现分析.具体的研究方法如下:

本文将知识图谱中的每一个实体视为独立节点,利用Jaccard相似系数作为衡量矿床间地质特征相似性的核心指标.Jaccard系数通过计算两个矿床节点在图谱中共享邻居节点(如共有的赋矿地层、控矿构造、围岩蚀变或矿石矿物等)的比例,客观量化了它们在地质成因与特征上的重叠程度.计算公式为:

          J(A,B)=|N(A)N(B)||N(A)N(B)|

其中,NA)和NB)分别代表矿床 A 和矿床 B在图谱中的邻居节点集合.

在此基础上,构建距离矩阵(Distance=1-J),并采用平均连接法进行自底向上的聚合聚类,最终生成矿床相似性谱系图.这种基于知识和数据驱动的方法能够自动识别出具有高度相似成矿特征的矿床组合(亚类),从而在宏观上揭示潜在的成矿系列划分与成因联系.

1.3.2 成矿关联指示强度计算

为了定量刻画不同地质要素间的指示强弱,本文基于图谱拓扑统计学定义了“关联指示强度”(Association Indicator Strength, AIS).假设知识图谱三元组集合为T,对于级联路径中的任意上游实体ei(如“烂泥沟金矿”)与下游实体ej(如“黄铁矿化”),其关联强度 Wi,j被定义为该关系在多源语料库中的共现频次:

          W(ei,ej)=tTδ(t=ei,r,ej)

其中,δ为判别函数,当三元组 t 匹配当前的头尾实体对时取值为1,否则为0.值得注意的是,基于文献挖掘的共现频次虽然并不直接等同于成矿物理化学过程中的作用强度或元素的富集程度,但它客观量化了地质学家在长期勘查实践中形成的专家共识与经验权重.在地质记录中,高频出现的共生组合往往对应着那些具有高辨识度且在区域上广泛发育的地质特征.因此,本文定义的“关联强度”实质上表征了特定地质要素在现有知识体系中作为找矿线索的统计显著性与可信度.在此基础上,为了量化特定地球化学元素异常(echem)在成矿系统中的显著性,本文进一步定义了该元素的“累积指示权重”(Cumulative Indicator Weight, CIW),即所有指向该元素的上游蚀变组合路径权重的总和:

          CIW(echem)=mSaltW(em,echem)

其中,Salt 为与该元素相连的蚀变矿物节点集合.

2 垂直领域大模型性能评估

为全面、客观地评估所构建的本地化垂直领域智能问答系统在矿产勘查领域的实际应用效能,本文设计了“判别式‒生成式”双重评测基准.该基准包含基于标准化试题的客观知识评测和基于开放式问答的主观生成质量评测,旨在从知识准确性、逻辑连贯性及来源可靠性等多个维度,对比分析本系统与主流通用大模型(LLMs)及未增强基座模型的性能差异.

2.1 客观题问答效果评估

客观评测旨在量化模型对地质专业事实性知识的掌握程度.本文基于权威文献和专著,设计了包含200道关于卡林型金矿专业知识的单选题(图7),涵盖了5个方面:区域成矿地质背景、矿床系列及其地质特征、区域成矿系统的基本要素、区域成矿系统的控矿因素、区域成矿系统的控矿规律.测试结果(表2)显示,本地部署的RAG⁃黔西南模型准确率高达99%,其性能不仅显著优于本地直接部署的DeepSeek⁃32B模型(88%),也超越了包括Gemini 2.5 Pro (97%)、GPT⁃4o (94%)在内的多个通用旗舰大模型的联网搜索版本.这充分证明了RAG架构在专业领域的巨大潜力和应用价值.

2.2 主观问答性能评测

相较于客观题对单一知识点的考察,主观问答主要评估模型在地质成因分析、成矿规律对比等复杂场景下的逻辑推理与长文本生成能力.鉴于生成式任务评价的开放性与复杂性,本文构建了基于“专家‒自动化”协同的混合评测体系,并选取通用大语言模型(GPT⁃4o)、地学领域大模型(GeoGPT⁃R1⁃Preview)/未微调基座模型(DeepSeek⁃32B Base)与本文提出的检索增强模型(RAG⁃黔西南)进行横向对比实验.

本文设计了包含30道复杂地质问题的主观评测集(如“黔西南卡林型金矿床的类型有哪些”).针对生成式任务难以量化的问题,本文引入Ragas(Retrieval Augmented Generation Assessment)自动化评测框架,结合专家人工复核,重点评估以下核心指标:(1)忠实度 (Faithfulness):评估生成的答案是否严格遵循检索到的上下文信息,以量化模型对“事实幻觉”的抑制能力;(2)答案相关性(Answer Relevance):衡量生成内容与用户提问意图的契合程度,反映模型对地学专业术语的理解能力;(3)上下文精确度(Context Precision):评价检索模块返回的文献片段是否包含解决问题所需的关键证据,直接反映系统对私有数据的获取能力;(4)知识溯源性(Knowledge Provenance):通过人工核验,评估模型引用的参考文献是否真实存在且支持其论点(0为不可溯源,1为完全准确).不同模型在上述指标上的性能对比结果如表3所示.

3 知识图谱应用与智能挖掘

3.1 定性对比分析

利用图谱的查询与可视化功能,本文得以在统一的本体框架下,对中国黔西南和美国内华达卡林型金矿的成矿要素进行系统性的定性对比.对比结果(表4)直观地揭示了二者的共性与特性.

在共性方面,两个卡林型金矿省表现出高度一致的矿石矿物组合与成矿地球化学亲和性.知识图谱的关联分析显示,两大矿集区均以含砷黄铁矿、毒砂为主要载金矿物,并普遍发育雄黄、雌黄等低温热液矿物.这一特征在图谱中表现为两个区域的矿床实体均与“As⁃Au⁃Hg⁃Sb”元素节点群存在高频共现关系,表明两者在成矿流体的低温、硫化物亲和性等本质特征上具有统一性;同时,知识图谱的拓扑结构也清晰地刻画出两大矿集区在宏观构造演化与微观赋矿环境上的显著差异(特性).首先,在构造控矿样式上,美国内华达矿集区的矿床实体在图谱中高频关联“伸展构造”与“滑脱断层”(如Roberts Mountain推覆体)等节点,反映了其受控于活动大陆边缘的弧后伸展机制;相比之下,黔西南矿集区则呈现出独特的“褶皱‒断裂”复合控矿特征,图谱中大量矿床节点不仅连接高角度断裂,更密集指向“背斜”(如灰家堡背斜)及“层间滑脱带”实体,量化了陆内造山与构造转换对成矿的控制作用;其次,在赋矿围岩与蚀变组合上,不同于美国内华达地区“碳酸盐岩”与“重晶石化”节点的紧密共现,黔西南矿床节点更倾向于与“泥质岩”、“粉砂岩”等细碎屑岩实体建立强连接,并因此表现出显著发育的“黏土化”特征.

上述基于知识图谱自动聚合的对比结果,与前人开展的系统性人工对比研究结论高度吻合(Hofstra and Cline, 2000Hofstra and Christensen, 2002Xie et al., 2018; 谢卓君等,2019).本文构建的知识图谱的显著优势在于,将分散于海量文献中的多源异构对比要素在统一的语义框架下进行了结构化整合与可视化展示,从而直观地佐证了卡林型金矿成矿系统的“非唯一性”与“多样性”特征.

3.2 定量知识挖掘

为了定量揭示不同矿床在成矿要素上的内在关联与聚类模式,本文基于构建的知识图谱拓扑结构,采用Jaccard相似系数与层次聚类算法,对典型矿床进行了社区发现分析.从层次聚类谱系图(图8)可见,右江盆地内的卡林型金矿床依据其关键控矿要素的拓扑相似性,被有效划分为边界清晰的不同亚类.基于社区发现分析结果与矿床地质资料挖掘,本文将这些亚类进一步归纳为三大成矿系列.表5系统总结了这三大成矿系列的典型聚类簇及其对应的成因机制.

例如,泥堡金矿与戈塘金矿被紧密聚为一类.通过图谱追溯二者的关联路径发现,这两处矿床在赋矿地层、围岩蚀变、矿石构造及矿体形态等关键成矿要素节点上拥有大量共有的邻居节点,导致其Jaccard相似系数较高.具体而言,在知识图谱的拓扑结构中,泥堡与戈塘金矿床均与“扬子准地台”这一构造位置节点相连,且在赋矿层位上表现出高度的共现关系,均包含“二叠系”、“茅口组”以及“龙潭组”节点,这反映了两者均受到相似的地层层位控制.此外,在矿体特征与物质组成维度,两个矿床节点不仅同时指向“似层状”、“透镜状”以及“大型矿床”实体,还共享了“硅化”、“黄铁矿化”作为主要蚀变类型节点,以及“黄铁矿”、“石英”、“方解石”等矿物节点和“浸染状构造”、“角砾状构造”等结构构造节点.这种多维度的特征重叠客观验证了层次聚类结果的合理性,表明知识图谱通过将非结构化的地质描述转化为高维空间中的结构化关联,成功识别出泥堡与戈塘虽地理位置不同,但在成矿系统上属于同一具有显著层控特征的成因亚类(陶平等,2002; 毛彬吉等, 2018).

与此同时,知识图谱中非共有的特异性节点进一步揭示了两者虽同属层控型矿床,但在具体容矿岩石(容岩)性质上存在显著差异.在图谱的容岩节点连接上,泥堡金矿床特异性地指向“凝灰岩”与“沉凝灰岩”节点,体现了其矿体赋存与峨眉山玄武岩组火山碎屑岩密切相关的特征;而戈塘金矿床则显著关联于“硅化灰岩角砾岩”与“黏土岩角砾岩”节点,这反映了该矿床矿体主要受控于茅口组古岩溶侵蚀面上的角砾岩带(图9).这种“同层异岩”的差异也映射在共生矿物节点的分布上,泥堡金矿床表现出与“毒砂”及“毒砂化”节点的强连接,而戈塘金矿床则独有“萤石”、“石膏”及“辉锑矿化”等低温矿物节点关联.这些特异性节点的存在使得知识图谱在通过聚类算法识别宏观层控共性的同时,能够保留并区分矿床个体的微观岩性指纹,精准刻画出不同矿床在成矿微环境上的区别(冉瑞德, 2005; 陈文斌等, 2009).

3.3 成矿信息追溯

基于构建的卡林型金矿知识图谱,本文对成矿信息的级联关系进行了深度挖掘与可视化表征(图10).该视图突破了传统静态节点的局限,利用1.3.2节定义的“关联指示强度”(AIS)与“累积指示权重”(CIW),将烂泥沟等典型矿床的地质要素重构为“典型矿床‒矿石特征‒蚀变类型‒地球化学异常”的多级流向结构图10.即基于上述W值与CIW值生成的桑基能量分流图,图中连线宽度直观反映了实体间的Wi,j值,而元素节点的排列顺序则依据CIW值由高到低呈现.

路径追踪定量显示:以“烂泥沟金矿石”为源点,通过共生关系向下游发散,揭示了矿石与硅化、黄铁矿化、毒砂化及辉锑矿化等围岩蚀变的紧密关联,进而利用指示关系将蚀变组合映射至地球化学域.结果表明,“黄铁矿化/毒砂化‒指示⁃Au/As”路径的W值最高,定量验证了其作为主控成矿路径的主导作用;同时,图谱拓扑结构清晰解析了低温成矿元素的指示路径;例如,“辉锑矿化”不仅与S元素强关联,更作为指向“Sb”异常的特征性指示节点;而“辰砂矿化”则构成了指示“Hg”异常的关键路径.这种全链条的信息追溯不仅验证了“Au⁃As⁃Sb⁃Hg”作为黔西南卡林型金矿典型地球化学组合的有效性,也为依据地表地球化学异常反演深部矿化蚀变特征提供了可视化的逻辑支撑.

4 结论与展望

4.1 主要结论

本文针对地质勘查领域面临的海量非结构化数据难以被有效利用与通用大模型专业性不足的双重挑战,创新性地提出了融合垂直领域大语言模型(LLMs)与知识图谱(KG)的智能知识挖掘框架,并以中国黔西南与美国内华达两大卡林型金矿集区为例进行了系统验证.主要研究结论如下:

(1) 本地化垂直领域RAG模型有效解决了专业问答的“幻觉”与安全问题. 本文构建的基于 DeepSeek⁃R1⁃Distill⁃Qwen⁃32B的本地化RAG系统,在基于本地化知识库架构的前提下,实现了对专业知识的精准检索与生成.实验表明,该模型在卡林型金矿专业客观题测试中达到了 99% 的准确率.在包含主观逻辑推理的评测中,该系统不仅优于GPT⁃4o等通用模型,相比于通用地学大模型(如GeoGPT),在知识忠实度与可溯源性方面也展现出显著优势,证明了检索增强生成技术在提升地学知识服务可信度方面的巨大潜力.

(2) 基于监督微调(SFT)的知识抽取范式实现了低成本、高精度的成矿知识图谱构建. 针对传统深度学习方法对标注数据依赖度高、灵活性差的痛点,本文验证了利用少量高质量指令微调大模型的优越性.SFT后的Qwen2.5模型能够精确理解复杂的地质实体与关系定义,成功从405份多源异构文献中构建了包含6 221个实体和 11 779个关系的跨区域卡林型金矿知识图谱.该方法不仅大幅降低了人工标注成本,也为快速构建其他矿种的专业图谱提供了可复制的技术路径.

(3) 知识图谱驱动的智能挖掘揭示了跨区域成矿规律的深层联系与指示路径.基于构建的知识图谱,本文实现了多维度的定量挖掘:一方面,通过图谱拓扑结构成功识别出“泥堡‒戈塘”等具有高相似度的层控型矿床亚类,并精准捕捉了它们在容矿岩石(如凝灰岩与角砾岩)上的微观差异;另一方面,系统量化了从“典型矿床‒矿石矿物‒围岩蚀变”到“地球化学元素异常”的级联指示路径,证实了“黄铁矿化/毒砂化”对金矿化的主控权重,并从数据驱动角度验证了“Au⁃As⁃Sb⁃Hg”作为卡林型金矿典型地球化学组合的有效性,从而为利用地表地球化学异常反演深部矿化特征提供了可视化的逻辑支撑.

4.2 局限性与未来展望

尽管本文在构建地质领域智能知识系统方面取得了阶段性进展,但受限于数据模态和技术发展,仍存在一定局限性,未来的研究可从以下几个维度深入展开:

(1) 从纯文本挖掘向多模态融合拓展.目前本文的知识抽取主要聚焦于文本语料.然而,地质报告中蕴含大量关键信息的图件(如地质剖面图、镜下鉴定图)和表格数据尚未得到充分利用.未来工作应引入多模态大模型,实现对“图‒文‒表”异构数据的联合理解与语义对齐,构建更加全息、立体的地质知识图谱,以捕捉矿体空间形态等更直观的地质特征.

(2) 从知识检索向智能预测与辅助决策升级.当前的系统主要实现了知识的组织、检索与关联分析,属于认知智能的初级阶段.下一步将探索引入图神经网络(GNN)与因果推理机制,利用图谱中的隐含路径进行潜在找矿靶区的预测.例如,基于已知矿床的图谱子图特征,在未知区域搜索相似的成矿要素组合,从而将系统功能从“回答已知”拓展至“探索未知”.

(3) 构建基于Agent的地质智能体系统.随着Agent(智能体)技术的发展,未来可将本文构建的RAG系统与知识图谱封装为核心工具,构建具备自主规划能力的“地质科研助理”.该智能体不仅能回答问题,还能自主分解复杂的成矿预测任务、调用外部分析工具、撰写地质报告,从而真正实现地学研究范式的智能化变革.

参考文献

[1]

Cao, S. T., Hu, R. Z., Zhou, Y. Z., et al., 2026. Analysis of Trajectories and Developmental Prospects of Research on Carlin⁃Type Gold Deposits on the Basis of Big Data Community Detection Algorithms. Ore Geology Reviews, 188: 106989. https://doi.org/10.1016/j.oregeorev.2025.106989

[2]

Chen, W. B., Wei, B. G., Yang, T. C., et al., 2009. Geological Character and Prospecting Potential of Nibao Gold Deposit in Pu’an County, Guizhou. Guizhou Geology, 26(3): 170-176 (in Chinese with English abstract).

[3]

Cheng, Q. M., 2025. A New Paradigm for Mineral Resource Prediction Based on Human Intelligence⁃Artificial Intelligence Integration. Earth Science Frontiers, 32(4): 1-19 (in Chinese with English abstract).

[4]

Deng, J., Wang, Q. F., 2016. Gold Mineralization in China: Metallogenic Provinces, Deposit Types and Tectonic Framework. Gondwana Research, 36: 219-274. https://doi.org/10.1016/j.gr.2015.10.003

[5]

Dong, Y. H., Wang, Y. Z., Tian, J. T., et al., 2025. Research Progress on Porphyry Copper Deposit Prediction Based on Knowledge Graphs. Earth Science Frontiers, 32(4): 280-290 (in Chinese with English abstract).

[6]

Feng, T. T., Cai, S. R., Zhang, Z. J., 2025. Mining Elements of Carbonatite⁃Type Rare Earth Deposits Based on Knowledge Map. Earth Science Frontiers, 32(4): 262-279 (in Chinese with English abstract).

[7]

Fu, Y., Wang, M. G., Wang, C. B., et al., 2025. GeoMinLM: A Large Language Model in Geology and Mineral Survey in Yunnan Province. Ore Geology Reviews, 182: 106638. https://doi.org/10.1016/j.oregeorev.2025.106638

[8]

Goldfarb, R., Qiu, K., Deng, J., et al., 2019. Orogenic Gold Deposits of China. Geological Society, London, Special Publications, 480:263-288. https://doi.org/10.1144/SP480⁃2018⁃175

[9]

Hofstra, A. H., Christensen, O. D., 2002. Comparison of Carlin⁃Type Au Deposits in the United States, China, and Indonesia⁃Implications for Genetic Models and Exploration. US Geological Survey Open⁃File Report, 2-131.

[10]

Hofstra, A. H., Cline, J. S., 2000. Characteristics and Models for Carlin⁃Type Gold Deposits. Reviews in Economic Geology, 13:163-220. https://doi.org/10.5382/Rev.13.05

[11]

Hu, R. Z., Fu, S. L., Huang, Y., et al., 2017. The Giant South China Mesozoic Low⁃Temperature Metallogenic Domain: Reviews and a New Geodynamic Model. Journal of Asian Earth Sciences, 137: 9-34. https://doi.org/10.1016/j.jseaes.2016.10.016

[12]

Hu, Y. J., Mai, G. C., Cundy, C., et al., 2023. Geo⁃Knowledge⁃Guided GPT Models Improve the Extraction of Location Descriptions from Disaster⁃Related Social Media Messages. International Journal of Geographical Information Science, 37(11): 2289-2318. https://doi.org/10.1080/13658816.2023.2266495

[13]

Jiang, Z. Y., Zhong, L., Sun, M. S., et al., 2024. Efficient Knowledge Infusion via KG⁃LLM Alignment. arXiv, 2406.03746. https://arxiv.org/abs/2406.03746

[14]

Lewis, P., Perez, E., Piktus, A., et al., 2020. Retrieval⁃ Augmented Generation for Knowledge⁃Intensive NLP Tasks. arXiv, 2005.11401. https://arxiv.org/abs/2005.11401

[15]

Li, B. W., Wang, Y. Z., Ding, Z. J., et al., 2025. Intelligent Search Technology for Jiaodong Gold Deposits Based on Large Models and GraphRAG. Earth Science Frontiers, 32(4): 155-164 (in Chinese with English abstract).

[16]

Li, G. Z., Wang, P., Ke, W. J., 2023. Revisiting Large Language Models as Zero⁃Shot Relation Extractors. arXiv, 2310.05028. https://arxiv.org/abs/2310.05028

[17]

Ma, X. G., 2022. Knowledge Graph Construction and Application in Geosciences: A Review. Computers & Geosciences, 161: 105082. https://doi.org/10.1016/j.cageo.2022.105082

[18]

Mao, B. J., Ran, R. D., Kuang, S. D., et al., 2018. Genesis of the Getang Gold Deposit in the Southwest Guizhou. Contributions to Geology and Mineral Resources Research, 33(2): 168-175 (in Chinese with English abstract).

[19]

Peng, J. J., Lin, K., 2024. Knowledge Graph Analysis of Mineralization Laws Research of Lithium Ore. China Mining Magazine, 33(9): 228-235 (in Chinese with English abstract).

[20]

Pi, Q. H., Hu, R. Z., Xiong, B., et al., 2017. In Situ SIMS U⁃Pb Dating of Hydrothermal Rutile: Reliable Age for the Zhesang Carlin⁃Type Gold Deposit in the Golden Triangle Region, SW China. Mineralium Deposita, 52(8): 1179-1190. https://doi.org/10.1007/s00126⁃017⁃0715⁃y

[21]

Qiu, Q. J., Tian, M., Wu, Q. R., et al., 2025. Construction and Application of Geological Knowledge Graph Based on Multi⁃Source Heterogeneous Data. Earth Science Frontiers, Online. (in Chinese with English abstract). https://doi.org/10.13745/j.esf.sf.2024.11.69

[22]

Raiaan, M. A. K., Mukta, M. S. H., Fatema, K., et al., 2024. A Review on Large Language Models: Architectures, Applications, Taxonomies, Open Issues and Challenges. IEEE Access, 12: 26839-26874. https://doi.org/10.1109/ACCESS.2024.3365742

[23]

Ran, R. D., 2005. Characteristic and Metallogenic Mechanism of the Gold Deposits with Karst Structure as Holding Ore Space in the Southwest of Guizhou⁃Taking the Getang Gold Deposit in Anlong as an Example. Guizhou Geology, 22(1): 14-21 (in Chinese with English abstract).

[24]

Shi, L. Y., Zuo, R. G., 2026. Foundation Model for Mineral Prospectivity Mapping. Earth Science, 51(3): (in Chinese with English abstract).

[25]

Sutanto, P., Santoso, J., Setiawan, E. I., et al., 2024. LLM Distillation for Efficient Few⁃Shot Multiple Choice Question Answering. arXiv, 2412.09807. https://arxiv.org/abs/2412.09807

[26]

Tan, S. M., Shi, G. D., Lei, L. Q., et al., 2007. Carlin⁃Type Gold Deposits Distribution and Prospecting in China. Geological Survey and Research, 30(4): 289-294 (in Chinese with English abstract).

[27]

Tao, P., Li, P. G., Li, K. Q., 2002. The Structure of the Deposits of the Nibao Goldfield and Its Relationship with Metallogenesis. Guizhou Geology, 19(4): 221-227 (in Chinese with English abstract).

[28]

Tian, S. Y., Luo, Y. Y., Xu, T. Z., et al., 2024. KG⁃Adapter: Enabling Knowledge Graph Integration in Large Language Models through Parameter⁃Efficient Fine⁃Tuning. Annual Meeting of the Association for Computational Linguistics, Bangkok. https://doi.org/10.18653/v1/2024.findings⁃acl.229

[29]

Wang, C. B., Wang, M. G., Wang, B., et al., 2024. Knowledge Graph⁃Infused Quantitative Mineral Resource Forecasting. Earth Science Frontiers, 31(4): 26-36 (in Chinese with English abstract).

[30]

Wang, Q. F., Groves, D., 2018. Carlin⁃Style Gold Deposits, Youjiang Basin, China: Tectono⁃Thermal and Structural Analogues of the Carlin⁃Type Gold Deposits, Nevada, USA. Mineralium Deposita, 53(7): 909-918. https://doi.org/10.1007/s00126⁃018⁃0837⁃x

[31]

Xie, Z. J., Xia, Y., Cline, J. S., et al., 2018. Are There Carlin⁃Type Gold Deposits in China? A Comparison of the Guizhou, China, Deposits with Nevada, USA, Deposits. Reviews in Economic Geology, 20:187-233. https://doi.org/10.5382/rev.20.06

[32]

Xie, Z. J., Xia, Y., Cline, J., et al., 2019. A Comparison between Carlin⁃Type Au Deposits in Guizhou of China and Nevada of the USA and Its Implications for Exploration. Mineral Deposits, 38(5): 1077-1093 (in Chinese with English abstract).

[33]

Yang, X., Sun, L., Liu, M. L., et al., 2025. Knowledge Graph Construction with BERT⁃BiLSTM⁃IDCNN⁃CRF and Graph Algorithms for Metallogenic Pattern Discovery: A Case Study of Pegmatite⁃Type Lithium Deposits in China. Ore Geology Reviews, 179: 106514. https://doi.org/10.1016/j.oregeorev.2025.106514

[34]

Zhang, B. W., Soh, H., 2024. Extract, Define, Canonicalize: An LLM⁃Based Framework for Knowledge Graph Construction. arXiv, 2404.03868. https://arxiv.org/abs/2404.03868

[35]

Zhang, B. Y., Tang, J. C., Zhang, T. Y., et al., 2026. Knowledge Graph and Question⁃Answering Model for Geological Prospecting Empowered by Large Language Models. Earth Science, 51(3): 982-995 (in Chinese with English abstract).

[36]

Zhang, Y. F., Wei, C., He, Z. T., et al., 2024. GeoGPT: An Assistant for Understanding and Processing Geospatial Tasks. International Journal of Applied Earth Observation and Geoinformation, 131: 103976. https://doi.org/10.1016/j.jag.2024.103976

[37]

Zhang, Z. J., Yang, Z. X., Jian, F. Y., et al., 2025. Interpretability⁃Enhanced Mineral Prospectivity Models: A Synergistic Approach Using Large Language Models, Knowledge Graphs, and Machine Learning. Mathematical Geosciences, Online. https://doi.org/10.1007/s11004⁃025⁃10231⁃3

[38]

Zhao, M. L., Zhang, Z. J., Yang, J., et al., 2025. Knowledge Graph Construction and Knowledge Discovery for Porphyry Copper Deposits. Ore Geology Reviews, 186: 106875. https://doi.org/10.1016/j.oregeorev.2025.106875

[39]

Zhao, P. D., 2019. Characteristics and Rational Utilization of Geological Big Data. Earth Science Frontiers, 26(4): 1-5 (in Chinese with English abstract).

[40]

Zhou, Y. Z., Zhang, Q. L., Huang, Y. J., et al., 2021a. Constructing Knowledge Graph for the Porphyry Copper Deposit in the Qingzhou⁃Hangzhou Bay Area: Insight into Knowledge Graph Based Mineral Resource Prediction and Evaluation. Earth Science Frontiers, 28(3): 67-75 (in Chinese with English abstract).

[41]

Zhou, Y. Z., Zuo, R. G., Liu, G., et al., 2021b. The Great⁃Leap⁃Forward Development of Mathematical Geoscience during 2010-2019: Big Data and Artificial Intelligence Algorithm Are Changing Mathematical Geoscience. Bulletin of Mineralogy, Petrology and Geochemistry, 40(3): 556-573, 777 (in Chinese with English abstract).

基金资助

国家深地重大专项青年科学家课题(2024ZD10019007)

贵州省地质矿产局地质科研项目(黔地质科合〔2025〕01号)

中央高校基本科研业务费专项资金资助项目(GUG⁃DMX2025⁃01)

国家级大学生创新训练计划资助项目(202510491034)

AI Summary AI Mindmap
PDF (7981KB)

0

访问

0

被引

详细

导航
相关文章

AI思维导图

/