In the context of promoting the excellent traditional Chinese culture, the unique Salar culture in the Methodist region of Qinghai Province has become an important part of the tourism resources in Qinghai Province. Salar architecture covers the Salar human history, politics and religious culture, but at present the construction technology of Salar architecture is gradually lost, and the inheritance and protection of Salar architecture is urgent.As a mainstream knowledge digitization technology, the combination of knowledge graph and Salar architecture can better protect and inherit the Salar architecture. Therefore, this paper constructs a unique Salar architecture dataset and ontology structure, uses the large language model LoRA fine-tuning method to extract entities and relations from Salar architecture data, and conducts comparative experiments with the classical knowledge extraction model. Compared with ChatGPT, the F1values of entity extraction and relation extraction are improved by 13.37% and 16.32%. The knowledge graph constructed by the institute can be used for knowledge recommendation, intelligent search and knowledge graph enhanced question answering system based on RAG technology.
知识图谱被应用在众多领域。陈明等[7]基于多重注意力机制的命名实体识别模型解析医疗问句中的实体,采用基于BERT-BiLSTM的关系抽取模型进行关系抽取,BERT-BiLSTM是结合基于Transformer的双向编码器表示模型(Bidirectional Encoder Representations from Transformers,BERT)[8]和双向长短期记忆网络(Bidirectional Long Short Term Memory Network, BiLSTM)两种技术的模型,生成查询语句从医疗知识图谱中获取问题的答案。黄伟春等[9]构建军事术语本体,采用基于规则的方法和基于训练模型的方法抽取军事术语关系,构建高质量的军事术语知识图谱。韩子威等[10]使用自顶向下构建的知识图谱对动车故障信息进行知识管理,提出动车组故障模型,提升动车组故障信息的智能化处理。杨硕等[11]基于CompIEx(Complex Embedding)图谱嵌入的方法,引入上下文注意机制和卷积神经网络(Convolutional Neural Network,CNN)网络获取多模态知识图谱的特征表示,将多模态知识图谱提供的背景知识与问答对的文本语义信息融合。
撒拉族人民因为社会历史、居住生活和宗教活动的需求,在明清时代的循化撒拉族聚集村落大兴土木,修建壮观的中国殿堂形制清真寺、楼阁式拱北建筑和秀丽的河湟传统民居家院、篱笆楼建筑等,融入了中华民族建筑文化艺林。但由于社会历史等多种原因,撒拉族的精华建筑遭到了不同程度的肆意破坏。使用知识图谱方式对于建筑知识的传承与保护,已有很多人提出新观念,张琳等[12]使用绿色建筑知识图谱进行分析,为绿色建筑的发展提供了理论参考。Chen等[13]以Web of Science数据库的数据为样本,利用软件绘制建筑领域和大数据交叉领域的知识图谱,为建筑信息模型(Building Information Modeling,BIM)、建筑节能、智慧城市、防灾防损等研究热点进行定性分析。Cao等[14]为了解决城市历史建筑(UHBs)知识难以被有效访问和管理的问题,提出一个从非结构化文本中提取和管理UHBs知识的总体框架,构建了城市居民住房的知识库以及北京居民住房知识图谱,并实现了其知识检索和可视化。Xie等[15]将数字孪生(Digital Twin, DT)技术与知识图谱相结合,使用知识图谱可视化和分析相关科学领域文献,对于建筑行业数字孪生的当前焦点和未来方向进行定量分析。
1.3 ChatGLM
自从ChatGPT面世以来,以大模型为中心的知识抽取形式更为多样,“一问一答”交互形式的问答体系变得备受关注,其中对话生成语言模型(Chat Generative Language Model,ChatGLM)是使用中英双语预训练进行自然语言理解和生成的通用预训练框架,它有效地将来自中文问答反馈的自然语言响应与人类指导的监督学习、反馈强化策略结合起来。以ChatGLM为基础,衍生而出ChatGLM-6B、ChatGLM2-6B以及ChatGLM3-6B模型,其中ChatGLM3-6B模型针对中文问答和对话进行优化,经过中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,对于信息抽取等自然语言处理任务有着优异的表现。尹娴等[16]针对水生动物疾病诊断智能对话系统存在的复杂的专业性知识和准确性低的问题,提出了一种基于ChatGLM模型的改进水生动物疾病诊断相关问题的优化方法,该方法通过在ChatGLM模型的中间层插入Adapter块针对相关的专业问题进行微调,提高了模型的专业性和准确性。Zeng等[17]对一个具有1 300亿个参数的双语(英语和汉语)预训练语言模型GLM-130B进行预训练,在相关基准测试中,GLM-130B始终显著优于最大的中文模型ERNIE TITAN 3.0 260b。Tao等[18]提出了RoleCraft-GLM解决了对话AI中缺乏个性化交互的关键问题,并提供了一个具有详细和情感微妙的角色描绘的解决方案。
LoRA的基本原理是冻结预训练好的模型权重参数,然后在冻结的模型基础上加入额外的网络层。这些新增的网络层只包含少量的参数,因此训练这些参数的成本较低。同时,由于LoRA采用低秩分解来模拟参数更新量,可以在不引入额外推理延迟的情况下实现与全模型微调类似的效果,其本质是在PLM(Pre_trained Language Model)旁增加一个旁路,意在进行一个先降低维度再升高维度的操作来模拟内训练时固定PLM,只训练旁路,推理时旁路先相乘合并再和PLM权重相加从而更新权重。LoRA存储矩阵的更新方式如图7(a)与图7(b)所示,完全微调需要,而LoRA微调只需要个参数。ChatGLM3-6B LoRA微调模型如图7(c)所示,左边是预训练模型的权重,在训练期间被冻结,不接受梯度更新。右边部分对使用随机的高斯初始化,在训练开始时为零,r是秩,会对做缩放。
知识图谱分为通用领域和垂直领域知识图谱,垂直领域知识图谱知识质量要求更高,知识的应用形式也更加广泛且具有高度时效性和更深层次的推理需求等特点。撒拉族建筑知识图谱属于垂直领域的知识图谱,所以选择使用ChatGPT、国内大语言模型文心一言和通用信息抽取模型(Universal Information Extraction,UIE)从通用领域和垂直领域的角度出发作对比试验,以及使用ChatGLM3-6B LoRA微调模型进行多次迭代训练得出的精确率、召回率和,如表4所示。
Neo4j是一个高性能的非关系型数据库(Not Only SQL,NoSQL),它将结构化数据存储在网络上且提供了申明式的查询语言Cypher,用于查询和操作图数据。知识图谱其核心在于将现实世界的对象和概念以及它们之间的多种关系以图形的方式组织起来,Neo4j的图数据库结构适合存储和查询此类关系型数据,使得构建知识图谱变得更加高效和灵活。图10为部分撒拉族建筑的实体节点。最终针对撒拉族建筑数据,标注15类实体以及10种关系,累积标注节点2 392个,关系4 379条。
HANZ W, ZHUJ S. Research on Construction Method of EMU Failure Domain Knowledge Map[J]. Railw Locomot Car, 2023, 43(4): 17-22. DOI: 10.3969/j.issn.1008-7842.2023.04.03 .
ZHANGL, CHENL W, CAOJ H, et al. Visualizing Analysis of Green Building Knowledge Map Based on Citespace Software[J]. J Shandong Jianzhu Univ, 2018, 33(3): 26-31. DOI: 10.12077/sdjz.2018.03.005 .
[22]
CHENG X, HOUJ, LIUC S, et al. Visualization Analysis of Cross Research between Big Data and Construction Industry Based on Knowledge Graph[J]. Buildings, 2022, 12(11): 1812. DOI:10.3390/buildings12111812 .
[23]
CAOX, GUOX, JIANGJ. Knowledge Graph Enabled Representation and Exploration for Urban Historical Buildings: A Case Study in Beijing, China[J]. Int Arch Photogramm Remote Sens Spatial Inf Sci, 2022, XLVIII-3/W2-2022: 1-7. DOI:10.5194/isprs-archives-xlviii-3-w2-2022-1-2022 .
[24]
XIEH Y, XINM Y, LUC W, et al. Knowledge Map and Forecast of Digital Twin in the Construction Industry: State-of-the-art Review Using Scientometric Analysis[J]. J Clean Prod, 2023, 383: 135231. DOI:10.1016/j.jclepro.2022.135231 .
YINX, FENGY H, YES G. Optimization of a ChatGLM-based Intelligent Dialogue System for Aquatic Animal Disease Diagnosis[J]. Mod Electron Tech, 2024, 47(14): 177-181. DOI: 10.16652/j.issn.1004-373x.2024.14.027 .
[27]
ZENGA, LIUX, DUZ, et al. GLM-130B: An Open Bilingual Pre-trained Model[EB/OL]. (2022-10-05)[2024-09-07].
[28]
TAOM, LIANGX, SHIT, et al. RoleCraft-GLM: Advancing Personalized Role-Playing in Large Language Models[EB/OL]. (2024-01-18)[2024-10-15].
[29]
马鸣. 浅谈撒拉族的古民居建筑[J]. 中国土族, 2015(4): 68-70.
[30]
MAM. On the Ancient Residential Buildings of Salar Nationality[J]. China's TU Natio, 2015(4): 68-70.
SHAOC. Study on Wood Frame Construction Technology of Salar Pine House[D]. Xi'an: Xi'an University of Architecture and Technology, 2020. DOI: 10.27393/d.cnki.gxazu.2020.001448 .
[33]
由懿行. 青海撒拉族传统民居门窗研究[D]. 西安: 西安建筑科技大学, 2018.
[34]
YOUY X. Study on Windows and Doors of Salar Traditional Houses in Qinghai Province[D]. Xi'an: Xi'an University of Architecture and Technology, 2018.
[35]
SIVAKUMARR, ARIVOLIP V. Ontology Visualization PROTÉGÉ Tools-A Review[J]. Int J Adv Inf Technol (IJAIT), 2011, 1: 1-7. DOI: 10.5121/ijait.2011.1401 .
[36]
STUDERR, BENJAMINSV R, FENSELD. Knowledge Engineering: Principles and Methods[J]. Data Knowl Eng, 1998, 25(1/2): 161-197. DOI:10.1016/S0169-023X(97)00056-6 .
[37]
NOYN F, MCGUINNESSD L. Ontology Development 101: A Guide to Creating Your First Ontology:Tanford Knowledge Systems Laboratory Technical Report KSL-01-05 and Stanford Medical Informatics Technical Report SMI-2001-0880[R/OL]. (2001)[2024-11-12].
[38]
MELZE. Enhancing LLM Intelligence with ARM-RAG: Auxiliary Rationale Memory for Retrieval Augmented Generation[EB/OL]. (2023-11-07)[2024-10-15].