基于BERT-BiGRU-CRF模型的岩土工程实体识别

王权于 ,  李振华 ,  涂志鹏 ,  陈冠宇 ,  胡君 ,  陈嘉麒 ,  陈建军 ,  吕国斌

地球科学 ›› 2023, Vol. 48 ›› Issue (08) : 3137 -3150.

PDF (4039KB)
地球科学 ›› 2023, Vol. 48 ›› Issue (08) : 3137 -3150. DOI: 10.3799/dqkx.2022.462

基于BERT-BiGRU-CRF模型的岩土工程实体识别

作者信息 +

Geotechnical Named Entity Recognition Based on BERT-BiGRU-CRF Model

Author information +
文章历史 +
PDF (4135K)

摘要

岩土工程实体识别是岩土工程文本挖掘和知识谱图的工作基础和重要前提. 针对岩土工程实体识别问题,参考《GB/T 50279-2014:岩土工程基本术语标准》等国家行业标准规范,设计和构建了一个小规模的岩土工程命名实体语料库;提出了一种岩土工程文本命名实体识别深度学习模型BERT-BiGRU-CRF(简称:GENER):表示学习层采用BERT预训练语言模型实现了岩土工程文本特征的迁移表示学习;BiGRU上下文编码层实现对岩土工程文本上下文特征编码;CRF标签解码层解决了标签间依赖约束,生成符合标注规律的岩土工程命名实体标签序列;最后,基于岩土工程命名实体语料库,对GENER模型进行了实验分析. 在对照实验中,取得了良好效果:精确率P达到了90.94%,召回率R达到了92.88%,F1值达到了91.89%,模型训练速度提升了4.735%. 实验结果表明相比基线模型BiLSTM-CRF和其他预训练模型,GENER模型在小规模语料岩土工程命名实体识别方面效果更优,未来可推广应用到其他地质类文本命名实体识别任务.

关键词

命名实体识别 / 深度学习 / 岩土工程 / 语料库 / 地质大数据

Key words

named entity recognition / deep learning / geotechnical engineering / corpus / geological bigdata

引用本文

引用格式 ▾
王权于,李振华,涂志鹏,陈冠宇,胡君,陈嘉麒,陈建军,吕国斌. 基于BERT-BiGRU-CRF模型的岩土工程实体识别[J]. 地球科学, 2023, 48(08): 3137-3150 DOI:10.3799/dqkx.2022.462

登录浏览全文

4963

注册一个新账户 忘记密码

0 引言

高切坡,也称人工削坡工程,是山丘地区社会经济建设遇到的岩土工程. 高切坡智能管控是三峡工程移民安置区地质安全智能监管的一项重要任务. 在大数据背景下,用数据科学方法对地质学中的大数据进行智能处理,可以从中分析和挖掘有价值的核心信息和关键数据(张广宇等,2020). 基于大数据的岩土工程已取得了较多研究成果,刘汉龙等构建了地层构造及岩土材料参数值域等基础特征信息的区域三维地质模型(刘东升等,2021),刘东升等通过对岩土材料参数数据挖掘其基因特征,判断岩土工程的稳定性(刘东升等,2022). 三峡工程移民安置区地质安全智能管控对高切坡数据的数量和质量都提出了较高的要求. 目前三峡工程移民安置区高切坡相关数据主要是大量勘察、设计报告等非结构化电子文档,这类数据无法进行数据挖掘、数据融合等深层分析,也难以实时快速检索需要的关键信息,不能满足对库区移民安置区地质安全方面的管理、防治、预测、预警等智能管控要求,不能达到当前大数据快速响应的要求. 如何从这些海量文本数据中获取信息是项目面临的重要挑战. 信息抽取是从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术,命名实体识别是实现高切坡文本信息抽取的基础.

高切坡文本中文命名实体识别是一类典型的岩土工程领域命名实体识别问题. 对于领域命名实体识别,早期基于词典和规则的命名实体识别方法存在着诸多问题(Nadeau et al., 2007; Marrero et al., 2013). 随着深度学习技术的不断发展,基于深度学习的命名实体识别方法开始得到学界的广泛关注,大量科研成果不断涌现(Lample et al., 2016Goyal et al., 2018). 由于岩土工程文本在内容、术语和行文等方面具有较强领域特性,且缺乏训练模型所需的领域语料库,目前面向岩土工程文本中文命名实体识别的研究工作还较少.

借鉴其他领域命名实体识别应用成果,参考《GB/T 50279-2014:岩土工程基本术语标准》(中华人民共和国水利部, 2014)、《GB/T 50330-2013:建筑边坡工程技术规范》(中华人民共和国住房和城乡建设部, 2013)和《JGJT 84-2015:岩土工程勘察术语标准》(中华人民共和国住房和城乡建设部, 2015)等国家行业标准规范,本文设计和构建了一个岩土工程文本命名实体识别语料库;基于BERT(bidirectional encoder representation from transformers,BERT)预训练语言模型,提出了一种面向岩土工程文本的中文命名实体识别模型GENER(geotechnical engineering named entity recognition,GENER),解决了岩土工程文本中文命名实体识别问题. 实验表明,该方法具有较好的效能.

1 相关技术

命名实体(named entity,NE)是指具有相似属性特征的词语或短语(Sharnagat,2014). 命名实体识别(NER)是确定给定文本实体边界和实体类型的过程. 命名实体识别在信息检索、文本挖掘、知识发现、机器翻译等方面起着重要作用,一直得到学术界广泛而深入研究,在传媒(Ritter et al.,2011Liu et al.,2011)、生物(Zhang et al., 2013)、电子医疗(Quimbaya et al., 2016)、化学(Rocktäschel et al,. 2012)等领域已取得了不少成果.

在地球科学领域,命名实体识别也得到了人们的重视. 何炎祥等采用条件随机场模型来识别中文语句中的地理命名实体,构造了地名字典、前后搭配词字典、地名后缀字典、组织名后缀字典、常用单字字典等字典,并总结了未识别的地名和组织名的内部特征和上下文特征,设计了大量的人工规则,以提高地理空间命名实体识别效果(何炎祥等,2015). 张雪英等在分析中文文本和地理信息系统中地理实体描述和表达机制差异的基础上,结合地理命名实体描述的语言特点,制定中文文本的地理命名实体标注体系和标注规范,并以GATE标注平台,构建基于《中国大百科全书中国地理》的大规模标注语料库GeoCorpus(张雪英等,2012);在此基础上,张雪英等并设计了基于深度信念网络(Deep Belief Networks) 的地质实体识别模型,解决了文本数据中地质实体信息的结构化、规范化处理问题(张雪英等,2018). Wang et al. (2018)建立了一个混合语料库,结合地质词典中的通用术语和地质术语,通过条件随机场训练中文分词规则. 使用分词规则将文档解析为单个词,并从分词结果中去除停用词,得到地质语料库. 基于词典和规则的方法需要人工制定语法和语义规则,要求领域知识和人工干预,且移植性较差. 基于特征的监督学习方法具有较好的移植性,但依赖特征工程,需要大量的标注数据作为样本训练、验证和测试,劳动强度高且开销大.

随着深度学习研究的不断深入,基于深度学习的命名实体识别方法逐渐受到人们的关注(Li et al.,2020). Fan等针对地质灾害文献命名实体识别问题,提出了一种基于模式的预料构建算法MFM(Fan et al., 2020). 设计了一种深度、多路BiGRU(gate recurrent unit,GRU)-CRF(conditional random fields,CRF)命名实体识别深度学习模型,模型由多路双向门限循环单元层和条件随机场层组成. BiGRU具有良好的序列建模能力,能自动获取语句上下文信息,与BiLSTM(long short term memory,LSTM)相比,具有结构简单,模型参数小,求解速度快等特点. Qin et al.(2019)设计了地质命名实体识别框架GNER. GNER模型结合注意力机制、双向长短时记忆网络(BiLSTM)和池化+Softmax等多神经网络,识别地质文本命名实体. 储德平等利用卷积神经网络可很好提取局部特征的特点以及基于语言模型的词嵌入(ELMO)可很好的提取词语动态特征的特点,设计了一种融合 ELMO、CNN、双向长短时记忆网络和CRF等方法的综合深度学习模型(ELMO-CNN-BiLSTM-CRF)用于提取地质文本中的地质实体(储德平等,2020). 这些基于深度学习的命名实体方法无需复杂特征工程和大量的标注数据. 但这些方法需模型复杂,且需从头开始模型训练,训练时间较长.

2 岩土工程语料库

岩土工程报告是岩土工程设计和施工的基本依据. 岩土工程报告一般包含岩土工程概况、场地岩土工程条件、岩土工程分析与评价和建议方案等部分. 相较于通用领域文本,岩土工程报告文本篇幅冗长,文字数据量大(一般≧15 000字);岩土工程文本中既包含地名、机构名等普通命名实体,如三峡库区、秭归县等,并且还包含大量岩土工程实体,如页岩、崩塌破坏、格构锚等专业词汇. 以人名、地名和组织机构名等普通实体识别的技术方案难以应用于岩土工程实体识别. 通过整理和分析大量岩土工程勘察和设计报告文本,在岩土工程领域专家指导下,参考《GB/T 50279-2014:岩土工程基本术语标准》、《GB/T 50330-2013:建筑边坡工程技术规范》和《JGJT 84-2015:岩土工程勘察术语标准》等国家或行业标准规范,针对岩土工程文本特征,提出了一套岩土工程文本命名实体识别标注语料库建设方案(图1). 第一步语料获取,收集岩土工程勘察、设计报告和论文等文本,生成原始语料库;第二步对原始语料库中文本语法错误或行文不规范等问题进行预处理,形成生语料库;第三步根据标注方案对生语料进行预标注,生成待检语料库;最后采用多次迭代的预标注方式进行复查复核,提高最终标注语料的一致性,形成熟语料库.

2.1 岩土工程文本语料

本文采用现场调研、文献检索和在线爬取等多种方式获取了149篇岩土工程勘察、设计报告和论文. 以三峡工程库区移民安置区高切坡防护工程为例,高切坡防护工程勘察设计报告(图2),主要包含勘察区自然条件及地质概况、高切坡特征及稳定性评价和高切坡治理方案建议等部分.

2.2 命名实体类别

通过分析岩土工程文本,结合岩土工程相关国家和行业标准规范(中华人民共和国水利部, 2014中华人民共和国住房和城乡建设部, 2013中华人民共和国住房和城乡建设部, 2015),设计了岩土工程命名实体分类方法(表1).

2.3 命名实体标注方法

岩土工程语料库建设主要分为以下4个阶段.

(1)文本预处理:检查文本语法错误,除错补漏,文本内容提取与整理,文本格式转换等工作.

(2)实体标注方案:岩土工程文本命名实体标注采用BMESO. B表示一个词的词首位,M表示一个词的中间位置,E表示一个词的末尾位置,S表示一个单独的字词,非命名实体标注为O.

(3)人工标注:采用YEDDA(Yang et al., 2018)标注工具实现了岩土工程文本命名实体标注(图3),YEDDA是一款开源的文本标注工具,他提供标注员和管理员两种用户角色,标注员角色可以给句子做标注,管理员角色可以提供针对同一文件的不同人员标注结果的对比等功能,提高标注语料的一致性.

(4)复查复核:为了提高最终标注语料的一致性,采用多次迭代的预标注方式,使标注人员充分了解岩土工程知识,掌握标注规范. 在每个迭代周期,按无放回策略从预处理的文档中随机抽取10份,由3位标注人员分别对同一文本进行标注,并评价标注结果的一致性. 通过集体研讨、分析不一致的标注问题,不断完善标注制度和规范,为下一轮的预标注工作做好准备.

岩土工程命名实体标注实例(表2).

3 GENER:岩土工程命名实体识别模型

岩土工程语料库是一个小规模领域命名实体识别语料库. 对于语料数量有限的命名实体识别任务,通过预训练得到的语言表征会对当前任务有明显的特征补充作用进而提升任务性能,加快模型的收敛速度. Bert是一种以Transformer为特征编码器的预训练模型(Devlin et al., 2018),在Bert预训练模型基础上,针对岩土工程文本命名实体识别任务进行微调,减少模型性能对标注语料规模的依赖;结合双向门控循环单元(BiGRU)(Chung et al.,2014)和条件随机场(CRF)(Lafferty et al.,2001),利用BiGRU结构简单特点和良好的并行计算能力,加快模型的收敛速度,提高任务求解性能. 本文提出了一种面向岩土工程文本命名实体识别任务的联合模型GENER(图4). GENER模型采用分层结构,自底向上分别为:文本预处理层(text process layer)、表示学习层(representation learning layer)、上下文编码层(context encoder)和命名实体标签解码层(NE tag decoder).

3.1 输入和输出

GENER模型输入为岩土工程文本语句input=<w 1w 2,…,wi,…,wn >(wi 为单个汉字或符号),n≤max_sentence_length,默认为128;模型输出output为模型输入input对应的岩土工程命名实体标签序列tag=<t 1t 2,…,ti,…,tn >, t i < p r e f i x - s u f f i x > , O,其中, p r e f i x = { B , M , E } s u f f i x = { G E N , G E O , S U R , E V A , F E A , D E F }.

如:输入input=“归子湾切坡成分为闪云斜长花岗岩”,输出为标签序列output=<B-GEN M-GEN M-GEN,M-GEN,E-GEN,O,O,O,B-GEO,M-GEO,M-GEO,M-GEO,M-GEO,M-GEO,E-GEO>.

3.2 文本预处理层

文本预处理层位于GENER模型最底端,将输入的文本语句input转换为满足BERT预处理语言模型输入要求的符号序列tokens,形式化表示为:

f P R E : i n p u t t o k e n s.

预处理过程简述如下:(1)将文本语句input拆分成单个符号序列tokens;(2)填充和截断:如果length(tokens)≤max_sentence_length,则在tokens后填充max_sentence_length减去length(tokens)个填充符号[PAD];如果length(tokens)≥max_sentence_length,则在tokens后截断length(tokens)减去max_sentence_length个符号. (3)在符号序列tokens首位增加分类符号[CLS];在句尾增加分割符号[SEP]. 对于输入语句input经过文本预处理后变成:

t o k e n s = [ ' [ C L S ] ' , ' ' , ' ' , ' ' , ' ' , ' ' , ' ' , ' ' , ' ' , ' ' , ' ' , ' ' , ' ' , ' ' , ' ' , ' ' , ' [ S E P ] ' ].

3.3 表征学习层

表征学习自动地学习不同粒度文本的潜在语法或语义特征,并分布式地表示为稠密、连续、低维的字嵌入向量列表(Bengio et al., 2013). 研究表明,基于大型语料库的预训练模型(PTMs)可用于后续自然语言处理任务的迁移学习,避免从头开始训练新模型,在小规模领域语料库上就可取得较好学习效果(Qiu et al., 2020). BERT预训练语言模型在自然语言理解和生成等任务上得到深入研究,成为预处理语言模型的事实标准. 因此,GENER模型采用BERT作为表征学习层预处理语言模型实现.

BERT是google提出的基于Transformer的深度双向预训练语言模型. BERT由多个Transformer 编码器(简称Trm)堆叠而成,每个Trm由自注意力(Self-attention)和前馈神经网络(FFN)子层组成. BERT是在海量语料库上通过掩语言模型(masked language model,MLM)和下一句预测(next sentence prediction)预训练任务得到的通用预训练语言模型. BERT提供微调机制(fine tuning)实现自然语言处理下游任务:NER、QNLI、SST-2、CoLA、STS-B、MRPC、RTE等.

岩土工程文本命名实体识别是一类典型的领域命名实体识别问题. 根据命名实体识别任务目标,在BERT预训练语言模型基础上,通过岩土工程语料库的深度学习和BERT预训练模型微调,自动学习到一个面向岩土工程文本命名实体识别预训练语言模型(图5).

(1)输入和输出:输入为文本预处理层的符号序列tokens;输出为tokens的分布式表示字嵌入向量列表.

(2)符号序列嵌入向量化:Token Embedding、Position Embedding和Segment Embedding,分别表示符号token的符号嵌入、位置嵌入和段嵌入. 将符号嵌入、位置嵌入和段嵌入相加后生成符号嵌入向量X.

(3)表示学习:将符号嵌入向量X输入到BERT,N个Transformer双向编码器(Trm)高效地学习得到X的分布式表示Y,形式化表示为:

f B E R T : X Y ( X , Y R n × d )

其中:n为tokens的符号数;d表示符号嵌入向量维度,默认为768.

3.4 上下文编码层

上下文编码层捕捉表示学习层字嵌入向量特征的语义依赖关系,对语句上下文信息进行建模. GRU是在LSTM 基础上发展而来的一类特殊循环神经网络. 相较于LSTM,较好地解决了LSTM中存在的梯度消失和爆炸问题,具有结构简单,计算复杂度低等特点(Cho et al.,2014). GENER模型采用BiGRU实现上下文编码. BiGRU由前向GRU和反向GRU构成. 从结构上,GRU只有更新门和重置门,将遗忘门和输入门合为更新门并混合了细胞状态和隐藏状态,因此,GRU的训练参数也更少,可加快训练速度,提高模型性能.

GRU细胞单元内部结构(图6). 其中xt 表示t时刻的输入向量,ht 表示隐藏状态,也是细胞单元的输出向量,该向量包含了之前t时刻全部的有效信息. zt 表示更新门,作用于控制信息进入下一个状态;由于zt 经过激活函数 σ,因此zt 的值在0到1之间. rt 表示重置门,其作用是控制哪些信息需要保留,哪些信息需要被放弃,两者共同决定了隐藏状态的输出. 在GRU细胞单元中,主要公式如(3)~(7)所示.

r t = σ W r h t - 1 , x t
z t = σ W z , h t - 1 , x t
h t ̃ = t a n h   W h ˜ r t * h t - 1 , x t,
h t = 1 - z t * h t - 1 + z t * h t ̃,
y t = σ W o h t,

其中: W r W z W h ˜ W o均为激活函数输入权重,[ ]表示两个向量相连, σ表示 S i g m o i d函数, *表示矩阵的Hadamard积.

GENER模型上下文编码层(图7),输入为预训练语言模型生成的字嵌入向量列表 Y R n × d,前向GRU和后行GRU分别捕捉目标的上文信息和下文信息,正向GRU与反向GRU的输出拼接得到标签向量列表 Z R n × h,h为实体类型标签数.

3.5 标签解码层

尽管上下文编码层中BiGRU能学习到文本标签,但在处理存在强烈依赖关系的序列标签时能力有限,而CRF能学习邻近标签关系得到一个最优预测标签序列,以弥补BiGRU模型缺陷. 如本文选择的BMESO标注法,同一命名实体中每个字符的标签关系必须一致;标注前缀M或E必须在标注B之后;标注B之后不能再跟一个标注B;文本第一个标注必须以标注B或标注O或标注S开始,不能以标注M和标注E开始;这些标注之间的约束规律BiGRU并没有考虑,而序列解码层能学习到这些标签关系特征.

CRF是一种标签间相关性约束判别概率方法,使用CRF作为最后一层可以帮助模型学习标签之间依赖关系信息,确保实现序列间有效约束(Lafferty et al.,2001). GENER模型标签解码层(图8)在BiGRU后接一个CRF层用以获得全局最优的标签序列预测结果.

CRF输入为BiGRU的上下文特征编码嵌入向量列表 Z = [ z 1 , z 2 , . . . z i , . . . , z n ] , z i R n × k,输出为岩土工程文本命名实体类别序列output,可描述为:

f C R F : Z o u t p u t.

CRF层实现了标签间相关性约束依赖,有效地提高了岩土工程文本命名实体识别的性能.

4 实验

4.1 实验设置

4.1.1 开发环境 实验开发环境设置(表3

4.1.2 模型超级参数 GENER模型超级参数配置(表4

4.2 实验数据

实验过程中采用了留出法和交叉验证相结合的方法划分数据集,应对随机数据集划分所导致的稳健性问题,以句子为单位,按照8∶1∶1的比例划分训练集、验证集和测试集. 实验数据集分布(表5).

4.3 评价指标

实验采用精确率P(precision)、召回率R(recall)和F1值(F1-Score)来度量模型性能,如公式91011所示:

P = T P T P + F P
R = T P T P + F N
F 1 = 2 × P × R P + R

其中:TP表示真正例(true positive),FP表示假正例(false positive),TN表示真反例(true negative),FN表示假反例(false negative);F1是精确率和召回率的调和平均.

4.4 实验结果

为了验证GENER模型,本文将GENER模型与基线模型(BiLSTM-CRF)和RoBERTa(Liu et al., 2019)、XLNET(Yang et al., 2019)、BERT和ERNIE(Zhang et al., 2019)等预训练语言模型进行对比实验. 对比分析了迭代次数(epoch)、批大小(batch_size)、学习率(lr)等超参对于不同命名实体识别模型的性能影响,提出了一套岩土工程文本命名实体识别模型最优参数设置方案.

4.4.1 迭代次数

为比较不同命名实体识别模型的收敛性,对模型迭代次数和评价指标间关系进行了实验分析. 参考其他研究工作经验(Dong et al., 2019),预设10≤epoch≤100. 相同迭代次数下各模型的不同指标的变化(图9~图11).

通过实验分析,随着epoch增加,评价指标随之上升,当迭代次数增大到一定阶段,精确率、召回率和F1值上升也随之变缓,最终达到收敛. 基线模型BiLSTM-CRF模型相比于其他加入了预训练表征学习层的模型变化剧烈,受迭代次数影响比较大,其中RoBERTa预训练模型优势不太明显,收敛略优于基线模型,其余的GENER、ERNIE、XLNET、BERT预训练模型都有非常显著的提升. GENER模型的精确率、召回率和F1值都略高于其他预处理语言模型. 相较于基线模型,F1值提高了3.02%. 实验表明:当迭代次数达到100时GENER模型收敛.

4.4.2 批大小 批大小是影响命名实体识别模型的关键参数之一. 不同模型批大小和精确率、召回率、F1值之间的关系(图12~图14).

通过实验分析,随着批大小增加,精确率、召回率和F1值都呈略微下降,其中BiLSTM-CRF模型受批大小影响较大. 其他预训练语言模型受批大小影响较小. BERT-BiLSTM-CRF模型、ROBERTA-BiLSTM-CRF模型都呈现出随批大小增加略微下降后又很快回升的现象. 比较精确率、召回率和F1值,GENER模型相比其他模型有所提高,相较于基线模型,F1值提高了1.55%. 实验表明:批大小设置为20时GENER模型效果较好.

4.4.3 学习率 学习率设置合理性直接影响到深度学习模型的效能. 不同学习率下各命名识别识别学习模型的性能对比实验结果(表6).

实验发现,随着学习率减小,各模型都呈现先上升后下降现象. GENER模型在学习率较大时,出现精确率、召回率、F1值下降的结果. BiLSTM-CRF模型和ERNIE-BiLSTM-CRF模型在学习率较小的时候,出现精确率、召回率、F1值偏小的结果. GENER模型相对较平缓,未出现较大波动. 实验表明:学习率设置为5e-5时GENER模型效果较好. GENER模型相较于基线模型,F1值提高了1.23%.

4.4.4 消融实验

为了验证模型各层网络结构对实验结果影响的比重,对模型各层网络增加了消融实验分析. 将GENER模型与BiGRU-CRF模型、BERT-CRF模型进行了对比实验(表7). 对比分析验证表示学习层、上下文编码层对模型整体性能的影响.

实验中超参数统一设置为GENER模型的最优参数设置方案,epoch为100、批大小为20、学习率为5e-5.

通过实验分析,GENER模型相比去掉表示学习层或上下文编码层的BiGRU-CRF模型、BERT-CRF模型F1值有所提高,BERT层能更全面的学习句子的语义特征,BiGRU层可以更好的捕捉上下文语义依赖关系,模型的召回率R得到了显著提升,虽然精确率相比BiGRU-CRF模型略微有所下降,但模型的整体效果F1值有较显著提升.

4.5 实验分析

通过上述实验,得到不同深度学习模型下岩土工程文本命名实体识别任务的最优参数设置(表8),进行实验对比分析(表9).

本文提出的GENER模型在评价指标上均优于其他模型. 同基线模型(BiLSTM-CRF)相比,GENER、BERT-BiLSTM-CRF、RoBERTa-BiGRU-CRF、XLNET-BiGRU-CRF等模型,基于预训练语言模型增加了“预训练表征学习层”,模型泛化能力得到改善,召回率R都显著提高,其中本文提出的GENER模型召回率提高了3.11%,证明预训练表征学习层能学习字级、词级、句级特征,可以更为全面的学习句子的语义特征,融入BERT模型的GENER模型,基于上下文语境的深度双向语义理解,有效地提高了岩土工程文本命名实体识别的召回率RF1值. 与其他非BERT预训练语言模型RoBERTa-BiGRU-CRF、XLNET-BiGRU-CRF相比,GENER模型地精准率P、召回率RF1值都有所提高,说明基于BERT预训练语言模型的表示学习层对于岩土工程文本命名实体识别任务更为有效. 在模型求解性能上,上下文编码层采用BiGRU模型优于BiLSTM模型,在模型结构上,GRU模型相比LSTM模型只有更新门和重置门,训练参数更少,训练速度和模型性能得到了显著提高,GENER模型相较于BERT-BiLSTM-CRF(11 857 s/epoch)只需较少的训练时间(11 321 s/eposh).

对GENER模型各命名实体分类精度也进行了分析(表10),从实验结果可以看出,样本数量对分类精度PRF1有较大的影响,样本数量较少的SUR、EVA、DEF这3类命名实体在精度和召回率上都远远低于样本数量较多的GEO、FEA命名实体,而GEN命名实体岩土工程名称,因为和通用领域命名实体类型地名、人名等语义特征相似度较高,所以受样本数量影响较少,模型本身已经学习到了这类语义特征.

实验结果说明,本文提出的GENER模型:(1)基于BERT预训练语言模型,提高了岩土工程文本命名实体识别的精度、召回率和F1值;(2)上下文编码层采用BiGRU模型,模型结构简单、参数较少,可提高模型求解速度. 对比实验数据说明了本文提出的GENER模型在岩土工程文本命名实体识别任务是有效的.

5 结论和展望

岩土工程文本命名实体识别是从海量岩土工程勘察和设计文本中获取信息的基础. 本文针对当前岩土工程中文命名实体识别中面临挑战,研究了基于深度学习的的岩土工程文本命名识别识别方法. 构建了岩土工程命名实体识别标注语料库,提出了一种基于BERT预训练语言模型的岩土工程文本命名实体识别模型GENER. 实验结果表明,该方法对于岩土工程文本命名实体识别的精确率、召回率和F1值等性能评价指标明显优于基线模型及其他深度学习模型.

下一步的研究工作将围绕3个方面开展:(1)进一步优化GENER模型,提升面向岩土工程文本命名实体识别任务性能;(2)通过岩土工程文本命名实体识别方法,提取海量岩土工程中的实体、关系、事件等信息,构建岩土工程知识图谱,探索在地质安全方面的管理、防治、预测、预警等智能管控应用;(3)探索GENER模型在其他地质类文本命名实体识别任务中的应用推广方式.

参考文献

[1]

Bengio, Y.,Courville, A., Vincent, P., 2013. Representation Learning: A Review and New Perspectives. IEEE Transactions on Pattern Analysis & Machine Intelligence, 35(8): 1798-1828.https://doi.org/10.1109/TPAMI.2013. 50

[2]

Cho, K., Van, M., Gulcehre, C., et al., 2014. Learning Phrase Representations Using RNN Encoder-Decoder for Statistical Machine Translation. ArXiv Preprint ArXiv:

[3]

Chu, D. P., Wan, P., Li, H., et al., 2021. Geological Entity Recognition Based on ELMO-CNN-BiLSTM-CRF Model. Earth Science. 46(8): 3039-3048(in Chinese with English abstract).

[4]

Chung, J., Gulcehre, C., Cho, K. H., et al.,2014. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling. arXiv preprint arXiv:

[5]

Devlin, J., Chang, M., Lee, K., et al., 2018. BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding. ArXiv Preprint ArXiv:

[6]

Dong, L., Yang, N., Wang, W., et al., 2019. Unified Language Model Pre-Training for Natural Language Understanding and Generation. ArXiv Preprint ArXiv:

[7]

Fan, R., Wang, L., Yan, J., et al.,2020. Deep Learning-Based Named Entity Recognition and Knowledge Graph Construction for Geological Hazards. ISPRS International Journal of Geo-Information, 9(1): 15.https://doi.org/10.3390/ijgi9010015

[8]

Goyal, A., Gupta, V., Kumar, M., 2018. Recent Named Entity Recognition and Classification Techniques: A Systematic Review. Computer Science Review, 29: 21-43. https://doi.org/10.1016/j.cosrev.2018.06.001

[9]

He,Y.X., Luo,C.W., Hu,B.Y., 2015. Geographic Entity Recognition Method Based on CRF Model And Rules Combination. Computer Application and Software. 2015, 32(1): 179(in Chinese with English abstract).

[10]

Lafferty, J., Mccallum, A., Pereira, F., 2001. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data.Proceedings of the Eighteenth International Conference on Machine Learning. Morgan Kaufmann Publishers Inc., San Francisco, 282–289.

[11]

Lample, G., Ballesteros, M., Subramanian, S., et al., 2016. Neural Architectures for Named Entity Recognition. Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. The Association for Computational Linguistics, San Diego. https://doi.org/10.18653/v1/n16-1030

[12]

Li, J., Sun, A.X., Han, J.L., et al.,2022.ASurvey on Deep Learning for Named Entity Recognition. IEEE Transactions on Knowledge and Data Engineering, 34(1): 50-70.https://doi.org/10.1109/TKDE.2020.2981314

[13]

Liu, D. S., Liu, H. L., Wu, Y., et al, 2022. Genetic Features of Geo-Materials and Their Testing Metohd.Journal of Civil and Environmental Engineering, 44(04): 1-9 (in Chinese with English abstract).

[14]

Liu, H. L., Zhang, R. H., Liu, D. S., et al., 2021. Study on the Characteristics of Physical and Mechanical Parameters of Engineering Geology Based on Data Fusion. Journal of Civil and Environmental Engineering, 1-11(in Chinese with English abstract).

[15]

Liu, X., Zhang, S., Wei, F., et al.,2011 Recognizing Named Entities in Tweets. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Association for Computational Linguistics, USA, 359-367.

[16]

Liu, Y., Ott, M., Goyal, N., et al., 2019.RoBERTa: A Robustly Optimized BERT Pretraining Approach. ArXiv Preprint ArXiv:

[17]

Marrero, M.,Urbano, J., Sánchez-Cuadrado, S., et al., 2013. Named Entity Recognition: Fallacies, Challenges and Opportunities. Computer Standards & Interfaces, 35(5): 482-489. https://doi.org/10.1016/j.csi.2012.09.004

[18]

Ministry of Housing and Urban Rural Development of The People's Republic of China, 2013. GB/T 50330-2013: Construction Side Slope Engineering technology Stand. Beijing: China Architecture & Building Pres(in Chinese).

[19]

Ministry of Housing and Urban Rural Development of The People's Republic of China, 2015. JTGT 84-2015: Terminology Standard for geotechnical investigation. Beijing: China Architecture & Building Pres( in Chinese).

[20]

Ministry of Water Resources of the People's Republic of China, 2014. GB/T 50279-2014:Basic Nomenclature Standard of Geotechnical Engineer. China Planning Press,Beijing(in Chinese).

[21]

Nadeau, D., Sekine, S., 2007. A Survey of Named Entity Recognition and Classification. Lingvisticae Investigationes, 30(1):3-26. https://doi.org/10.1075/li.30.1.03nad

[22]

Qiu, Q., Xie, Z., Wu, L., et al., 2019. BiLSTM-CRF for Geological Named Entity Recognition from The Geoscience Literature. Earth Science Informatics, 12(4): 565-579.https://doi.org/10.1007/s12145-019-00390-3

[23]

Qiu, Q., Xie, Z., Wu, L., et al., 2019. GNER: A Generative Model for Geological Named Entity Recognition Without Labeled Data Using Deep Learning. Earth and Space Science, 6(6): 931-946.https://doi.org/10.1029/2019EA000610

[24]

Qiu, X., Sun, T., Xu, Y., et al., 2020. Pre-Trained Models for Natural Language Processing: A Survey.Science China Technological Sciences, 63(10): 1872-1897. https://doi.org/10.1007/s11431-020-1647-3

[25]

Quimbaya, A. P., Múnera, A. S, Rivera, R. A. G., et al.,2016. Named Entity Recognition over Electronic Health Records through a Combined Dictionary-Based Approach. Procedia Computer Science, 100: 55-61. https://doi.org/10.1016/j.procs.2016.09.123

[26]

Ritter, A., Clark, S., Etzioni, O.,2011. Named Entity Recognition in Tweets: an Experimental Study. Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, USA.

[27]

Rocktäschel, T., Weidlich, M., Leser, U.,2012.ChemSpot: a Hybrid System for Chemical Named Entity Recognition. Bioinformatics, 28(12): 1633-1640. https://doi.org/10.1093/bioinformatics/bts183

[28]

Sharnagat, R.,2014.Named Entity Recognition: A Literature Survey. Center For Indian Language Technology, 8-20.

[29]

Wang, C., Ma, X., Chen, J., et al.,2018. Information Extraction and Knowledge Graph Construction from Geoscience Literature. Computers & Geosciences, 112: 112-120.https://doi.org/10.1016/j.cageo.2017.12.007

[30]

Yang, J., Zhang, Y., Li, L., et al.,2018. YEDDA: A Lightweight Collaborative Text Span Annotation Tool. Proceedings of ACL 2018, System Demonstrations. Association for Computational Linguistics, Australia. https://doi.org/10.18653/v1/P18-4006

[31]

Yang, Z., Dai, Z., Yang, Y., et al., 2019. Xlnet: Generalized Autoregressive Pretraining for Language Understanding. Proceedings of the 33rd International Conference on Neural Information Processing Systems. Curran Associates Inc.,NewYork.

[32]

Zhang, G. Y., Fu, J. Y., Ouyang, Z. Z.,et al., 2020. The Importance of Space Database Establishment Based on DGSS in Big Data Environment. Earth Science. 45(9):3451-3460(in Chinese with English abstract).

[33]

Zhang, S., Elhadad, N.,2013. Unsupervised Biomedical Named Entity Recognition: Experiments with Clinical and Biological Texts. Journal of biomedical informatics, 46(6): 1088-1098. https://doi.org/10.1016/j.jbi.2013.08.004

[34]

Zhang, S. D., Elhadad, N., 2013. Unsupervised Biomedical Named Entity Recognition: Experiments with Clinical and Biological Texts. Journal of Biomedical Informatics, 46(6): 1088-1098. https://doi.org/10.1016/j.jbi.2013.08.004

[35]

Zhang,X. Y., Ye, P., Wang,S.,et al.,2018.Geological Entity Recognition Method Based on Deep Belief Networks. Acta Petrologica Sinica. 34(2): 343-351(in Chinese with English abstract).

[36]

Zhang,X.Y.,Zhu,S. N.,Zhang,C. J.,2012. Annotation of Geographical Named Entities in Chinese Text. Acta Geodaetica et Cartographica Sinica, 41(1): 115-120. (in Chinese with English abstract).

[37]

Zhang, Z., Han, X., Liu, Z., et al., 2019.ERNIE: Enhanced Language Representation with Informative Entities. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, Florence. https://doi.org/10.18653/v1/P19-1139

[38]

储德平,万波,李红,等,2021.基于ELMO-CNN-BiLSTM-CRF模型的地质实体识别.地球科学,46(8):3039-3048.

[39]

何炎祥,罗楚威,胡彬尧,2015.基于 CRF 和规则相结合的地理命名实体识别方法.计算机应用与软件,32(1): 179.

[40]

张雪英,叶鹏,王曙,等,2018.基于深度信念网络的地质实体识别方法.岩石学报,34(2):343-351.

[41]

刘汉龙,章润红,刘东升,等,2021.基于数据融合的工程地质物理力学参数特征研究.土木与环境工程学报(中英文),1-11.

[42]

刘东升,刘汉龙,吴越,等,2022.岩土材料的基因特征及其测试方法研究.土木与环境工程学报(中英文),44(04): 1-9.

[43]

张雪英,朱少楠,张春菊,2012.中文文本的地理命名实体标注.测绘学报,41(1):115-120.

[44]

张广宇,付俊彧,欧阳兆灼,等,2020.大数据时代基于dgss系统下空间数据库建立的重要性.地球科学,45(9): 3451-3460.

[45]

中华人民共和国水利部,2014. GB/T 50279-2014:岩土工程基本术语标准.北京:中国计划出版社.

[46]

中华人民共和国住房和城乡建设部,2013, GB/T 50330-2013:建筑边坡工程技术规范. 北京:中国建筑工业出版社.

[47]

中华人民共和国住房和城乡建设部,2015. JTGT 84-2015:岩土工程勘察术语标准.北京:中国建筑工业出版社.

基金资助

认知智能全国重点实验室开放课题(COGOS-2023HE09)

国家自然科学基金的基金(42103024;42130307)

AI Summary AI Mindmap
PDF (4039KB)

198

访问

0

被引

详细

导航
相关文章

AI思维导图

/