航空事故领域的知识抽取方法研究与实现

刘军; 曹悦; 刘向军; 王宏艳

doi:10.12068/j.issn.1005-3026.2026.20240234

东北大学学报(自然科学版) ›› 2026, Vol. 47 ›› Issue (01) : 89 -98. DOI: 10.12068/j.issn.1005-3026.2026.20240234

信息与控制

航空事故领域的知识抽取方法研究与实现

刘军 ¹ ,
曹悦 ¹ ,
刘向军 ² ,
王宏艳 ¹

作者信息 +

Research and Implementation of Knowledge Extraction in Aviation Accident Domain

Author information +

文章历史 +

PDF (1780K)

摘要

随着航空运输业与信息技术的快速发展，航空应急管理给海量、异构的航空安全数据高效利用带来了挑战.本文针对航空事故知识图谱的知识抽取问题，即命名实体识别与关系抽取问题，提出以下方法：1）提出基于BERT（bidirectional encoder representations from Transformers）的改进BiGRU-IDCNN-CRF模型，实现94.69%的命名实体识别精确率；2）构建基于强化学习的聚类远程监督关系抽取模型，结合改进K均值聚类与远程监督标注降低数据噪声，并通过强化学习优化去噪过程，最终结合分段卷积神经网络（PCNN）与注意力机制，实现84.16%的关系抽取精确率.实验结果表明，本文方法有效提升了航空事故知识图谱的信息提取质量，为航空安全管理提供了精准的信息支撑.

Abstract

In light of the rapid development of air transportation and information technology， the efficient utilization of massive and heterogeneous aviation safety data in aviation emergency management faces challenges. The problem of knowledge extraction for an aviation accident knowledge graph was studied， specifically named entity recognition and relation extraction， and the following methods were proposed： 1） An improved BiGRU-IDCNN-CRF model based on bidirectional encoder representations from Transformers （BERT） was presented， achieving a named entity recognition accuracy of 94.69%； 2） A reinforcement learning-based clustering distant supervision relation extraction model was constructed， in which data noise was reduced by integrating improved K-means clustering with distant supervision labeling， and the denoising process was optimized via reinforcement learning； a combination of piecewise convolutional neural network （PCNN） and an attention mechanism was applied to achieve a relation extraction accuracy of 84.16%. Experimental results indicate that the quality of information extraction for the aviation accident knowledge graph is effectively improved， providing accurate information support for aviation safety management.

Graphical abstract

关键词

航空事故 / 知识抽取 / 命名实体识别 / 关系抽取 / 远程监督 / 强化学习

Key words

aviation accident / knowledge extraction / named entity recognition / relation extraction / distant supervision / reinforcement learning

引用本文

引用格式 ▾

刘军,曹悦,刘向军,王宏艳. 航空事故领域的知识抽取方法研究与实现[J]. 东北大学学报(自然科学版), 2026, 47(01): 89-98 DOI:10.12068/j.issn.1005-3026.2026.20240234

登录浏览全文

4963

注册一个新账户忘记密码

在大数据与互联网技术的推动下，航空领域知识呈指数级增长，面对多源化的航空数据以及不断出现的航空事故新知识，传统的知识表示工具已不能满足航空事故应急管理的需求.因此，对于航空事故来说如何更有效利用大量的历史积累记录，提高安全规则提供的辅助分析支持，以及如何避免类似的事故发生已经成为迫切需要解决的关键问题.航空事故的成因复杂多样，多种因素构成复杂的网络关系，无法用二维关系显示.航空事故文本中包含大量数据，可能蕴含大量显性与隐性知识，挖掘这些数据之间的联系能够辅助快速决策.因此，知识图谱^［1］作为实体关系的直接表征，在航空领域具有广阔的应用潜力和前景.

航空事故知识图谱的构建过程主要包括：数据获取、知识抽取、知识融合和知识加工.知识抽取是航空事故知识图谱构建的关键性工作，分为命名实体识别和关系抽取两大过程.命名实体识别技术最初是通过人工编写规则进行实体抽取的，随后发展出基于统计机器学习系统和特征工程系统.

随着深度学习方法的兴起，卷积神经网络、循环神经网络（RNN）、长短期记忆网络（LSTM）等模型被引入命名实体识别领域，并取得了显著的效果^［2-4］.随着BERT预训练语言模型在自然语言领域的多项任务中取得出色成绩，许多学者开始将其应用于命名实体识别任务.Qin等^［5］提出基于BERT-BiGRU-CRF模型的中文电子病历命名实体识别方法；Li等^［6］提出师生蒸馏学习模型，使学生模型能够融合源语言在实体识别与实体相似性评估方面的优势；Boudjellal等^［7］在阿拉伯语的小型生物医学数据集中训练单语言的BERT模型，并取得较好的成果；Zhou等^［8］结合对比学习和基于原型的伪标签提高跨语言命名实体识别的准确率；Ma等^［9］采用双塔BERT模型分别对文本字符和对应标签进行编码，通过将二者进行点积运算实现分类.

关系抽取是知识图谱构建中的重要子任务，早期方法包括基于模板匹配和基于监督学习2种方法，但存在模板构建困难、耗时和可移植性差的问题.随着深度学习的发展，深度学习方法被引入关系抽取领域^［10］，包括使用新型深度神经网络（deep neural network，DNN）^［11］和LSTM建立的全局优化的神经模型^［12］.然而，这些方法需要大量训练语料库，对于某些领域语料库不足的问题，提出了远程监督来解决^［13］，且随着技术的发展，图神经网络^［14］、注意力机制^［15］和未标记的远程监督^［16］也被应用于基于远程监督的关系抽取任务.Ji等^［17］提出的远程监督结合句子级注意力和实体定义的关系抽取模型能够提高抽取的精确率，但存在数据噪声的问题.Chen等^［18］提出一种新的对比学习框架，旨在提高远程监督关系抽取的性能，但由于依赖于自动生成的标签，仍可能存在标签不一致和噪声问题.Luo等^［19］利用动态转移矩阵来处理数据中的噪声，增强远程监督关系抽取，但转移矩阵的构建存在挑战，可能影响模型对噪声的敏感性.Zhou等^［20］提出基于自选择注意力机制的远程监督关系提取方法，但在处理包含噪声的实例时表现欠佳.

目前针对航空事故领域文本的关系抽取方法研究较少，航空事故关系抽取的效果仍有待提升，需要进一步研究和改进.针对航空事故文本中实体边界模糊、结构复杂且实体长度较长、含有大量数字与字母组合词、内部相关关系较为密切、文本专业性强、文本之间存在长距离依赖且文本训练语料库少等问题，本文重点研究知识抽取中的命名实体识别与关系抽取方法，以用于航空事故知识图谱的构建.首先识别航空事故句子级文本中的实体，然后抽取实体对之间的关系，进而对抽取结果进行存储.

1 基于改进BiGRU-IDCNN-CRF的命名实体识别模型

结合航空事故文本数据的实体成分复杂、结构嵌套、含有大量数字与字母组合词以及实体内部相关关系较为密切等特点，提出改进的BiGRU-IDCNN-CRF模型来进行实体识别.

1.1 改进BiGRU

在BiGRU网络前向传播和后向传播的过程中，因为2个过程是相互独立且提取的信息量存在差异，对航空事故文本实体之间复杂度较大的文本抽取效果欠佳.因此为了确保2个过程之间紧密联系、相互制约以获得更好的结果，本文提出了贡献因子

α

，并将其加入到前向传播和后向传播中，使用

α

调整GRU（gated recurrent unit）的前向传播和后向传播对后续数据的影响，输出层通过这两层的权重以及偏置得到和标签集维度一样的向量作为最终输出，计算公式如式（1）所示：

h t B = α W h ⃗ h ⃗ t + (1 - α) W h ⃖ h ⃖ t + b t .

(1)

其中：

h t B

为BiGRU的最终输出；t为时间步；

W h

为输出层的权重；

b t

为输出层的偏置；在提取航空事故文本特征过程中，

h ⃗ t

为前向传输的输出状态，

h ⃖ t

为后向传输的输出状态.贡献因子

α

的值将通过多次实验来确定.

1.2 实体识别模型的设计

为了解决传统字向量嵌入方法无法表征字多义性问题，引入BERT模型将航空事故文本向量化.航空事故文本通过BERT模型将语义充分表示，将得到的高质量语义向量输入到改进的BiGRU-IDCNN-CRF模型中，对航空事故知识图谱的实体进行识别，具体的模型如图1所示.

1） BERT：航空事故的句子级文本

m i

，用

X m i = (x 1, x 2, …, x x n)

作为模型的输入，其中

x i

表示句子文本的第

i

个字，将全部的文本依次按字的形式输入预训练语言模型BERT中.BERT使用字向量、位置向量和句子级向量进行嵌入，然后将它们拼接相加以产生最终的字向量输出

V = (v 1, v 2, …, v n)

，同时字向量输出作为改进BiGRU-IDCNN编码模型的输入.

2）改进BiGRU网络：得到前向传播的模型输出序列

(h ⃗ 1, h ⃗ 2, …, h ⃗ n)

以及后向传播的模型输出序列

(h ⃖ 1, h ⃖ 2, …, h ⃖ n)

，再将其前向输出序列与后向输出序列进行信息拼接.由于本文提出了贡献因子，因此最后的输出是加入贡献因子后的输出

h t B = α h ⃗ t + (1 - α) h ⃖ t

，图1中的

α' = 1 - α

，贡献因子设置为0.8.经过训练最终得到改进BiGRU编码模型的输出

h B = [h 1 B, h 2 B, …, h n B]

3） IDCNN（iterated dilated convolutional neural network）网络：当BERT层数据进入IDCNN时，首先到达DCNN-1层.DCNN-1层的输出向量会分为2个部分：一部分与其他DCNN分层的输出拼接成向量直接输出；另一部分作为DCNN-2的输入.依此类推，最终得到IDCNN网络的输出

h I = [h 1 I, h 2 I, …, h n I,]

.将此输出与改进BiGRU网络输出拼接在一起，得到该层的输出

h = [h B, h I]

.此层的输出经过线性映射后得到各个标签的分数后输入到CRF（conditional random field）层中，线性映射公式如式（2）所示：

P i = W s h (t) + b s .

(2)

其中： P_i 是标签得分向量；

h (t)

是t时刻改进BiGRU和IDCNN网络层的最后输出；

W s

，

b s

是线性映射的参数.

4） CRF：各序列的标签通过CRF模型中的状态转移矩阵

A i j

得到，

A i j

是表示第i个标签转移到第j标签的得分，因此对于输入文本为

M = {m 1, m 2, …, m n}

的最终得到的标签序列为

N m i = (n 1, n 2, …, n | m i |)

，标签分数如下：

s c o r e (x, y) = ∑ i = 1 | m i | P i, y i + ∑ i = 1 | t i | + 1 A y i - 1, y i .

(3)

其中：x表示输入序列；y表示输出序列；

∑ i = 1 | m i | P i, y i

表示改进BiGRU和IDCNN网络的共同输出结果；

∑ i = 1 | t i | + 1 A y i - 1, y i

表示CRF中状态转移矩阵 A 的和.对标签分数采用softmax函数进行归一化处理，得到标签序列的概率P如式（4）所示：

P (y | x) = e x p (s c o r e (x, y)) ∑ y' e x p (s c o r e (x, y')) .

(4)

式中

y'

是所有可能的标签序列.

损失函数L如式（5）所示：

L = - 1 N ∑ n = 1 N l o g P (y x) .

(5)

将本文提出的方法通过训练集对模型进行训练，然后利用测试集完成测试，最终得到能够识别航空事故文本的实体识别模型.

2 基于强化学习的聚类远程监督关系抽取模型

在第1章的基础上继续对实体对之间的关系进行研究.由于航空事故文本中含有深层语义的句子较多，且航空事故文本的专业性强，知识库与文本集的不对等导致关系标签中出现大量“NA（无关系）”样本，所以提出基于强化学习的聚类远程监督关系抽取模型.

2.1 文本向量化

为了使句子中的句法和语义信息得到更好的表达，利用Word2vec方法将句子中的字向量化，同时使用Position Embeddings将位置信息向量化嵌入，将两者拼接作为文本的向量表示，作为模型的输入.

2.2 关系抽取模型的设计

为了解决航空事故文本语料库不足的问题，本文采用远程监督来获取数据进行关系抽取.然而，远程监督获取的数据存在大量噪声，影响了关系抽取的精确率.通过分析航空事故文本，发现了大量被错误标注为“NA”关系的实体对，因此本文提出聚类远程监督方法来减少噪声.同时，引入强化学习去除数据集中的负实例噪声，以提高关系抽取模型的准确性.强化学习去噪部分与关系抽取模型相辅相成，具体过程如图2所示.

2.2.1 聚类远程监督标注语料

远程监督主要是通过启发式匹配完成的，将文本集中的实体对与知识库中的实体对进行匹配，并标注相应的关系.然而，这种方法存在强假设，会导致很多句子被错误标注，产生噪声.为了减少这些噪声，本文提出了聚类远程监督方法，将改进的K-means聚类算法和远程监督相结合，完成数据集标注，从而减少部分噪声的产生.

使用聚类远程监督方法进行数据标注的过程主要分为两个步骤：首先，将句子根据语义相似度聚类成多个簇；然后，通过将每个簇中的实体对与知识库对齐，找出出现次数最多的关系来标注每个簇的关系标签.最终目标是通过最小化簇对象与簇质心之间距离的平方和来优化目标函数Q，具体计算如式（6）所示：

Q = ∑ i = 1 K ∑ x ∈ C i d i s (C i, μ i) 2

.(6)

式中：

C i

表示每个簇对象；

μ i

表示每个簇类中心，即簇质心；dis（i）²表示簇对象到簇质心的距离平方；K表示聚类簇数.实现步骤见表1.

基于以上过程，数据集已经分为了K个簇，这时，每个簇中所包含句子的关系标签不再相同，所以会对同一个簇中需要重新标注的句子进行再次的标注，而对于每一个簇C需要重新标注关系r的可能性通过式（7）和（8）进行计算.

P (c ∈ r) = 0, 如果 实体 对 c ∈ r, 1, 如果 实体 对 c ∉ r,

(7)

P (C ∈ r) = ∑ c ∈ C P (c ∈ r) | C |

.(8)

其中：

P (c ∈ r)

表示1个簇中的句子

c

属于关系

r

的概率；

P (C ∈ r)

表示整个簇是关系

r

的概率.整个过程将概率P最大的关系标签

r

作为重新标注的标签.因此该方法在一定程度上减少了“NA”关系的噪声以及漏标注的数据.

2.2.2 强化学习去噪

强化学习（reinforcement learning，RL）分为四部分，即状态（state）、动作（action）、策略函数（policy）以及奖励（reward）.本文将聚类远程监督数据去噪过程看作是智能体（agent）和外部环境的交互过程，来完成对数据的降噪工作.通过将噪声数据输入到agent中，利用其内部的动作、状态、策略函数以及奖励来判断句子标注正确性，将错误标注的句子划分到负样本中，能够有效达到降噪效果.

本文在强化学习整个过程中涉及的状态、动作、策略函数以及奖励具体定义如下：

状态：

s i = [m p r e s e n t', m s e l e c t', (e 1, e 2)]

，

m p r e s e n t'

是当前的句子，

m s e l e c t'

是选择出来的句子，

(e 1, e 2)

是目标的实体对.环境状态引导agent作出最佳的动作.

动作：判断句子的正确标注，并将动作

a i

保留或重新分配到负样本中.本文主要控制这2个动作的选择来完成标签的去噪工作.

策略函数：用于确定句子中的词语是否与预定义的关系类型相关，并通过随机策略

π θ (s i, a i)

选择最佳动作，如式（9）所示：

π θ (s i, a i) = P (a i | s i; θ)

.(9)

其中：

θ

是需要学习的参数；

P (a i | s i; θ)

是在给定状态

s i

和参数

θ

的情况下，执行某个特定动作

a i

的概率.

奖励：本文使用F1值（精确率和召回率的调和平均数）作为奖励，通过策略梯度对策略函数进行优化.在损失函数的计算公式中考虑了奖励值，以提高关系抽取模型的精确率和整体抽取效果.奖励值与F1值差值成正比，通过每5个时期的平均F1值来计算奖励，以减少随机性.奖励R_t 如式（10）所示：

R t = β (F 1 i - F 1 i - 1)

.(10)

其中

β

是奖励缩放系数，在预训练过程中使用策略梯度优化策略函数，并通过Reward进行系数加入以增强或减少动作的发生.损失函数的表达式如下：

L (θ) = - 1 N ∑ τ R (τ) l o g π θ (τ)

.(11)

其中：

τ = {s 1, a 1, s 2, a 2, …, s t, a t}

是行为状态序列；

π θ (τ)

是当前动作发生的概率；

R (τ)

是获取到的奖励.

实验中，将带有标签的正样本和负样本分别分为训练集和测试集，并通过迭代过程中重新分配样本来优化模型.最终得到的F1值差值作为奖励，用于优化和调整策略.同时，提出2个集合来计算损失函数，分别为

Ω i

和

Ω i - 1

，表示去掉公共识别部分后留下的各自识别的部分，以优化agent的策略.

Ω i - 1 = ψ i - 1 - (ψ i ⋂ ψ i - 1)

，(12)

Ω i = ψ i - (ψ i ⋂ ψ i - 1)

，(13)

L (θ) = ∑ Ω i l o g π (a | s; θ) + ∑ Ω i - 1 l o g π (a | s; θ)

.(14)

其中：

ψ i

表示在第i轮次被移除的实例；

ψ i ⋂ ψ i - 1

表示在当前的轮次和前一个轮次中所选取移除实例的交集.

2.2.3 APCNNA

获得的去噪后数据

M' = {m 1', m 2', m 3', …}

输入到关系抽取模型中进行关系提取.PCNN在远程监督关系抽取方面展现了良好的性能，能够挖掘文本中高层语义信息.考虑到航空事故实体复杂且高层语义信息较多，本文提出APCNNA关系抽取模型如图3所示，其具体构造描述如下.

输入层：将2.2.2节获取到的去噪数据集和实体对集合作为关系抽取的输入，考虑到航空事故文本在去噪后可能存在一些无关的词语和符号，因此引入注意力机制来增加预定义实体在句子中的占比.预定义的实体类型作为目标词，通过注意力机制得到每个句子中的词语的权重，最终得到分段卷积网络的输入向量

W = [w 1, w 2, w 3, …, w l] T

APCNNA模型：它是由PCNN和两层注意力机制组成.一层注意力机制是在输入层，通过增加注意力机制能够减少无关词语的干扰，快速抓取重点实体，得到输入向量.另一层在PCNN的池化层，形成注意力池化层，用于获取不同语义特征和关系之间的相关性.这样能够增强相关特征的作用，抑制不相关特征，提升模型的抽取效果.

经过注意力机制得到的向量输入到卷积层中，则句子长度为l，卷积核为g，填充长度为g-l，卷积层输出特征向量为 c .在池化层中，由卷积层的特征向量 C 与关系类型向量 R 计算相似度，得到注意力权重向量 e，通过将 e 和 W 进行乘法运算得到向量 Y，进行池化操作得到长度为3的向量.最终将分段池化输出拼接并经过tanh激活函数得到最终输出 z .具体计算公式如下：

c ∈ R l + g - 1, c j = g q j - l + 1, 1 ≤ j ≤ l + g - 1,

(15)

e n = s o f t m a x (C k F R n),

(16)

Y = e i T · W i,

(17)

p i j = m a x (Y i j), 1 ≤ i ≤ n, 1 ≤ j ≤ 3,

(18)

p i = {p i 1, p i 2, p i 3},

(19)

z = t a n h (p 1 : n), z ∈ R 3 n .

(20)

其中：k是使用卷积核的数量；n是定义的关系向量总数，本文中n=7；p_i_∶_n 为分段后的所有池化输出p_i 进行拼接后的池化层总输出； F 为参数向量； W_i 为句子特征向量.

输出层：使用softmax函数，将结果转化为概率分数，输出记为

o

，具体表达式如下：

o = s o f t m a x (w' z + b)

.(21)

其中：

w'

表示权重；b表示偏置.

通过输出层得到句子的关系标签，计算F1值作为评价指标，将结果反馈给强化学习部分进行优化，避免局部最优情况.同时，通过二者的交互，提高关系抽取模型的精确率.为防止过拟合，引入Dropout策略，随机隐藏神经元节点，提高模型的泛化能力.设置Dropout策略值为0.5，完成整个模型的训练过程.最终使用训练好的模型进行航空事故文本的关系抽取.

2.3 关系抽取结果和存储

在完成实体对之间的关系抽取后，要将获取的实体对和关系通过三元组形式来完成数据的整合和存储.使用Neo4j图基于键值对完成数据存储.将航空事故文本经实体关系抽取后得到的实体数据和关系数据转换成csv表格数据，分别命名为Air.csv和Relation.csv，将这2个csv格式的数据导入数据库，得到航空事故的知识图谱.

3 实验与分析

本文的所有实验都基于Ubuntu 18.04的操作系统，内存为512 GB，显卡为NVIDA RTX 3090，显存为24 GB.本实验所用的数据主要是通过查阅中国民用航空安全信息系统和航空安全自愿报告系统上的公开航空安全事故报告构建的.程序基于Python3.6及TensorFlow1.14.0进行仿真.

3.1 基于BERT嵌入的改进BiGRU-IDCNN-CRF模型仿真分析

3.1.1 评价指标

模型的评价指标有：精确率（precision，记为P）、召回率（recall，记为R）和F1值（F1-measure），公式如下：

P = T P T P + F P

,(22)

R = T P T P + F N

,(23)

F 1 = 2 P R P + R

.(24)

其中：TP表示实际为正类的样本被正确地分类为正类的数量；FP表示实际为负类的样本被错误地分类为正类的数量；FN表示实际为正类的样本被错误地分类为负类的数量.

3.1.2 参数设置与数据集说明

实体识别模型的参数设置如下：BERT_base层数为12，BERT_base隐层为768，最大序列长度为128，隐层大小为120，学习率为0.005，Dropout值为0.5，优化方法采用Adam算法.

DatasetQ数据集构建基于中国民用航空安全信息系统网站和航空安全自愿报告系统网站上的公开信息.首先，通过对原始文本进行清洗与标注，形成基础语料.随后，该基础语料经历了两阶段的数据增强流程：第一阶段采用EDA（exploratory data analysis）方法以增加数据的多样性；第二阶段在此基础上，进一步应用TF-IDF方法进行深度语义层面的扩充与生成，最终形成了总规模达43 224条数据的数据集，该数据集按4∶1的比例划分为训练集与测试集，用于后续的模型训练与性能验证.

3.1.3 不同实体模型的对比实验

为了能够更好地体现本文提出的识别模型性能，将其分别与CRF，GRU，IDCNN，BiGRU等9种模型进行对比，在其他条件都相同的情况下，使用DatasetQ数据集来验证本文提出的模型.实验中各项参数由上述实验获取到的数据设置，实验最终结果如表2所示.

实验结果表明，基于神经网络的实体识别方法比基于统计机器学习的方法效果更好，精确率和F1值有所提升，因为神经网络能够学习到更多信息并提取更精确的特征.此外，BiGRU网络的效果略好于GRU，因为它能够同时考虑句子的上下文信息，实现更准确的全局特征提取.CRF模型能够提升模型效果，因为CRF能够解决神经网络输出标签不合理的问题，提高精确率和F1值.引入BERT模型能够显著提高模型的精确率、召回率和F1值.将BiGRU网络与IDCNN网络结合并加入贡献因子改进后，最终BERT-改进BiGRU-IDCNN-CRF模型表现出很好的性能，精确率提高了1.54%，相比传统CRF模型提高了11.01%，F1值同时也提高了8.96%.整体模型性能较好，实体识别的效果也有所提升.

3.1.4 稳定性对比实验

为了验证BERT-改进BiGRU-IDCNN-CRF模型的稳定性，随机选取6 000，8 000，10 000，12 000，14 000条训练数据进行实验，测试数据为统一的10 000条数据.在这个环境下将本文提出的模型与BERT-BiGRU-CRF模型以及BERT-IDCNN-CRF模型进行了对比，实验结果见图4.

通过图4可以看出，在5组训练数据中，BERT-改进BiGRU-IDCNN-CRF模型除了在数据集为10 000条时出现了和BERT-BiGRU-CRF模型相同的指标值，其余情况均优于对比模型.无论数据集为多大，其都能表现出很好的性能，且数据集数量越多，其性能越好.因此，验证了本文提出的方法具有一定的稳定性.

3.2 基于强化学习的聚类远程监督关系抽取仿真分析

本节采用的数据集与3.1节数据集相同，共有56 900条数据，包含预定义的3 000组正样本实体对和2 900组随机选取的负样本.将数据按照8∶2的比例划分为训练集和测试集.预定义的六类关系包括实体间包含关系、同义关系、原因关系、结果关系、属性关系和其他关系，数据量分别为8 265，9 256，12 653，11 636，10 089，9 578条.

3.2.1 评价指标

评价指标采用微平均值Micro_P，Micro_R和Micro_F1.微平均值是分析多实例多标签的重要指标，其在P，R，F1的基础上分别计算每一个TP，FP，TN，FN类的值，再将它们加和得到新的值，计算公式如下：

M i c r o_P = ∑ j T P j ∑ j T P j + F P j,

(25)

M i c r o_R = ∑ j T P j ∑ j T P j + F N j,

(26)

M i c r o_F 1 = 2 × M i c r o_P × M i c r o_R M i c r o_P + M i c r o_R .

(27)

式中，

j

代表第

j

个实际值或第

j

个预测值.

3.2.2 参数设置

关系抽取模型的学习率和Dropout值与实体识别模型一致，所使用的参数是根据APCNNA关系抽取模型所设定的，参数设置如下：句子最大长度为120，卷积窗口大小为3，字向量维度为100，位置向量维度为5，卷积核数量为100.

3.2.3 消融实验

为了验证双层注意力机制的有效性，本文进行了4种模型的消融实验：PCNN本身、PCNN加上字向量注意力机制（ATT_Z+PCNN）、注意力机制池化层的PCNN（PCNN+ATT_C）以及本文提出的模型APCNNA.实验结果如表3所示.

根据表3可知，加入字向量注意力机制和池化层注意力机制都能提高模型性能.在PCNN池化层加入注意力机制后，其性能提升较ATT_Z+PCNN略高，因为该机制能使整个池化层更加精准地输出航空事故实体关系；与其他模型相比，APCNNA模型在Micro_F1值上表现最优，因为它综合了前两者的优点并进一步提升了整体性能.

3.2.4 数据标注方法对比实验

本文提出的聚类远程监督方法主要目的是提供一个噪声较低的数据集，提高整体模型的有效性.因此暂不考虑后续的神经网络模型与强化学习部分，采用普通的远程监督方法Mintz^［21］（采用强假设标记的传统远程监督方法）、MultiR^［22］和MIMLRE^［23］（多实例方法和多实例多标签方法）在改进前后的数据集上进行对比.实验结果如表4所示.

由表4可以看出，本文提出的聚类远程监督方法对实验数据集具有一定的改善作用，F1值相比于传统远程监督在各个方法上都有3%左右的提升.说明在通过聚类之后，数据集中的一些错误标注有所减少，提高了抽取的精确率；同时改进K-means算法中聚类中心的选取考虑了航空文本句子全局和局部联系，使得召回率在一定程度上得到提高，但是标注时间会略长一些，然而相比于标注数据完成后使用的神经网络关系抽取模型训练时间来说，这部分标注时间的消耗对整体影响是十分微小的.因此，就整体效果而言，本文提出的聚类远程监督获取的标注数据具有一定的优势.

3.2.5 关系抽取方法对比实验

为了验证APCNNA+RL模型性能，在本文提出的聚类远程监督获取的标注数据集基础上，将提出的模型（APCNNA+RL）与主流的关系抽取模型进行对比.实验结果如表5所示.

由表5可以看出，根据前2个基于特征方程模型和后面4个神经网络模型对比说明神经网络方法在解决有噪声标签的关系抽取问题时效果更好；对比PCNN+ONE和PCNN可知，利用多个句子降噪比仅使用概率最大的句子更有效；APCNNA与PCNN相比，APCNNA的特征提取效果更好；APCNNA和APCNNA+RL相比，结合强化学习的APCNNA网络模型降噪效果很好，精准率相比于单独的APCNNA模型提升了2.57%，这是因为强化学习与关系抽取模型的交互能够减少大量的噪声.

4 结语

构建航空事故的知识图谱对提升航空事故应急管理能力具有重要意义.航空事故知识抽取是构建航空事故知识图谱的关键.本文以航空事故知识图谱构建的知识抽取为切入点，提出了基于BERT的改进的BiGRU-IDCNN-CRF命名实体识别模型，并且整体模型的融合改进能够更准确地识别出航空事故文本实体，在解决航空事故文本存在问题的同时提高了识别精确率；提出了基于强化学习的去噪APCNNA关系抽取模型.实验结果表明，提出的命名实体识别模型实现高达94.69%的精确率，关系抽取模型实现84.16%的精确率，因此，本文的方法在航空事故文本中具有有效性和实用性.

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	Pujara J， Miao H， Getoor L， et al. Knowledge graph identification［C］//The Semantic Web-ISWC 2013. Berlin， Heidelberg： Springer， 2013： 542-557.

[2]	张汝佳，代璐，王邦，等. 基于深度学习的中文命名实体识别最新研究进展综述［J］. 中文信息学报， 2022， 36（6）： 20-35.

[3]	Zhang Ru-jia， Dai Lu， Wang Bang， et al. Recent advances of Chinese named entity recognition based on deep learning［J］. Journal of Chinese Information Processing， 2022， 36（6）： 20-35.

[4]	Goller C， Kuchler A. Learning task-dependent distributed representations by backpropagation through structure［C］//Proceedings of International Conference on Neural Networks （ICNN’96）. Washington DC， 1996： 347-352.

[5]	Gers F A， Schmidhuber J， Cummins F. Learning to forget： continual prediction with LSTM［J］. Neural Computation， 2000， 12（10）： 2451-2471.

[6]	Qin Q L， Zhao S， Liu C M. A BERT-BiGRU-CRF model for entity recognition of Chinese electronic medical records［J］. Complexity， 2021， 2021： 6631837.

[7]	Li Z R， Hu C M， Guo X H， et al. An unsupervised multiple-task and multiple-teacher model for cross-lingual named entity recognition［C］//Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. Dublin， 2022： 170-179.

[8]	Boudjellal N， Zhang H P， Khan A， et al. ABioNER： a BERT-based model for Arabic biomedical named-entity recognition［J］. Complexity， 2021， 2021： 6633213.

[9]	Zhou R， Li X， Bing L D， et al. Improving self-training for cross-lingual named entity recognition with contrastive and prototype learning［C］//Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto， 2023： 4018-4031.

[10]	Ma J， Ballesteros M， Doss S， et al. Label semantics for few shot named entity recognition［C］//Findings of the Association for Computational Linguistics： ACL 2022. Dublin，2022： 1956-1971.

[11]	鄂海红，张文静，肖思琪，等．深度学习实体关系抽取研究综述［J］. 软件学报， 2019， 30（6）： 1793-1818.

[12]	Hai-hong E， Zhang Wen-jing， Xiao Si-qi， et al. Survey of entity relationship extraction based on deep learning ［J］. Journal of Software，2019，30（6）：1793-1818.

[13]	He H， Ganjam K， Jain N， et al. An insight extraction system on BioMedical literature with deep neural networks［C］//Proceedings of the 2017 Conference on Empirical Methods in NaturalLanguage Processing. Copenhagen， 2017： 2691-2701.

[14]	Zhang M S， Zhang Y， Fu G H. End-to-end neural relation extraction with global optimization［C］//Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen， 2017： 1730-1740.

[15]	Yang S Z， Liu Y X， Zhang K W， et al. Overview of remote supervision relationship extraction［J］.Journal of Computer Science， 2021， 44（8）：1636-1660.

[16]	许鑫冉，王腾宇，鲁才. 图神经网络在知识图谱构建与应用中的研究进展［J］. 计算机科学与探索， 2023， 17（10）： 2278-2299.

[17]	Xu Xin-ran， Wang Teng-yu， Lu Cai. Research progress of graph neural network in knowledge graph construction and application［J］. Journal of Frontiers of Computer Science and Technology， 2023， 17（10）： 2278-2299.

[18]	郑志蕴，徐亚媚，李伦，等.融合位置特征注意力与关系增强机制的远程监督关系抽取［J］. 小型微型计算机系统， 2023， 44（12）：2678-2684.

[19]	Zheng Zhi-yun， Xu Ya-mei， Li Lun， et al. Distantly supervised relation extraction with position feature attention and relation enhancement［J］.Journal of Chinese Computer Systems， 2023， 44（12）：2678-2684.

[20]	Wang G Y， Zhang W， Wang R X， et al. Label-free distant supervision for relation extraction via knowledge graph embedding［C］//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels， 2018： 2246-2255.

[21]	Ji G L， Liu K， He S Z， et al. Distant supervision for relation extraction with sentence-level attention and entity descriptions［C］// Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence. San Francisco， 2017： 3060-3066.

[22]	Chen T， Shi H Z， Tang S L， et al. CIL： contrastive instance learning framework for distantly supervised relation extraction［C］//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics. Online， 2021： 6191-6200.

[23]	Luo B F， Feng Y S， Wang Z， et al. Learning with noise： enhance distantly supervised relation extraction with dynamic transition matrix［C］//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver，2017： 430-439.

[24]	Zhou Y R， Pan L M， Bai C Y， et al. Self-selective attention using correlation between instances for distant supervision relation extraction［J］. Neural Networks， 2021， 142： 213-220.

[25]	Mintz M， Bills S， Snow R， et al. Distant supervision for relation extraction without labeled data［C］//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Singapore， 2009： 1003-1011.

[26]	Hoffmann R， Zhang C L， Ling X， et al. Knowledge-based weak supervision for information extraction of overlapping relations［C］//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics： Human Language Technologies. Portland， 2011： 541-550.

[27]	Surdeanu M， Tibshirani J， Nallapati R， et al. Multi-instance multi-label learning for relation extraction［C］//Conference on Empirical Methods in Natural Language Processing. Jeju Island， 2012：455-465.