基于结构感知的中文篇章级事件论元表示

陶涛 ,  施卫峰 ,  应励志 ,  郭浪 ,  朱光辉 ,  袁春风 ,  黄宜华

南京大学学报(自然科学) ›› 2026, Vol. 62 ›› Issue (01) : 138 -150.

PDF (1027KB)
南京大学学报(自然科学) ›› 2026, Vol. 62 ›› Issue (01) : 138 -150. DOI: 10.13232/j.cnki.jnju.2026.01.012

基于结构感知的中文篇章级事件论元表示

作者信息 +

Structure⁃aware representation for Chinese document⁃level event arguments

Author information +
文章历史 +
PDF (1051K)

摘要

近年来随着大语言模型的迅猛发展,事件的表征粒度逐渐从传统的句子级扩展至篇章级,事件不再局限于单句表达,而是更加经常嵌入多句甚至整个篇章,这一变化在提升语义建模能力的同时也带来了新的挑战.由于汉语表达具有高度的灵活性且词义歧义现象普遍,在缺乏明确句法结构作为支撑的篇章级场景中,模型在识别词语在上下文中的论元角色时面临更大的困难.针对这一问题,提出一种融合语义特征和结构特征的篇章级事件论元表示方法(Semantic⁃Syntactic Feature Fusion for Document⁃Level Event Argument Representation,SS⁃EAR).该方法首先对文档中的句法结构进行分析并构建依存句法图,然后将实体的多层次表征作为图中的节点特征构成结构感知网络,最后利用图神经网络的信息传播机制将句法结构信息和语义特征进行融合,以增强模型对复杂句式和多义现象的处理能力,进而提高篇章级事件论元抽取的性能.和六个领域方法进行比较,在两个权威中文篇章级事件论元抽取数据集上的实验结果表明,在所提方法的辅助下,事件论元抽取的F1最优,证明了所提方法的有效性.

Abstract

With the rapid advancement of LLMs (Large Language Models) in recent years,the granularity of event representation has progressively shifted from the traditional sentence level to the document level. Events are no longer confined to single⁃sentence expressions but are increasingly embedded across multiple sentences or even entire documents. While this change enhances semantic modeling capabilities,it also introduces new challenges. In particular,due to the high degree of flexibility and widespread lexical ambiguity in Chinese,these models often struggle to accurately identify argument roles of words within context,especially in document⁃level settings where explicit syntactic structures are less apparent. To address this issue,we propose a novel method for document⁃level event argument representation,termed SS⁃EAR (Semantic⁃Syntactic Feature Fusion for Document⁃Level Event Argument Representation). This approach begins by analyzing the syntactic structures within a document and constructing a dependency syntactic graph. Multi⁃level representations of entities are then encoded as node features within a structure⁃aware graph. Finally,a GNN (Graph Neural Network) is employed to integrate syntactic and semantic features through its message⁃passing mechanism. This design enables the model to better handle complex sentence patterns and semantic ambiguity,thereby improving its performance on event argument extraction at the document level. Experimental results on two authoritative Chinese document⁃level event argument extraction datasets demonstrate that the proposed method outperforms six strong baselines and achieves the optimal F1⁃value,validating the effectiveness of our approach.

Graphical abstract

关键词

事件检测 / 论元表示 / 论元抽取 / 结构感知网络

Key words

event detection / argument representation / argument extraction / structure⁃aware network

引用本文

引用格式 ▾
陶涛,施卫峰,应励志,郭浪,朱光辉,袁春风,黄宜华. 基于结构感知的中文篇章级事件论元表示[J]. 南京大学学报(自然科学), 2026, 62(01): 138-150 DOI:10.13232/j.cnki.jnju.2026.01.012

登录浏览全文

4963

注册一个新账户 忘记密码

作为事件抽取任务中的关键子任务,篇章级事件论元表示的主要工作在于对文档中的事件及其关联论元进行高效表征,以进一步服务于事件论元抽取任务.事件通常由时间、地点等多种论元构成,例如,在句子“2023年,中国首次举办冬奥会圆满成功”中,“2023年”(时间论元)“中国”(地点论元)及“冬奥会”共同构成事件论元组合,精准表征这些论元对事件的抽取至关重要.
实现篇章级事件论元表示需要系统地整合两个维度的信息,即篇章级上下文信息与句子级结构信息.具体地,前者通过提供事件背景、前提及影响等深层语义信息,为构建全面的事件表征体系奠定基础;后者通过论元之间隐含的交互关系,为揭示事件论元间的语义互动提供结构化依据.通过对两类信息的协同建模,可有效提升事件论元表示的语义完整性与逻辑连贯性,为事件论元抽取任务提供结构化的知识表示框架.
近年来,神经网络因其能够自动提取潜在特征而被应用于事件论元表示.Nguyen et al1使用循环神经网络来编码事件论元信息,Zheng et al2通过Transformer融合文档级上下文并构建有向无环图,Xu et al3利用异质图网络建模句子与实体交互,增强对篇章级论元关联的捕捉能力.然而,现有方法仍面临句法特征显式建模不足、论元深层交互挖掘不够等问题.例如,图1中,当确定“股东”在触发词“解除”所代表的事件中的角色时,发现“1.19亿股份”和“股东”有共同的依存父节点“解除”,因此,如果“股东”是一个论元,那么“1.19亿股份”成为论元的概率就会增加.
在中文篇章级事件论元抽取领域,句子级结构信息的匮乏为事件论元表示带来多维度的挑战.由于中文语言表达具有高度灵活性且一词多义的现象极为普遍,在缺乏句法结构支撑的语境下,词语论元角色判定面临巨大困难.针对这一挑战,提出一种融合语义与结构特征的事件论元表示算法,其核心在于突破传统方法对语义与结构特征的孤立处理模式,将句法结构和层次化特征进行整合,增强模型对复杂句式与多义现象的处理效能.首先,通过依存句法分析构建句子级依存句法图,然后借助结构感知模块将句法结构信息融入词嵌入表示,在提升事件论元表示质量的同时,有效降低因结构信息缺失导致的论元角色误判概率.本文的创新点概况如下.
(1)语义⁃结构特征深层融合机制.针对现有篇章级事件论元表示中语义与结构特征孤立建模或浅层拼接导致的融合失配问题,本文先采用中文适配的语言技术平台(Language Technology Plantform,LTP)对文档句子执行依存句法分析,构建以词为节点、以句法关系(如SBV,VOB)为边的依存句法图,再将实体多层次表征作为节点特征注入图中形成结构感知网络,最终通过图注意力网络(Graph Attention Network,GAT)的消息传递机制实现两类特征的动态深度融合,有效增强模型对中文复杂句式及多义现象的处理能力.
(2)“局部⁃短语⁃篇章”多粒度语义编码体系.针对篇章级论元分散于多句、现有方法语义表征不完整的问题,该体系通过三级递进编码整合语义信息.词元级查询词嵌入表生成句子词元嵌入以奠定局部语义基础;实体级借助命名实体识别定位实体词元范围,对覆盖的词元执行最大池化得到实体级嵌入;篇章级为实体级嵌入添加句子位置编码,并对同名称实体的所有提及嵌入执行最大池化生成文档级实体嵌入,有效捕捉跨句论元的全局关联.
(3)中文句法适配的动态结构感知机制.针对中文句子结构灵活、传统模型(如GCN,GraphSAGE)静态权重无法区分句法关系贡献的问题,该机制一方面利用LTP将无分隔符的中文句子转换为适配语言特性的句法树并转化为图数据,构建结构感知网络;另一方面通过GAT自注意力机制计算节点间注意力系数,动态为不同句法关系(如“股东⁃解除”的SBV主谓关系、“股东⁃企业”的ATT定中关系)分配权重,并结合多头注意力增强模型鲁棒性,优化中文长距离依赖建模效果.

1 相关工作

传统的事件(候选)论元表示方法4-5主要依赖手动构建特征.Hong et al4基于领域知识,从实体类型及其子类型的背景信息出发,构建了论元特征.Li et al5通过本地句法特征与全局约束特征来完成论元特征的构建.尽管该类方法具有一定的效用,但是也存在一些局限性,例如,高度依赖研究者深厚的语言学直觉和领域专业知识,通常需要耗费大量精力进行特征工程,包括特征的设计、提取与筛选等环节;此外,特征构建缺乏自动学习机制,导致适用的范围局限于特定领域.以实体子类型共现特征4为例,需要利用先验知识或统计分析的方法来确定哪些实体子类型会在特定事件中共同出现.为了突破特征工程的局限性,事件论元表示的相关研究开始向动态化、自动化方向发展,以期提升模型的泛化能力与效率.

随着深度神经网络在人工智能领域的兴起,研究者开始将其应用于自然语言处理任务.和传统方法相比,深度神经网络能从数据中自动学习特征表示,显著降低了对人工特征工程的依赖,有效提升了模型的泛化性能.早期研究中,卷积神经网络6-8(Convolutional Neural Networks,CNN)凭借其强大的局部特征提取能力,成为事件论元表示的重要工具.CNN常以n⁃gram作为构建句子表示的基本单元,通过不同窗口的卷积核提取局部语义特征,将各卷积核生成的特征矩阵合并后,再利用池化层(如最大池化或平均池化)对特征进行降维压缩.在此基础上,Bouvrie8提出动态多池化卷积神经网络(Dynamic Multi⁃Pooling Convolutional Neural Network,DMCNN),采用多尺度卷积核(3/5/7⁃gram)来捕获不同粒度的词汇局部组合特征,并采用动态多池化机制保留句子各部分的关键语义信息,有效保留句子各部分关键信息.

然而,基于CNN的方法在获得论元表示时往往只考虑局部窗口内的上下文词语,提取的语义特征不够丰富.相比之下,循环神经网络8(Recurrent Neural Network,RNN)凭借隐藏层节点的循环连接机制,即当前时刻的输入不仅包含当前词的特征,还整合了先前时刻的隐藏状态,在上下文信息建模方面展现出独特优势.基于RNN的这一优势,Nguyen et al1提出联合循环神经网络(Joint Recurrent Neural Networks,JRNN),在编码阶段,利用双向RNN对句子的特征表示进行特征学习,通过融合前向与后向隐藏状态增强论元的上下文表征.针对JRNN未能充分利用句法信息的问题,Sha et al9提出依赖桥接循环神经网络(Dependency Bridge Recurrent Neural Network,DBRNN),通过依赖桥将句法信息融入单词表征,在模型中同时建模序列顺序结构与句法树结构,有效强化候选论元的语义表示.Feng et al10开发了一种混合神经网络,结合CNN与RNN的优势,前者负责提取文本的局部表征,后者专注于获取序列表征,最终通过特征融合生成包含词语细节与序列全局信息的候选论元表征,为事件论元抽取任务提供更全面的语义输入.

和句子级事件论元表示任务相比,篇章级事件论元表示任务更复杂,其核心挑战在于同一事件的论元可能分散在文档的多个句子中,需要模型具备全局语义理解能力,并有效建模长距离依赖关系.传统CNN与RNN忽略了句子不同部分受关注程度的差异,难以动态聚焦关键语义.虽然有研究11-12在句子级方法基础上叠加全局策略,但仅局限在单句范围,没有考虑全局上下文的信息,忽略了跨句子的事件论元之间的信息交互.

不同于CNN和RNN,注意力机制通过权重分配来引导模型对与事件相关的重要部分赋予更高权重,成为解决跨句依赖问题的关键技术.以注意力为核心的Transformer架构突破了传统模型的局限,能够双向整合上下文信息,BERT等预训练模型进一步通过深层语义编码强化了跨句表征能力.近年来,相关研究逐渐围绕注意力机制与预训练模型展开.Ding and Li13通过引入注意力机制将触发词和候选论元融入句子特征,以挖掘候选论元的深层语义.针对多事件中论元角色重叠的问题,Yang et al14使用预训练语言模型,对句内和句间上下文信息进行建模,整体上提升了下游任务的准确率.Wadden et al15提出基于BERT的框架,对文本跨度进行建模,并学习句内和句间的上下文信息.Yang et al16提出DE⁃PPN(Document⁃to⁃Events via Parallel Prediction Networks)框架,首先通过候选论元识别模块,利用Transformer和序列标注定位候选论元,经最大池化生成局部嵌入和句子级嵌入,然后通过文档级编码器,将两者拼接后经多头自注意力机制建模跨句依赖,生成文档感知的论元表示.

在中文篇章级事件论元表示任务17-18中,虽然中文句子结构具有松散性与表达灵活性,但其涵盖的事件信息本质上具有一定的结构特性,语义特征与结构特征并非孤立作用,需要同时整合语义特征和结构特征.针对这一需求,相关研究2-319-21基于结构化建模思路展开探索.Zheng et al2提出Doc2EDAG (Document to Entity⁃Based Directed Acyclic Graph)模型,通过命名实体识别定位候选事件论元,在为论元添加位置编码后,将句子编码向量与论元编码拼接输入Transformer,促进文档级上下文信息的跨句流通,实现对文档全局语义的有效建模.Xu et al3设计了GIT (Heterogeneous Graph⁃Based Interaction Model with a Tracker)模型,构建包含句子节点与实体提及节点的异构图网络,通过捕获跨句实体交互与句子间的语义依赖,强化候选论元与句子的信息交互,提升事件论元的语义表征能力.Huang and Jia19基于实体共现关系将文档转换为无权图结构,通过图模型挖掘句子间隐含关联,为事件论元表示提供跨句语义支撑.Liu et al20聚焦论元角色间的语义相关性,构建潜在论元角色表示空间,通过角色交互编码模块促使不同论元角色信息相互作用,捕获论元间语义依赖并融入候选论元表征,增强模型对事件结构的理解能力.然而,现有研究普遍缺乏对显式结构约束的编码能力,并且现有融合方法多采用特征拼接等浅层交互方式,未能实现深层语义与结构化信息的有机整合,导致语义⁃结构特征融合存在失配问题,限制了模型对篇章级事件候选论元的建模能力.

2 框架介绍

2.1 整体设计

基于结构感知的篇章级事件论元表示框架梗概图如图2所示,算法主要由多层次语义编码、结构感知网络构建、语义⁃结构特征融合三个阶段组成.

(1)多层次语义编码.首先,通过查询词元嵌入表V,为文档D中每个句子Si生成词元嵌入序列.接着,利用命名实体识别和BIO (开始、内部、其他)标注模式定位实体提及的词元范围,对实体覆盖的词元嵌入执行池化操作,得到实体级嵌入.最后,为实体级嵌入添加句子位置编码以感知文档上下文,对同一实体名称的所有实体提及嵌入再次进行池化操作,得到文档级实体嵌入,实现从局部语义到短语级语义再到篇章级语义的多层次语义编码.

(2)结构感知网络构造.首先对文档中的每个句子执行依存句法分析,构建以词为节点、以句法依存关系为边的依存句法图,然后将多层次语义编码作为节点特征加入图中,构成结构感知网络.

(3)语义⁃结构特征融合.根据结构感知网络,通过图神经网络(Graph Neural Network,GNN)的信息传播机制,实现句法结构信息与语义特征的深度融合,最终生成融合句法结构信息的论元表示,有效增强模型对句子结构特征的感知能力.

下面对该框架中各个阶段的详细算法设计与实现过程进行细节描述.

2.2 细节描述

2.2.1 多层次语义编码

为了有效地应对论元分散的挑战,本文利用全局上下文信息来更好地识别一个实体是否扮演特定的论元角色.如图2所示,使用篇章级实体嵌入结合上下文对实体提及进行编码,并为每个具有不同名称的实体提及生成一个维度为dw的嵌入.

2.2.1.1 词元(Token)级嵌入

给定一个包含N个句子的文档D=S1,S2,,SN,对于句子Si=w1,w2,,wn1iN,在查询词元嵌入表VRdw×V之后,得到Si的词元嵌入序列hi,1,hi,2,,hi,nRdw×n,其中,V是词汇表大小,n是句子序列中的词元个数,hi,jRdw是第i个句子中第j个词元的嵌入,其嵌入维度为dw.

2.2.1.2 实体级嵌入

在句子层面上执行命名实体识别任务,将匹配论元的角色作为实体标签,并使用经典的BIO标注模式.由于一个实体提及通常涵盖多个长度可变的词元,为了得到实体级嵌入,需要对其覆盖的词元嵌入进行最大池化操作.

给定第l个实体提及,其覆盖了第i个句子中第j个到第k个词元,对hi,j,,hi,k进行最大池化操作,以得到实体提及嵌入elRdw.形式化描述如下:

el=MaxPoolinghi,j,,hi,k

2.2.1.3 篇章级嵌入

上述得到的实体级嵌入仅对句子范围内的局部上下文进行了编码,为了能够感知文档级上下文,为实体级嵌入添加句子位置嵌入,经过编码后,对文档中所有具有相同实体名称的实体级嵌入进行最大池化,以获得篇章级实体嵌入ed=e1d,,eNed.

给定实体名称e,其在文档中实体提及的数量是Ne,对e1d,,eNed进行最大池化操作,以得到篇章级实体提及嵌入edRdw.形式化描述如下:

ed=MaxPoolinge1d,,eNed

2.2.2 结构感知网络构造

图3展示了一个句子的依存句法分析树和边的关系类型.由图可见,“股东”和“解除”之间存在一个“SBV”边,对应主谓关系(参照表1);“解除”和“股份”之间存在一个“VOB”边,对应动宾关系.这些依存边包含了句子成分之间的相互关系.

利用依存结构有以下几个优点.句子中两个单词之间的句法距离通常小于它们的顺序距离.例如,在句子“企业股东解除质押1.19亿股份”中,“解除”和“股份”之间的顺序距离是3,而句法距离是1,因此,对句法结构进行编码有助于捕捉长距离依赖关系.其次,英语的句子结构通常是“主语⁃谓语⁃宾语”(Subject⁃Verb⁃Object,SVO)的形式,注重形式逻辑,通过语法结构的复杂性来表达意义.而中文的句子结构则更加灵活,不严格遵守SVO的形式,更多地依赖于语境和语义来理解.因此,在中文篇章级事件论元抽取任务中,按顺序处理句子会受到词序差异问题的困扰,而对依存结构进行建模可以减轻这一问题.图4给出了图1中例子对应的结构感知网络构造过程.

图4所示,首先使用依存句法分析器,将输入的句子转换为语言通用的树结构.不同于以英语为代表的印欧语系,以中文为代表的汉藏语系词语之间不存在明显的分隔符,句子一般由一串连续的字符构成的.因此,在处理中文时,需要使用更有针对性的分析工具,故选择使用语言技术平台(Language Technology Platform,LTP).

LTP是哈尔滨工业大学社会计算与信息检索研究中心(HIT⁃SCIR)研发的中文自然语言处理开源基础技术平台,该平台集词法分析(分词、词性标注和命名实体识别)、句法分析(依存句法分析)和语义分析(语义角色标注和语义依存分析)等多项自然语言处理技术于一体,采用预训练模型以及多任务学习机制,能够以较小的模型获得非常高的分析精度.

由于传统的神经网络模型不能直接利用依存关系,因此,在得到句子的依存关系结构后,需要将其转化为图结构数据,构建以词嵌入为节点表示、句法依存关系为边的依存句法图,即结构感知网络,以利用GNN学习更好的节点表示.

GNN是基于消息传递机制的学习框架,通过显式地利用边结构信息对节点特征进行转换、传播和聚合,使节点特征不仅依赖于邻居节点的特征,还能捕捉边所蕴含的复杂关系.

2.4 语义⁃结构特征融合

在依存句法图中,不同边的类型不同,其邻居节点的贡献也会存在差异.如图1所示,“股东”和“企业”之间存在一条类型为ATT(定中关系)的边,“股东”和“解除”之间存在一条类型为SBV(主谓关系)的边,对于“股东”这一节点,“解除”对其的影响应该比“企业”对其的影响更大.

然而,图卷积网络(Graph Convolution Networks,GCN),GraphSAGE (Graph Sample and Aggregate)没有考虑不同邻居节点的重要性差别,导致每个邻居节点的贡献是静态的,无法针对不同边类型调整权重.相比之下,图注意力网络(Graph Attention Networks,GAT)引入自注意力机制,通过注意力系数动态学习不同边类型的权重,在更新图中的每个节点表示的时候,会根据邻居节点特征的重要程度来为其分配不同的权值.其核心步骤如下.

(1)特征编码与注意力计算.对每个候选论元的特征进行线性变换,通过共享的注意力函数计算节点与其邻居的注意力系数:

αij=LeakyReLUaTWeidWejd

其中,W为权重矩阵,a为注意力参数向量,eidejd分别为候选论元i和候选论元j的特征.

(2)归一化与信息聚合.通过Softmax对注意力系数归一化,得到候选论元i对邻居j的权重αij,并聚合邻居特征:

neweid=σj𝒩iαijWejd

其中,σ为激活函数,𝒩i为候选论元i在依存句法图中的邻居集合.

(3)多头注意力增强.通过多头注意力机制并行计算多个注意力头的输出,提升模型鲁棒性,最终输出结果为各注意力头的拼接或平均.其计算过程遵循如下公式:

finaleid=1Kk=1Kneweidk

通过上述操作,GAT可以动态聚合邻居节点的特征,将图的结构信息(即句子级结构信息)融入目标节点(即候选论元)的特征表示中.

3 实验设置

3.1 数据集

采用两个常见的中文篇章级事件论元数据集来评估提出的方法,包括DuEE⁃Fin22和CMNEE23.

DuEE⁃Fin是百度发布面向篇章级事件抽取的大规模中文金融领域数据集,数据来源于金融公告、判决和新闻文章,包含92种论元角色类型,涵盖质押方、投资方、上市公司、发行价格等多种与金融活动相关的角色.

CMNEE是首个基于开源中文军事新闻构建的大规模篇章级事件抽取数据集,由国防科技大学、东南大学和清华大学联合构建,数据来源于环球网、中国军网、新浪军事、百度百科等权威网站.CMNEE包含11种论元角色类型,Subject,Equipment,Date,Location,Content,Area,Object,Materials,Result,Military Force,Quantity.

3.2 对比方法

主要的对比方法概况如下.

EEQA24是一种事件抽取任务的新范式,将其构建为问答(QA)或机器阅读理解(MRC)任务,以一种端到端的方式抽取事件论元,避免传统方法中实体识别作为预处理步骤带来的错误传播问题.该方法针对事件触发词检测和论元抽取设计了问题模板,将输入句子映射到标准BERT输入格式.实验证明,该方法显著优于之前的方法,并具备抽取训练时未见角色的事件论元的能力(即零样本学习设置).

DE⁃PPN16是一种并行式文档级事件抽取的端到端、编码器⁃解码器模型.首先,采用文档级编码器来获取文档感知表征,获得对文档的整体理解.继而采用包含角色解码器与事件解码器的多粒度解码器生成事件,其中,角色解码器解决了论元分散的问题,事件解码器处理多事件抽取,二者均基于非自回归机制,支持并行抽取多事件.最后,受匈牙利算法的启发,提出匹配损失函数,通过计算预测事件与真实事件间的二分匹配来实现全局优化.实验表明,在DEE数据集上显著优于现有最先进方法.

Doc2EDAG2是一种面向中文金融领域的文档级事件抽取端到端模型,其核心思想是将事件表转化为基于实体的有向无环图(即将事件抽取任务转化为基于实体的有向无环图的生成),将困难的事件表填充任务转化为多个更易处理的顺序路径扩展子任务.同时,引入无触发词设计以简化标注.在真实金融公告数据集中的实验结果显著优于现有最优方法.

GIT3是一种基于异构图交互和事件追踪器的文档级事件抽取模型.通过构建一个异构图交互网络,以捕捉不同句子和实体提及(Entity Mentions)之间的全局交互;同时,引入跟踪器模块来跟踪提取的事件,捕获事件之间的相关性.在大规模公开数据集上,GIT的F1指标超越了之前的最优方法.

PTPCG21是一种面向文档级事件抽取的快速、轻量级模型,自动选择一组伪触发词,指导构建剪枝完全图,并基于该图设计结合非自回归解码策略的高效算法用于抽取所有可能的事件论元组合.相比现有系统,该方法的参数量仅为19.8%,训练仅需GPU小时的3.8%,推理速度提升达8.5倍,同时,在含或不含触发词的数据集上均表现出卓越的兼容性.

ReDEE25是一种能够建模事件论元间关系依赖的文档级事件抽取框架,其核心是一种新颖的专用Transformer,即关系增强注意力Transformer (RAAT),其可以捕获多尺度、多数量级的论元关系,并适用于不同的关系建模场景.为了进一步利用关系信息,在此框架中引入事件关系预测任务,采用多任务学习方法显式提升事件抽取性能.在两个公共数据集上的实验取得了最先进的性能.

TEXT2EVENT26是一种面向事件抽取的序列到结构生成范式,能够以一种端到端的方式直接从文本中抽取事件.该范式基于神经网络构建统一的序列到结构事件抽取网络,通过推理阶段用于事件知识注入的约束解码算法以及提升模型学习效率的课程学习算法进一步增强其性能.在ACE和ERE数据集上的实验表明,TEXT2EVENT在监督学习和迁移学习的设置下均具有有效性.

3.3 实验环境

实验环境的配置信息如表2所示.本文提出的基于结构感知的中文篇章级事件论元表示算法基于PyTorch实现,在一块NVI⁃DIA Tesla V100上进行训练与预测.

3.4 模型超参数

模型通用超参数的设置如表3所示.其中,使用带权重衰减的自适应动量估计(Adaptive Moment Estimation with Weight Decay,AdamW)作为优化器,BERT可训练参数的学习率设置为3e-5,其他可训练参数的学习率设置为2e-4.BERT选择12层Transformer与768维特征向量的Base版本,隐状态向量设置为768.所有数据集训练所用的批大小(batch size)均为32,梯度累积步数(Gradient accumulation steps)设置为8,即梯度累积到八步后,更新一次参数,实现等效于批次大小为32×8的训练效果.

3.5 评估指标

对于篇章级事件论元抽取任务,采用微查准率(Micro Precision,P)、微查全率(Micro Recall,R)与微F1(Micro F1,F1)作为两个中文事件论元抽取数据集的评价指标.这些指标的值越高意味着性能越好.

假设N是预定义的事件类型个数,TPi为第i类正确预测数,FPi为第i类错误预测数,FNi为第i类漏检数.评估指标的计算如下所示:

P=i=1NTPii=1NTPi+FPiR=i=1NTPii=1NTPi+FNiF1=2×P×RP+R

4 结果分析

4.1 有效性实验

表4表5展示了提出的算法在中文篇章级事件检测任务的两个基准数据集上的SOTA准确性,表中黑体字表示最优的性能.由表可见,实验结果验证了所提方法的有效性.

在DuEE⁃Fin与CMNEE数据集上,本文方法因融合了结构信息与特征信息,均展现出显著的性能优势.在DuEE⁃Fin数据集上,本文方法的F1=68.19%,超越EEQA和GIT等模型,后者因结构与特征信息融合不足,难以平衡PR.在CMNEE数据集上,本文方法的F1=51.92%,同样优于EEQA和DE⁃PPN等,而PTPCG和ReDEE等模型因结构信息整合欠缺,导致PR失衡.本文方法通过深度融合结构信息与语义特征,增强候选论元表示,有助于事件论元抽取任务,在两个数据集上均实现了PR的平衡,充分验证了结构与特征信息融合对事件论元抽取的价值.

4.2 消融实验

在结构感知网络中,边类型的不同意味着邻居节点对目标节点的贡献存在差异,但MLP,GCN,GraphSAGE等模型未区分邻居重要性,采用静态贡献机制.相比之下,GAT通过自注意力机制动态学习边类型权重,能根据邻居节点重要程度分配权值.表6展示了消融实验的结果,表中黑体字表示性能最优.由表可见,实验结果体现了这一差异在DuEE⁃Fin与CMNEE数据集上,本文方法的F1分别达68.19%和51.92%,优于使用GCN (65.17%和50.95%)与4⁃head GAT (65.09%和51.39%),验证了动态权重机制对增强论元表示的影响.

4.3 深度分析

语句距离可以帮助判断不同句子在语义上的紧密程度.在一篇文档中,如果描述同一事件不同方面的句子,其语句距离相对较短,意味着它们的语义关联度高.

针对不同事件类型(如“质押”“股份回购”等),计算实体间的语句距离.通过分析这些距离,可以了解同一文档中不同事件相关实体在文本中的空间分布关系.例如,如果两个与“质押”事件相关的实体在语句距离上较近,说明它们在文本描述中紧密相关,有助于挖掘事件内部各要素之间的联系.

在处理多个文档时,语句距离可用于对比不同文档对相似事件的描述方式.若不同文档中相同类型事件的实体间语句距离呈现相似模式,可能意味着这些文档对该事件的描述逻辑相近;反之,差异较大的语句距离模式可能反映出描述侧重点或事件细节的不同.

图5从多方面反映了DuEE⁃Fin数据集中不同事件类型中的候选论元间语句距离以及语句距离对篇章级事件论元抽取任务性能的影响.

(1)均值.如图5所示,“亏损”事件的均值较低,表明同一文档中,与“质押”事件相关的实体分布相对集中,呈现明显的空间聚类特性.这一现象可能源于该事件的语义特征,即“亏损”事件通常涉及单一的财务指标变动,其论元通常在少数相邻语句中集中呈现.这种文本表述的紧凑性提升了篇章级候选论元表示的建模效率,降低了论元抽取的难度,最终在该事件类型上取得了比其他事件类型更高的F1.

图5所示,“企业破产”事件的相关实体分布平均距离高于基准水平,呈现明显的空间离散特性.企业破产作为复杂事件,其论元多分散于不同的文本单元中,这种语义复杂性对论元抽取模型的长距离依赖捕捉能力提出更高要求,增加了篇章级候选论元表示的建模难度.实验数据显示,该事件类型的F1相对较低,验证了空间离散性对论元抽取性能的负面影响.

(2)最大值和最小值.“被约谈”事件的最小语句距离1,即所有相关实体均分布在不同句子,呈现独特的强制性跨句分布特性,这种分布模式显著增加了论元关联难度.实验结果显示,该事件的F1在所有事件类型中最低,验证了跨句分布对论元抽取性能的负面影响.

和其他事件类型相比,“股份回购”事件跨度范围相对较小,实体分布具有高度稳定性.论元倾向于在相邻语句集中呈现,这种稳定的分布模式降低了论元关联的复杂度.该事件的高F1印证了跨度稳定性对论元抽取的促进作用,表明集中式分布有利于提升模型的语义捕捉效率.

“企业收购”事件跨度极值差异显著,体现事件描述的多粒度特性,即部分核心实体(如收购方与被收购方)可能共现于同一句子,而补充信息(如法律条款、行业影响)分布在其他句子.这种分布多样性要求模型同时具备局部语义捕捉能力(处理同句实体)和长距离依赖建模能力(整合分散信息),以应对事件描述的复杂性.

必须说明,在DuEE⁃Fin和CMNEE数据集上,不同事件类型的对应事件实例个数往往存在较大差异,这也会对评价指标产生较大影响.总体上,对语句距离进行分析有助于深入理解不同事件类型在文本中的表述方式和论元分布特点,对于信息抽取、文本摘要、知识图谱构建等自然语言处理任务具有重要的参考价值,有助于更好地把握文本中事件相关信息的分布规律,从而更有效地处理和分析相关文本数据.

5 结论

本文针对篇章级事件论元表示任务中的语义信息缺失的问题,提出一种基于结构感知的篇章级事件论元表示算法.该算法通过整合句法结构分析与层次化特征提取,增强模型对复杂句式和多义现象的处理能力.首先,进行依存句法分析以构建以词为节点、句法依存关系为边的句子级依存句法图;然后,将词语的多层次语义特征作为节点初始表示融入图结构,将句法结构信息融入词嵌入表示,以此构造结构感知网络;最终,采用图注意力网络实现结构信息的跨节点传播,通过动态计算节点间的注意力权重,增强论元节点对上下文结构特征的捕捉能力.实验结果验证了本文方法在多个数据集上的有效性.此外,对语义⁃结构特征融合机制进行消融实验结果表明结构感知网络中边类型的不同意味着邻居节点对目标节点的贡献存在差异.未来将探索结合语义角色标注与篇章结构分析,构建更精细的论元关系图谱,解决中文长距离依赖与省略现象.

参考文献

[1]

Nguyen T HCho KGrishman R. Joint event extraction via recurrent neural networks∥Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. San Diego,CA,USA:Association for Computational Linguistics,2016:300-309.

[2]

Zheng SCao WXu Wet al. Doc2EDAG:An end⁃to⁃end document⁃level framework for Chinese financial event extraction∥Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong,China:Association for Computational Linguistics,2019:337-346.

[3]

Xu R XLiu T YLi Let al. Document⁃level event extraction via heterogeneous graph⁃based interaction model with a tracker∥Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Volume 1:Long Papers.Online:Association for Computational Linguistics,2021:3533-3546.

[4]

Hong YZhang J FMa Bet al. Using cross⁃entity inference to improve event extraction∥Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies. Volume 1. Portland,OR,USA:Association for Computational Linguistics,2011:1127-1136.

[5]

Li QJi HHuang L. Joint event extraction via structured prediction with global features∥Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Volume 1:Long Papers. Sofia,Bulgaria:Association for Computational Linguistics,2013:73-82.

[6]

Lecun YBottou LBengio Yet al. Gradient⁃based learning applied to document recognition. Proceedings of the IEEE199886(11):2278-2324.

[7]

Krizhevsky ASutskever IHinton G E. ImageNet classification with deep convolutional neural networks∥Proceedings of the 25th International Conference on Neural Information Processing Systems. Volume 1. Red Hook,NY,USA:Curran Associates Inc.,2012:1097-1105.

[8]

Bouvrie J. Notes on convolutional neural networks. Cambridge:Massachusetts Institute of Technology,2006.

[9]

Sha LQian FChang B Bet al. Jointly extracting event triggers and arguments by dependency⁃bridge RNN and tensor⁃based argument interaction∥Proceedings of the 32nd AAAI Conference on Artificial Intelligence and 30th Innovative Appli⁃cations of Artificial Intelligence Conference and 8th AAAI Symposium on Educational Advances in Artificial Intelligence. New Orleans,LA,USA:AAAI Press,2018:5916-5923.

[10]

Feng X CQin BLiu T. A language⁃independent neural network for event detection. Science China Information Sciences201861(9):092106.

[11]

Yang HChen Y BLiu Ket al. DCFEE:A document⁃level Chinese financial event extraction system based on automatically labeled training data∥Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics,System Demonstrations. Melbourne,Australia:Association for Computational Linguistics,2018:50-55.

[12]

Zhong W FYang HChen Y Bet al. Document⁃level event extraction based on joint labeling and global reasoning. Journal of Chinese Information Processing201933(9):88-95,105.

[13]

Ding R XLi Z J. Event extraction with deep contextualized word representation and multi⁃attention layer∥Proceedings of the 14th International Conference on Advanced Data Mining and Applications. Cham:Springer,2018:189-201.

[14]

Yang SFeng D WQiao L Bet al. Exploring pre⁃trained language models for event extraction and generation∥Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence,Italy:Association for Computational Linguistics,2019:5284-5294.

[15]

Wadden DWennberg ULuan Yet al. Entity,relation,and event extraction with contextualized span representations∥Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong,China:Association for Computational Linguistics,2019:5784-5789.

[16]

Yang HSui D BChen Y Bet al. Document⁃level event extraction via parallel prediction networks∥Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Volume 1. LongPapers. Online:Association for Computational Linguistics2021:6298-6308.

[17]

Wu YZhang J Y. Chinese event extraction based on attention and semantic features:A bidirectional circular neural network. Future Internet201810(10):95.

[18]

Zhang H KSong HWang S Yet al. A BERT⁃based end⁃to⁃end model for Chinese document⁃level event extraction∥Proceedings of the 19th Chinese National Conference on Computational Linguistics. Haikou,China:Chinese Information Processing Society of China,2020:390-401.

[19]

Huang Y SJia W J. Exploring sentence community for document⁃level event extraction∥Findings of the Association for Computational Linguistics:EMNLP 2021. Punta Cana,The Dominican Republic:Association for Computational Linguistics,2021:340-351.

[20]

Liu W LCheng S HZeng D Yet al. Enhancing document⁃level event argument extraction with contextual clues and role relevance∥Findings of the Association for Computational Linguistics:ACL 2023. Toronto,Canada:Association for Compu⁃tational Linguistics,2023:12908-12922.

[21]

Zhu TQu X YChen W Let al. Efficient document⁃level event extraction via pseudo⁃trigger⁃aware pruned complete graph∥Proceedings of the 31st International Joint Conference on Artificial Intelligence. Vienna,Austria:International Joint Conferences on Artificial Intelligence Organization,2022:4552-4558.

[22]

Han C YZhang J CLi X Yet al. DuEE⁃Fin:A large⁃scale dataset for document⁃level event extraction∥Proceedings of the CCF International Conference on Natural Language Processing and Chinese Computing. Cham:Springer,2022:172-183.

[23]

Zhu M NXu Z JZeng K Set al. CMNEE:A large⁃scale document⁃level event extraction dataset based on open⁃source Chinese military news∥Proceedings of the 2024 Joint International Conference on Computational Linguistics,Language Resources and Evaluation. Torino,Canada:ELRA and ICCL,2024:3367-3379.

[24]

Du X YCardie C. Event extraction by answering (almost) natural questions∥Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing. Online:Association for Computational Linguistics,2020:671-683.

[25]

Liang YJiang Z XYin Det al. RAAT:Relation⁃augmented attention transformer for relation modeling in document⁃level event extraction∥Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. Seattle,WA,USA:Association for Computational Linguistics,2022:4985-4997.

[26]

Lu Y JLin H YXu Jet al. Text2event:Controllable sequence⁃to⁃structure generation for end⁃to⁃end event extraction∥Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Volume 1. LongPapers. Online:Association for Computational Linguistics2021:2795-2806.

基金资助

江苏省前沿技术研发计划(BF2024005)

AI Summary AI Mindmap
PDF (1027KB)

0

访问

0

被引

详细

导航
相关文章

AI思维导图

/