PDF
摘要
为了有效解决非结构化文本中实体与关系联合抽取时的三元组重叠问题,提出了一种基于RoBERTa和指针网络的中文实体与关系联合抽取方法。首先,针对实体重叠问题,基于指针网络设计了实体识别模块,将实体识别任务构建为token-pair识别问题,通过识别实体的开始和结束位置来提取所有可能的实体;其次,针对三元组重叠问题,设计基于多头注意力机制和Ptr-Net的关系抽取模块,将三元组(s,r,o)抽取任务构建为五元组(sh,s_t,r,oh,o_t)识别任务;最后,在中文信息抽取数据集DuIE上进行大量实验。实验结果表明:所提模型综合性能优于所有基线模型,其精确率、召回率和F1值分别为81.04%、85.82%和83.36%。
关键词
Key words
基于RoBERTa和指针网络的中文实体与关系联合抽取方法[J].
郑州大学学报(工学版), 2026, 47(02): 41-50 DOI:10.13705/j.issn.1671-6833.2025.05.007