改进RoBERTa、多实例学习和双重注意力机制的关系抽取方法

王禹鸥; 苑迎春; 何振学; 王克俭

山东大学学报(工学版) ›› 2025, Vol. 55 ›› Issue (02) : 78 -87.

王禹鸥, 苑迎春, 何振学, 王克俭

作者信息 +

Author information +

文章历史 +

PDF

摘要

针对远程监督关系抽取不能充分利用句子上下文高层信息、易带来噪声标注的问题，提出一种基于改进鲁棒优化的双向编码器表征预训练模型（robustly optimized bidirectional encoder representations from Transformers pretraining approach,RoBERTa）、多实例学习（multiple-instance learning, MI）和双重注意力（dual attention, DA）机制的关系抽取方法。在RoBERTa中引入全词动态掩码，获取文本上下文信息，获得词级别语义向量；将特征向量输入双向门控循环单元（bidirectional gated recurrent unit, BiGRU）,挖掘文本深层次语义表征；引入多实例学习，通过学习实例级别特征缩小关系抽取类别范围；引入双重注意力机制，结合词语级注意力机制和句子级注意力机制的优势，充分捕捉句子中实体词语特征信息和对有效语句的关注度，增强句子表达能力。试验结果表明，在公开数据集纽约时报（New York Times, NYT）数据集和谷歌IISc远程监督（Google IISc distant supervision, GIDS）数据集中，关系抽取方法的F₁值分别为88.63%、90.13%,均优于主流对比方法，能够有效降低远程监督噪声影响，实现关系抽取，为构建知识图谱提供理论基础。