PDF
摘要
针对远程监督关系抽取不能充分利用句子上下文高层信息、易带来噪声标注的问题,提出一种基于改进鲁棒优化的双向编码器表征预训练模型(robustly optimized bidirectional encoder representations from Transformers pretraining approach,RoBERTa)、多实例学习(multiple-instance learning, MI)和双重注意力(dual attention, DA)机制的关系抽取方法。在RoBERTa中引入全词动态掩码,获取文本上下文信息,获得词级别语义向量;将特征向量输入双向门控循环单元(bidirectional gated recurrent unit, BiGRU),挖掘文本深层次语义表征;引入多实例学习,通过学习实例级别特征缩小关系抽取类别范围;引入双重注意力机制,结合词语级注意力机制和句子级注意力机制的优势,充分捕捉句子中实体词语特征信息和对有效语句的关注度,增强句子表达能力。试验结果表明,在公开数据集纽约时报(New York Times, NYT)数据集和谷歌IISc远程监督(Google IISc distant supervision, GIDS)数据集中,关系抽取方法的F1值分别为88.63%、90.13%,均优于主流对比方法,能够有效降低远程监督噪声影响,实现关系抽取,为构建知识图谱提供理论基础。
关键词
远程监督
/
关系抽取
/
改进RoBERTa
/
多实例学习
/
双重注意力机制
Key words
改进RoBERTa、多实例学习和双重注意力机制的关系抽取方法[J].
山东大学学报(工学版), 2025, 55(02): 78-87 DOI: