基于阅读理解的文档级人物属性抽取研究

刘资蕴 , 张世奇 , 陈文亮

山西大学学报(自然科学版) ›› 2025, Vol. 48 ›› Issue (03) : 470 -480.

PDF (1135KB)
山西大学学报(自然科学版) ›› 2025, Vol. 48 ›› Issue (03) : 470 -480. DOI: 10.13451/j.sxu.ns.2024026
信息科学

基于阅读理解的文档级人物属性抽取研究

作者信息 +

Machine Reading Comprehension for Document-level Person Aspect Term Extraction

Author information +
文章历史 +
PDF (1161K)

摘要

人物属性抽取旨在从人物介绍中抽取人物的各项属性,如性别、国籍等。已有抽取方法通常由序列标注模型对远程监督数据进行训练从而得到抽取模型,但是用该方式在数据上存在标注不准确和不同属性值重合的问题,在模型上缺少可扩展性和可泛化性能力。为解决此问题,该文提出将任务转化为阅读理解问题,通过阅读人物介绍来对人物属性表进行填写补全。为此,本文构造了一份基于阅读理解的文档级人物属性抽取数据集,并采用了基于Transformer算法的双向编码表征模型-机器阅读理解(BERT-MRC)和基于Transformer算法的双向编码表征模型-条件随机场-机器阅读理解(BERT-CRF-MRC)两种基线模型。研究结果表明BERT-CRF-MRC相比于BERT-MRC在F1值上高三个百分点,BERT-CRF-MRC的试验结果在短文本人物介绍中F1平均值约为92%,在长文本人物介绍中F1平均值约为75%。本文的新构建数据和代码已公开在Github上。

关键词

属性抽取 / 机器阅读理解 / 标注数据

Key words

aspect term extraction / MRC / annotated data

引用本文

引用格式 ▾
刘资蕴,张世奇,陈文亮. 基于阅读理解的文档级人物属性抽取研究[J]. 山西大学学报(自然科学版), 2025, 48(03): 470-480 DOI:10.13451/j.sxu.ns.2024026

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

基金资助

国家自然科学基金(62376177)

AI Summary AI Mindmap
PDF (1135KB)

40

访问

0

被引

详细

导航
相关文章

AI思维导图

/