基于实例的词性标注数据错误检测

山西大学学报(自然科学版) ›› 2024, Vol. 47 ›› Issue (02) : 251 -259.

PDF (1378KB)
山西大学学报(自然科学版) ›› 2024, Vol. 47 ›› Issue (02) : 251 -259. DOI: 10.13451/j.sxu.ns.2023166

基于实例的词性标注数据错误检测

作者信息 +

Author information +
文章历史 +
PDF (1410K)

摘要

由于深度学习框架在可解释性上的缺乏,本文将基于实例的方法首次应用到词性标注数据错误检测任务,旨在充分利用模型学到的实例之间的相似度信息。首先,本文基于预训练语言模型,实现了基于实例的词性标注模型,在CTB7数据集上的预测准确率和基于标准分类器的模型相当,达96.76%。进而,本文提出了一种基于实例的标注错误检测方法。为了获得真实检错数据集,本文采用不同方法对CTB7测试集进行自动错误检测,并人工标注候选错误,最终获得2 016个真实标注错误,约占所有8万多词中的2.5%。检错数据集上的实验表明,基于实例的方法的检错准确率达41.48%。

关键词

词性分类 / 标注错误数据集 / 语义相似度 / CTB7数据集

Key words

引用本文

引用格式 ▾
基于实例的词性标注数据错误检测[J]. 山西大学学报(自然科学版), 2024, 47(02): 251-259 DOI:10.13451/j.sxu.ns.2023166

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF (1378KB)

36

访问

0

被引

详细

导航
相关文章

AI思维导图

/