一种利用对抗样本提高抽取式阅读理解模型效果的方法

何东; 于晓昕; 叶子铭; 于中华; 陈黎

doi:10.19907/j.0490-6756.2024.022001

四川大学学报(自然科学版) ›› 2024, Vol. 61 ›› Issue (02) : 46 -54. DOI: 10.19907/j.0490-6756.2024.022001

一种利用对抗样本提高抽取式阅读理解模型效果的方法

何东, 于晓昕, 叶子铭, 于中华, 陈黎

作者信息 +

Author information +

文章历史 +

PDF

摘要

抽取式阅读理解是自然语言处理的重要任务，需要机器在阅读理解自然语言文本的基础上，从中抽取给定问题的答案（输入文本中的片段），并在问题不可回答时拒绝回答.这种不可回答情况的存在使机器阅读理解更具有挑战性，特别是在输入文本含有似是而非文本片段时，现有模型很容易将这样的片段混淆为问题答案，进而错误判断问题的可回答性.为了进一步提高抽取式机器阅读理解模型的效果，本文将SQuAD 2.0数据集中的似是而非答案看成对抗样本，将其既作为答案文本片段抽取的正例，也作为问题可回答性的负例，在现有模型答案交叉熵损失的基础上增加排序损失.在SQuAD 2.0上进行的实验表明，本文方法可以提高现有模型的阅读理解能力，明显提升可回答性判断及答案文本片段抽取的效果.