预训练语言模型的可解释性研究进展

郝雅茹; 董力; 许可; 李先贤

doi:10.16088/j.issn.1001-6600.2022030802

广西师范大学学报（自然科学版） ›› 2022, Vol. 40 ›› Issue (05) : 59 -71. DOI: 10.16088/j.issn.1001-6600.2022030802

预训练语言模型的可解释性研究进展

郝雅茹, 董力, 许可, 李先贤

作者信息 +

Author information +

文章历史 +

PDF

摘要

基于深度神经网络的大型预训练语言模型在众多自然语言处理任务上都取得了巨大的成功，如文本分类、阅读理解、机器翻译等，目前已经广泛应用于工业界。然而，这些模型的可解释性普遍较差，即难以理解为何特定的模型结构和预训练方式如此有效，亦无法解释模型做出决策的内在机制，这给人工智能模型的通用化带来不确定性和不可控性。因此，设计合理的方法来解释模型至关重要，它不仅有助于分析模型的行为，也可以指导研究者更好地改进模型。本文介绍近年来有关大型预训练语言模型可解释性的研究现状，对相关文献进行综述，并分析现有方法的不足和未来可能的发展方向。