基于知识辅助的图像描述生成

李志欣; 苏强

doi:10.16088/j.issn.1001-6600.2022013101

广西师范大学学报（自然科学版） ›› 2022, Vol. 40 ›› Issue (05) : 418 -432. DOI: 10.16088/j.issn.1001-6600.2022013101

基于知识辅助的图像描述生成

李志欣, 苏强

作者信息 +

Author information +

文章历史 +

摘要

为给定图像自动生成符合人类感知的描述语句是人工智能的重要任务之一。大多数现有的基于注意力的方法均探究语句中单词和图像中区域的映射关系，而这种难以预测的匹配方式有时会造成2种模态间不协调的对应，从而降低描述语句的生成质量。针对此问题，本文提出一种文本相关的单词注意力来提高视觉注意力的正确性。这种特殊的单词注意力在模型序列地生成描述语句过程中强调不同单词的重要性，并充分利用训练数据中的内部标注知识来帮助计算视觉注意力。此外，为了揭示图像中不能被机器直接表达出来的隐含信息，将从外部知识图谱中抽取出来的知识注入到编码器—解码器架构中，以生成更新颖自然的图像描述。在MSCOCO和Flickr30k图像描述基准数据集上的实验表明，本方法能够获得良好的性能，并优于许多现有的先进方法。