基于细粒度特征增强的多模态视觉问答研究

王志伟; 陆振宇

doi:10.13878/j.cnki.jnuist.20250107001

南京信息工程大学学报 ›› 2026, Vol. 18 ›› Issue (1) : 35 -47. DOI: 10.13878/j.cnki.jnuist.20250107001

基于细粒度特征增强的多模态视觉问答研究

王志伟, 陆振宇

作者信息 +

Author information +

文章历史 +

摘要

现有多模态视觉问答(Visual Question Answering,VQA)模型忽略了图像中局部显著信息与文本中局部基本词之间的细粒度交互作用，图像与文本之间的语义相关性有待提高．为此，本文提出一种基于细粒度特征增强的多模态视觉问答方法．首先，对视觉和文本分别增加一种细粒度特征提取方法，以便更全面准确地提取图像和问题的语义特征;然后，为了利用不同层次模态之间的对齐信息，提出一种对齐引导的自注意力模块来对齐单一模态内(视觉或文本)细粒度特征和全局语义特征之间的对应关系，并以统一的方式融合不同层次的单模态信息;最后，在VQA v2.0和VQA-CP v2数据集上进行实验，结果表明，本文所提方法在各项视觉问答评估指标上的表现优于现有的模型．