基于细粒度特征增强的多模态视觉问答研究

王志伟, 陆振宇

南京信息工程大学学报 ›› 2026, Vol. 18 ›› Issue (1) : 35 -47.

PDF
南京信息工程大学学报 ›› 2026, Vol. 18 ›› Issue (1) : 35 -47. DOI: 10.13878/j.cnki.jnuist.20250107001

基于细粒度特征增强的多模态视觉问答研究

    王志伟, 陆振宇
作者信息 +

Author information +
文章历史 +
PDF

摘要

现有多模态视觉问答(Visual Question Answering,VQA)模型忽略了图像中局部显著信息与文本中局部基本词之间的细粒度交互作用,图像与文本之间的语义相关性有待提高.为此,本文提出一种基于细粒度特征增强的多模态视觉问答方法.首先,对视觉和文本分别增加一种细粒度特征提取方法,以便更全面准确地提取图像和问题的语义特征;然后,为了利用不同层次模态之间的对齐信息,提出一种对齐引导的自注意力模块来对齐单一模态内(视觉或文本)细粒度特征和全局语义特征之间的对应关系,并以统一的方式融合不同层次的单模态信息;最后,在VQA v2.0和VQA-CP v2数据集上进行实验,结果表明,本文所提方法在各项视觉问答评估指标上的表现优于现有的模型.

关键词

视觉问答 / 多模态 / 细粒度 / 特征增强 / 实体对齐 / 特征融合

Key words

引用本文

引用格式 ▾
基于细粒度特征增强的多模态视觉问答研究[J]. 南京信息工程大学学报, 2026, 18(1): 35-47 DOI:10.13878/j.cnki.jnuist.20250107001

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

0

访问

0

被引

详细

导航
相关文章

AI思维导图

/