图像情感信息增强的视觉问答模型

蔡锦, 蔡国永

桂林电子科技大学学报 ›› 2025, Vol. 45 ›› Issue (01) : 20 -26.

PDF
桂林电子科技大学学报 ›› 2025, Vol. 45 ›› Issue (01) : 20 -26. DOI: 10.16725/j.1673-808X.202319

图像情感信息增强的视觉问答模型

作者信息 +

Author information +
文章历史 +
PDF

摘要

视觉问答是指给定一张图像和与该图像内容相关的自然语言问题,并让计算机做出正确回答的多媒体理解任务。早期的视觉问答模型往往忽略了图像中的情感信息,使得其在回答与情感相关的问题时表现不足;另一方面,现有的融合情感信息的视觉问答模型对图像关键区域和文本关键词的利用不充分,对细粒度的问题理解不深入,导致回答的准确率总体偏低。为了在视觉问答模型中充分融入图像情感信息,同时利用这些情感信息来增强模型回答问题的能力,提出了一种使用图像情感信息增强的视觉问答模型(IEVQA)。该模型在大规模预训练模型的基础框架上,使用一个情感模块来增强模型回答情感相关问题的能力,并在视觉问答基准数据集上进行了实验。实验结果表明,IEVQA模型在综合指标上比其他对比方法表现更好,同时验证了使用情感信息辅助视觉问答模型的有效性。

关键词

视觉问答 / 自然语言 / 多媒体理解 / 情感 / 细粒度

Key words

引用本文

引用格式 ▾
蔡锦, 蔡国永 图像情感信息增强的视觉问答模型[J]. 桂林电子科技大学学报, 2025, 45(01): 20-26 DOI:10.16725/j.1673-808X.202319

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

23

访问

0

被引

详细

导航
相关文章

AI思维导图

/