基于多粒度对齐网络的图像-文本匹配方法

王旭峰, 周迪, 张风雷, 宋雪萌, 刘萌

山东大学学报(工学版) ›› 2025, Vol. 55 ›› Issue (04) : 29 -39.

PDF
山东大学学报(工学版) ›› 2025, Vol. 55 ›› Issue (04) : 29 -39.

基于多粒度对齐网络的图像-文本匹配方法

    王旭峰, 周迪, 张风雷, 宋雪萌, 刘萌
作者信息 +

Author information +
文章历史 +
PDF

摘要

为精准匹配图像与文本数据,提出一种多粒度对齐网络(multi-granularity alignment network, MGAN)。通过对比语言-图像预训练模型和基于Transformer的双向编码器模型,分别提取图像块级、区域级和全局级3个不同粒度的信息,弥补匹配信息单一的缺陷。根据各级信息的特性,采用多级对齐机制。在区域级对齐上,结合多视角总结策略,让MGAN有效应对图像和文本之间的一对多描述问题;在图像块级对齐上,引入跨模态相似性交互建模模块,进一步增强图像与文本之间的细节交互。在Flickr30K和MS-COCO两个公开数据集上的大量试验结果表明,MGAN具有更高的匹配性能,验证了多粒度对齐网络方法的有效性。

关键词

图像-文本匹配 / 跨模态检索 / 多粒度 / 多视角 / 跨模态相似性交互

Key words

引用本文

引用格式 ▾
基于多粒度对齐网络的图像-文本匹配方法[J]. 山东大学学报(工学版), 2025, 55(04): 29-39 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

92

访问

0

被引

详细

导航
相关文章

AI思维导图

/