大模型增强的跨模态图文检索方法

罗文培, 黄德根

小型微型计算机系统 ›› 2025, Vol. 46 ›› Issue (07) : 1544 -1553.

PDF
小型微型计算机系统 ›› 2025, Vol. 46 ›› Issue (07) : 1544 -1553. DOI: 10.20009/j.cnki.21-1106/TP.2024-0221

大模型增强的跨模态图文检索方法

    罗文培, 黄德根
作者信息 +

Author information +
文章历史 +
PDF

摘要

在跨模态图像-文本检索(ITR)任务中,基于transformer的跨模态预训练范式是现在的主流.预训练方法通常为预训练模型收集大规模的数据以提升模型在各种下游跨模态任务中的表现.为此,提出了一种数据增广方法以生成大量多样化高质量的文本-图像数据作为预训练数据;其次,提出了一种两阶段训练方法,结合了知识蒸馏和对比学习,在该文产出的数据集上进行训练,从而进一步提升模型性能.提出的模型在包括COCO-CN和Flickr30K-CN在内的中文文本-图像检索数据集上取得了SOTA.

关键词

图像-文本检索 / 预训练 / 知识蒸馏 / 对比学习

Key words

引用本文

引用格式 ▾
大模型增强的跨模态图文检索方法[J]. 小型微型计算机系统, 2025, 46(07): 1544-1553 DOI:10.20009/j.cnki.21-1106/TP.2024-0221

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

99

访问

0

被引

详细

导航
相关文章

AI思维导图

/