基于提示的自然语言视觉搜索研究

曾光; 彭德中; 宋小民; 郑慧明; 刘征; 蒲睿韬; 肖钦引

doi:10.19907/j.0490-6756.240368

四川大学学报(自然科学版) ›› 2025, Vol. 62 ›› Issue (04) : 857 -863. DOI: 10.19907/j.0490-6756.240368

基于提示的自然语言视觉搜索研究

曾光, 彭德中, 宋小民, 郑慧明, 刘征, 蒲睿韬, 肖钦引

作者信息 +

Author information +

文章历史 +

PDF

摘要

视觉语义嵌入（Visual Sematie Embedding, VSE）作为实现自然语言视觉搜索的技术，旨在学习跨模态样本在公共子空间中的共享表示并通过样本在公共子空间中的距离来衡量样本间的相似性以此支撑跨模态检索.现有的方法通常聚焦于改进公共子空间中的表示进而准确地衡量相似度来提升跨模态检索性能.然而，由于文本和图像模态的信息密度不对等，即图像通常比文本具有更丰富的语义信息，直接利用原始样本进行训练很难进一步提升性能.为了解决这个问题，本文提出一种基于提示改进的VSE方法，被称为PrpVSE，来结合图像自上而下的概念语义丰富文本模态的语义信息，进而挖掘跨模态样本间的视觉语义关联提升跨模态模型衡量跨模态样本间相似性的准确率.具体来说，PrpVSE通过使用基于自上而下注意力网络的Faster-RCNN提取图像的显著区域并分配一个概念类别，这可以更深层次地挖掘图像中潜在的视觉信息.在训练过程中，PrpVSE将这些类别概念提示信息融入文本来丰富其语义信息以帮助模型更有效地学习视觉语义关联.为了验证本文方法的有效性，在两个公共数据集Flickr30K和MS-COCO上进行了大量实验.结果表明，本文方法采用的提示机制能有效改进性能并超过近年来8个优秀的基线方法，例如在Flickr30K测试集上，检索的Recall@1,5,10分别达到了78.2%,95.4%,97.3%.