结合图像-文本提示与跨模态适配器的零样本多标签图像分类

宋铁成, 黄宇

重庆理工大学学报(自然科学版) ›› 2024, Vol. 38 ›› Issue (12) : 182 -188.

PDF
重庆理工大学学报(自然科学版) ›› 2024, Vol. 38 ›› Issue (12) : 182 -188. DOI: CNKI:SUN:CGGL.0.2024-12-022

结合图像-文本提示与跨模态适配器的零样本多标签图像分类

    宋铁成, 黄宇
作者信息 +

Author information +
文章历史 +
PDF

摘要

最近的零样本多标签图像分类方法主要基于视觉语言预训练模型CLIP(contrastive language-image pre-training)。然而,这些工作仅仅在文本提示上进行改进,忽略了图像和文本2种模态之间的交互。针对以上问题,提出一种结合图像-文本提示和跨模态适配器(image-text prompts and cross-modal adapter, ITPCA)的零样本多标签图像分类方法,充分挖掘视觉语言预训练模型的图文匹配能力。通过结合提示学习为图像和文本分支设计提示,提高了模型对不同标签的泛化能力。此外,设计了一个跨模态适配器建立图像和文本2种模态之间的联系。实验结果表明,在NUS-WIDE、MS-COCO多标签数据集上,所提方法优于其他零样本多标签图像分类方法。

关键词

视觉语言预训练模型 / 提示学习 / 零样本学习 / 多标签图像分类

Key words

引用本文

引用格式 ▾
结合图像-文本提示与跨模态适配器的零样本多标签图像分类[J]. 重庆理工大学学报(自然科学版), 2024, 38(12): 182-188 DOI:CNKI:SUN:CGGL.0.2024-12-022

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

73

访问

0

被引

详细

导航
相关文章

AI思维导图

/