基于多模态预训练大模型和细粒度特征增强的图像中文描述

马雯悦, 王恒友, 何强, 曾宪佑

河北工业科技 ›› 2025, Vol. 42 ›› Issue (04) : 314 -322+339.

PDF
河北工业科技 ›› 2025, Vol. 42 ›› Issue (04) : 314 -322+339.

基于多模态预训练大模型和细粒度特征增强的图像中文描述

    马雯悦, 王恒友, 何强, 曾宪佑
作者信息 +

Author information +
文章历史 +
PDF

摘要

为了解决现有图像描述模型在中文数据集上存在性能欠佳、语义对齐效果差的问题,提出了一种基于多模态预训练大模型和细粒度特征增强的中文图像描述模型。首先,使用对比语言-图像预训练(contrastive language-image pre-training, CLIP)模型的图像编码器提取图像特征;其次,采用基于三重通道融合多层感知机(triple channel-mixing multilayer perceptron, TCM-MLP)模块的多模态映射网络,将图像特征矩阵在通道维度上扩展为原来的3倍后,对图像特征矩阵进行空间位移,并利用分割注意力机制将3个分支的特征向量融合;最后,使用第2代生成式预训练变换器(generative pretrained transformer-2, GPT-2)模型以自回归的方式逐字生成描述文本。结果表明:在AIC-ICC数据集上,所提模型的BLEU-1、BLEU-2、BLEU-3、BLEU-4、ROUGE和METEOR指标分别为0.827、0.747、0.677、0.605、0.686、0.591;在Flickr8k-CN数据集上,以上各指标分别为0.710、0.546、0.427、0.325、0.515、0.363。在2种数据集上该模型均表现出优异性能,有效实现了视觉空间与语义空间的对齐,能够生成内容丰富且表述准确的中文描述。所提模型为跨模态语义对齐问题提供了新的解决思路,对推动中文场景下的图像理解与描述任务具有一定的理论和应用价值。

关键词

自然语言处理 / 图像中文描述 / TCM-MLP多模态映射网络 / 编解码器 / 预训练大模型

Key words

引用本文

引用格式 ▾
基于多模态预训练大模型和细粒度特征增强的图像中文描述[J]. 河北工业科技, 2025, 42(04): 314-322+339 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

40

访问

0

被引

详细

导航
相关文章

AI思维导图

/