融合多尺度视觉和文本语义特征的图像描述生成算法

李丰; 文益民

山东大学学报(工学版) ›› 2025, Vol. 55 ›› Issue (03) : 80 -87.

李丰, 文益民

作者信息 +

Author information +

文章历史 +

PDF

摘要

为了解决目标检测器预训练数据集与图像描述生成任务数据集存在类别差异导致物体识别错误，以及不同场景样本规模存在差异导致模型对少见场景中对象间关系理解不足的问题，提出融合多尺度视觉和文本语义特征的图像描述生成算法（multi-scale visual and textual semantic feature fusion for image captioning, MVTFF-IC）。多尺度视觉特征融合（multi-scale visual feature fusion, MVFF）模块通过图注意力网络对全局、网格和区域特征进行建模，以获取更具代表性的视觉表征；深度语义融合模块（deep semantic fusion module, DSFM）通过交叉注意力机制整合包含对象关系的文本语义特征，以生成更准确的描述。在微软常见物体场景（Microsoft common objects in context, MSCOCO）数据集上的试验结果表明，MVTFF-IC基于共识的图像描述评价指标C_DIEr达到136.7,优于许多现有的流行算法，能够更准确地捕捉图像中的关键信息，生成高质量的描述。