基于位置前馈和平均教师的图像描述生成算法

陈铄; 张娟

doi:10.19886/j.cnki.dhdz.2024.0173

东华大学学报（自然科学版） ›› 2025, Vol. 51 ›› Issue (02) : 206 -214. DOI: 10.19886/j.cnki.dhdz.2024.0173

基于位置前馈和平均教师的图像描述生成算法

陈铄, 张娟

作者信息 +

Author information +

文章历史 +

PDF (8968K)

摘要

图像描述生成算法是计算机视觉中的关键环节，旨在从给定的输入图像中预测相关文本信息，以实现对图像内容的准确理解与表达。提出一种借鉴平均教师算法的模型，并采用独特的双分支网络架构。为提升模型准确性与稳定性，在每个分支中引入位置前馈块。在图像特征提取方面，运用对比语言图像预训练(CLIP)方法，以获取图像的多层次特征，从而更好地捕捉图像的语义信息。在描述生成阶段，通过映射网络将图像特征转化为文本信息，进而利用GPT-2技术来提升预测的准确度与语义的连贯性。为验证模型性能，在Microsoft common objects in context(MSCOCO)和Flickr30k等图像描述数据集上进行充分的训练与测试。测试结果显示所提模型在两个数据集上均表现出色，证实其在图像描述生成任务中的高效性与实用性。研究为图像描述生成领域提供了新的思路与方法，具有深远的理论与实践意义。