基于位置前馈和平均教师的图像描述生成算法

陈铄, 张娟

东华大学学报(自然科学版) ›› 2025, Vol. 51 ›› Issue (02) : 206 -214.

PDF (8759KB)
东华大学学报(自然科学版) ›› 2025, Vol. 51 ›› Issue (02) : 206 -214. DOI: 10.19886/j.cnki.dhdz.2024.0173

基于位置前馈和平均教师的图像描述生成算法

作者信息 +

Author information +
文章历史 +
PDF (8968K)

摘要

图像描述生成算法是计算机视觉中的关键环节,旨在从给定的输入图像中预测相关文本信息,以实现对图像内容的准确理解与表达。提出一种借鉴平均教师算法的模型,并采用独特的双分支网络架构。为提升模型准确性与稳定性,在每个分支中引入位置前馈块。在图像特征提取方面,运用对比语言图像预训练(CLIP)方法,以获取图像的多层次特征,从而更好地捕捉图像的语义信息。在描述生成阶段,通过映射网络将图像特征转化为文本信息,进而利用GPT-2技术来提升预测的准确度与语义的连贯性。为验证模型性能,在Microsoft common objects in context(MSCOCO)和Flickr30k等图像描述数据集上进行充分的训练与测试。测试结果显示所提模型在两个数据集上均表现出色,证实其在图像描述生成任务中的高效性与实用性。研究为图像描述生成领域提供了新的思路与方法,具有深远的理论与实践意义。

关键词

平均教师 / 位置前馈 / CLIP / 图像描述生成 / GPT-2

Key words

引用本文

引用格式 ▾
陈铄, 张娟 基于位置前馈和平均教师的图像描述生成算法[J]. 东华大学学报(自然科学版), 2025, 51(02): 206-214 DOI:10.19886/j.cnki.dhdz.2024.0173

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF (8759KB)

12

访问

0

被引

详细

导航
相关文章

AI思维导图

/