基于场景中物体位置关系的图像描述方法

杨璐, 钱艺, 文益民

桂林电子科技大学学报 ›› 2024, Vol. 44 ›› Issue (06) : 560 -567.

PDF
桂林电子科技大学学报 ›› 2024, Vol. 44 ›› Issue (06) : 560 -567. DOI: 10.16725/j.1673-808X.202360

基于场景中物体位置关系的图像描述方法

作者信息 +

Author information +
文章历史 +
PDF

摘要

图像描述旨在将图像内容转化为语言表述,是一个亟待解决且具有挑战性的多模态生成任务。然而,现有方法缺少对图像中隐含位置信息的关注,导致物体位置关系难以得到准确描述。为解决该问题,提出一种基于场景中物体位置关系的图像描述方法。首先,使用图节点特征构建物体关系场景图,随后利用位置关系编码器对节点特征进行初次编码。其次,提出常识词典与推理模块,计算物体间比例失衡程度,根据该程度值对物体关系节点进行二次编码。再次,设计联合解码器对已编码信息进行处理,通过擦除模块和偏置门控机制进一步优化图中的节点特征。最后,生成该图像对应的文字描述。提出的方法在2个公开数据集MSCOCO、Visual Genome上进行实验验证,在各项评价指标上比现有方法均有提升,并在CIDEr指标上取得显著效果。该方法源码可在https://gitee.com/ymw12345/PRCO获取。

关键词

图像描述 / 图卷积网络 / 长短期记忆网络 / 位置关系编码器 / 联合解码器

Key words

引用本文

引用格式 ▾
杨璐, 钱艺, 文益民 基于场景中物体位置关系的图像描述方法[J]. 桂林电子科技大学学报, 2024, 44(06): 560-567 DOI:10.16725/j.1673-808X.202360

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

28

访问

0

被引

详细

导航
相关文章

AI思维导图

/