基于场景中物体位置关系的图像描述方法

杨璐; 钱艺; 文益民

doi:10.16725/j.1673-808X.202360

桂林电子科技大学学报 ›› 2024, Vol. 44 ›› Issue (06) : 560 -567. DOI: 10.16725/j.1673-808X.202360

基于场景中物体位置关系的图像描述方法

杨璐, 钱艺, 文益民

作者信息 +

Author information +

文章历史 +

PDF

摘要

图像描述旨在将图像内容转化为语言表述，是一个亟待解决且具有挑战性的多模态生成任务。然而，现有方法缺少对图像中隐含位置信息的关注，导致物体位置关系难以得到准确描述。为解决该问题，提出一种基于场景中物体位置关系的图像描述方法。首先，使用图节点特征构建物体关系场景图，随后利用位置关系编码器对节点特征进行初次编码。其次，提出常识词典与推理模块，计算物体间比例失衡程度，根据该程度值对物体关系节点进行二次编码。再次，设计联合解码器对已编码信息进行处理，通过擦除模块和偏置门控机制进一步优化图中的节点特征。最后，生成该图像对应的文字描述。提出的方法在2个公开数据集MSCOCO、Visual Genome上进行实验验证，在各项评价指标上比现有方法均有提升，并在CIDEr指标上取得显著效果。该方法源码可在https://gitee.com/ymw12345/PRCO获取。