基于Transformer架构的端到端粗-精网络场景图生成方法

李俊良, 吕诗融, 李炜

工程科学与技术 ›› 2025, Vol. 57 ›› Issue (05) : 344 -354.

李俊良, 吕诗融, 李炜

作者信息 +

Author information +

文章历史 +

PDF

摘要

场景图生成是计算机视觉领域的一个重要任务，旨在对视觉场景有一个全面且深度的理解，着重于识别实体以及实体之间存在的关系，最终要求模型输出一系列三元组<主体，谓词，客体>和一个图结构的场景表示。这对模型的理解能力和推理能力提出了更高的要求。现有的场景图生成方法在现阶段取得了巨大的成功，然而大多数模型存在参数量太大或对谓词（即实体之间的关系）的判断不准确的问题。为了能够解决这些问题，本文提出了一个端到端的粗-精网络（rough-and-refine model, RRM）场景图生成方法，整个模型包括粗网络和精网络两部分。一方面，粗网络负责提取场景中的各种基本信息，包括图像特征、实体特征和谓词特征。该部分利用Transformer架构，通过卷积神经网络和编码器的结合进行特征提取，获取图像特征。紧接着设计了实体解码器和谓词解码器，分别计算得到实体特征和谓词特征。另一方面，精网络利用粗网络中的场景信息，做进一步的信息交互，使模型获得更精确的预测能力。首先，用三元组查询生成模块获得主体查询、客体查询以及谓词查询，然后，分三条路径分别计算三元组的三个不同部分的表示。在不同路径中，设计了特征信息聚合模块、实体信息聚合模块和谓词信息聚合模块，加强模型对场景的理解，并且用路径之间的连接使模型在谓词的表示中更多地考虑主体和客体的信息。本文提出的模型在公开数据集Visual Genome上取得了优秀的成绩，在R@20、R@50、R@100评价指标上达到23.8、29.1、32.5；在mR@20、mR@50、mR@100指标上达到7.7、11.0、12.4。实验数据和可视化结果充分展现了本文提出的模型对场景的理解能力。