基于知识检索的多模态人物交互检测

陈妍; 高永彬

doi:10.13543/j.bhxbzr.2025.01.013

北京化工大学学报（自然科学版） ›› 2025, Vol. 52 ›› Issue (01) : 113 -121. DOI: 10.13543/j.bhxbzr.2025.01.013

基于知识检索的多模态人物交互检测

陈妍, 高永彬

作者信息 +

Author information +

文章历史 +

PDF

摘要

人物交互（human-object interaction,HOI）检测在复杂场景理解中发挥着至关重要的作用。目前的大多数方法都以一阶段的方式将参数交互查询直接映射到一组HOI预测中，这导致丰富的交互结构没有被充分挖掘和利用。对此可以通过多模态数据获取更多维度的信息，从而更全面地理解人物之间的交互行为。为此设计了一种Transformer风格的HOI检测器，该检测器基于查询的方式检索对比语言图像预训练（CLIP）知识，然后执行交互建议生成，通过结构感知网络将非参数交互建议转换为HOI预测。本文创新性地将CLIP知识迁移到HOI检测中，并通过对整体语义结构和局部空间结构进行额外编码提高了预测结果的准确性。实验结果表明，所提模型在公共数据集V-COCO上的准确率达到了64.83%，在HICO-DET数据集上的准确率达到了28.78%，与现有的HOI检测算法相比展现出优越的性能，证明了该算法的有效性。