基于场景-物体-方向线索补全及融合的视觉语言导航

王立春; 耿圆; 李爽; 付煜

北京工业大学学报 ›› 2026, Vol. 52 ›› Issue (04) : 392 -401.

王立春, 耿圆, 李爽, 付煜

作者信息 +

Author information +

文章历史 +

PDF

摘要

针对视觉语言导航(vision-and-language navigation,VLN)模型中基于语言指令构建语言图时某些线索缺失导致所构建的语言图中存在无效节点的问题，设计线索补全模块(clues completion module,CCM)以改善无效节点的信息表达能力，并设计线索加权融合模块(clues-weighted fusion module,CFM)对3种线索进行差异化融合，融合后的线索信息用于动作预测，进而得到更加准确的动作分数以提高导航准确率。在房间到房间(room-to-room,R2R)数据集上的实验结果表明，该方法的导航成功率(success rate,SR)和路径长度加权成功率(success rate weighted by path length,SPL)有明显提升。