基于场景-物体-方向线索补全及融合的视觉语言导航

王立春, 耿圆, 李爽, 付煜

北京工业大学学报 ›› 2026, Vol. 52 ›› Issue (04) : 392 -401.

PDF
北京工业大学学报 ›› 2026, Vol. 52 ›› Issue (04) : 392 -401.

基于场景-物体-方向线索补全及融合的视觉语言导航

    王立春, 耿圆, 李爽, 付煜
作者信息 +

Author information +
文章历史 +
PDF

摘要

针对视觉语言导航(vision-and-language navigation,VLN)模型中基于语言指令构建语言图时某些线索缺失导致所构建的语言图中存在无效节点的问题,设计线索补全模块(clues completion module,CCM)以改善无效节点的信息表达能力,并设计线索加权融合模块(clues-weighted fusion module,CFM)对3种线索进行差异化融合,融合后的线索信息用于动作预测,进而得到更加准确的动作分数以提高导航准确率。在房间到房间(room-to-room,R2R)数据集上的实验结果表明,该方法的导航成功率(success rate,SR)和路径长度加权成功率(success rate weighted by path length,SPL)有明显提升。

关键词

视觉语言导航(vision-and-language navigation,VLN) / 线索信息 / 线索补全 / 线索加权融合 / 视觉线索 / 语义线索

Key words

引用本文

引用格式 ▾
王立春, 耿圆, 李爽, 付煜. 基于场景-物体-方向线索补全及融合的视觉语言导航[J]. 北京工业大学学报, 2026, 52(04): 392-401 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

0

访问

0

被引

详细

导航
相关文章

AI思维导图

/