大模型驱动的具身智能机器人导航技术综述

谢远龙 ,  王书亭 ,  程祥 ,  胡倚铭 ,  李文龙

华中师范大学学报(自然科学版) ›› 2025, Vol. 59 ›› Issue (05) : 677 -693.

PDF (2468KB)
华中师范大学学报(自然科学版) ›› 2025, Vol. 59 ›› Issue (05) : 677 -693. DOI: 10.19603/j.cnki.1000-1190.2025.05.004
长江文化研究

大模型驱动的具身智能机器人导航技术综述

作者信息 +

An overview of large model-driven embodied intelligent navigation

Author information +
文章历史 +
PDF (2526K)

摘要

大模型驱动的具身智能机器人导航技术是人工智能与机器人学深度融合的前沿领域,通过大模型的自然语言处理、多模态信息融合及逻辑推理能力,赋能机器人在动态复杂环境中实现自主环境感知、语义指令理解与精准导航决策,突破传统导航方法在非结构化场景下的适应性、泛化性与人机交互能力瓶颈.近年来,随着大语言模型及多模态模型的技术突破,具身智能移动机器人导航方法正从强化学习范式向通用智能范式演进,在工业自动化、智慧服务、灾害救援等场景展现出显著应用潜力.本文系统梳理了该领域的技术演进脉络与研究现状.首先,回顾了具身智能的理论起源与导航技术发展历程,剖析了人工智能技术与具身智能导航的融合路径.其次,从架构层面将当前主流的具身智能导航方法划分为端到端模型与分层式模型两大核心范式,分别阐述其技术原理、代表性模型及应用场景.再次,介绍了具身导航任务的常用数据集与主流评价指标.最后,结合当前技术瓶颈,指出未来研究方向.本文旨在为该领域研究者提供系统性技术参考,推动大模型驱动的具身智能机器人导航从理论研究向实际应用.

Abstract

Large model-driven embodied intelligent robot navigation technology is a frontier field at the intersection of artificial intelligence and robotics. It focuses on leveraging the natural language processing, multimodal information fusion, and logical reasoning capabilities of large models to endow robots with the ability to achieve autonomous environmental perception, semantic instruction understanding, and precise navigation decision-making in dynamic and complex environments. This approach breaks through the bottlenecks of traditional navigation methods in terms of adaptability, generalization, and human-robot interaction in unstructured scenarios. In recent years, with the technological breakthroughs in large language models and multimodal models, the navigation methods for embodied intelligent mobile robots have been evolving from the reinforcement learning paradigm to the general intelligence paradigm, demonstrating significant application potential in scenarios such as industrial automation, intelligent services, and disaster relief. This paper systematically reviews the technological evolution and current research status in this field. Firstly, it reviews the theoretical origins of embodied intelligence and the development history of navigation technology, and analyses the integration paths between artificial intelligence technology and embodied intelligent navigation. Secondly, from an architectural perspective, the current mainstream embodied intelligent navigation methods are categorized into two core paradigms: end-to-end models and hierarchical models, with their technical principles, representative models, and application scenarios expounded respectively. Subsequently, the common datasets and mainstream evaluation metrics for embodied navigation tasks are introduced. Finally, combined with the current technical bottlenecks, future research directions are pointed out. This paper aims to provide systematic technical references for researchers in this field and promote the transition of large model-driven embodied intelligent robot navigation from theoretical research to practical applications.

Graphical abstract

关键词

具身智能 / 机器人导航 / 大模型驱动 / 移动机器人

Key words

embodied intelligence / robot navigation / large model-driven / mobile robots

引用本文

引用格式 ▾
谢远龙,王书亭,程祥,胡倚铭,李文龙. 大模型驱动的具身智能机器人导航技术综述[J]. 华中师范大学学报(自然科学版), 2025, 59(05): 677-693 DOI:10.19603/j.cnki.1000-1190.2025.05.004

登录浏览全文

4963

注册一个新账户 忘记密码

具身智能(embodied intelligence, EI)的概念最早是于1950年由人工智能之父阿兰·图灵所提出1,直到20世纪90年代认知科学与人工智能的交叉研究才正式确定了具身智能的核心思想,即强调智能的产生依赖于主体与环境的交互作用,以及身体在认知过程中的基础性作用.这一理念突破了传统符号主义人工智能的局限,认为智能体需通过具身化的感知—行动循环实现对环境的适应与任务执行.
随着机器人技术的发展,具身智能逐步具象化为具备环境感知、自主决策与物理执行能力的智能系统.具身智能系统主要包括实体、任务、环境三个部分,其中,具身实体是系统的核心,主要包括机器人、传感器、执行器等部分.在具身智能导航任务中,常见的具身智能导航实体根据移动底盘不同主要分为轮式移动机器人、腿式移动机器人以及轮腿式移动机器人(图1).不同类型的移动底盘能够帮助移动机器人适应不同的路面环境,特别是腿式与轮腿式移动机器人能够帮助机器人实现在楼梯、陡坡等不平稳路面的稳定通行,从结构设计层面提高了移动机器人的环境适应能力,为具身导航方法奠定了结构基础.
近二十年来,机器人导航技术从固定策略到自主决策的演进深刻反映了研究人员尝试将人工智能与机器人导航技术进行有机结合的融合历程2.传统的机器人导航方法通常以环境建图—路径规划—运动控制的串行架构为核心,导航的安全性和运动的平顺性非常依赖精确的环境模型以及预设的导航决策规则.然而,这一时期的机器人导航系统普遍存在适应性不足的问题,在非结构化场景下难以保持良好的导航安全性或路径效率,也无法支撑复杂的人机交互或人机协作任务.究其根本,传统方法的局限性源于其符号主义范式,即通过预设规则将环境离散化为符号化表示,再根据人工经验事先预定义好规则条例来决定机器人的导航动作,导致系统在真实场景中难以自主适应复杂动态的环境.后来,随着2013年Mnih等3首次成功应用深度强化学习来解决复杂决策问题,深度强化学习(deep reinforcement learning, DRL)开始进入研究人员的视野并被尝试用作新的基础理论方法来解决机器人的导航问题,至此,具身导航进入感知—行动闭环的自主学习阶段,机器人通过与环境的试错交互,能够动态调整行为策略以适应未知情况.然而,受限于深度强化学习理论算法所存在的样本利用效率低下以及神经网络模型泛化能力不足等问题,此类方法能在较为理想的仿真环境中表现良好,但难以使用较低的成本迁移部署到实际的导航任务中.
近年来,以ChatGPT4、Gemini5等为代表的大语言模型(large language model, LLM)与多模态大语言模型(multimodal large language model, MLLM)的技术发展迅速,其强大的自然语言处理能力、常识性推理能力与通用多模态数据处理能力让研究者看到了将其与机器人技术结合的巨大潜力6.得益于多模态大模型的不断更新迭代与模型训练成本的降低,以及具身机器人在其他机器人决策任务中取得的突破性进展,例如物品抓取7,研究者开始尝试将多模态大语言模型应用于导航任务中.许多大模型驱动的具身智能导航方法被提出8-9,这些方法通过将大模型技术融入到导航方法中,不仅使得导航系统能够理解自然语言指令,更赋予了其具备语言文本推理、通用性语义特征识别等高级能力,克服了强化学习类导航方法泛化能力不足的限制,实现了方法在现实场景下的低成本部署,在通用型导航策略的构建上取得了突破性进展.
面对工业自动化、智慧服务、灾害救援等作业场景的多样化需求,具身智能机器人通过具身化的任务执行,能够实现对非结构化环境的适应性、对人类指令的理解能力以及对动态目标的实时响应,成为破解“决策—控制—执行”一体化难题的关键载体10-12,特别是在大模型技术兴起的背景下,具身智能机器人的导航技术正迎来从专用模型到通用智能的跨越式发展机遇.
本文聚焦大模型驱动的具身智能机器人导航发展过程的技术挑战,旨在深入剖析这一前沿领域从理论研究到实际应用中所面临的关键问题,并探索切实可行的解决路径.本文首先整体回顾并讨论了具身智能导航方法的发展过程,其次介绍相关的技术背景,再次介绍大模型驱动的具身智能机器人导航方法的应用,并针对具身大模型导航领域中的两大核心范式进行了总结与分析,再次介绍目前主流的训练数据集与评价指标,最后对具身智能导航方法目前所遇到的困难进行了总结,并对该领域未来进行了展望.

1 背景

1.1 人工智能与深度学习

自20世纪50年代以来,人工智能技术的发展始终围绕着“如何实现类人智能”这一核心命题展开探索,呈现出多学派交织演进的特征,从早期符号主义的逻辑推理、联结主义的数据驱动学习,到行为主义的交互试错范式,共同构建了现代智能系统的理论根基.

目前,较为熟知并得到广泛应用的方法多基于联结主义,其核心是通过模拟生物神经网络的信息处理机制,利用多层非线性模型拟合复杂数据模式,从结构和数据的角度实现智能.以多层感知机、卷积神经网络与循环神经网络(recurrent neural network, RNN)等不同神经网络为代表的深度学习理论被提出后,研究者们在图像处理、自然语言处理等方面产生了许多优异的成果13-15.例如,Chen等16提出了DeepLab语义分割模型,解决了图像分割任务中下采样信息丢失与边缘信息不敏感的问题,提高了分割准确率.Redmon等17提出了YOLO目标识别模型,设计了独特的端到端框架与预选框机制,大幅提高了目标识别的实时性.深度学习方法在图像处理领域取得了重要的成果,扩展了其在自动驾驶、辅助医疗、安全防护等领域的应用18-20.

除图像处理外,深度学习另一大应用领域是自然语言处理21-23,如图2所示.2013年,谷歌公司提出了word2vec词嵌入模型22,标志着自然语言处理正式进入了深度学习时代,该模型能够用低维词向量表征文本语义,且从一定程度上考虑了词语的上下文关系,因此能够较好地划分词义,word2vec的成功推动了预训练范式的萌芽,为后续模型的迁移学习奠定了基础.以此为基础,Kim24、Wang等25意识到记忆能力对于智能体处理复杂任务的重要性,因此又分别提出了TextRNN、TextRCNN文本分类方法,这些方法通过引入循环神经网络,赋予模型记忆能力,一定程度上提高了长对话的理解能力.但是由于深度学习训练依赖于人工标定的数据集,这就导致模型执行效果难以突破数据集限制,在动态复杂的现实环境中存在效果不稳定、泛化困难等问题,一定程度上限制了其应用.

2017年,Transformer21架构被提出,其独特的自注意力机制通过计算序列中任意位置的关联权重实现全局建模,突破了传统RNN的顺序计算瓶颈,同时随着生成式模型技术的发展,以BERT23、GPT4为代表的语言模型和以CLIP26、GLIP27为代表的视觉语言模型(vision-language model, VLM)接连被提出.2019年,谷歌公司提出了基于Transformer的BERT模型23,该模型设计了“预训练+微调”的自然语言处理新范式,通过掩码语言模型和下一句预测任务进行预训练,预训练结束后的模型可以通过微调应用于多种语境中实现较好的问答效果.随后,OpenAI公司的GPT-3模型4通过1 750亿参数的大规模预训练,在零样本场景下实现了文本生成、逻辑推理等能力的突破,且其在未知任务上的泛化能力相较于传统语言处理模型显著增强.在此基础上,Radford等26提出了可迁移的视觉-语言模型CLIP,该模型提出了跨模态对比学习机制,解决了传统图像模型依赖人工标注标签、跨模态语义对齐不充分的问题,提高了模型的零样本迁移能力与跨模态语义关联建模性能.Ramesh等28提出了文生图模型DALL-E模型,基于离散化图像表征的文本条件生成机制,结合Transformer自回归模型与视觉标签化方法,实现了从文字描述生成高分辨率图像,并保留了图像的语义准确性及大多数的图像细节.Liu等29提出了一种能够从文本生成视频的Sora模型,该模型基于扩散Transformer框架,结合时空潜在补丁、视频压缩网络及大语言模型指令跟随等方法,支持原生尺寸数据处理,实现了高分辨、高保真且最长达1 min的视频生成,在多行业展现出丰富应用潜力.

当前大模型技术发展呈现出两大核心趋势:一是不断改进模型参数量,提出更加轻量化但语言理解与逻辑推理精度高的模型,二是深入拓展模型可处理信息维度与效率,实现视觉、听觉、触觉等更多维度信息的高效理解与生成.这些进展推动人工智能从单一任务处理向复杂场景认知演进,形成了以基础模型为核心、多模态交互为特征的技术生态.可以说,深度学习算法和模型的迭代升级,为其扩展应用于机器人领域来解决动态复杂问题提供了良好的理论前提和基础工具支撑.

1.2 具身智能导航技术

随着人工智能技术的加速发展,研究兴趣的焦点已从数字界面转向有形环境,从而催生了一个新的研究前沿——具身智能.具身智能主要研究自主智能体与其现实世界环境之间的动态相互作用,并在相互作用过程中产生智能行为.21世纪以来,深度强化学习将神经网络与强化学习结合,在Atari游戏、围棋等领域实现超人类表现330.此后,深度强化学习强大的感知与决策能力被越来越多的研究者发掘,一直被认为是具身智能的主流方法,并将其应用于导航领域,提出了许多不依赖于预建环境模型的陌生环境导航方法31-35.中国科学技术大学的Qin等31强化学习方法与动态避障ORCA算法,提出了新的强化学习动态避障框架SRL-ORCA,通过融合强化学习与环境的动态交互能力,提高了移动机器人导航过程的避障能力.东南大学的Wang等32提出了一种改进的DRL导航框架,通过在仿真环境中训练能够基于传感器的原始数据直接得到导航动作决策,提高了移动机器人导航安全性与环境适应性.意大利佩鲁贾大学的Devo等33提出了一种基于对比学习的移动机器人视觉导航框架,并自主搭建了视觉导航仿真训练模型,实现了一种室内环境无先验地图条件下的目标驱动导航,并能够将方法泛化运用到未训练的环境中.孟怡悦等35通过引入注意力机制提取导航过程中移动机器人所需重点关注的区域,进而提高了导航性能.基于强化学习的导航方法通过不断改进,在平面导航与视觉导航领域取得了重大突破,实现了无先验地图条件下非结构环境的自主导航.

后来,随着机器人本体设计和制造技术不断发展,机器人的生产成本和应用门槛显著降低,人们开始希望将机器人用于辅助人类从事重物运输、固定加工操作以及危险系数高的任务.在此应用需求下,许多研究者开始探索能与人进行文字或语音交流,具有人机交互能力的导航方法36-40.2018年,Anderson等41首次提出了视觉-语言导航(vision-and-language navigation, VLN)任务,要求移动机器人能够听懂人类的语言指令,并在无先验地图的条件下利用实时环境信息结合方法模型本身所包含的经验知识,快速、安全地完成导航任务.此外,Anderson等还提出了一种新的仿真训练环境R2R,用于训练强化学习移动机器人,同时采用了词分割方法帮助分解人类语言指令,在跨房间导航任务中取得了较好的效果.随后,Wang等42设计了强化学习方法将文字语言指令信息与视觉信息进行了跨模态匹配,结合专家经验提高移动机器人的导航能力,方法在泛化性能上有较大提升.Zhu等43通过引入辅助推理任务的思想,通过对语言指令的语义理解并将其拆分为导航决策,提高了移动机器人的人机交互能力.Wang等44提出了PASTS方法,提出过程可知的时空编码器方法,用于提高移动机器人对于人类语言的记忆能力与理解能力,一定程度上解决了智能体在应对长时间、长距离导航时历史信息遗忘的问题.

以此为开端,以视觉语言为目标表达形式的新式移动机器人导航任务开始被越来越多的研究者所关注,同时也被普遍认为这是一个新的充满研究价值和应用前景的机器人导航方法分支领域.从二维导航到三维导航再到多模态信息融合的导航方法,强化学习类方法在机器人与环境交互方面取得了突破性的进展,但是,此阶段的具身智能导航技术虽然展现出与环境交互以及自主学习导航动作策略的特征,但依旧非常依赖于人工设计的环境反馈机制,例如强化学习的奖励函数或深度学习的样本设计,因此通常只能在较为理想的环境中保持良好效能,当方法迁移到真实环境中,往往需要进行重训练或人工辅助才能正常执行,这很大程度上限制了此类方法的落地应用.

2 大模型驱动的具身智能机器人导航

2.1 导航中的大模型应用

随着多模态大模型技术的不断成熟以及具身智能的深入发展,研究者逐步考虑将具备泛化性知识的多模态基底模型融入到机器人的导航系统中,用来提高其交互性、泛化性45-47.美国伊利诺伊大学的Liu等8提出的DRAGON辅助导航机器人能够与视力障碍患者进行交互,辅助引导视障患者安全到达室内的任意地点.美国乔治梅森大学的Song等9提出的VLM导航模型,能够感知与预测人类的行为,以提高自动驾驶安全性.卡内基梅隆大学提出的HA-VLN模型48通过引入3D人体运动模型,使智能体能够预测人类轨迹并调整路径,在MP3D环境中实现了移动机器人的高效避障.澳洲阿德莱德大学研究团队提出的VLN-Copilot36辅助驾驶模型,能够在紧急情况下提供正确粗粒度的决策辅助,提高机动车驾驶的安全性.Dorbala等37将LLM模型应用于移动机器人的零样本导航任务中,实现了无预训练、无先验地图的未知环境下自主目标搜索.可以看出,这些新式的导航方法所面向的任务不同于传统的点到点导航任务,而是专注于在未提供精确的环境几何模型的前提下,以视觉或语言等包含模糊冗余信息的非结构化数据作为输入,同时完成探索、避障、识别等过程,并且其决策过程并不被具体的导航策略所约束,要求机器人具备非常高的自主性.

目前具身导航领域主要关注的问题是目标驱动的导航任务,即在无先验环境地图条件下,移动机器人需要根据语言指令或目标的图片等非坐标形式表达的任务目标,在未知环境中依靠视觉传感器、深度相机或三维激光雷达进行障碍避让、环境探索以及目标搜寻等任务.在这样的视觉语言驱动导航问题下,根据所面向场景、目标表达方式、样本约束、问题专注点等不同研究点又衍生出了不同类型的具身导航问题,如图3所示.这些问题本质上仍是目标驱动导航问题,其基础的问题条件与任务需求相同,只是不同研究者在解决该问题时侧重点不同,例如,Yaar等49所提出的ViLaBot导航模型,是一种在无先验地图的室内环境下,目标以文字描述表示的视觉导航问题,且所提方法要求可实现未知环境下无需样本训练即可直接部署的效果,因此该方法所主要解决的问题可以归类为“视觉语言驱动室内导航与操作”问题,本文中所提及的具身智能导航问题也使用类似方式归类.

为解决具身智能导航过程的主要问题,许多大模型驱动的具身智能导航方法逐步被提出(表1).现有的具身智能导航方法大多对具身智能导航任务进行了划分,目前主流的方法都是由四大部分组成,分别是感知模块、决策模块、动作执行模块与本地知识库.感知模块用于获取移动机器人的传感器信息与导航目标信息,对于不同数据格式的信息使用不同编码模型进行感知信息编码,随后将编码后的数据再由大语言模型进行统一处理,得到通用数据处理格式,送入决策模块.而针对不同的导航任务需求,决策模块需考虑多种导航任务目标,如未知环境探索、动态避障等,根据环境感知模块所输出的信息进行综合性的导航决策,决策结果需要兼顾导航效率、安全性、成功率等多项导航任务指标.动作执行模块则负责根据导航决策结果控制具身智能机器人与其所处物理环境进行动态交互,并接收环境对机器人的交互结果.将交互结果存入本地知识库中后,再将导航知识库与通用知识库构建得到本地知识库,利用知识库中的数据对其他模块中的模型进行微调与重训练,形成闭环(图4).

根据不同导航方法所设计的不同模块的输出是否能够单独完成特定任务,可将导航方法分为两类.一类是端到端具身导航架构.这类模型架构直接将多模态输入映射到机器人动作输出,无需复杂的子模块划分,通过端到端的训练方式,实现从原始数据到执行指令的直接转换.另一类是分层式具身导航架构.该模型架构将具身导航任务拆分为多个子模块,这些子模块独立承担不同的功能或任务,例如对环境特征的感知与表达、避障动作实时决策、环境探索顺序规划等子任务,通过模块化设计并对各个模块采取针对性的训练策略和训练样本,以及面向不同任务阶段的特性进行参数优化与功能微调,配以通过精心设计的模块组合方案,最终得到过程更为可知可控的导航方法.

2.2 端到端具身导航模型

端到端导航模型是一种直接从多模态输入到物理动作输出的全流程自主决策模型,其核心特点是将传统的感知、规划与执行的分阶段流程进行高度集成化和耦合化,再结合海量的数据集训练与模型优化训练方法,能够实现从多模态环境感知输入直接到动作决策输出2066.端到端模型通过将感知输入与导航决策构建为统一的映射体系,原理层面规避了导航方法中导航感知—决策—执行各环节级联导致的误差累积问题.同时,端到端模型摒弃了非端到端方法中冗余的中间表征转换过程而直接处理原始数据,结合Transformer、图神经网络等轻量化架构,在同等算力条件下可实现模型推理速度提升,降低了硬件部署成本与实时计算压力.因此,在算力难以保证大模型提供实时稳定输出的背景下,端到端导航模型是解决该问题的重要途经之一.

端到端框架下诞生了许多具有参考价值的经典方法,其中,PaLM-E10是Google在PaLM多模态大模型基础上推出的具身智能大模型,是一种融合语言理解、视觉感知与机器人运动与操作能力的多模态导航操作一体化模型.其核心思想在于突破传统语言模型的纯文本处理局限,将真实世界的连续传感器模态直接融入语言模型的嵌入空间,构建起语言与图像观测的直接关联.PaLM-E通过将图像、机器人状态等多模态输入编码为与文本符号同维度的嵌入向量,使语言模型能够直接基于这些具身感知信息进行推理,并在所搭建场景中进行了长时间模型调整与训练,最终实现从多模态输入到移动机器人直接动作输出的全过程,能够与人交互、具备自主导航与操作能力.但是该方法数据采集成本高、训练代价大,且经过微调后的模型泛化能力也受到了一定程度影响.

另一种经典方法NavGPT63是由阿德莱德大学研究团队提出的一种基于大语言模型的具身智能机器人导航方法.该方法通过整合视觉基础模型将视觉观测转换为自然语言描述,结合导航历史、语言指令和导航系统原则,利用提示管理器生成统一的自然语言提示输入至LLM,使模型能够以显式文本形式进行推理和决策.实验表明LLM能够执行复杂的导航规划,如分解指令、识别地标、整合常识、跟踪进度和调整计划,还能根据路径上的观测和动作生成高质量的导航指令,并根据导航历史绘制准确的俯视度量轨迹,展现出对导航任务的历史和空间感知能力.其缺点主要在于:1) 视觉基础模型将文本信息转化为语言描述过程往往会忽略图像细节;2) 将历史信息融入提示词的方式随着导航进行存在记忆丢失问题.

为解决上述问题,研究团队随后提出了NavGPT-2具身智能导航模型64.该方法融合了大型VLM与拓扑图导航策略网络,弥补了NavGPT方法由于使用纯语言模型所导致的在空间理解和动作规划上的不足,同时保留语言模型的可解释性与交互能力.该模型通过VLM同时处理视觉-语言信息,避免了单独编码图像数据导致的空间信息丢失,同时引入图记忆机制,结合节点距离与视觉相似性增强空间结构理解,支持动态路径调整和未探索节点回溯,解决了记忆丢失与空间推理解释性差的问题.相较于NavGPT,NavGPT-2导航模型具有更强的空间导航推理能力与环境适应性能.

除上述模型外,许多方法在不同方面进行了改进,有效地提升了端到端模型的表现.例如,Yuan等54提出的LVLM-OGN方法,结合环境语义二维地图构建与基于边界点的环境探索方法,实现了未知环境下的带有目标推理的环境探索,提高了探索效率.Yokoyama等55在上述方法基础上提出了VLFM具身导航模型,通过视觉语言模型判断导航边界点与导航目标的关系,显示构建了基于语言的价值地图,提高了方法的可解释性.Dorbala等37将环境探索地图拓展到三维空间,提出了LGX具身导航模型,不仅考虑平面关系,同时显示表达了环境特征的空间位置关系,提高了方法的环境适应性.

现有端到端具身导航方法通过整合大模型通用知识推理能力,相较于强化学习类方法具有良好的泛化性.但由于大模型输出结果存在不稳定性,许多端到端方法都需要进行不同程度的微调或重训练以使输出结果满足导航需求,而微调大模型需要海量的训练数据与算力作为支撑,增大了方法部署难度,限制了方法的实际应用价值.

2.3 分层具身导航模型

分层导航模型方法作为一种结构化决策范式,通过将导航任务进行功能层级分解,依托跨层协同机制,实现从环境感知到动作执行的系统性处理67-69.此类方法的核心架构由环境感知层、导航决策层及动作执行层构成,各层级模块基于标准化中间表征体系,构建起信息交互与决策耦合的闭环系统,形成“感知—决策—执行”的递进式处理链路.这种模块化设计在提升系统可解释性与可维护性方面具有显著优势,支持算法的局部迭代升级而无需重构整体架构,同时中间表征的显性化表达为人工干预与决策验证提供了便利条件.

虽然分层架构存在级联误差累积风险,并且多模块部署会增加计算资源消耗,但凭借模块化设计带来的低调整成本,以及相较于端到端方法更稳定的输出特性,分层导航模型已成为复杂场景下保障安全稳定导航的重要技术方案之一.现有分层导航方法主要有三种解决思路,如图5所示.

第一类方法是利用VLM对视觉、语言、听觉等多维度感知数据进行统一数据格式的编码,实现感知数据对齐与环境准确理解,为后续导航决策提供可参考的环境实时状态表征,最后结合经典的局部导航方法与人工设计的环境探索规则完成导航任务70-71,其基本流程如图5 a所示.在视觉-语言导航领域的研究中,Lin等50聚焦于动作级模态对齐的关键问题,提出ADAPT移动机器人环境感知模型.该模型基于CLIP模型构建动作提示库,通过引入模态对齐损失函数与序列一致性损失函数,强化跨模态信息的关联性,从而引导具身智能机器人学习自然语言指令与视觉输入间的动作映射关系.Shah等51构建的LM-Nav系统,创新性地集成GPT-3、CLIP和ViNG三种具身模型,利用大语言模型解析导航指令,通过CLIP实现视觉-语言的语义对齐,并借助ViNG模型进行路径规划,成功实现移动机器人长距离户外零样本导航任务.针对感知噪声对导航精度的影响,Zhuang等58提出PoSE方法,该方法基于BLIP模型设计逻辑提示机制,用于评估目标存在的概率,并结合CLIP-Seg实现语义分割与目标定位,最终通过探索地图优化导航策略.He等61提出的MMSG框架,通过整合多模态数据与知识图谱,构建了结构化的多模态场景图,通过融合语义推理与空间建模能力,实现环境特征热力图获取,为机器人未知环境的环境建模方法研究提供了新的技术路径.Du等60提出了一种融合折扣马尔可夫决策过程与方向约束机制的FIG-RN模型,创新性地将自然语言中的空间语义约束转化为可计算的路径优化问题,实现了无地图标注条件下非结构化语言指令的有效解析,拓展了自然语言指令的语义表达边界,提升了机器人导航的成功率.总的看来,此类方法中,VLM更多是作为一种多模态输入数据通用感知器来提取任务和环境中的有效信息,而导航动作决策往往需要依托人工经验来设计相应的策略,这使得此类方法虽然能够处理图像和语言输入,但行为风格上通常还是表现得有迹可循,自主性并不突出.

第二类方法依托LLM强大的自然语言理解能力和逻辑推理能力,采用环境信息预处理技术将导航问题抽象转化为结构化文本逻辑推理任务72-75.在此基础上,运用提示工程对导航目标进行层次化分解,生成可执行的动作序列,最终通过动作映射机制,将符号化的决策序列精准转换为动作执行层的具体操作指令,实现导航任务闭环6376,其基本流程如图5 b所示.Yu等12提出L3MVN框架,将大语言模型引入移动机器人视觉目标导航,解决了传统方法依赖大量训练数据获取场景先验知识的问题,为后续多模态融合导航奠定了基础.Chiang等77针对多模态指令导航任务,提出MobilityVLA分层框架,利用长上下文视觉语言模型解析演示视频和用户指令,结合离线构建的拓扑图生成机器人动作,突破了大模型在长上下文环境理解和动作生成上的局限.Rajvanshi等59聚焦多目标导航任务,提出SayNav方法,通过增量构建3D场景图并注入LLM常识推理,动态生成包含条件分支的探索计划,拓展了大模型在动态环境中处理复杂空间关系的能力.Shi等65提出E²BA框架,结合环境语义地图构建与边界点环境探索方法,设计LLM动态选择最优探索边界,并设计双层级联回溯判别器减少冗余路径,解决了前期方法中存在的无效探索问题.此类方法专注于借助LLM的常识储备和逻辑推理能力来驱动机器人决策出更为合理的导航动作或进行长时间跨度的动作规划,展现出远超传统方法的适应能力和复杂长程任务处理能力,但方法的实际执行效果一方面也非常依赖LLM模型本身的能力以及提示词工程的优劣,另一方面也存在输出不稳定可控性不强等缺点.

第三类方法则尝试融合VLM的多模态信息解析能力与LLM的自然语言理解及逻辑推理的优势,通过模块化架构设计将两种模型分别构建为独立导航单元.在此基础上,运用提示工程或参数微调等技术手段,实现异构模块间数据的语义对齐与格式转换,进而构建起具备层级化执行逻辑的导航框架,确保各模块在协同作业中精准达成既定导航任务目标,其基本流程如图5 c所示.此类方法中,Zhou等11提出的ESC方法着重解决机器人导航过程中的常识推理问题.该方法构建了基于软常识约束的探索框架,借助GLIP模型实现开放世界场景理解,结合大语言模型推理目标与房间、物体间的关联概率,并运用概率软逻辑将常识性知识转化为软约束,以指导智能体进行前沿探索.Liu等53于2023年提出Lang2LTL模型,该模型通过LLM将机器人所接收的自然语言命令转换为线性时序逻辑规格78,并采用模块化设计实现指称表达式识别与语义翻译.然而,该模型仅依赖文本模态,在空间关系处理方面存在局限性.次年,Liu等57提出了改进版的Lang2LTL-2模型,通过引入空间指称表达式识别模块,融合LLM与VLM处理时空混合命令.该模型利用GPT-4V生成图像描述,并借助CLIP嵌入实现文本-图像的跨模态语义对齐,显著增强了原版模型在空间推理与多模态环境下的应用能力.此类方法可以同时兼顾LLM的推理能力和VLM的多模态感知能力,在理论层面上具有更强大的复杂动态问题处理能力,但多个大模型的结合应用通常也意味着显著的计算代价提升,模型的响应速度受到明显影响,这对于机器人导航任务来说是一个不可忽视的问题.

总的来说,现有的分层具身导航方法采用模块化任务分解策略,通过构建结构化系统架构,有效增强了模型的可解释性与可维护性,为局部功能迭代和人工策略干预提供了可行性,提升了导航输出的稳定性.然而,多层级模型堆叠机制导致计算复杂度呈指数级增长,对导航系统的实时性造成严重制约.这种架构不仅大幅增加硬件资源需求与能耗成本,模块间异构信息的标准化转换问题亦成为当前研究亟需突破的技术瓶颈.具身智能导航模型对比如表2所示.

3 数据集与评价指标

3.1 数据集

当前的具身智能机器人导航方法通常基于通用大模型进行构建,这些通用模型往往需要在特定的数据集或仿真环境中进行微调训练以提升在导航任务中的表现.为了稳定可靠地执行任务,机器人需要同时具备优秀的环境特征感知与导航动作决策能力,具体来说包括但不限于环境视觉信息特征提取、人类语言指令理解、任务执行过程规划、子任务拆分与重组以及运动规划等能力.因此,为训练针对不同的具体问题的导航策略,研究者开发了许多不同类型的仿真环境数据集,如图6所示.

MatterPort3D(MP3D)79是面向三维室内环境研究的综合性数据集.该数据集至今已经扩展到涵盖1 000个不同面积和结构的室内场景,它由真实环境三维扫描数据构成,并提供RGB图像、深度数据、环境三维网格数据,以及表面几何、相机位姿、语义分割等多模态标注信息.但同时需要注意的是,该数据集仅提供了室内场景模型,也没有考虑底层的机器人运动控制仿真需求,所以,它并不能很好的支撑室外环境或涉及到机器人运动控制的研究的仿真和训练需求.因此该数据集特别适合用于机器人室内导航相关的算法训练.

TOUCHDOWN80是基于Google街景构建的导航与空间推理数据集,该数据集目前收录了纽约市39 641张全景图像,主要服务于室外导航任务和空间描述解析(SDR)两大分支领域.由于城市环境的动态复杂性以及语言标注存在的标准差异,在实际应用中存在数据不一致的困难,在实际训练中往往需要研究人员根据自己方法的训练需求基于人工经验进行数据调整以获得更好的训练效果.因此,该数据集为城市街道、自动驾驶、智能辅助驾驶等领域提供了充足的数据支撑.

Room⁃to⁃Room(R2R)41 作为视觉-语言导航领域的重要数据集,其以MatterPort3D(MP3D)仿真环境为基础,面向视觉语言导航任务需求,将机器人的导航目标的表达形式以自然语言进行描述.该数据集同样专注于室内环境导航任务,要求智能体根据给定的自然语言指令与机器人实时观察到的环境图像等多模态信息决策出安全高效的导航动作.该仿真数据集更适配于视觉语言导航任务,为研究复杂环境下的导航决策机制及长时记忆建模提供了更为契合的实验平台.

CVDN81是一个专注于人机协同导航研究的高质量数据集,其相对于其他数据集而言最大的特点是累计采集超2 000次人与人的真实对话作为样本.该数据集聚焦于训练智能体根据自然语言指令,在居家及工作场景中按照指令内容完成导航任务.相较于经典的R2R数据集,CVDN数据集中的语言指令内容更具持续性,单轮对话时长显著更长,这一设计是为了强调人与机器人在协同导航过程中的实时交互,以及动态场景下机器人对实时环境信息查询需求,该数据集是研究导航场景下人机交互机制的理想样本资源.

REVERIE82收录了10 567张全景图像与21 702条来源于人类日常生活的目标导航指令.相较于传统视觉语言导航(VLN)数据集,它设计了语义复杂度更高的任务场景,例如“在浴室中折叠印有渔业主题图案的毛巾”,此类任务要求具身智能导航模型具备长时记忆及对记忆内容的准确理解能力,该特点使得该数据集尤其适用于非结构化文本解析与多任务联合学习研究.

ProcTHOR83是一个面向具身AI智能体训练的高质量数据集,通过特殊设计的无重复场景生成算法以及unity引擎生成了10 000个高拟真住宅场景.该数据集在导航路径规划、物体交互模拟和场景语义理解等核心任务上表现优异,其优势在于场景数量充足且支持个性化定制.但由于环境模型并非基于物理建模构建,在还原真实世界的复杂环境特征与物理交互等细节方面存在一定局限性.因此,该方法适用于海量数据训练与定制化要求高的视觉语言导航方法研究.

X⁃Embodiment84是一个涵盖22个实例、100多万条机器人轨迹的具身机器人导航任务数据集,覆盖527项技能和160 266项任务.它整合了60个现有的具身智能机器人导航任务数据集的数据并统一为RLDS格式85,可以快速便捷地与多种深度学习框架进行集成.这种大规模、多样化的数据集对开发自适应新机器人、任务和环境的通用型机器人策略至关重要,通过聚合多平台数据,X-Embodiment推动了机器人学习领域向创建更通用且适应性更强的机器人策略发展,使得具身智能实体导航与操作一体化的策略训练成为可能.

在具身智能导航方法的训练体系中,数据集作为核心训练载体,其演化趋势与导航技术发展呈现显著的协同性与适应性特征.数据集当前的发展方向主要集中于提升模型的泛化能力或改善模型在特定任务中的表现.从泛化能力提升维度分析,当前数据集构建策略倾向于引入多模态、高复杂度的训练场景,并融合多传感器数据融合、语义分割等辅助感知技术,通过强化场景多样性与信息表征能力提升模型的跨环境迁移性能.从任务特异性优化视角来看,为保障模型在特定应用场景下的鲁棒性与执行效率,该领域的研究人员会采用特定的数据集构建方法,采集特定任务或场景下的高关联性数据,以增强模型对特定任务的适应性与决策稳定性.

3.2 评价指标

评价指标在评估不同的具身智能导航方法在不同的性能中发挥着关键作用.导航任务的评价指标不仅关注传统的导航指标,例如成功率(success rate,SR)、路径长度(path length, PL)和导航误差(navigation error, NE),还额外引入指标来评价导航路径与指令的一致性.成功加权路径长度(success-weighted path length, SPL)是导航和路径规划任务中用于评价路径质量的度量指标,它将路径成功率与实际路径长度和理想路径长度之间的关系相结合,从而提供对路径质量的综合评估.SPL反映了路径规划的效率和效果,既考虑了实际路径长度与导航问题中理想路径长度的比较,也考虑了导航成功率,是一种综合性的评价指标.

具身智能导航任务中常用评价指标如表3所示,其中,N表示导航任务总数;Si表示导航成功指标,当导航任务成功时,Si=1,否则,Si=0Li表示第i局导航任务中从起始点到目标点的最短路径长度;pi表示第i局导航任务实际执行过程中移动机器人所走过的路径长度;P表示导航过程中经过的路径点集合;d(,)表示两点的距离;pt表示目标点位置;pe表示导航中止点位置.

4 总结与展望

大模型驱动的具身智能机器人导航技术利用大模型的多模态数据处理能力,不同于传统机器人导航方法的分阶段离散化模型化思想,不仅实现了同步的多模态数据处理和实时导航动作决策,而且赋予了机器人理解人类语言指令以及感知复杂环境特征的能力,此外还引入了传统方法不具备的常识性逻辑推理能力.这些新的特点显著提升了机器人对复杂动态环境和模糊任务指令的处理能力,有效地提升了机器人的自主行动和环境适应能力.这种基础层面的改进,将作为机器人扩展至更多生活化应用场景的关键支撑因素.

基于当前技术演进态势与领域研究趋势,基于大模型的具身智能机器人导航技术在未来发展中,或将呈现如下几个值得关注的研究方向.

1) 现有研究范式中,基于大模型的具身智能导航系统虽在少样本或零样本任务中展现显著优势,但由于预训练大模型的设计初衷并非面向导航任务,因此并不能很好地满足不同导航任务的特异性需求,导致在实际部署过程中难以保持可靠且正确的决策输出,同时还会存在模型参数微调困难等技术难题.因此,如何通过轻量化训练策略或高效迁移学习框架,在保证导航性能的前提下显著降低模型微调阶段的计算复杂度,将是非常有利于此类方法得到实际落地应用的保障条件.未来可考虑结合知识蒸馏技术,将当前具身大模型中与导航相关的知识迁移至轻量级子模型中,实现在大幅保留具身模型导航能力的条件下减小模型参数,并减小其部署成本.

2) 现有的端到端具身导航方法虽然在特定任务或训练环境中表现良好,但如果环境中存在动态障碍物扰动或非结构化环境布局条件下,端到端模型的泛化能力与稳定性将呈现出明显不足.针对此问题,研究如何构建具备环境自适应能力的强化学习框架,或者是考虑结合多模态感知与动态策略优化技术,以提升模型在复杂场景下的鲁棒性表现,是推动具身智能导航领域技术突破的极具研究价值的方向之一.未来,可考虑将元强化学习理论和具身智能导航模型结合,让具身模型在新环境中学习如何试错并实现策略快速调整,实现环境的快速适应以提高方法的泛化性.

3) 现有分层具身导航方法虽然有效地提升方法的可知性和过程的可控性,但受限于多层级指令传递与信息处理机制,不可避免地存在模块之间响应时延问题,这就导致方法整体层面的执行效率不理想,难以满足机器人导航任务的实时性需求.由于各层级间的协同效率直接决定导航任务的执行效能,所以可以着重考虑如何通过优化分层架构设计提高信息传输效率,构建统一的数据传输格式以减小数据处理过程中的冗余步骤,或设定误差反馈机制对各环节误差进行补偿消除,这将显著提升方法的实时性以及实用性,因此也是非常具有研究价值的方向.

参考文献

[1]

白辰甲, 许华哲, 李学龙. 大模型驱动的具身智能: 发展与挑战. 中国科学: 信息科学, 202454(9): 2035-2082.

[2]

BAI C JXU H ZLI X L. Embodied-AI with large models: research and challenges[J]. Scientia Sinica Informationis202454(9): 2035-2082. (Ch).

[3]

高宇宁, 王安成, 赵华凯, . 基于深度强化学习的视觉导航方法综述[J]. 计算机工程与应用202561(10): 66-78.

[4]

GAO Y NWANG A CZHAO H Ket al. Review on visual navigation methods based on deep reinforcement learning[J]. Computer Engineering and Applications202561(10): 66-78. (Ch).

[5]

MNIH VKAVUKCUOGLU KSILVER Det al. Human-level control through deep reinforcement learning[J]. Nature2015518, 529-533.

[6]

BROWN T BMANN BRYDER Net al. Language models are few-shot learners[C]//NIPS. Proceedings of 34th Conference on Neural Information Processing Systems (NeurIPS). California: NIPS Press, 2020159: 1877-1901.

[7]

ANIL RBORGEAUD SALAYRAC J Bet al. Gemini: a family of highly capable multimodal models[DB/OL]. (2025-05-09) [2025-07-10].

[8]

赵博涛, 亢祖衡, 瞿晓阳, . 基于多模态大模型的具身智能体研究进展与展望[J]. 大数据202511(3): 108-138.

[9]

ZHAO B TKANG Z HQU X Yet al. Review and emerging trends of embodied agent based on multimodal large language models[J]. Big Data Research202511(3): 108-138. (Ch).

[10]

BROWN ABROWN NCARBAJAL Jet al. RT-2: vision-language-action models transfer web knowledge to robotic control[DB/OL]. (2023-07-28) [2025-07-10].

[11]

LIU SHASAN AHONG Ket al. DRAGON: a dialogue-based robot for assistive navigation with visual language grounding[J]. IEEE Robotics and Automation Letters20249(4): 3712-3719.

[12]

SONG DLIANG JPAYANDEH Aet al. VLM-Social-Nav: socially aware robot navigation through scoring using vision-language models[J]. IEEE Robotics and Automation Letters202510(1): 508-515.

[13]

DRIESS DXIA FSAJJADI M S Met al. PaLM-E: an embodied multimodal language model[C]//PMLR. Proceedings of the 40th International Conference on Machine Learning (ICML). San Diego: PMLR Press, 2023340: 8469-8488.

[14]

ZHOU K WZHENG K ZPRYOR Cet al. ESC: Exploration with soft commonsense constraints for zero-shot object navigation[C]//PMLR. Proceedings of the 38th International Conference on Machine Learning (ICML). San Diego: PMLR Press, 2023: 42829-42842.

[15]

YU B GKASAEI HCAO M. L3MVN: leveraging large language models for visual target navigation[C]//IEEE. Proceedings of 2023 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). New York: IEEE Press, 2023: 3554-3560.

[16]

陈亚宇, 孙骥晟, 李建龙, . 基于深度学习与图像处理的废弃物分类与定位方法[J]. 科学技术与工程202121 (21) : 8970-8975.

[17]

CHEN Y YSUN J SLI J Let al. Waste classification and location method based on deep learning and image processing[J]. Science Technology and Engineering202121(21): 8970-8975. (Ch).

[18]

RAZALI HMORDAN TALAHI A. Pedestrian intention prediction: a convolutional bottom-up multi-task approach[J/OL]. Transportation Research Part C: Emerging Technologies2021130[2025-07-10].

[19]

LIANG J WJIANG LNIEBLES J Cet al. Peeking into the future: predicting future person activities and locations in videos[C]//IEEE. Proceedings of Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 5718-5727.

[20]

CHEN L CPAPANDREOU GKOIKKINOS Iet al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[DB/OL]. (2016-06-07) [2025-05-25].

[21]

REDMON JDIVVALA SGRISHICK Ret al. You only look once: unified, real-time object detection[DB/OL]. (2016-05-09) [2025-07-10].

[22]

PRAJWAL KMUKHOPADHYAY RNAMBOODIRI Vet al. Learning individual speaking styles for accurate lip to speech synthesis[C]//IEEE. Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2020:13796-13805.

[23]

TANG TWU Z KWANG D L. Visual perception generalization for vision-and-language navigation via meta-learning[J]. IEEE Transactions on Neural Networks and Learning Systems202334(8): 5193-5199.

[24]

PAUL PGARG ACHOUDHARY Tet al. LeGo-Drive: language-enhanced goal-oriented closed-loop end-to-end autonomous driving[C]//IEEE. Proceedings of 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). New York: IEEE Press, 2024: 10020-10026.

[25]

VASWANI ASHAZEER NPARMAR Net al. Attention is all you need[DB/OL]. (2023-08-02) [2025-07-10].

[26]

MIKOLOV TCHEN KCORRADO Get al. Efficient estimation of word representations in vector space[DB/OL]. (2013-09-07) [2025-07-10].

[27]

DEVLIN JCHANG M WLEE Ket al. BERT: Pre-training of deep bidirectional transformers for language understanding[C]//ACL. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL). Stroudsburg: ACL press, 2019: 4171-4186.

[28]

KIM Y. Convolutional neural networks for sentence classification[C]//ACL. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), Stroudsburg: ACL press, 2014: 1746-1751.

[29]

WANG R SLI ZCAO Jet al. Convolutional recurrent neural networks for text classification[C]//IEEE. Proceedings of 2019 International Joint Conference on Neural Networks (IJCNN). New York: IEEE Press, 2019: 1-6.

[30]

RADFORD AKIM J WHALLACY Cet al. Learning transferable visual models from natural language supervision[C]//PMLR. Proceedings of the 38th International Conference on Machine Learning (ICML). San Diego: PMLR Press, 2021139:8748-8763.

[31]

LI L HZHANG P CZHANG H Tet al. Grounded language-image pre-training[C]//IEEE. Proceedings of 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2022: 10965-10975.

[32]

RAMESH APAVLOV M, GOH G, et al. Zero-shot text-to-image generation[C]//PMLR. Proceedings of the 38th International Conference on Machine Learning (ICML). San Diego: PMLR Press, 2021139: 8821-8831.

[33]

LIU Y XZHANG KLI Yet al. Sora: a review on background, technology, limitations, and opportunities of large vision models[DB/OL]. (2024-04-17) [2025-07-10].

[34]

SILVER DHUANG AMADDISON C . et al. Mastering the game of go with deep neural networks and tree search[J]. Nature2016529: 484-489.

[35]

QIN J MQIN J HQIU J Xet al. SRL-ORCA: a socially aware multi-agent mapless navigation algorithm in complex dynamic scenes[J]. IEEE Robotics and Automation Letters20249(1): 143-150.

[36]

WANG Y DHE H BSUN C Y. Learning to navigate through complex dynamic environment with modular deep reinforcement learning[J]. IEEE Transactions on Games201810(4): 400-412.

[37]

DEVO AMEZZETTI GCOSTANTE Get al. Towards generalization in target-driven visual navigation by using deep reinforcement learning[J]. IEEE Transactions on Robotics202036(5): 1546-1561.

[38]

WANG SZHOU D LXIE Let al. PanoGen++: domain-adapted text-guided panoramic environment generation for vision-and- language navigation[J/OL]. Neural Networks2025187 [2025-07-10].

[39]

孟怡悦, 郭迟, 刘经南. 采用注意力机制和奖励塑造的深度强化学习视觉目标导航方法[J]. 武汉大学学报(信息科学版)202349(7): 1100-1108;1119.

[40]

MENG Y YGUO CLIU J N. Deep reinforcement learning visual target navigation method based on attention mechanism and reward shaping[J]. Geomatics and Information Science of Wuhan University202349(7): 1100-1108;1119. (Ch).

[41]

QIAO YLIU QLIU Jet al. LLM as copilot for coarse-grained vision-and-language navigation[C]//Springer. Proceedings of 18th European Conference on Computer Vision (ECCV). Berlin: Springer Press, 202415063: 459-476.

[42]

DORBALA V SMULLEN J FMANOCHA D. Can an embodied agent find your “Cat-shaped mug”? LLM-based zero-shot object navigation[J]. IEEE Robotics and Automation Letters20249(5): 4083-4090.

[43]

YUAN Z WTANG P XSONG X Get al. Visionary: vision-aware enhancement with reminding scenes generated by captions via multimodal transformer for embodied referring expression[J]. The Visual Computer202541: 1679-1688.

[44]

WANG X HWANG W GSHAO J Yet al. Learning to follow and generate instructions for language-capable navigation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence202446(5): 3334-3350.

[45]

LIN B QZHU YLONG Y Xet al. Adversarial reinforced instruction attacker for robust vision-language navigation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence202244(10): 7175-7189.

[46]

ANDERSON PWU QTENEY Det al. Vision-and-language navigation: interpreting visually-grounded navigation instructions in real environments[C]//IEEE. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2018: 3674-3683.

[47]

WANG XHUANG Q YCELIKYILMAZ Aet al. Reinforced cross-modal matching and self-supervised imitation learning for vision-language navigation[C]//IEEE. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 6629-6638.

[48]

ZHU F DZHU YCHANG X Jet al. Vision-language navigation with self-supervised auxiliary reasoning tasks[C]//IEEE. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2020: 10012-10022.

[49]

WANG L YLIU C JHE Z Tet al. PASTS: progress-aware spatio-temporal transformer speaker for vision-and-language navigation[J/OL]. Engineering Applications of Artificial Intelligence2024128 [2025-07-10].

[50]

XU R TZHANG J GSUN J Xet al. MRFTrans: multimodal representation fusion transformer for monocular 3d semantic scene completion[J/OL]. Information Fusion2024111 [2025-07-10].

[51]

ZHANG ZLIN AWANG C Xet al. Interactive navigation in environments with traversable obstacles using large language and vision-language models[C]//IEEE. Proceedings of 2024 IEEE International Conference on Robotics and Automation (ICRA). New York: IEEE Press, 2024: 7867-7873.

[52]

HWANG HKWON SKIM Yet al. Is it safe to cross? Interpretable risk assessment with GPT-4V for safety-aware street crossing[C]//IEEE. Proceedings of 2024 21st International Conference on Ubiquitous Robots (UR). New York: IEEE Press, 2024: 281-288.

[53]

LI HLI MCHENG Z Qet al. Human-aware vision-and-language navigation: bridging simulation to reality with dynamic human interactions[C]//NIPS. Proceedings of 38th Conference on Neural Information Processing Systems (NeurIPS). California: NIPS Press, 202437: 119411-119442.

[54]

YAAR AROSANO MFURNARI Aet al. ViLaBot: connecting vision and language for robots that assist humans at home[C]//IEEE. Proceedings of 2024 IEEE International Conference on Metrology for eXtended Reality, Artificial Intelligence and Neural Engineering (MetroXRAINE). New York: IEEE Press, 2024: 1206-1211.

[55]

LIN B QZHU YCHEN Z Cet al. ADAPT: vision-language navigation with modality-aligned action prompts[C]//IEEE. Proceedings of 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2022: 15375-15385.

[56]

SHA DOSINSKI BICHTER Bet al. LM-Nav: robotic navigation with large pre-trained models of language, vision, and action[C]//PMLR. Proceedings of the 6th Conference on Robot Learning (CoRL). San Diego: PMLR Press, 2022205: 492-504.

[57]

LI SSUN M SLIU Yet al. A robustly optimized BERT pre-training approach with post-training[C]//CIPSC. Proceedings of the 20th Chinese National Conference on Computational Linguistics (CCL). Hohhot: CIPSC Press, 2021: 1218-1227.

[58]

LIU J XYANG Z YIDREES Iet al. Grounding complex natural language commands for temporal tasks in unseen environments[C]//PMLR. Proceedings of 6th Conference on Robot Learning (CoRL). San Diego: PMLR Press, 2023.

[59]

YUAN S HSHAFIQUE MBAGHDADI M Ret al. Zero-shot object navigation with vision-language foundation models reasoning[C]//IEEE. Proceedings of 10th International Conference on Automation, Robotics, and Applications. New York: IEEE Press, 2024: 501-505.

[60]

YOKOYAMA N, HA S, BATRA Det al. VLFM: vision-language frontier maps for zero-shot semantic navigation[C]//IEEE. Proceedings of 2024 IEEE International Conference on Robotics and Automation (ICRA). New York: IEEE Press, 2024: 42-48.

[61]

LI JLI DSAVARESE Set al. BLIP-2: bootstrapping language-image pre-training with frozen image encoders and large language models[C]//PMLR. Proceedings of the 40th International Conference on Machine Learning (ICML). San Diego: PMLR Press, 2023814: 19730-19742.

[62]

LIU J XSHAH AKONIDARIS Get al. Lang2LTL-2: grounding spatiotemporal navigation commands using large language and vision-language models[C]//IEEE. Proceedings of 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). New York: IEEE Press, 2024: 2325-2332.

[63]

ZHUANG B HZHANG C HHU Z. PoSE: suppressing perceptual noise in embodied agents for enhanced semantic navigation[J]. IEEE Robotics and Automation Letters20249(2): 963-970.

[64]

RAJVANSHI ASIKKA KLIN Xet al. SayNav: grounding large language models for dynamic planning to navigation in new environments[C]//AAAI. Proceedings of the 34th International Conference on Automated Planning and Scheduling (ICAPS). Washington DC: AAAI Press, 2024: 464-474.

[65]

DU YWU C ZFENG M Tet al. Free-form instruction guided robotic navigation path planning with large vision-language model[M]// LAN X, MEI X, JIANG C, et al. Intelligent Robotics and Applications. ICIRA 2024. Singapore: Springer Press, 2024, 15209: 381-396.

[66]

HE YZHOU KTIAN T L. Multi-modal scene graph inspired policy for visual navigation[J/OL]. The Journal of Supercomputing202581(107) [2025-07-10].

[67]

SATHYAMOORTHY A JWEERAKOON KELNOOR Met al. CoNVOI: context-aware navigation using vision language models in outdoor and indoor environments[C]//IEEE. Proceedings of 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). New York: IEEE Press, 2024: 13837-13844.

[68]

ZHOU G ZHONG Y CWU Q. NavGPT: explicit reasoning in vision-and-language navigation with large language models[C]//AAAI. Proceedings of the 38th AAAI Conference on Artificial Intelligence (AAAI). Washington DC:AAAI Press, 2024849: 7641-7649.

[69]

ZHOU G ZHONG Y CWANG Zet al. NavGPT-2: unleashing navigational reasoning capability for large vision-language models[DB/OL].(2024-09-20)[2025-07-10].

[70]

SHI Y HLIU J YSUN L Het al. E2BA: environment exploration and backtracking agent for visual language object navigation[J]. IEEE Transactions on Circuits and Systems for Video Technology202535(7): 6231-6244.

[71]

ZHU F DLIANG X WZHU Yet al. SOON: scenario oriented object navigation with graph-based exploration[C]//IEEE. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2021: 12689-12699.

[72]

KONG X HCHEN J YWANG W Get al. Controllable navigation instruction generation with chain of thought prompting[C]//ECCV. Proceedings of Computer Vision – ECCV 2024: 18th European Conference. Singapore: Springer Press, 2024: 37-54.

[73]

WEN C CHUANG Y S YHUANG Het al. Zero-shot object navigation with vision-language models reasoning[C]// Proceedings of International Conference on Pattern Recognition (ICPR). Singapore: Springer Press, 202515318: 389-404.

[74]

王湉, 范俊铭, 郑湃. 基于大语言模型的人机交互移动检测机器人导航方法[J]. 计算机集成制造系统202430(5): 1587-1594.

[75]

WANG TFAN J MZHENG P. Large language model-based approach for human mobile inspection robot interactive navigation[J]. Computer Integrated Manufacturing Systems202430(5): 1587-1594. (Ch).

[76]

YIN YCHEN Z YLIU Get al. Autonomous navigation of mobile robots in unknown environments using off-policy reinforcement learning with curriculum learning[J/OL]. Expert Systems with Applications2024247 [2025-07-10].

[77]

LEE Y C. LSMCL: long-term static mapping and cloning localization for autonomous robot navigation using 3d lidar in dynamic environments[J/OL]. Expert Systems with Applications2024241 [2025-07-10].

[78]

SONG C HWU J MWASHINGTON Cet al. LLM-Planner: few-shot grounded planning for embodied agents with large language models[C]//IEEE Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). New York: IEEE Press, 2023, 2998-3009.

[79]

WEI JWANG X ZSCHUURMANS Det al. Chain-of-thought prompting elicits reasoning in large language models[J]. Advances in Neural Information Processing Systems202235: 24824-24837.

[80]

BENJDIRA BKOUBAA AALI A M. Prompting robotic modalities (PRM): a structured architecture for centralizing language models in complex systems[J/OL]. Future Generation Computer Systems2025166 [2025-07-10].

[81]

DAGAN GKELLER FKELLER A L. Dynamic planning with a LLM[C]//NIPS. Proceedings of 38th Conference on Neural Information Processing Systems (NeurIPS). California: NIPS Press, 2024: 1-14.

[82]

NAGAHIZADEH ABERENJIAN SMARGOLIS D Jet al. GNM: gridcell navigational model[J/OL]. Expert Systems with Applications2020148 [2025-07-10].

[83]

CHIANG H T LXU ZFU Z Pet al. Mobility VLA: multimodal instruction navigation with long-context VLMs and topological graphs[C]//PMRL. Proceedings of 8th Conference on Robot Learning (CoRL). San Diego: PMLR Press, 2024.

[84]

LIU J XYANG Z YSCHORNSTEIN Bet al. Lang2LTL: translating natural language commands to temporal specification with large language models[C]//PMLR. Proceedings of 6th Conference on Robot Learning (CoRL). San Diego: PMLR Press, 2022.

[85]

CHANG ADAI AFUNKHOUSER Tet al. MatterPort3D: learning from RGB-D data in indoor environments[C]//IEEE. Proceedings of 2017 International Conference on 3D Vision (3DV). New York: IEEE Press, 2017: 667-676.

[86]

CHEN HSUHR AMISRA Det al. TOUCHDOWN: natural language navigation and spatial reasoning in visual street environments[C]//IEEE. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 12538-12547.

[87]

THOMASON JMURRAY MCAKMAK Met al. Vision-and-dialog navigation[C]//PMLR. Proceedings of 2020 Conference on Robot Learning (CoRL). San Diego: PMLR Press, 2020: 394-406.

[88]

QI Y KWU QANDERSON Pet al. REVERIE: remote embodied visual referring expression in real indoor environments[C]//IEEE. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 9982-9991.

[89]

DEITKE MVANDERBILT EHERRASTI Aet al. PROCTHOR: large-scale embodied AI using procedural generation[J]. Advances in Neural Information Processing Systems202235: 5982-5994.

[90]

VUONG QLEVINE SWALKE H Ret al. Open XEmbodiment: robotic learning datasets and rt-x models[C]//PMLR. Proceedings of 2023 Conference on Robot Learning (CoRL). San Diego: PMLR Press, 2023.

[91]

RAMOS SGIRGIN SHUSSENOT Let al. RLDS: an ecosystem to generate, share and use datasets in reinforcement learning[DB/OL]. (2021-11-04) [2025-07-10].

AI Summary AI Mindmap
PDF (2468KB)

1084

访问

0

被引

详细

导航
相关文章

AI思维导图

/