26年6月来自上海交大和华为公司的论文“AgenticNav: Zero-Shot Vision-and-Language Navigation as a Tool-Calling Harness”。最近连续环境中的零样本视觉-语言导航 (VLN-CE) 通过大型视觉-语言模型 (VLM) 变得可行。然而现有的方法通常依赖于学习的航路点预测器来提出可导航的动作。这严重限制模型的动作空间并且无法有效利用深度输入。此外记忆通常是通过积累大量不相关背景的长期文本或视觉历史或通过检索跨情节的经历来处理的这削弱了零样本设置。本文重新思考零样本 VLN-CE 作为 VLM 和环境之间的智体接口并提出 AgenticNav这是一种轻量级导航工具它将动作、深度和记忆公开为可调用工具。动作工具允许 VLM 直接选择 RGB 观测中的目标像素将其转换为可执行的运动而不是从预测的路点中进行选择。深度通过按需像素深度工具公开使 VLM 能够仅在重要的地方请求精确的公制距离。对于记忆AgenticNav 提供一个总结历史轨迹的紧凑地图图像并配有一个回忆工具使 VLM 能够有选择地重新访问过去的视觉观察结果而不会压倒提示上下文。在 R2R-CE 基准上AgenticNav 在相同 VLM 主干的零样本方法中建立新的最先进 (SOTA) 性能。与之前的方法相比现实世界的验证进一步凸显其零样本泛化能力。消融表明该动作工具设计优于传统的航路点预测器并且深度工具和智体记忆进一步有助于导航性能。具身智体驾驭Embodied Agent Harness近期的机器人研究表明基础模型的性能在很大程度上取决于将其推理能力与感知、记忆、动作及反馈相结合的驾驭harness。一些研究 [21, 29, 30, 31, 32] 利用大语言模型LLM或视觉-语言模型VLM作为高层规划器统筹机器人技能、affordance函数、可执行 API、地图或经典控制器从而在无需训练完整端到端策略的情况下实现闭环的“落地”grounding。另一些研究则探讨直接连接传感器观测与动作预测的具身多模态模型但这通常需要大规模机器人数据或针对特定任务的适配 [33]。ReasonNav [34] 展示结合地标地图与高阶导航技能的智体化 VLM 框架的价值但其侧重于语义建筑导航而非指令遵循任务 VLN-CE。相比之下AgenticNav 将 VLN-CE 建模为显式的工具调用过程VLM 选择像素级目标仅在必要时查询度量深度信息并针对情景记忆执行选择性的视觉回溯。这种方式为 VLM 提供一个直接、具备落地支撑且连续的交互接口同时保留了零样本zero-shot操作的能力。AgenticNav试想一个机器人在陌生的家中接到指令“向右转经过厨房在沙发附近停下”。连续环境下的零样本视觉-语言导航VLN-CE正是针对这一场景智体需在未见过的三维场景中遵循自然语言指令进行导航且不依赖预定义的导航图 [1, 2]。随着大型视觉-语言模型VLM的飞速发展近期的零样本 VLN-CE 系统开始采用 VLM 作为高层决策者。因此核心挑战演变为一个接口问题尽管 VLM 具备处理语言和图像的推理能力但机器人最终必须与空间复杂的环境进行交互。现有的最先进方法如 Open-Nav [3]、SmartWay [4] 和 EvoNav [5]通常围绕一个经学习得到的“路点预测器”来构建这一接口。该预测器是一个经过额外训练的视觉神经网络它接收全景 RGB 图像和深度信息作为输入并生成少量可供 VLM 选择的附近可通行点。这种设计虽便捷——因为它将 VLM 与连续控制任务隔离开来——但也带来了一些瓶颈限制了 VLM 充分发挥其视觉推理能力。首先路点预测器限制动作空间。VLM 只能在预测器提供的少量候选点中进行选择如果预测器未包含与指令相关的目标位置该位置便无法到达。其次基于路点的接口虽然将深度输入视为“真值”ground truth却并未将其显式呈现给 VLM 以提供有效的空间信息。这使得 VLM 难以获取特定位置的精确深度信息从而影响了空间推理的效果。记忆机制构成第三个瓶颈。许多方法 [3, 4] 通过在提示词prompt中增加文本或视觉上下文来维护记忆。虽然这有助于追踪任务进度但随着上下文内容的累积大部分历史信息往往与当前决策无关甚至可能干扰模型的判断。另一些方法如 EvoNav [5]则通过检索跨回合cross-episode的经验来充当记忆。这种做法虽有助益却削弱“零样本”这一前提假设且在缺乏过往回合经验的全新场景中部署时其可靠性也会大打折扣。本文从“智体工具调用”agentic tool-calling的视角重新审视视觉-语言模型VLM与环境之间的交互并提出 AgenticNav——一个专为严格零样本strictly zero-shotVLN-CE 任务设计的轻量级驾驭harness。AgenticNav 不再向 VLM 输入固定的候选路点集、稠密深度信息或累积的历史数据而是将动作、深度和记忆功能封装为可调用的工具。AgenticNav概述如图 1 所示如图 2 是AgenticNav方法的概览1 智体工具调用接口给定指令 L系统接收一组按朝向索引的 RGB-D 多视图观测数据 O_t {(Ik_t, Dk_t)}其中 Ik_t 为 RGB 图像Dk_t 为由工具保留的对齐深度图视图 0 与朝向对齐而视图 k 具有相对偏航角 α_k 2πk/N。在 AgenticNav 中VLM 并不直接接收深度图其提示词prompt包含 RGB 视图 I_t {Ik_t}、来自智体记忆的紧凑地图图像 B_t 以及当前的对话/工具历史 H_t。AgenticNav 不要求 VLM 输出底层控制指令或选择预学习的路径点而是提供四种工具T {查询深度 (query depth)、回溯 (recall)、移动至 (move to)、停止 (stop)}。前三个工具分别对应深度工具Depth Tool、回溯工具Recall Tool和动作工具Action Tool。在每个决策步骤中VLM 核心可能会发出多次工具调用。“查询深度”和“回溯”的调用会为 VLM 的下一轮交互提供额外信息而“移动至”和“停止”则标志着当前步骤的结束。2 深度工具密集深度图像难以被视觉-语言模型VLM进行定量解析因此 AgenticNav 通过query_depth(P)工具接口提供深度信息。3 智体的记忆与回溯工具AgenticNav 仅维护“单次任务周期内”的智体记忆 M_t (B_t, C_t)其中 B_t 为紧凑的地图图像C_t 为存储过往观测图像的有限缓存。在每一步操作中B_t 会被包含在提示词prompt中而 C_t 默认不被纳入。当需要来自某个过去位置的视觉细节时VLM可以调用recall(p,k)其中p索引过去的决策点k选择视图该驾驭harness仅返回请求的缓存图像。因此上下文的增长仅源于与任务相关的回忆。4 动作工具“动作工具”中的move to(k, u, v)操作允许 VLM 选择一个像素作为下一个目标点。其中k 用于选择视角(u, v) ∈ [0, 1] 标识 VLM 选定的目标像素。该动作工具以这一视觉目标、当前的 RGB-D 观测数据以及相机标定参数作为输入并输出Execute(θ, ρ)或Reselect重选择。设 (x, y) 为选定像素d Dk_t (x, y) 为其深度值K 为相机内参矩阵T_k 为从视角 k 到智体坐标系的变换矩阵。目标首先转换到3D空间点p_t 然后随后该工具将 θ 设定为 p_t 的地平面方位角并将 ρ 设定为朝向该点的可行距离该距离已考虑停止间隔、最大步长截断及步长离散化。在执行之前该工具会剔除超出范围的目标、无效的深度值以及短于一个可执行步长的运动。剩余的每个候选方案都必须通过几何安全检查。所有有效的深度像素均以相同方式进行反向投影且仅将处于人体高度范围内的点视为潜障碍物。对于提议的转向角 θ设 b_θ (−sinθ, cosθ) 为地面上的前进方向l_θ (cos θ, sin θ) 为其侧向方向。仅当没有任何处于机体高度的点落入机器人扫过的通道内时该动作才是安全的。被拒绝的动作会返回“重新选择”的反馈被接受的动作则执行连续动作 (θ, ρ)。其中 stop() 工具用于终止该回合。