把一件皱巴巴的T恤平铺在桌上拎起两个袖口对折——人类三秒搞定机器人却可能抓空、扯歪、甚至把衣服揉成一团。难的不是“对折”而是第一次面对这件T恤、这个摆放角度时就能稳稳完成无需针对每件衣服重新训练。这是今天机器人研究者每天都在面对的现实。近年来RT-2、Helix、GROOT N1 等 VLA 模型在真实机器人任务上展现了令人印象深刻的泛化能力——它们能理解自然语言能在多个任务间切换甚至能泛化到未曾见过的物体。在语言和物体层面它们已经足够“通用”。但当人们尝试将这些模型应用于更广泛的实际场景——面对各不相同的机器人平台、琳琅满目的操作任务以及五花八门的用户指令时——很快发现“通用”能力并不等于“好用”。同一个“开门”任务换一款机械臂动作序列可能瞬间失效同一个指令换种说法模型就可能愣住。更棘手的是即便训练数据里有大量高质量演示模型学到的更多是“照葫芦画瓢”——一旦遇到从未出现过的任务组合比如“先用勺子舀米再按电饭煲开关”往往僵在原地。这是为什么因为当前模型普遍缺乏组合泛化能力。就像GPT能从“英译法”和“输出JSON”推导出“输出JSON的翻译结果”一样机器人也需要能将“打开”“放置”“关闭”等基础技能灵活重组来完成全新任务。然而绝大多数机器人模型尚未展现出这种能力。于是一个自然的思路是给模型更丰富的上下文让它理解“做什么”和“怎么做”。但该加什么加多少怎么加理想情况下我们希望一个通用模型能适配多种机器人、理解多样指令并在高灵巧任务上达到专用模型的精度。可传统方法要么计算成本高得离谱要么需要海量标注要么不现实。既要“通才”又要“专精”——这正是机器人基础模型面临的两难。一、从π0到π0.7机器人通用模型的能力跃升近日Physical Intelligence团队在论文《π0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities》中提出了新一代机器人通用基础模型π0.7。该模型通过多模态上下文提示这一核心机制仅需单一模型即可完成从精细操作到长时程复杂任务的各类工作有效缓解了通用性与精细化难以兼顾的难题。很多人一听到“新模型”第一反应是参数量又翻了几倍。π0.7确实不小——总参数量约50亿但它的聪明之处不在参数堆叠而在如何利用上下文。π0.7是基于π0.6的VLA架构与MEM记忆系统构建核心升级是将上下文从简短任务文本扩展为更丰富的多模态信息更具表达力的语言指令、交互片段元数据速度、质量和失误标记等以及视觉子目标图像。这使得模型能在多样化甚至非最优的数据上训练并持续提升性能。先看它的网络架构VLM骨干网络采用Gemma 3的40亿参数模型内含一个4亿参数的视觉编码器负责理解语言、图像和视频历史。其中视觉编码器同样基于Gemma3 初始化并沿用MEM 历史视频编码器的设计对历史观测同时进行时域与空域压缩无论输入多少帧历史画面均输出固定数量的词元token极大提升了长时记忆的效率。动作专家一个8.6亿参数的流匹配Transformer模块专门负责生成连续动作。两者相加π0.7的总参数量约50亿。但参数量从来不是重点——真正让π0.7与众不同的是它通过四维多模态提示学会了“看明白、听精确、记清楚、调灵活”不仅能理解人说了什么还能看懂目标长什么样、区分动作快慢好坏、适配不同机器人的控制方式。正是这套提示框架让它能从海量混合质量的数据中萃取通用技能实现开箱即用的组合泛化。π0.7 模型架构示意图PI论文见参考资料二、四层提示让模型不仅知道“做什么”更知道“怎么做”π0.7的核心设计理念不是盲目堆叠更大的参数量或引入全新的网络架构而是从上下文建模入手通过丰富多模态提示信息让模型能够区分数据质量、理解任务执行方式并有效整合来自不同来源的数据。π0.7 采用多样化提示进行训练PI论文见参考资料这套框架可支持四大类提示但在具体任务中可按需组合并非全部必选。我们先看一个典型场景 —— 假如你想让π0.7控制一台重型工业机械臂UR5e完成叠T恤——这台机器从未见过任何叠衣训练数据。你只需要给模型提供三样东西一句简洁的语言指令“把T恤叠好”一张子目标图像叠好之后应该长什么样可由轻量级世界模型生成几项元数据“以较快的速度执行”“不要出现失误”模型拿到这些提示就能零样本完成叠衣任务。更令人惊讶的是它会自己调整策略源机器人上人类习惯倾斜抓取但UR5e上它发现垂直抓取更稳。即便这台机器人从未叠过一件衣服它也能完成。为什么只用了三层提示就做到了因为叠衣任务中控制模式可以沿用默认设置无需显式指定。而π0.7实际总共支持四类提示每类解决不同维度的歧义1第一层语言指令。不仅包含顶层任务目标如“把红薯放入空气炸锅”还包含分步骤的子任务描述。这使π0.7能够理解和执行长时程的多阶段任务。2第二层视觉子目标图像。这是π0.7相比前代模型最关键的架构升级。模型可以接收一张目标状态的图像作为输入从而获得精确的空间布局信息。在测试阶段子目标图像可由一个轻量级世界模型根据语言指令生成为模型提供视觉层面的泛化能力。加入子目标图像后模型训练速度显著加快 —— 动作预测任务本质上变成了一个“逆动力学”问题即从当前帧到未来帧之间反推动作。3第三层交互元数据。包含整体速度以时间步表示的交互长度、整体质量1—5分评分、失误标记等信息。这使得π0.7能够从混合质量的数据中学习——即便是包含失败案例的低质量演示数据只要配上恰当的元数据标注也能被有效纳入训练。这不只解决了传统训练必须依赖高成本高质量数据的瓶颈还让模型学会了区分“快”与“慢”、“好”与“差”的操作策略。在测试阶段可以通过调整元数据直接指示模型以高速、高质量、无失误的方式执行任务。4第四层控制模式。模型同时支持关节空间控制和末端执行器控制通过文本标识符灵活切换适配不同机器人本体的运动特性。当需要切换控制方式时这一层提示就会派上用场。整套流程将复杂的物理交互转化为“提示→推理→执行”的闭环完美平衡了泛化能力、执行精度与数据效率。这套方法不是在黑暗中盲目摸索而是让模型站在海量多样数据的基础上进行理解与推理。它只需要一个统一的多模态提示框架就能整合来自不同机器人、不同控制方式甚至不同物种人类演示视频的数据源做到了“一个模型管所有”。三、实验验证通用模型的涌现能力为全面验证π0.7的能力研究团队在多个维度上开展了系统实验涵盖高灵巧操作如叠衣物、制作意式浓缩咖啡、长时程任务如更换垃圾袋、使用空气炸锅、指令遵循在陌生环境中执行复杂语言指令以及跨具身迁移将技能零样本迁移至从未训练过的机器人平台等多个实验维度。实验结果表明π0.7通过利用多样化数据源结合多种上下文模态实现出色的开箱即用性能、广泛泛化能力与更高效的迁移效果。1. 开箱即用性能通用模型不输专用微调研究团队选取了两类任务进行对比一类是来自π∗0.6 的强化学习专用模型任务如图上半部分评估指标为成功率和归一化吞吐量以专用模型为基准原始吞吐量为每小时成功次数另一类是包括“机器人奥林匹克”在内的多项灵巧任务如图下半部分评估指标为任务完成进度。π0.7开箱即用的灵巧操作能力PI论文见参考资料实验结果显示同一套π0.7 模型在所有这些任务上的表现均达到或接近 π∗0.6 或 π0.6 中经任务专属后训练的专用策略的水平。特别是在复杂衣物折叠与纸箱组装任务上π0.7 的吞吐量高于经过强化学习训练的专用模型。这表明π0.7 具备开箱即用的灵巧操作能力可直接完成大量高难度灵巧任务。此前即使是先进的通用机器人模型在处理高灵巧度任务时通常仍需针对具体任务进行微调才能达到可用精度。而π0.7 在不进行任何任务专属微调的情况下凭借单一模型即可达到与专用模型相当甚至更优的性能。2. 复杂指令遵循在未见环境中精准理解人类意图并执行研究团队对π0.7的指令遵循能力进行了评估并与前代模型π0.5和π0.6进行了对比。测试在4个未见过的厨房和2个未见过的卧室环境中进行——这些场景均未出现在训练数据中。每组测试要求机器人遵循包含3至6个步骤的指令序列完成特定目标涵盖物品整理归位、与家具交互、清理洒落物等真实日常任务。全新环境下的泛化指令遵循对比PI论文见参考资料实验结果显示π0.7在所有测试场景上的指令遵循成功率均显著高于π0.5和π0.6达到较高水平。此外π0.7能够处理分布外的指代型指令例如“拿起我会用来喝汤的物品”“拿起最大盘子里的水果”这类训练数据中未出现的非常规表述。当加入由轻量级世界模型生成的子目标图像后指令遵循性能进一步提升表明视觉子目标有助于增强模型对复杂语义的理解。数据集偏差是指令遵循任务中的一项常见的核心难题如果训练数据集中在某一特定行为模式上模型可能忽略语言指令而盲目模仿数据中的模式。为测试π0.7是否能够克服这一问题研究团队设计了两个“反向”任务反向清理餐桌要求将垃圾放入收纳箱、餐具扔进垃圾桶与训练数据中的常规行为相反。反向冰箱→微波炉操作要求将食物从微波炉放回冰箱该反向操作未出现在训练数据中。π0.7通过遵循指令打破数据集偏差PI论文见参考资料结果显示π0.7在上述任务中的表现显著优于π0.5和π0.6能够有效遵循与数据集偏好相矛盾的指令。值得注意的是在“反向冰箱→微波炉”任务中加入生成式子目标图像π0.7 (GC)对任务成功起到关键作用。这表明π0.7具备较强的指令遵循能力能够关注指令内容而非单纯模仿训练数据中的行为模式。3. 跨具身迁移零样本迁移至形态差异显著的机器人平台研究团队评估了π0.7在跨具身场景下的任务迁移能力即将在一台机器人上训练获得的技能迁移至另一台从未见过该任务的机器人上且不进行任何额外微调。实验设置源机器人为轻量化固定式双臂机器人用于采集叠衣训练数据。目标机器人为双臂UR5e系统两台UR5e工业机械臂搭配Robotiq平行夹爪该平台未提供任何叠衣任务的训练数据。两款机器人在尺寸、关节结构、自重、夹爪类型及安装位置等方面存在显著差异因此目标机器人需要采用与源机器人完全不同的控制策略。跨具身迁移涌现出适配目标机器人形态的操作策略PI论文见参考资料实验结果π0.7在UR5e系统上成功完成了叠衣任务。观察发现模型没有简单复制源机器人的操作轨迹而是自主调整了策略撑袋任务源机器人上人类操作员用一只手臂撑开袋子、另一只手臂放入物品UR5e上π0.7利用更长的臂展采用单臂拾取-放置策略完成。叠T恤源机器人上人类操作员以倾斜的末端执行器接近布料并按压UR5e上π0.7采用垂直抓取方式更适合该机械臂的安装布局和运动学特性。与人类专家对比为量化跨具身迁移的效果研究团队招募了10名资深远程操作员平均遥控操作经验375小时处于经验前2%参与对照实验。这些操作员在源机器人上经验丰富但从未在UR5e上尝试过叠T恤。结果显示人类操作员的任务完成进度为90.9%成功率为80.6%π0.7的任务完成进度为85.6%成功率为80.0%。两者表现接近。π0.7能够在无需任何任务专属微调的情况下将高灵巧操作技能从轻量化、低成本平台迁移至形态差异显著的高负载工业机械臂。这一能力表明该模型具备较强的跨具身泛化能力可有效降低在复杂机器人平台上采集训练数据的成本与难度。4. 组合式任务泛化通过语言引导完成未训练的全新任务研究团队进一步评估了π0.7的组合式泛化能力即将训练中习得的技能进行重组以完成从未在训练数据中出现过的全新任务。这是机器人基础模型面临的一项关键挑战已有模型虽能在语义层面泛化如根据未见过的文本描述抓取物体但真正完成需要多步骤、多技能组合的全新任务仍难以实现。实验分为两个部分短时程任务的开箱即用测试与长时程任务的语言引导学习。其中长时程任务实验包含两个递进阶段语言引导阶段和自主策略学习阶段。1短时程任务零样本开箱即用对于部分短时程任务π0.7在未采集任何相关机器人数据的情况下能够直接开箱即用完成。测试任务包括按压法式压滤壶的压杆、往电饭煲中舀米、用布擦拭耳机或尺子、转动桌面风扇或齿轮组等。这些任务要求以全新方式操作不熟悉的物体π0.7凭借其灵活组合技能的能力仅通过语言指令或子目标图像提示即可完成。2长时程任务语言引导与自主策略学习a. 语言引导阶段对于需要多阶段交互的长时程任务如用空气炸锅烹制红薯全程约5分钟直接零样本完成的难度较大。研究团队利用π0.7的指令遵循能力采用语言引导方式教模型执行新任务——类似向人类提供分步口头指导。通过语言引导完成全新长时程任务PI论文见参考资料具体实验任务包括使用空气炸锅将红薯放入空气炸锅并启动取出空气炸锅食材将食物从空气炸锅中取出烘烤贝果用烤面包机烤制贝果上述任务的机器人训练数据均未包含对应操作片段尽管人类视频或外部数据集中出现过类似家电。人工通过分步指令引导机器人例如“拿起红薯”“打开空气炸锅”“放入红薯”“关门”等。实验结果显示π0.7能够有效跟随语言引导完成这些从未见过的长时程任务。相比之下前代模型π0.5、π0.6因指令遵循能力不足难以跟上引导步骤表现较差。当引入由轻量级世界模型生成的子目标图像后π0.7 (GC)任务执行效果进一步提升。b. 从引导到自主策略学习阶段由于π0.7可被引导完成新任务研究团队进一步利用引导过程中收集的分步指令数据训练了一个高层语言策略网络。该网络能够自动将顶层任务目标如“烹制红薯”拆解为一系列子任务语言指令并下发给π0.7执行。通过引导学习全新自主能力PI论文见参考资料实验表明通过这种方式构建的自主策略π0.7 autonomous在五个不同任务上的性能与实时人工引导下的策略π0.7 coaching十分接近且无需采集任何额外的遥控操作数据或底层动作数据。能力总结π0.7能够将训练中习得的技能进行重组通过语言引导的方式完成从未训练过的长时程任务并能将引导经验转化为自主执行能力。这种组合泛化能力与大语言模型从海量数据中组合不同概念的方式类似为机器人学习提供了一条无需大量动作标注数据的新路径。5. 广泛泛化能力从多样化、混合质量的数据中有效学习π0.7之所以能够实现较强的泛化能力关键在于两点大规模、高多样性的训练数据与精细的上下文提示。π0.7的训练数据集包含机器人数据由操作员通过遥操作设备在多种机器人平台固定式/移动型、单臂/双臂及多样环境实验室、类家庭、真实家庭中采集的数据、策略评估产生的自主运行数据含失败案例、人类干预数据策略执行过程中由人工介入修正的轨迹数据、开源机器人数据集非机器人数据人类第一视角视频、互联网多模态数据物体定位、视觉问答、纯文本任务等等。直接混合上述数据源并不能取得良好效果。不同来源的数据在策略质量、执行速度、成功率上差异巨大朴素训练方式会使模型对数据中的不同模式取平均产生次优行为。π0.7的解决方法是为每段数据标注详细的上下文信息做什么、怎么做、做得好不好让模型能够从混合质量的数据中有效学习。关于元数据和任务多样性的实验结果PI论文见参考资料1元数据的关键作用研究团队以衣物折叠任务为测试基准根据执行质量和速度将人类演示数据划分为四组前30%、前50%、前80%以及全部数据。分别在使用元数据与不使用元数据的条件下训练π0.7模型共8个模型。实验结果显示不使用元数据的模型随着数据集规模扩大平均质量下降性能反而降低使用元数据的模型即便数据集扩大导致平均质量下降性能仍能随数据量增加持续提升。这表明片段元数据有效区分了不同质量与策略的数据使π0.7能够从大规模、混合质量的数据中获益并在测试阶段通过元数据提示激发出预期的行为模式如高速、高质量、无失误执行。2任务多样性的价值研究团队进一步探究了任务多样性对泛化能力的影响。在控制数据总量相同的前提下对比了三个模型在未见短时程任务上的表现完整π0.7使用全部训练数据随机剔除20%数据作为数据量对照剔除多样性最高20%数据移除任务种类最丰富的部分。结果显示完整π0.7与随机剔除20%数据的模型性能均显著优于剔除高多样性数据的模型。这证明π0.7能够有效利用高任务多样性的数据并将其转化为在未见任务上的泛化能力提升。四、从“专家”到“通才”机器人的GPT时刻还在路上π0.7 是一款统一的通用机器人基础模型做到了三件事开箱即用不微调就能完成高灵巧任务、听得懂人话在陌生厨房里执行复杂指令、会举一反三把叠衣技能迁移到从未见过的机械臂上。而这些能力的背后不是什么惊天动地的网络架构革命而是一套被反复验证的方法——多模态上下文提示。这些能力背后不是惊天动地的架构革命而是一套被反复验证的方法——多模态上下文提示。给模型看目标图像、告诉它“快一点”还是“稳一点”、允许它从失败数据里学习……这些设计组合在一起让π0.7能从海量混合质量的数据中萃取真正的通用技能。能力边界远非完美但方向清晰当然π0.7仍有明显局限。训练集中见过的任务成功率超过90%完全没见过的任务只有60%–80%。而且由于数据太过庞杂有时连研究者自己也分不清某个表现究竟是“记忆”还是“创造”——这是所有大模型在评估泛化能力时面临的共同难题。下一步让机器人在使用中进化一个值得探索的方向是利用π0.7高度可控的特性在测试任务中边做边学——例如通过更细致的语言引导甚至采用自主强化学习。这将使模型不再依赖静态数据集而是越用越聪明。从实际应用角度看无论行为是真正全新的还是已有技能的新颖组合其价值是一样的用户无需为每个新任务采集数据只需通过提示即可指挥机器人执行。能够大规模实现这种组合泛化的模型将彻底改变机器人学习范式——我们可以对机器人提示、引导、说明而非必须采集昂贵的动作数据。Physical Intelligence 联合创始人 Quan Vuong 曾将机器人领域的演进比作一个“剥洋葱”的过程先从一个拥有大量常识知识的基础模型开始建立“混合自治”系统再持续部署到真实世界让它每天变好一点点最终在某一天突然发现它已经能够完全自主运行。π0.7 正是这一路径中的关键节点——它不是终点而是从“单体专家”迈向“通用基座”的重要一步。参考文献1. 论文π0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilitieshttps://www.pi.website/download/pi07.pdf2. π0.7: a Steerable Model with Emergent Capabilitieshttps://www.pi.website/blog/pi07