一个名为π0.5的视觉-语言-动作模型使移动机器人在全新家庭中执行复杂的家务任务它通过在异构数据源包括多机器人演示、网络数据和口头指令上进行协同训练并采用结合语义子任务预测和低级动作生成的层次推理方法实现。引言开发能够在非结构化的真实世界环境中成功运行的机器人仍然是机器人技术和人工智能领域最重大的挑战之一。虽然机器人在受控实验室环境中展示了令人印象深刻的能力但它们常常难以将这些技能推广到新的、不熟悉的环境中。π0.5 系统通过引入一种专门为机器人领域的开放世界泛化而设计的视觉-语言-动作 (VLA) 模型来解决这一挑战。图 1π0.5 架构显示了预训练阶段左该阶段利用具有各种特定任务提示的多模态网络和机器人数据以及后训练和推理阶段右该阶段展示了具有子任务预测和连续动作生成的分层方法。π0.5 代表了机器人技术的重大进步它展示了复杂家务任务在全新环境中有效泛化的能力。该系统使移动机械臂能够在高级提示的指导下执行长时间跨度的任务例如清洁厨房和卧室而无需在这些特定环境中进行明确的训练。这种能力是通过一种新型的协同训练框架实现的该框架集成了来自各种来源的知识包括第一手机器人经验、来自其他机器人的数据、口头指令、网络数据和语义命令。研究背景π0.5 的开发建立在机器人技术和机器学习的几个关键研究领域之上。端到端机器人学习系统近期的进展在特定领域显示出令人鼓舞的结果但在推广到新环境方面遇到了困难。视觉-语言-动作模型已经成为一种潜在的解决方案可以利用嵌入在预训练的视觉和语言模型中的语义知识。先前改进机器人泛化的方法侧重于扩大机器人操作策略的训练数据分布使用非机器人数据进行协同训练例如计算机视觉数据集利用现成的任务规划器通过高级推理来增强端到端策略π0.5 系统通过开发一个全面的协同训练框架来区分自身该框架集成了多种监督来源。与仅依赖视觉-语言模型 (VLM) 数据协同训练的系统不同π0.5 纳入了更广泛的与机器人相关的监督来源包括来自其他机器人的数据、高级语义子任务预测和口头语言指令。该系统还采用统一的模型来进行高级推理和低级动作生成类似于语言模型中的思维链方法。这种方法允许模型在适当的抽象层面上利用不同数据源的优势。模型架构π0.5 模型建立在 π0 架构之上但包含了一些重要的修改以实现开放世界泛化。核心架构是基于 Transformer 的序列模型它在统一的框架内处理视觉信息、语言命令和机器人动作。该模型采用分层方法包含两个主要组成部分高层语义子任务预测此组件处理任务结构和场景语义以预测适当的子任务。低层动作推理此组件基于预测的子任务生成特定的机器人动作。该系统使用以下输入的组合来自机器人摄像头的图像观测语言命令目标检测语义子任务预测低层动作为了连续动作预测该模型采用了流匹配技术并使用 FAST tokenizer 进行压缩和动作 tokenization。 这允许对复杂的机器人运动进行有效的表示。图 2π0.5 模型的注意力掩码结构展示了不同输入模态在 Transformer 架构中如何交互。协同训练框架π0.5 的一项关键创新是其协同训练框架该框架使模型能够有效地利用多样化的数据源。该框架整合了第一手机器人经验直接来自目标机器人平台执行操作任务的数据其他机器人数据从不同机器人形态和设置转移的知识口头语言指令任务和子任务的自然语言描述网络数据来自互联网的视觉和语义信息语义命令高层动作的结构化表示协同训练方法涉及一个两阶段过程预训练该模型在异构数据混合上进行训练包括机器人数据、语言数据和计算机视觉任务。微调该模型专门针对移动操作进行微调使用低层动作示例和高层语义动作。这种方法允许模型在多个抽象级别上建立对任务的鲁棒理解从高层语义到低层动作。实验设置π0.5 的实验评估侧重于测试其泛化到新环境和执行复杂家庭任务的能力。实验中使用的硬件平台是一个移动操作机器人配备有两个具有 1-DOF 夹爪的 6-DOF 机械臂用于导航的 3-DOF 全向底座用于环境感知的正面和背面摄像头用于近距离操作的手腕摄像头用于高度调整的 1-2 DOF 升降机构图 3用于 π0.5 的移动操作机器人平台展示了其关键组件包括摄像头、机械臂和移动底座。图 3用于 π0.5 的移动操作机器人平台展示了其关键组件包括摄像头、机械臂和移动底座。实验在模拟环境用于训练和真实家庭专门用于测试中进行。测试环境包括不同的厨房和卧室具有不同的布局、电器和物品。图 4用于训练的模拟环境左与真实测试环境右之间的比较显示了布局和外观的显着差异。评估的任务包括将物品放入抽屉将餐具放入水槽在篮子里整理衣物整理床铺选择这些任务是为了代表常见的家庭活动这些活动需要操作技能和环境理解。结果π0.5 系统在泛化到新环境和完成复杂家庭任务方面表现出了令人印象深刻的性能。实验结果表明了几个关键发现卓越的泛化能力π0.5 在新的、未见过的环境中始终优于基线模型。通过训练环境进行扩展 如图所示泛化能力随着训练数据中不同环境的数量而提高。图 5任务性能随训练环境数量的扩展展示了随着模型接触到更多样化的设置泛化能力如何提高。任务性能 该模型在不同的家庭任务中都取得了很高的成功率尤其是在涉及餐具操作和抽屉交互的任务中表现出色。图 6π0.5 与消融模型在不同家庭任务中的性能比较展示了完整模型的优势。协同训练的重要性 实验表明移除协同训练框架的任何组成部分网络数据、其他机器人经验、口头指令都会导致性能下降突出了集成方法的重要性。图 7分析不同数据源如何贡献于模型性能展示了协同训练框架中每个组成部分的重要性。真实世界的验证 该系统在与训练环境完全不同的真实家庭中成功执行了任务展示了真正的开放世界泛化能力。图 8在真实家庭中对不同任务的性能评估展示了在不同环境中一致的能力。知识迁移分析对 π0.5 系统的详细分析揭示了不同的知识来源如何贡献于其泛化能力。该研究表明网络数据提供语义理解 在网络数据上进行预训练使模型能够理解对象类别、空间关系和任务结构。其他机器人数据迁移操作技能 通过从不同机器人平台收集的数据中学习该模型获得了可以应用于新情况的操作技能。口头指令提供任务结构 自然语言描述帮助模型理解任务的层次结构以及如何将其分解为子任务。高层语义预测改进规划 预测适当的高层动作的能力使模型能够有效地分解复杂任务。图 9不同模型配置的语言跟随能力比较展示了 π0.5 如何优于以前的方法。实验还表明模型的泛化能力随着训练环境的多样性和协同训练数据的丰富性而扩展。这表明该方法可能会随着更大、更多样化的数据集而继续改进。开放世界泛化π0.5 最重要的贡献之一是它泛化到全新环境的能力。该研究展示了这种开放世界泛化的几个关键方面分布内与分布外性能 虽然在类似于训练期间所见的环境中性能更好但该模型在全新的设置中仍然保持着强大的能力。图 10训练环境相似训练内和全新环境训练外的性能比较显示了泛化能力如何随训练多样性而扩展。新型物体处理该系统可以通过利用从网络数据和其他经验中转移的语义知识与训练期间未见过的物体进行交互。图 11机器人在厨房抽屉中处理新型物体的示例展示了对未见物品的泛化能力。环境适应该模型可以自动适应新住宅中的不同布局、电器和家具布置。任务分解当在新环境中面临复杂任务时该模型可以根据其学习到的知识有效地将其分解为可管理的子任务。图 12机器人在真实家庭中执行各种子任务的示例显示了人类命令和高层HL预测。这种开放世界的泛化能力代表了相对于传统机器人系统的重大进步传统机器人系统需要针对每个新环境进行特定编程或大量训练。实际应用π0.5 所展示的功能在各个领域都有许多实际应用家庭帮助该系统可以部署来帮助处理家务特别是使需要日常任务帮助的老年人或残疾人受益。服务行业酒店、餐馆和其他服务企业可以采用类似的系统来自动化例行的清洁和整理任务。灾害响应在无法进行预先测绘的灾区部署机器人时在不熟悉的环境中运行的能力可能很有价值。零售和仓库运营类似的方法可以应用于商业环境中的库存管理、库存整理和产品处理。协同训练框架的灵活性也表明该方法可以扩展到家庭任务以外的其他领域例如制造业、医疗保健和农业。结论π0.5 系统通过解决开放世界泛化的关键挑战代表了机器人技术的重大进步。通过其创新的协同训练框架和分层架构该系统证明了机器人可以利用各种知识来源在全新的环境中执行复杂任务。这项工作的主要贡献包括一种新颖的协同训练框架集成了视觉-语言-动作模型的多个监督来源一种分层方法将高层语义推理与低层动作生成相结合成功地泛化到新环境以执行复杂的家庭任务的演示证据表明泛化能力随训练多样性和数据丰富度而扩展这些进步使我们更接近于开发能够有效地在现实世界复杂、非结构化环境中运行的实用机器人系统的目标。随着该方法不断完善和扩展我们可以预期未来会出现更强大和适应性更强的机器人系统。π0.5系统展示了弥合实验室演示与现实世界应用之间差距不仅需要更多数据还需要在适当的抽象层次上战略性地整合不同类型的知识。这一洞见可以指导未来在机器人技术和具身人工智能领域的研究从而更有效地构建真正有能力且适应性强的智能系统。