阿里Qwen团队教机器人“举一反三“

张

张建站

2026/7/2 1:42:25

10分钟阅读

这项由阿里巴巴Qwen团队完成的研究以技术报告形式于2026年6月17日在预印本平台arXiv发布编号为arXiv:2606.17846。研究聚焦于如何将语言和视觉大模型的规模化训练思路复制到机器人操作领域有兴趣深入了解的读者可以通过该编号查询完整报告。机器人在工厂流水线上焊接零件已经很普遍但如果你把同一个机器人放到厨房让它洗碗、叠衣服、把水果放进篮子它会直接罢工。这并不是因为机械臂的关节不够灵活而是因为大多数机器人只会做它见过的事情——它看过一千次拧螺丝就只会拧螺丝换个场景就如同换了个世界。这种死板的特性是机器人走出实验室、进入真实家庭的最大障碍。Qwen团队的研究正是为了解决这个问题。他们的核心思路可以用一句话概括先对齐再扩规模。这个道理听起来简单背后却有大量精妙的工程设计。他们推出了一个叫做QWEN-ROBOTMANIP的视觉-语言-动作基础模型最终让机器人在从没见过的场景里、用从没操控过的机械臂也能完成复杂的操作任务。一、为什么机器人学不会举一反三要理解这项研究的意义先得搞清楚一件事为什么给大语言模型喂海量数据能让它越来越聪明而给机器人喂更多演示视频效果却很有限语言模型的训练数据来自互联网几乎包罗万象——新闻、小说、论文、聊天记录这些内容虽然格式各异但本质上都是文字可以统一处理。机器人的操作数据则完全不同每种机械臂有自己的关节配置每个实验室用的是不同的坐标系每套传感器记录的格式五花八门。就像你同时收到了用中文、阿拉伯文、象形文字写成的烹饪食谱虽然都是讲做菜但你根本没法直接把它们合在一起学习。更麻烦的是现有的机器人演示数据量本身就很有限而且高度集中在少数几种标准操作上。不像互联网上的文字机器人数据稀少而单调天然就不利于大规模训练。于是即便有研究者收集了大量来自不同机械臂的演示数据一股脑儿地扔进模型里结果往往是各种数据相互打架模型反而变得更糊涂。Qwen团队把这个根本问题归纳为数据的多样性本身不够用必须先在表示层面对齐才能让多源数据产生协同效应而不是相互干扰。这个判断正是整篇研究的出发点。二、把杂乱的机器人语言统一成一种普通话为了解决不同机械臂之间语言不通的问题Qwen团队设计了三个层次的对齐机制可以把它们理解为建立了一套机器人世界的标准普通话。第一个层次叫做统一状态-动作表示。每种机械臂都有自己独特的身体结构有的只有一条手臂有的有两条有的配了夹爪有的是多指灵巧手。为了让所有机械臂都能用同一套词汇描述自己的状态和动作团队设计了一个80维的标准向量。可以把这个向量理解成一张标准表格每一格对应一种身体信息——关节角度占7格末端执行器就是机械手末端的位置和朝向占9格夹爪状态占1格灵巧手关节占12格另外还预留了一些空格供未来扩展。一个只有单臂的机器人填一半表格双臂机器人填满两半没有的部分留空即可并且通过一个二进制掩码告诉模型哪些格子是有效的、哪些需要忽略。这样一来无论什么结构的机械臂都能用同一张表格来描述训练时就不会因为格式不同而相互干扰。第二个层次叫做相机坐标系下的末端执行器动作表示。这一点更为精妙。传统上机器人的动作都是用以自己底座为原点的坐标系来描述的但不同机器人的底座位置各不相同同一个把手伸向右前方30厘米的动作在不同坐标系下写出来的数字完全不一样。Qwen团队换了一个思路用相机的视角来描述动作。摄像头是机器人的眼睛如果动作被描述成从相机看过去手往右移了一点那么这个描述和具体是哪台机器人就基本没关系了——只要摄像头位置相似动作的描述就相似。这就好像不管你是用左手还是右手开门只要从门口的摄像头看过去动作看起来都差不多。这种表示方式让视觉上相似的动作在数字上也相近为不同机械臂之间的知识迁移提供了几何上的共同基础。第三个层次叫做情境内策略适应。这是一个更聪明的设计。每当机器人执行一个任务时它会把自己刚才的所见、所在、所为作为历史记录喂给模型——我看到了什么、我的状态是什么、我做了哪些动作。模型读取这段历史就能推断出当前这个机器人的运动风格、速度习惯、抓握方式进而调整接下来的行为。这相当于让机器人通过观察自己几步前的行为实时判断我现在是在哪台机器上、该怎么行动而不需要额外的标签告诉它。除此之外团队还采用了双流协同训练的策略在训练时机器人操作数据和视觉-语言数据比如图像问答、空间推理等同时喂给模型比例大约是9:1。这样做的目的是防止模型在学了太多动作预测之后把之前学会的看图说话和理解语言的能力给忘掉。毕竟一个只会动手、不会读指令的机器人在现实中也没什么用。三、把人类日常视频变成机器人的练习册解决了对齐问题下一个挑战是去哪里找足够多、足够多样的训练数据Qwen团队的答案出人意料直接用人类用手做事的视频。人们每天都在刷各种第一人称视频——做饭、整理桌面、组装家具——这些视频拍摄角度和机器人头部摄像头的视角高度相似而且数量巨大。问题在于人手和机械夹爪的结构完全不同人的手腕可以随意旋转而机械夹爪只能开合。为此团队开发了一条人到机器人的数据合成流水线分两个步骤处理这个问题。第一步是动作对齐。视频中研究人员通过MANO这套手部姿态估计模型精确追踪每一帧里人的拇指尖和其他手指尖的三维位置。接着他们设计了一套数学公式把拇指尖和虚拟食指尖的中点定义为机械夹爪的位置把两者之间的距离定义为夹爪的开合宽度再用这两个点和手腕位置共同确定夹爪的朝向。这套映射方式把人类灵活的手部动作转化成了机械夹爪能执行的轨迹。由于逐帧检测会引入抖动他们还用了数学滤波方法平滑轨迹确保动作连续自然。第二步是视觉对齐。把人手从视频里抹掉换上机械臂的图像。具体操作是先用SAM3这个图像分割工具把人的手臂区域圈出来再用ProPainter这个视频修复工具把手臂区域用背景填补完整最后在MuJoCo物理模拟引擎里计算出机械臂的摆放位置把机械臂的渲染图像叠加回视频里利用深度估计判断遮挡关系让机械臂看起来自然地置身于真实场景中。这条流水线被应用于15种不同的双臂机器人平台包括Panda、UR5e、ARX-L5等主流型号。最终约1933小时的人类手部操作视频被转化成了约24808小时的合成机器人演示数据。加上真实机器人数据集的11000多小时以及三种人类第一视角数据集的1933小时整个预训练数据集的总时长达到了约38100小时——而且全部来自开源数据没有任何私有采集。当然人手操作的速度通常比机器人遥操作快得多。为了对齐速度分布团队对不同来源的视频做了不同比例的降帧处理来自EgoDex的视频降速到原来的60%来自EgoVerse的降到45%来自VITRA的降到25%。在数据质量上团队还设计了一套多阶段清洗流程分别处理五类信号层面的问题突然跳变的异常帧、状态和动作时间戳不对齐比如指令和执行差了几帧、超出正常范围的极值、关节角度和末端执行器位置之间的正运动学不一致以及不同数据集之间坐标系朝向的不统一。例如在清洗RoboMIND数据集的UR型号数据时状态-动作趋势对齐检验发现其中81%的片段存在严重问题全部被剔除。这种严格的清洗确保了喂进模型的数据是高质量的。四、模型结构视觉大脑和动作肌肉的分工合作QWEN-ROBOTMANIP的架构设计遵循了一个清晰的分工原则用一个擅长看和理解的大脑搭配一个擅长精细执行动作的手臂。大脑部分采用了Qwen3.5-4B这个多模态语言模型。它能同时处理来自多个摄像头的图像和自然语言任务指令把视觉信息和语言信息融合成一组富含语义的特征向量然后传递给动作执行模块。动作执行模块是一个基于流匹配方法的扩散TransformerDiT共有10个transformer块隐藏维度76812个注意力头。它的工作方式有点像雕塑家先从一堆随机的噪声动作出发通过多次去噪迭代逐步雕琢出精准的动作序列。具体来说每次推理只需要4步欧拉积分就能完成计算速度很快足以支持实时控制。这个动作模块通过交叉注意力机制与视觉语言大脑连接偶数层注意力头关注视觉特征奇数层注意力头关注语言特征两者交替进行让动作预测既有空间感知又有语言理解。相机坐标系的几何信息通过一种叫做相机位置编码CaPE的机制注入到动作模块里。每个图像特征对应它自己摄像头的位置编码每个动作特征对应参考摄像头的位置编码由此在注意力计算中隐式编码了各个视角之间的相对几何关系。在动作预测时模型还额外接收三类条件信号去噪时间步嵌入、末端执行器类型嵌入区分单臂、双臂左/右、头部等以及一个二进制标志嵌入标明当前样本是否有标定好的相机参数——有的话用相机坐标系表示动作没有的话用机器人底座坐标系表示。系统提示的设计也很有特色。每次执行任务时模型会收到一段结构化提示包含机器人平台名称比如robot_aloha、任务指令、预期的执行速度以时间步数为单位分段、帧率以及摄像头相对机械臂的位置同侧或对侧。训练时这些字段会以15%的概率被随机丢弃迫使模型学会在信息不完整时也能正常工作。五、这套系统在实际测试中表现如何研究团队设计了一套非常有层次感的评测体系核心主张是只看在自己家里考得好不好是没有意义的必须看到陌生地方能不能适应。在标准基准测试LIBERO和RoboTwin上QWEN-ROBOTMANIP确实表现优秀LIBERO达到99.2%的成功率RoboTwin简单模式93.7%、困难模式94.0%超越了此前所有公开模型。但团队特别指出了一个令人深思的现象一个从零开始训练、完全没有大规模预训练的模型在这些标准测试上的成绩与拥有海量预训练的模型不相上下。这说明标准测试只是在考背过的题不能说明模型学到了真正可迁移的能力。真正的分野出现在分布外OOD测试上。在LIBERO-Plus测试中该测试在标准LIBERO场景基础上引入了7种扰动——背景变化、摄像头角度改变、指令措辞不同、光照变化、物体摆放随机化、机器人初始状态变化、传感器噪声——QWEN-ROBOTMANIP达到91.4%的总体成功率比次优模型π0.5Physical Intelligence公司的产品高出7个百分点。分维度看机器人初始状态扰动下的成功率达到83.9%而没有大规模预训练的同架构模型只有44.9%差距极为显著。这说明大规模跨机器人预训练给了模型一种见过各种奇怪起始姿态的隐性经验。在RoboTwin-Clean2Rand测试中模型在干净白底场景下训练然后测试随机化背景、光照、杂乱物品和桌高的扰动。QWEN-ROBOTMANIP在最难的全部随机设定下达到69.4%而π0.5只有47.9%没有预训练的对照模型则从简单设定的71.6%崩溃到困难设定的22.6%几乎完全失效。这个对比非常直观地说明了大规模预训练的价值所在。在RoboCasa365厨房操作测试中情况更加说明问题。这个基准包含原子操作、见过的复合任务和没见过的复合任务三个难度层级QWEN-ROBOTMANIP在从没见过的复合任务上达到14.9%是次优模型的近三倍次优为5.4%。也就是说在需要把多个子技能自由组合、完成全新长序列任务的场景下这个模型有着远超其他模型的创造性组合能力。EBench是在NVIDIA Isaac Sim里构建的室内移动操作基准测试平台是一个双臂移动机器人。QWEN-ROBOTMANIP在总体成功率上达到45.6%比π0.5的27.1%高出18个百分点在精细桌面操作子集上的成功率是π0.5的近4倍。六、语言理解和跨机器人迁移两项更难的挑战团队还专门构建了两个全新的测试基准分别考查另外两种更高层次的泛化能力。第一个叫RoboTwin-IF专门测试语言理解。这个测试的设计逻辑是如果模型真正听懂了指令那么在同样的场景下换一种说法的相同任务应该得到相同的结果而不同任务应该得到不同的结果。测试包含五个子集涵盖了不同的语言理解维度。捡多样物体子集在桌上放12种日常物品随机选4个指令要求捡起其中一个特定颜色和名称的物体相对位置放置子集测试对旁边和上面等空间关系词的理解操作麦克风-抽屉子集测试多步骤双臂协调先用一只手开抽屉另一只手同时拿麦克风放进去操作订书机子集则让模型区分按压订书机和把订书机移到垫子上这两个在同一场景下外观相似但动词不同的任务操作桌面子集同时呈现铃铛、订书机和可拾取物品模型必须根据指令正确判断该对哪个物体做什么动作。所有模型都只在干净场景数据上训练测试时使用训练时从未出现过的指令措辞模板。QWEN-ROBOTMANIP的平均成功率为72.2%π0.5为49.6%差距22个百分点。在最考验空间关系理解的相对位置放置子集上差距达到37个百分点57%对20%。这个结果有力地说明双流协同训练确实帮助模型保留了真正依赖语言的控制能力。第二个叫RoboTwin-XE专门测试零样本跨机器人迁移。测试设定是模型只在AgileX ALOHA这一种机械臂的演示数据上训练然后直接部署到ARX-X5、UR5-WSG和Franka Panda这三种外形和关节结构完全不同的机械臂上期间不提供任何目标机械臂的训练数据。使用关节角度动作表示的版本迁移效果很差——关节角度是机械臂专属的换了机械臂就完全失效UR5和Franka的成功率都不到5%。切换到相机坐标系末端执行器动作表示后迁移效果大幅提升ARX-X5达到42.9%UR5-WSG达到22.8%是关节控制版本的5.6倍Franka达到5.9%平均23.9%。对比之下π0.5的相同设定下平均只有7.5%。迁移效果的梯度ARX最好、Franka最差也符合预期——ARX和AgileX在外形和工作空间上最为接近Franka则有独特的7自由度构型差异最大。七、真实机器人实验和比赛验证除了模拟环境团队还在实体机器人上做了大量验证部署平台包括AgileX ALOHA、ARX、Franka和UR四种机型。在CobotMagic ALOHA平台上基于22.9小时的遥操作演示数据微调后QWEN-ROBOTMANIP在7个任务上的平均成功率达到88.6%π0.5为42.9%StarVLA没有大规模预训练为20.0%。其中把积木放进抽屉格、三块积木堆叠等高难度任务QWEN-ROBOTMANIP全部5次都成功完成而π0.5一次也没成功。分布外任务测试同样令人印象深刻。把指定物体放进篮子和按左右参考叠碗两个任务QWEN-ROBOTMANIP均达到10/10的完美成绩在有杂乱背景、未见过的小物体刀、勺子的把工具放到毛巾上任务中达到6/10在迪斯科灯光照射剧烈闪烁的彩色光下的把香蕉放到毛巾上任务中达到9/10。对比之下π0.5在需要左右空间关系理解的任务上只有1/10StarVLA在所有分布外任务上全部失败。在ARX平台上的跨机器人技能迁移实验中模型同时在CobotMagic的6000条数据和ARX的130条数据上微调然后在ARX上测试四个完全没有演示数据的新任务叠盘子、叠积木、把水果放进粉色盘子、把纸球扔进桶里。完整版QWEN-ROBOTMANIP的平均成功率为55.0%而去掉统一坐标系设计的版本只有7.5%去掉统一末端执行器设计的版本只有12.5%。四倍以上的差距直接说明了表示对齐的核心作用。在RoboChallenge Table30-v1比赛的通才赛道上该比赛要求一个模型处理4种不同机器人平台上的30个任务QWEN-ROBOTMANIP以45%的成功率和59.83的过程分排名第一比第二名DM0_generalist37%成功率高出8个百分点实现了约20%的相对提升。在8个需要精密双臂协调的ALOHA任务上平均成功率达到40%而π0.5为21.2%在12个涉及取放操作的任务上达到63.3%比第二名高出15个百分点。研究人员还观察到一个自然涌现的重试行为当机器人在某次抓取中失败比如物体滑落它不会就此放弃而是自动重新尝试。在整理电子产品任务中机器人连续失败两次后第三次成功完成整体成功率达到50%而对照模型三次全部失败。团队推测这种自我纠错能力来自于预训练数据中大量包含了失败-重试过程的演示模型学到了从失败中恢复的隐性策略。八、消融实验揭示的核心规律团队还做了一系列去掉这个看看会怎样的对比实验量化了各个设计选择的贡献。最关键的发现来自数据规模缩放实验。他们用1%到100%不同比例的预训练数据分别训练三个版本完全没有统一表示的版本、有统一坐标位置但没有相机坐标系末端执行器对齐的版本、完整版。结果显示后两个有统一表示的版本都呈现出清晰的数据越多、效果越好的对数线性规律而完全没有统一表示的版本则呈现杂乱无章的曲线增加数据并不能带来稳定提升。这个实验直接证明了对齐是规模化的前提这一核心主张。同样重要的是这种规模化效应只在分布外测试上可见在分布内的简单测试上三个版本的差异反而不明显——再次印证了标准测试无法衡量真正的泛化能力。在情境适应机制的消融中一个有趣的发现是引入历史情境后4步去噪已经不够用必须增加到10步才能稳定发挥情境信号的作用。这是因为带有历史信息的动作分布更复杂需要更细致的去噪过程来处理。增加到20步则没有进一步提升。在人类数据合成的消融中对比只用机器人数据、加入原始人类视频和加入合成机器人数据三种方案结果显示合成数据在所有维度上均超过原始人类视频其中摄像头角度扰动下的提升最为显著在LIBERO-Plus上达到7.2个百分点验证了人类视频提供的视角多样性确实有助于机器人在不同摄像头角度下的稳定性。视觉语言协同训练的价值也得到了量化去掉VL数据预训练后RoboTwin困难分布外设定下成功率下降8.2个百分点语言指令跟随测试下降7.0个百分点说明VL协同训练对于在复杂场景下正确解析语言指令至关重要。说到底QWEN-ROBOTMANIP这项研究的最大贡献不仅仅是造出了一个成绩更好的机器人模型而是系统性地证明了让机器人真正学会举一反三关键不在于数据多不多而在于你有没有把来自不同机器人的经验翻译成同一种语言再统一学习。就像一个语言天才即使接触的语言再多如果没有掌握各语言之间的共同语法规律也只能停留在翻字典的阶段。相机坐标系的末端执行器表示就是这套机器人世界的共同语法。这项研究对未来有几个值得期待的方向一方面人类日常视频的总量远超现有机器人演示数据随着合成流水线的成熟预训练数据的规模有望继续大幅扩张另一方面该研究明确指出了现有OOD测试仍以模拟环境为主的局限真实世界的更广泛验证是下一步的重要工作。整个研究数据集基于开源数据构建这一事实也给社区带来一个鼓励机器人基础模型的数据壁垒或许比人们想象的更低只要有正确的对齐框架。有兴趣深入了解技术细节的读者可以通过arXiv编号2606.17846查阅完整报告代码也已在GitHub的QwenLM/Qwen-RobotManip仓库开源。---QAQ1QWEN-ROBOTMANIP是怎么让机器人在没见过的场景里也能完成任务的A核心在于对齐再规模化的训练思路。研究团队把不同机器人的动作统一翻译成同一种语言——用相机视角下的末端执行器位移来描述所有动作让视觉上相似的动作在数字上也接近。这样一来来自几十种不同机器人的38100小时数据可以协同训练而不是相互干扰。训练出的模型掌握了跨机器人的通用操作规律碰到新场景时就能举一反三。Q2把人类手部视频转换成机器人训练数据效果真的好吗A从实验结果看确实有实质性提升。团队把1933小时的人类手部操作视频通过专门的流水线转化成24808小时的合成机器人数据。消融实验表明使用合成后的数据比直接使用原始人类视频效果更好其中在不同摄像头角度下的泛化能力提升最明显LIBERO-Plus相机扰动维度提升超7个百分点。这套流水线支持15种双臂机器人平台是整个数据规模化策略的核心引擎。Q3RoboTwin-IF和RoboTwin-XE是什么样的测试为什么值得关注A这是团队专门设计的两个新基准用来测量标准基准无法衡量的能力。RoboTwin-IF测试模型是否真正听懂了指令在同一场景里放多个物体只有按指令描述找到正确目标并做正确动作才算成功测试时使用训练中没出现过的指令措辞。RoboTwin-XE则测试零样本跨机器人迁移模型只见过一种机器人直接部署到三种外形完全不同的机器人上。这两个测试揭示了真正的泛化能力而非背题能力。