何小鹏,四问具身智能。
点击下方卡片关注“具身智能之心”公众号编辑 | 自动驾驶之心自动驾驶前沿信息获取→自动驾驶之心知识星球最近何小鹏在朋友圈谈到具身智能和物理世界大模型提了几个很直接的问题。如果一家公司真的解决了物理世界模型理论上就可以生成大量训练数据为什么还要继续从外部采集数据如果回答是还需要采集数据来训练世界模型那当前有效数据到底有多大自动驾驶一天产生的数据量已经远高于大多数具身智能公司的积累为什么自动驾驶还没有轻松走到完全无人驾驶这两个问题很犀利也很值得讨论所以今天就和大家聊聊。从自动驾驶之心的观察来看何小鹏真正问到的是物理世界 AI 的底层问题世界模型能不能替代真实世界数据规模能不能等于系统能力这些问题是自动驾驶行业过去十几年交过学费的地方。关于自动驾驶和具身智能的讨论也欢迎加入「具身智能之心知识星球」......世界模型不会让真实数据退场现在的具身智能很喜欢讲物理世界和大模型。这个概念当然重要但如果把它理解成「模型已经掌握物理世界所以不需要真实数据」这个判断应该是不成立的。自动驾驶行业对世界模型的理解更现实。我们分享过很多公司的论文和公开的工程方案目前没有哪一家公司真的把世界模型直接作用于车端上。要么是辅助训练要么是云端闭环仿真/评测。加速、刹车、变道、绕行之后周围车辆如何反应行人是否会突然出现前车异常减速背后是否有遮挡风险这些问题都需要系统具备对未来交通演化的推演能力。世界模型的价值正在这里出现。但自动驾驶已经积累经验也很清楚世界模型没有让真实道路数据变得不重要。预测未来世界的场景演变愿景很美好。但自动驾驶天然的不确定性的现实因素世界模型承担不了这个风险。道路环境是开放系统。城市结构、天气、光照、施工、遮挡、异形车辆、临时管制、驾驶习惯都在持续变化。世界模型可以学习这些规律但它的底层经验仍然来自真实世界。所以我们的看法是世界模型更合理的位置不是替代真实数据而是放大真实数据。一段真实道路数据过去可能只用于一次回放或一次训练。加入世界模型之后它可以被重构成不同交通参与者、不同自车动作、不同轨迹演化下的场景资产。低频长尾场景也可以通过生成和扰动被反复训练、反复验证。这才是世界模型的现实价值。放到具身智能也是一样。当然具身那边确实可以利用未来场景直接解算出末端执行器实际可执行的参数但还是太慢了。如果一家机器人公司仍然需要采集真机数据、遥操作数据、人类视频数据和客户现场数据这并不能直接说明它的世界模型没用。更合理的解释是机器人世界模型还处在从真实交互中学习物理规律、任务规律和环境规律的阶段。我觉得需要警惕的是另一种叙事把世界模型包装成可以脱离真实数据自循环的万能系统。机器人面对的物理世界并不比道路简单。物体材质、摩擦、形变、遮挡、摆放方式、夹爪精度、桌面高度、任务流程本体差异都会影响最终执行结果。没有足够真实交互模型是没办法靠生成能力凭空补齐这些细节的。所以判断物理世界大模型不能只问它还采不采数据。更该问的是它能不能把一份真实数据变成十份、百份有训练价值和验证价值的数据资产。数据多不等于数据有效何小鹏第二个问题还是挺能戳中要害的。如果具身智能公司仍然需要采集数据那当前有效数据到底有多大注意关键词不是「数据」而是「有效数据」。自动驾驶行业对这一点非常敏感。过去几年车企和 Robotaxi 公司积累了海量真实道路数据。量产车队每天都在产生视频、雷达、车辆状态、驾驶行为和接管数据。这个规模远高于今天大多数机器人公司靠遥操作和真机采集攒出来的数据。但自动驾驶并没有因为数据足够多就自然走到完全无人驾驶。这说明一个很现实的问题原始数据规模和系统能力之间并不是线性关系。这也是为什么各家公司强调数据配比的原因量产搞到后面其实很枯燥。。。自动驾驶早期确实缺数据。没有足够路测就覆盖不了复杂道路、交通参与者行为和长尾场景。那时跑得多确实重要。但车队规模上来之后问题变了。大量普通巡航数据、高度重复的道路数据、低信息密度的场景对模型提升十分有限。车在天气良好、交通顺畅、道路清晰的环境里跑再多遍也解决不了鬼探头、复杂博弈、施工绕行、遮挡误判和规则模糊这些真正困难的问题。于是自动驾驶的数据竞争从「采得多」变成了「筛得准」。真正有价值的数据通常来自系统不确定、模型失败、驾驶员接管、急刹、误检、漏检、复杂博弈和边界场景。自动驾驶数据闭环的核心也不是把所有数据都丢进训练池而是形成一套链路发现问题筛选场景组织数据训练模型仿真验证道路回归再进入下一轮迭代。这套链路比「我有多少 PB 数据」更重要。具身智能终有一天今天也会走到这一步。很多公司会强调采了多少小时、多少条轨迹、覆盖多少任务。这些数字有意义至少说明公司真的下场采集了真实交互。但它们只能证明第一层能力。在我看来这个地方其实很容易造成接下来各家公司的分化。具身公司不一定要照搬自动驾驶的 PB 级数据叙事。机器人数量少、采集成本高、任务碎片化、本体差异大它很难复制自动驾驶的影子模式和车队回流。但具身数据也有自己的价值。单条机器人交互数据的信息密度更高尤其是失败、修正、恢复这些过程往往比一条完美成功轨迹更接近物理智能的本质。所以从这个角度去看。具身数据系统要建立的是有效数据的标准。这个问题比单纯喊物理世界大模型更重要。具身智能的工程阶段还没到来小鹏总的朋友圈大部分的观点我是认同的。过往搞自驾的经验告诉我具身的进展不会这么顺利。自动驾驶行业过去十年也能证明物理世界 AI 的突破很少只来自一个模型名词。真正拉开差距的地方往往更慢也更重。这些问题没有 demo 视频那么刺激但它们决定技术能不能穿越周期。具身智能当然需要世界模型也需要更大规模的数据。但行业更需要从「有没有模型」进入「模型如何消化真实世界」的讨论。世界模型不会让真实数据失去意义海量数据也不会自动变成智能。真正的竞争发生在两者之间。以上。国内最大的具身智能社区求点赞求分享求喜欢