从 1997 到 2026:AI 从数字世界迈向物理世界,Sony 乒乓球机器人 Ace 击败人类精英
从数字到物理AI 挑战的新跨越从 1997 年 Deep Blue 击败国际象棋世界冠军 Garry Kasparov到 2016 年 AlphaGo 击败围棋世界冠军李世石再到 2022 年 Gran Turismo Sophy 在赛车模拟器中战胜职业车手人工智能AI系统在数字世界中屡屡取得“超人”级表现。然而如何把这种能力全面迁移到真实物理世界即物理 AI一直是 AI 和机器人行业仍未攻克的难题之一。乒乓球场景的挑战与突破乒乓球是这类挑战中非常具有代表性的场景其球速快、旋转复杂、轨迹多变要求选手在毫秒级内完成从感知、决策到控制的完整闭环。此前的乒乓球机器人研究大多只能做到合作式对打在正式比赛条件下从未达到业余水平以上仍不具备挑战人类精英甚至职业选手的能力。如今Sony AI 团队及其合作者为这一领域带来了一个新突破。首个在竞技体育中击败人类精英选手的物理 AI 机器人 Ace登上了权威科学期刊 Nature 封面。Ace 的赛场表现据论文描述在国际乒乓球联合会ITTF规则下Ace 站在真实的乒乓球台旁使用真实的乒乓球拍和乒乓球击败了 3 位人类精英选手即使在面对 2 位日本职业乒乓球联赛T.League选手时也出人意料地赢下了 7 局比赛中的 1 局。值得一提的是在这篇 Nature 论文提交后的一场新比赛中Ace 能力再次精进击败了 1 名职业选手。Ace 的“超人”表现主要得益于其制造多种旋转的能力以及稳定回球的一致性而并非依赖超越人类的高速击球。专家观点与里程碑意义“这项突破的意义远超乒乓球这项运动。”Sony AI 首席科学家 Peter Stone 表示“它代表了 AI 研究的一个标志性时刻首次证明了 AI 能够在复杂、快速变化、要求精准与速度的现实环境中有效完成感知、推理与行动。一旦 AI 能在这些条件下达到人类专家水平就将开启一整类过去无法实现的现实世界应用。”在同期发表的新闻与观点文章中巴西航空技术学院 Carlos H. C. Ribeiro、坎皮纳斯州立大学 Esther Colombini 写道随着自主系统的持续进步Ace 未来某天也可能被淘汰。尽管如此Ace 与 Deep Blue 一样都是一个重要的里程碑展现了能够与物理环境交互的下一代高质量、高竞争力 Agent 的潜力。Ace 的炼成之路一个能够达到人类职业水准的乒乓球机器人需要能够实时、精准地感知环境变化、决定如何反应并以足够快的速度执行动作。针对上述能力要求研究团队为 Ace 分别设计了“高速感知系统”、“基于强化学习的控制系统”、“高动态响应的机械臂硬件”模块。感知测一测球的旋转乒乓球的旋转方向与速率决定了其飞行轨迹也是高水平选手制造威胁球的核心手段。过去的机器人研究并不能很好地处理旋转Ace 则通过感知系统有效地解决了这个问题。乒乓球的 3D 位置由 9 台主动像素传感器APS相机测量搭载 Sony Semiconductor Solutions 的 IMX273 图像传感器布置在球台周围形成全场覆盖。乒乓球的角速度与旋转由 3 套独立的注视控制系统负责每套 GCS 包含一台事件相机搭载 IMX636 事件视觉传感器和一对 pan/tilt 反射镜主动跟随球的位置让事件相机始终对准球体实时捕捉旋转特征。具体的角速度估计用到了卷积神经网络CNN位置与旋转信息合并后输入下游的控制系统。控制学一学回球和发球Ace 的控制策略采用 model - free 强化学习训练这意味着系统不需要预先建立一套“球在空气中如何运动”“拍子如何与球接触”的解析模型而是通过大量仿真对打直接学习动作策略。训练过程遵循“决策 - 评分”actor - critic架构决策模块给出动作评分模块评估该动作的长期回报两者交替优化。通过这一过程Ace 不仅能完成基本的回球还能主动给回球赋予期望的旋转特性比如上旋。Ace 的发球环节则做了单独处理。按乒乓球规则发球需要将球抛起后击打Ace 的抛球动作来自人类示范并根据机器人运动特性做了适配使最终发球符合官方规则。发球策略库的筛选采用遗传算法在与人类陪练合作训练中如果某种发球在 20 次尝试里成功率达到 95% 以上就会被纳入 Ace 的发球库。Ace 在比赛过程中会从库中按不相似性或历史胜率选取发球。硬件定制一个机械臂承担执行任务的机械臂具备 8 个自由度包括 2 个直线关节和 6 个旋转关节可满足球拍位置、朝向及击球速度控制需求。为达到职业级运动能力其末端执行器最高速度设定为 20 米每秒工作空间覆盖 3.6×3.6 平方米能够完成快速移动与大范围回球。机械臂的机械结构采用拓扑优化降低连杆重量并使用轻量高强度材料 Scalmalloy 进行增材制造使机械臂兼具速度、稳定性与低惯量特性末端执行器则配备改装球拍采用 Butterfly Dignics 05 胶皮与 VICTAS ZX - GEAR OUT 底板同时带有小型托杯用于发球持球。为提升真实环境表现Ace 还采用了低延迟控制架构所有执行器以 1 毫秒周期同步运行并与视觉系统共享时钟信号即使在最高速度下位置跟踪延迟仍低于 5 毫秒。真实表现精英选手、未达职业2025 年 4 月研究团队在完整 ITTF 规则下包含奥运标准场地、官方比赛球、持牌裁判从两侧判罚让 Ace 与 5 位精英选手各有 10 年以上高强度训练经验、日均训练约 3 小时打“三局两胜”制比赛与 2 位职业选手现役 Minami Ando 和 Kakeru Sone打“五局三胜”制比赛。所有选手此前均未与 Ace 交手过Ace 也并没有针对任何特定选手进行训练。Ace 在 5 场对阵精英选手的比赛中取得 3 胜共赢 7 局输 6 局对阵 2 位职业选手各负 1 场7 局中赢下 1 局。同时Ace 击球后产生的球速和旋转强度达到专业比赛区间说明 Ace 已具备主动进攻能力同时从球落台到挥拍击球的反应时间也处于高水平竞技范围体现了 Ace 的快速感知与执行能力。进一步的分析表明Ace 能够回击各种旋转来球在最高 450 rad/s 的条件下仍稳定保持超过 75% 的回球率展现出了超强的处理旋转能力超过了此前竞技乒乓球机器人公开记录的水平。在面对精英选手时Ace 发球后直接得分即 ace 球达到了 16 次而精英选手总共仅拿到 8 次此类得分。一个尤其有意思的场景是Ace 在看到球擦网在仿真中几乎不会出现后的反应。Ace 在球撞网 49 ms 后就开始调整关节速度和球拍轨迹成功将这种异常球回击过去。这表明Ace 的低延迟感知 - 控制链路具备一定的对未建模情况泛化的能力。不足与未来方向当然Ace 系统仍存在一些不足。Ribeiro 和 Colombini 在新闻与观点文章中指出Ace 从多个视角同时观察场地的方式与人类存在本质差异离真正意义上的“拟人化的乒乓球选手”还有一定距离。研究团队也表示Ace 的策略在仿真中零样本训练并迁移到真实世界最关键的挑战之一是对人类对手行为的建模高维物理空间中的人类行为难以精确建模这意味着真正的目标函数赢或输不可直接访问训练中只能使用替代目标。未来如果能引入乒乓球机器人研究中关于人类对手建模的工作将有望帮助系统更好地理解战术与策略。同时结合在线学习机制Ace 也可以在真实世界的持续交互中不断迭代提升。尽管如此正如 Sony AI 苏黎世负责人兼 Ace 项目负责人 Peter Dürr 表示这项突破凸显了物理 AI Agent 执行实时交互任务的潜力也代表了朝着打造可广泛应用于高速、精准、实时人机互动机器人的重要一步。