自动驾驶、机器人、视觉AI,英伟达一套物理AI Agent Skills搞定
自动驾驶、机器人、视觉AI这些物理世界的智能体正在从实验室走向现实但存在拦路虎数据不够、场景覆盖不全、工具链割裂。NVIDIA在CVPR上发布了一套Physical AI Agent Skills把从数据生成、仿真、策略训练到评估的整条链路串了起来Cosmos 3大模型做底座Agent Skills做抓手三大方向同时推进研究者的工作流从碎片拼凑变成一键串联。自动驾驶的新武器自动驾驶研究最头疼的事不是模型不够强是真实路上那些少见又关键的场景太难收集。罕见交叉路口、诡异的路面几何、灯光突变、边缘行为这些所谓长尾场景开几百万英里也碰不上几次偏偏它们才是训练和验证的核心。物理AI研究的核心挑战从来不只是开发更强的模型而是围绕模型搭建完整的工作流重建真实场景、生成边缘案例、训练策略、评估行为、快速迭代。这些步骤目前散落在不同的工具里研究者花大量时间把它们拼起来实验节奏被拖慢。NVIDIA的自动驾驶Agent Skills让研究者可以指派AI Agent自动完成从车队数据到场景重建、再到合成场景生成的完整流程。这周早些时候NVIDIA发布了Cosmos 3一个面向物理AI的开放前沿模型也是全球首个统一视觉推理、世界生成和动作生成的全模态模型。Cosmos 3在物理AI公开排行榜上全面领先为物理AI开发提供核心能力。Physical AI Agent Skills搭配Cosmos 3、NVIDIA库和仿真框架让研究者从模型能力到可扩展的端到端工作流速度快了很多。Neural Reconstruction神经重建技能是自动驾驶方向的关键一环。它帮助AI Agent把车队采集的真实数据转换成可编辑的3D场景用于仿真和合成数据生成。背后支撑的技术栈包括Omniverse NuRec、InstantNuRec、Harmonizer和HiGS加速渲染器各自负责加速重建、提升场景真实感和生成新视角。InstantNuRec尤其值得关注。它能在不需要逐场景优化的情况下从图像快速完成3D高斯道路场景重建把原本耗时的流程压缩到几乎实时。传统的3D高斯重建需要针对每个场景单独调优InstantNuRec绕过了这一步直接从图像出结果对需要快速验证的研究场景来说非常实用。可重复的仿真让研究者在同一场景下变换条件、对比系统响应、发现失败模式这些能力远超纯靠真实数据能做到的范围。自动驾驶系统在某个交叉路口遇到强光眩目会怎样改一下光照参数重新跑一遍答案就出来了。AlpaGym是一个开源的闭环强化学习框架把策略推演和高保真仿真跟Agent Skills连接起来在数千块GPU上横向扩展帮助研究者从设置、推演到评估一路跑通。闭环强化学习的关键在于策略和仿真之间的实时交互AlpaGym把这条链路打通了而且能大规模并行。OmniDreams是一个动作条件化的生成式世界模型给仿真循环加入了照片级真实感渲染实时生成响应策略动作的摄像头画面。策略做出一个转向动作OmniDreams就实时渲染出转向后的摄像头画面仿真和训练融为一体。NVIDIA还发布了目前最强大的开源驾驶基础模型Alpamayo 2 Super。这是一个320亿参数的推理型VLAVision Language Action视觉语言动作模型能在整个驾驶栈中进行推理、规划和执行面向更安全、可扩展的L4级开发和部署。320亿参数的规模在开源驾驶模型里相当少见推理能力的加入让它不仅仅是个感知模型而是能端到端参与决策。视觉AI的破壁之法视觉AI研究卡在哪卡在数据上。零样本异常检测、合成异常生成、少样本缺陷识别不管哪个方向都需要大量受控样本来研究模型在视觉条件、物体状态或时序事件变化下的行为表现。想系统地获取这些样本很难。现实中罕见缺陷出现的频率太低靠生产线上碰运气收集效率堪忧。NVIDIA Metropolis Agent Skills让研究者和开发者能用AI Agent生成合成视觉场景包括异常场景同时支持数据增强和伪标注。这些技能受益于Cosmos 3的混合Transformer架构其中一个推理Transformer负责分析观察结果然后把指令喂给生成塔帮助扩展具有物理基础的虚拟世界。混合Transformer的设计很巧妙推理和生成分工明确推理模块负责看懂生成模块负责画出来两者配合让合成数据在物理合理性上有保障。构建高精度视觉检测模型的研究者可以用Defect Image Generation缺陷图像生成技能在真实图像基础上创建不同表面的不同缺陷样本。工作流组合了Isaac Sim做仿真、Cosmos 3做生成、OSMO做编排和视觉语言推理让研究者能创建罕见的视觉案例然后验证模型是否正确响应。用真实图像做底再在上面叠加缺陷变体这种方式比纯合成更可信又比苦等真实缺陷更高效。对于视频AI AgentNVIDIA Metropolis Blueprint for VSSVideo Search and Summarization视频搜索与摘要、NVIDIA TAO和Video Augmentation视频增强技能帮助从海量视频数据中提取洞见微调模型自动化构建和评估的循环。视频数据量一大人工看不过来模型微调又需要反复试验这些技能把搜索、摘要、增强、微调串在一起研究者有了更可重复的方式来开发能够检测事件、推理复杂场景、总结活动和发送告警的推理型视觉AI Agent。机器人学习跑起来教会机器人导航或操作归根到底是迭代。对研究者来说瓶颈在于构建足够多的受控环境和策略推演来理解机器人在不同任务、不同场景、不同具身形态下的行为变化。通常的做法是把仿真环境、任务变体、策略训练和评估一个个拼接起来全部手工完成耗时耗力。NVIDIA机器人Agent Skills让研究者可以指派AI Agent自动完成场景准备、仿真和机器人学习中最常见的开发步骤。底层框架包括Omniverse库、Isaac Sim和Isaac Lab。Agent可以帮助启动仿真会话、构建场景、控制仿真、捕获数据和验证环境。Isaac Lab的技能支持强化学习设置、训练、评估和自定义环境开发。以前需要研究者手动配置的仿真环境现在Agent可以代劳研究者把精力放在策略设计上。专门的技能进一步把工作流延伸到移动和操作领域。Isaac移动技能支持导航工作流涵盖场景搜索、USD转换、环境注册、残差强化学习和策略评估。Isaac Lab的专用Agent工作流帮助完成仿真到仿真、仿真到现实的任务比如环境构建、物理调试、排错和性能分析。仿真到现实的迁移一直是机器人学习的大难题物理参数不对、环境差异太大策略在仿真里表现良好一到真机就崩。这些Agent工作流让调试过程更可控缩小仿真和现实之间的差距。医疗机器人方面Cosmos-H-Surgical-Simulator通过生成逼真的手术机器人数据来推进研究用于策略训练和评估。它直接从真实手术数据中学习而非手工工程化的物理模型帮助缩小仿真到现实的差距支持自主手术任务的开发。手术场景对精确度要求极高手工建模很难覆盖组织形变、器械交互这些细节从真实数据学习是一条更靠谱的路。Cosmos 3还能帮助生成合成数据和场景变体然后用具身特定的行为和环境数据进行后训练覆盖从抓取放置到灵巧操作的多种任务。不同形态的机器人需要不同的策略Cosmos 3的后训练能力让同一个模型适配不同的具身形态。CVPR 2026接收的论文中多数引用了NVIDIA的技术包括GPU、开源模型、仿真框架和CUDA加速库。采用这些技术的机构覆盖卡内基梅隆大学、斯坦福大学、UC伯克利、清华大学、北京大学等全球顶尖实验室。NVIDIA的技术已经渗透到计算机视觉和物理AI研究的底层基础设施中。NVIDIA在CVPR上还推出了多个开放研究挑战赛帮助为物理AI建立基准。AI City Challenge是智能城市应用方向的顶级计算机视觉竞赛已经走到第十年持续推动智能交通和城市感知技术的发展。PAI-AV Reasoning Challenge是一个新的开放基准评估VLA模型用因果链标签解释驾驶决策的能力让模型的决策过程从黑箱走向可解释。AlpaSim Closed-Loop End-to-End Driving Challenge测试自动驾驶策略在真实重建场景的闭环仿真中的表现验证策略在真实世界复杂情况下的鲁棒性。NVIDIA Physical AI Dataset在Hugging Face上的下载量已超过1500万次Isaac GR00T X Embodiment Sim成为下载量最多的机器人数据集之一。新发布的数据集包括约50小时的人形物体交互数据以及六个合成视频数据集用于训练Cosmos 3覆盖机器人、物理、数字人、自动驾驶、仓库安全和空间推理方向。NVIDIA Physical AI Agent工具和技能已在GitHub上开源。从Cosmos 3作为物理AI底座模型到Agent Skills串联自动驾驶、视觉AI、机器人三大方向的工作流再到开源数据集和基准挑战赛的生态建设NVIDIA正在把物理AI研究从各自为战推向系统化作战。自动驾驶的长尾场景、视觉AI的数据瓶颈、机器人学习的迭代困局根本问题都是工具链的割裂。当Agent能把碎片化的步骤串成流水线研究者的精力就能从搭工具回到做研究本身。参考资料https://blogs.nvidia.com/blog/cvpr-physical-ai-research-agent-skills/https://github.com/NVIDIA/skills