AME—基于注意力的地图编码用于学习通用步态运动【文献解读】论文标题Attention-Based Map Encoding for Learning Generalized Legged Locomotion作者Junzhe He¹, Chong Zhang¹, Fabian Jenelten¹, Ruben Grandia², Moritz Bächer², Marco Hutter¹机构¹Robotic Systems Lab, ETH Zurich, ²Disney Research Zurich发表信息arXiv:2506.09588v1, Last Revision: Dec 16, 2024数据链接https://zenodo.org/records/14499786一、关键科学问题与技术挑战1.1 核心问题如何在多样化的稀疏地形上实现腿足机器人的精确、鲁棒且泛化的动态运动本文从神经网络编码角度出发解决端到端强化学习在稀疏地形上面临的“精确落脚点规划”与“泛化能力”之间的根本矛盾。1.2 技术挑战稀疏地形上的精度-泛化困境纯学习方法DRL对不确定性鲁棒但在踏脚石、窄梁等稀疏地形上难以发现有效落脚点容易过拟合特定地形纯模型方法MPC规划精确但对建模假设敏感真实世界表现易受状态估计误差、模型失配等影响。端到端学习方法在稀疏地形上的失败现有DRL控制器依赖大规模随机探索而稀疏地形上的有效接触极少策略难以从稀疏奖励中学习精确落脚行为即使采用课程学习也难以泛化到训练分布之外的地形。混合方法的计算与复杂性瓶颈如DTC等方法虽结合模型与学习优势但需同时运行模型规划器与学习策略训练时间长14天、部署计算负担重且依赖模型规划器的性能——当感知退化时模型规划可能产生不可行引导。可解释性缺失传统端到端神经网络是“黑箱”无法解释其地形感知与决策依据限制了研究者对失败模式的分析与调试。二、研究方法与算法原理2.1 整体技术路线算法pipeline输入机器人本体感知 2.5D高度图 ↓ ┌────────────────────────────────────────┐ │ 注意力地图编码模块 │ │ ├─ CNN提取局部地形特征kernel5 │ │ ├─ 拼接3D坐标 → 点云局部特征 │ │ └─ 多头注意力以本体感知为Query │ │ → 受状态调制的地形编码 │ └────────────────────────────────────────┘ ↓ ┌────────────────────────────────────────┐ │ 两层训练策略 │ │ ├─ 第一阶段基础地形 理想感知 │ │ │ → 初始化地图编码获得基础技能 │ │ └─ 第二阶段增加困难地形感知噪声/漂移 │ │ → 增强鲁棒性与泛化能力 │ └────────────────────────────────────────┘ ↓ MLP策略网络 → 关节级动作 ↓ ANYmal-D四足 / GR-1人形真实部署2.2 注意力机制原理2.2.1 多头注意力Multi-Head Attention公式Attention ( Q , K , V ) softmax ( Q K T d k ) V \text{Attention}(Q, K, V) \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)VAttention(Q,K,V)softmax(dk​​QKT​)VQ (Query)来自本体感知信息的嵌入向量机器人当前状态 速度指令K (Key)来自地形图各点的局部特征向量V (Value)与K相同的地形点特征多头机制并行运行h 16 h16h16个注意力头每个头处理d / h 4 d/h4d/h4维增强表示能力2.2.2 网络架构细节组件配置高度图尺寸ANYmal26 × 16 × 3 26 \times 16 \times 326×16×3(L×W×3)高度图尺寸GR-117 × 11 × 3 17 \times 11 \times 317×11×3CNN编码层2层kernel5padding0stride1第1层16维第2层d − 3 61 d-361d−361维MHA维度d dd64注意力头数h hh16本体感知维度d obs d_{\text{obs}}dobs​78ANYmal/ 99GR-1策略MLP2层隐藏层每层256维2.2.3 两阶段训练策略阶段地形类型感知条件目标第一阶段基础地形楼梯、坑、粗糙地、托盘、间隙、网格石理想感知无噪声初始化地图编码学习基本落脚能力第二阶段增加五边形石、单列石、窄托盘、连续间隙、窄梁、环形台阶等感知噪声 随机漂移 人工推力 质量/摩擦随机化增强鲁棒性与泛化能力2.3 奖励函数设计奖励函数分为三类共14-16项类别代表性项权重示例任务奖励线速度跟踪、角速度跟踪5.0, 3.0规范奖励动作速率、关节加速度、力矩、位置/速度/力矩限制10 − 7 10^{-7}10−7~10 − 3 10^{-3}10−3风格奖励足部滑移、跳跃惩罚、站立稳定性第二阶段0.5~5.0第二阶段增加的特殊奖励站立时关节运动惩罚抑制抖动改善sim-to-real。奖励函数列表2.4 训练环境与参数并行环境数4096PPO超参数batch size 98304mini-batch 327685轮更新训练时间ANYmal-D第一阶段18000 epochs6天第二阶段3600 epochs硬件Nvidia Tesla A100-40GBGR-1第一阶段15000 epochs3.5天第二阶段3200 epochs硬件Nvidia RTX 4090域随机化观测噪声、地图漂移、随机推力、质量变化±20%、摩擦系数变化±50%2.5 实验设计2.5.1 仿真实验基准对比DTC混合方法、baseline RL[13] 基于课程学习的纯RL评估指标速度跟踪误差、成功率、失败率、卡住率地形集基础地形 微调地形部分为训练未见过2.5.2 真实实验机器人测试地形ANYmal-D踏脚石、不等高踏脚石、随机分布踏脚石前/侧向、箱子间隙、19cm宽梁、碎石堆GR-1单列不等高踏脚石、光束间隙、平衡木19cm宽、不固定实验2.5.3 消融实验两阶段训练必要性对比从零训练所有地形 vs. 仅基础地形噪声网络结构对比Transformer编码器、CNN下采样、ViT编码器三、主要创新点与学术贡献3.1 创新点总结创新点一注意力地图编码实现隐式接触规划核心思想以本体感知为查询Query地形点特征为键值Key-Value通过多头注意力自动计算各地形点的重要性权重。创新价值可视化证明网络学会自动将高注意力权重分配给下一个可行落脚点无需任何监督学习实现了端到端的隐式接触规划可与模型方法中的独立接触规划器媲美创新点二统一框架实现四足与人形跨形态泛化核心思想同一网络架构、相同超参数直接适用于12-DoF四足机器人ANYmal-D和23-DoF人形机器人GR-1。创新价值首次在端到端DRL框架中实现人形机器人在混合稀疏地形上的动态运动证明了注意力地图编码的通用性不受具体形态限制创新点三两阶段训练平衡精度与鲁棒性核心思想先训练精确的感知-动作映射理想感知再引入真实世界不确定性进行微调。创新价值解决了端到端RL在稀疏地形上“一上来就学习鲁棒性”导致的探索困难成功实现零样本zero-shotsim-to-real迁移创新点四可解释的神经地形感知核心思想通过可视化注意力权重揭示神经网络“关注”的环境区域。创新价值首次为腿足机器人DRL控制器提供了可解释的感知注意力图帮助调试失败模式、理解策略决策依据3.2 主要学术贡献填补空白首个在端到端DRL框架中实现腿足机器人在混合稀疏地形上的泛化运动同时达到模型方法的精确性和学习方法的鲁棒性。性能突破在ANYmal-D上综合成功率比DTC高26.5%比baseline RL高77.3%在网格石和窄梁等DTC和baseline RL失败率高的地形上本文方法成功率超过80%。涌现行为控制器自主学习出复杂恢复反射单腿跳跃换脚GR-1在空间不足时空中切换接触脚膝部支撑爬升ANYmal-D地形依赖的手臂摆动GR-1滑移恢复社区资源开源训练代码、评估数据集Zenodo推动可解释腿足运动学习的研究。3.3 性能对比结果评估指标本文方法DTC [1]Baseline RL [13]综合成功率所有地形最高26.5% (相对低)77.3% (相对低)网格石 (20cm) 成功率80%20%高但过拟合窄梁 (15cm) 成功率80%20%低速度跟踪误差最低高频步态下误差大不适用目标到达训练时间6天14天数天四、技术路线总结┌─────────────────────────────────────────────────────────────────┐ │ 输入层 │ │ 本体感知 (速度/重力/关节状态/历史动作) 2.5D高度图 │ └────────────────────────────┬────────────────────────────────────┘ │ ┌────────────────────────────┼────────────────────────────────────┐ │ 注意力地图编码模块 │ │ ┌──────────────┐ ┌──────────────────────────────────────┐ │ │ │ 本体感知嵌入 │ │ 地形处理 │ │ │ │ (Linear → d) │ │ CNN (2层, kernel5) → 局部特征(d-3) │ │ │ └──────┬───────┘ │ 拼接3D坐标 → 点特征(L×W×d) │ │ │ │ └───────────────┬──────────────────────┘ │ │ │ │ │ │ │ ┌──────────────────────┼──────────────────────┐ │ │ └───→│ Multi-Head Attention (h16, d64) │←──┘ │ │ │ Q本体嵌入, KV点特征 │ │ │ └──────────────────────┬──────────────────────┘ │ │ ↓ │ │ map encoding (1×d) │ └─────────────────────────────────────┼──────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────────┐ │ 策略MLP (256-256) → 关节动作 │ └─────────────────────────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────────┐ │ 两阶段训练流程 │ │ Stage 1: 基础地形 理想感知 → Stage 2: 困难地形 不确定性 │ └─────────────────────────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────────┐ │ 真实部署 │ │ ANYmal-D (四足) 踏脚石、窄梁、碎石堆 │ │ GR-1 (人形) 平衡木、单列踏脚石、混合障碍赛道 │ └─────────────────────────────────────────────────────────────────┘五、局限性与未来方向训练效率仍待提高虽然比DTC快6天 vs 14天但单次训练仍需数天超参数调优成本高。未来可探索更高效的RL算法或课程设计。感知表示限制使用2.5D高度图无法处理悬空障碍如倒挂的树枝、复杂3D结构如台阶下方空间。未来可引入3D体素表示或基于图像的端到端感知。操纵能力缺失当前工作聚焦于纯运动未涉及腿部与手臂同时执行操纵任务如开门、搬运。注意力机制可扩展至loco-manipulation场景。脚轮偏移与回驱性文中虽未直接讨论该问题属于TidyBot文献但类似地复杂机械设计限制在真实部署中可能存在。本工作的ANYmal-D和GR-1均为现成硬件无此问题。未来方向将注意力机制扩展到3D环境表示如体素网格、NeRF结合大语言模型实现高层任务规划与底层运动控制的协同利用注意力权重进行故障检测与自适应恢复探索更高效的训练方法如预训练地图编码器再微调