多智能体强化学习实现四足机器人协同跳跃

张

张建站

2026/5/4 22:33:26

10分钟阅读

1. 项目概述在四足机器人领域单体的运动能力始终受到物理尺寸、驱动功率和能量效率等固有因素的限制。香港大学ARC实验室与EngineAI团队提出的Co-jump项目通过多智能体强化学习(MARL)技术让两台四足机器人无需外部通信即可实现协同跳跃突破单体物理极限。这项研究首次实现了1.5米高度的无通信协同跳跃其中跳跃机器人(Robot J)的足端高度达到1.1米相比单机0.45米的跳跃能力提升了144%。项目创新性地采用MAPPO(多智能体近端策略优化)算法框架结合渐进式课程学习策略解决了机械耦合系统中的稀疏奖励探索难题。系统仅依赖本体感知(关节角度、角速度、基座姿态等)无需视觉输入或预设动作模板就能自主演化出精确的时空协调策略。这种去中心化的协作模式为野外搜救、工业巡检等通信受限场景下的群体机器人应用提供了新思路。2. 核心设计思路2.1 问题建模与算法选型项目将协同跳跃任务建模为Dec-POMDP(分散式部分可观测马尔可夫决策过程)这是处理多智能体协作问题的标准框架。每个机器人只能获取本体的52维观测向量包括基座角速度(3维)重力向量(3维)关节角度和速度(各12维)上一步动作(12维)运动指令(4维)目标物体信息(6维)选择MAPPO算法主要基于三个考量CTDE(集中训练分散执行)架构能有效解决信用分配问题通过集中式critic网络评估全局状态同时保持策略执行的分散性近端策略优化(PPO)的clip机制能保证训练稳定性避免多智能体场景中常见的策略崩溃共享网络参数设计可加速策略收敛特别适合这种角色不对称但动力学相似的机器人对2.3 奖励函数设计奖励函数采用三重结构设计权重系数经网格搜索确定为α_task1, α_regu1, α_coop1任务奖励(r_task)高度跟踪奖励使用tol函数(公式4)鼓励飞行阶段达到指令高度水平速度跟踪误差在0.2m/s内得满分偏航角速度跟踪误差在0.1rad/s内得满分足端收腿奖励飞行阶段足端离地高度15cm接触维持奖励初始/着陆阶段保持足部接触正则化奖励(r_regu)姿态偏差惩罚滚转/偏航角超过π/12时触发关节加速度惩罚系数2.5e-7关节速度惩罚系数1.0e-4扭矩惩罚Robot J系数2.5e-5Robot L系数2.5e-6动作平滑惩罚二阶差分惩罚系数0.1协作奖励(r_coop)高度差奖励两机器人高度差0.6m时触发俯仰角惩罚Robot J俯仰角0或π/4时触发成功奖励40分一次性奖励跌落惩罚Robot J基座高度0.4m时触发关键技巧tol函数采用长尾核设计(公式5)当状态量超出目标区间[bl, bu]时奖励值按1/(z√(1/v-1))²1衰减其中z为归一化偏差。这种设计在边界处(v0.2)提供平滑过渡避免奖励突变导致的训练不稳定。3. 课程学习策略3.1 四阶段渐进式训练重力课程初始重力加速度设为7.0m/s²分三阶段(15k/20k/25k步)增至9.81m/s²。这解决探索瓶颈——在标准重力下随机策略几乎无法产生足够高度的跳跃获得奖励信号。降低重力后相同动作能产生更高跳跃使策略更容易发现正反馈路径。目标课程初始固定目标(高度0.8m偏航0°)成功率达25k次后每阶段增加15°偏航直至90°随后以0.1m为增量提升高度至1.0m最终阶段拓展到1.6m(适配Js01的负载能力)初始化课程 Robot J初始位置从1.0m高处线性降至0.77m姿态从直立渐变为俯卧。这种设计避免直接接触导致的局部最优——初始自由落体阶段让Robot J有时间调整姿态比强制接触初始化成功率提升97.7%。延迟课程在仿真中两机器人直接堆叠会引发不真实的瞬态振荡。通过引入1.0-1.6秒的随机延迟(动作保持为零)模拟真实世界的静态组装过程。这显著提升了sim2real的转移成功率。3.2 领域随机化配置为实现鲁棒的仿真到现实转移训练时对以下参数进行随机化单体动力学参数静摩擦系数[0.6,1.0]动摩擦系数[0.5,0.9]推力扰动±5N扭矩扰动±0.5Nm执行器延时[0,10]ms质心偏移±2cm电机刚度增益[0.9,1.1]交互参数通信延迟[0,5]ms相对位置偏移±2cm相对偏航偏移±0.08rad4. 实现细节4.1 网络架构Actor和Critic网络采用相同结构的4层MLP隐藏层维度[512,512,256,128]激活函数ELU控制频率50Hz批量大小4096环境并行训练设备NVIDIA RTX 4080 Super4.2 硬件部署机器人配置发射者(Robot L)EngineAI Js01(90kg)关节PD增益Kp200, Kd5.0最大扭矩120Nm跳跃者(Robot J)Unitree Go2(15kg)关节PD增益Kp40, Kd1.2最大扭矩30Nm控制系统主控AMD Ryzen 7 7435H通信千兆以太网实时性动作计算传输延迟20ms5. 性能评估5.1 定量指标对比在1.2m高度任务中与单机基线对比指标课程跳跃[3]OmniNet[17]本方案成功率(%)00.1992.8高度差(m)0.120.110.74目标误差(m)1.111.410.25峰值高度(m)0.941.541.77功率消耗(W)95.3/24.8333.0/37.456.7/4.445.2 现实世界表现在无任何调参的情况下仿真策略直接部署到实体机器人0.9m平台成功率98%1.2m平台成功率93%1.5m平台成功率85%前空翻动作成功率72%关键数据指标最大足端高度1.1m(单机0.45m)水平定位误差0.3m能量效率较单机方案提升6-8倍6. 经验总结成功关键因素机械设计Robot L背部平台采用蜂窝结构质量仅3.2kg却可承受1500N冲击力时序对齐通过以太网硬件同步确保两机控制指令延迟1ms着陆缓冲Robot J小腿添加3D打印阻尼器减小着陆冲击典型故障模式过早起跳表现为Robot J在未获足够初速时离地对策在正则项中增加起飞时机惩罚空中碰撞两机器人肢体接触导致姿态失控对策在奖励函数中添加相对距离约束着陆振荡平台弹性导致二次弹起对策增加着陆后0.5s的关节刚度参数调优建议课程阶段过渡监控10步滑动平均奖励增长5%时触发下一阶段重力变化梯度建议按7.0→8.0→8.5→9.0→9.81m/s²分五步过渡延迟课程范围最终阶段应覆盖[0.8,1.8]s比训练时更宽以增强鲁棒性这个项目证实了无通信协作在动态任务中的可行性。未来可扩展方向包括三机器人金字塔式跳跃动态障碍物规避跳跃异构机器人协作(如四足轮式)

别再只调巴特沃斯了！用MATLAB ellip函数5分钟搞定陡降的椭圆滤波器设计

突破传统思维：用MATLAB ellip函数高效设计高性能椭圆滤波器在数字信号处理领域，滤波器设计是工程师们每天都要面对的基础任务。许多刚入门的工程师和学生往往习惯性地选择巴特沃斯或切比雪夫滤波器，却忽略了在相同阶数下性能更优越的椭圆滤波…...

2026/5/4 22:31:23 阅读更多 →

你不是金鱼——Spring AI 聊天记忆从“重启即失忆”到 MySQL 持久化的生产级改造实录

你不是金鱼——Spring AI 聊天记忆从“重启即失忆”到 MySQL 持久化的生产级改造实录一、问题不是“记不住”，而是系统根本没有记忆层很多团队第一次做 AI 对话应用时，都会产生一个错觉：模型这么聪明，应该能“记住”我刚刚说过的话现实是：大语言模型是无状态的每次…...

2026/5/4 22:29:00 阅读更多 →

手把手图解：Linux 0.11 启动时那场关键的‘内存大搬家’（从 0x10000 到 0x0）

手把手图解：Linux 0.11 启动时那场关键的‘内存大搬家’（从 0x10000 到 0x0） 当计算机从通电到操作系统完全启动的短短几秒内，内存中发生着一场精密的数据迁移。这场迁移不仅关乎系统能否正常启动，更体现了早期操作系统…...

2026/5/4 22:25:06 阅读更多 →

LoopViT：结合循环机制的视觉Transformer优化架构

1. 项目概述在计算机视觉领域，Transformer架构近年来展现出惊人的潜力。LoopViT是我最近开发的一种新型视觉推理架构，它通过引入循环机制改进了传统视觉Transformer的计算效率和信息流模式。这个架构特别适合处理视频分析、医学影像分割等需要时序建模的…...

2026/5/4 22:42:56 阅读更多 →

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天【免费下载链接】wechat-need-web 让微信网页版可用 / Allow the use of WeChat via webpage access 项目地址: https://gitcode.com/gh_mirrors/we/wechat-need-web 还在为微信网页版频繁提示…...

2026/5/4 13:37:30 阅读更多 →

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间【免费下载链接】zhihuishu 智慧树刷课插件，自动播放下一集、1.5倍速度、无声项目地址: https://gitcode.com/gh_mirrors/zh/zhihuishu 还在为智慧树平台繁琐的视频学习流程而烦恼吗&am…...

2026/5/4 23:04:47 阅读更多 →