生成式机器人策略的仿真 - 真实协同训练:结构化表征对齐
摘要协同训练将有限的域内真实世界数据与海量代理数据如仿真数据或跨本体机器人数据结合被广泛用于训练生成式机器人策略。尽管该方法在实验中取得成功但决定其有效性的内在机理仍缺乏清晰认知。本文通过理论分析与实验研究探究仿真-真实数据协同训练的机理识别出决定模型性能的两大内在效应。其一为结构化表征对齐体现跨域表征对齐与域可区分性之间的平衡是影响下游任务性能的核心因素其二为重要性重加权效应源于动作权重的域相关调制起次要调节作用。本文通过玩具模型的控制变量实验、大量仿真-仿真与仿真-真实机器人操作实验验证了上述效应。该分析为近期协同训练技术提供了统一解释并提出一种简易方法在现有方法基础上实现稳定提升。从更广泛的视角来看本文旨在揭示协同训练的内在工作机制推动该方向的研究发展。1 引言数据稀缺仍是机器人领域的核心瓶颈促使研究者使用低成本、海量的代理数据如仿真数据与跨本体数据。尽管这些数据源包含丰富的任务相关信息但会引入显著的域间隙导致实际应用中难以实现有效的知识迁移。近期一种简易的协同训练范式——以数据混合比例联合训练域内真实数据与代理数据——在仿真-真实、人-机器人迁移场景中展现出优异的实验性能。尽管已有研究提供了有价值的实验分析但协同训练的机理仍不明确其内部机制大多被视为黑箱决定其有效性的因素尚未厘清。本文聚焦于研究上述协同训练范式重点针对扩散模型架构下的仿真-真实数据协同训练该架构是现代生成式机器人策略的主流代表。本文首先从理论层面分析多域数据混合训练的学习目标揭示出独立影响协同训练性能的两大内在效应结构化表征对齐具备双重特性。一方面表征在域不变子空间中实现跨域对齐使任务相关知识得以迁移另一方面表征保留域相关因素的可区分性让动作能够自适应真实世界而非直接照搬代理域的动作。这种平衡是协同训练有效的关键决定了自适应动作迁移能否实现。重要性重加权效应指动作权重中域相关的对数几率调制。该效应在观测条件空间中局部起作用控制训练中各域样本对动作决策的贡献程度由数据混合比例、数据集规模与域间隙共同决定。通过玩具模型的控制变量协同训练实验本文验证了两种效应的存在发现结构化表征对齐是模型性能优异的核心因素重要性重加权效应仅起调节作用。基于上述发现本文进一步提出问题 在真实机器人操作任务中是否存在类似效应这些认知如何指导设计更有效的协同训练算法本文第二部分通过全面的仿真-仿真、仿真-真实机器人操作实验回答上述问题。在端到端协同训练系统中数据混合比例通常是唯一显式控制变量却会同时影响两种内在效应。实验发现在合适的混合比例区间本文称为平衡混合比例内局部与全局空间的结构化表征对齐可隐式出现且对齐强度与任务成功率呈中等到强相关。同时保留域可区分性是实现有效真实世界动作自适应的必要条件若该特性丢失表征对齐与性能甚至会呈负相关。上述观测为理解现有协同训练技术提供了统一视角。本文在实验任务中基准测试了三种近期代表性协同训练技术基于最优传输的特征正则化、对抗判别域自适应、无分类器引导。实验发现每种方法仅侧重结构化表征对齐的单一维度常导致性能提升不稳定或边际化。受此分析启发本文提出一种简易的协同训练技术组合方法在促进表征对齐的同时保留域可区分性并为推理阶段的知识迁移提供更可控的接口。该方法相比现有方法实现了稳定且显著的性能提升。综上本文贡献如下首次通过理论分析与实验验证系统揭示协同训练的内在工作机理。发现结构化表征对齐可被隐式学习并通过全面机器人操作实验验证对齐与可区分性的作用与要求。以本文分析为框架基准测试代表性协同训练技术据此提出一种稳定提升性能的简易方法为新算法设计开辟方向。2 协同训练的理论分析生成式机器人策略采用扩散/Flow Matching、自回归Transformer等生成式建模架构实现观测到动作的映射。鉴于其在工业界的普及与应用本文分析聚焦于最主流的策略形式——扩散/Flow Matching策略。下文以“扩散”统称扩散与Flow Matching模型二者在本文分析框架下等价。本文首先阐释结构化表征对齐在扩散策略协同训练中的重要性2.1节随后分析重要性重加权效应2.2节。2.1 结构化表征对齐训练扩散策略等价于联合学习特征编码器将观测映射到潜在空间与策略模型将学习到的表征映射到动作空间。形式化而言给定目标域有限机器人数据集源域海量数据集以混合比例训练扩散策略模型学习目标为其中。本文可证明该目标存在解析最优解且采用得分参数化证明见附录B.1其中为核函数衡量当前观测与数据集中观测的匹配程度。因此经验最优得分函数的行为高度依赖学习到的观测表征。基于诱导的源域与目标域表征对齐程度本文提出协同训练的三种场景Disjoint源域与目标域的观测表征处于完全不同的簇。目标域推理时动态权重接近1策略忽略源域数据无法实现源到目标的正向迁移。Structured aligned策略学习到任务相关、域不变的表征同时保留充足域相关信息源域与目标域观测表征相近但不坍缩。此时动作预测由源域邻点有效引导且以目标域数据为主导。这与本文开篇定义的结构化表征对齐一致。Overlapping源域与目标域观测表征完全对齐但域间隙导致对应动作存在差异。策略预测无法感知真实环境在源域与目标域动作上呈现双峰分布引发负迁移。2.2 重要性重加权效应混合比例直接为迁移过程提供额外调制。对任意特定观测公式(3)可简化为其中。推理阶段较大的时刻数据受噪声大幅扰动模型近似为两域全局平均较小的时刻域间隙使集中于单一域模型预测收敛到该域。任意时刻通常以训练样本为中心呈高斯分布。对每个数据点定义。进一步简化可得融合得分函数为每个动作数据的最优得分推导见附录B.2。如图2所示该效应通过在训练阶段重加权两域得分函数重塑学习到的动作采样分布。图2重要性重加权通过训练阶段重加权得分函数重塑学习到的动作分布。特殊情况下相对权重比满足以下关系调制幅度受、数据集规模与域间隙共同影响该特性的详细刻画见附录B.3。综上扩散策略协同训练的有效性主要由两大内在效应决定结构化表征对齐重要性重加权效应。基于上述理论分析本文接下来通过实验证据验证上述核心观点。3 控制变量玩具实验两种效应在端到端协同训练中相互作用共同影响学习动态。为解耦并理解二者对协同训练的独立贡献本文设计先导玩具实验。该简化设置中策略模型以预训练特征编码器定义的输入分布为输入输入每一维对应潜在空间的主方向。本文采用4层MLP作为扩散模型架构。实验设计策略模型通过协同训练学习映射。手动定义两个流形与分布不同分别对应源域与目标域的内在数据分布。从两个流形采样配对数据点、满足且部分采样如图3所示。该设计模拟目标域数据通常更稀疏、有限、多样性低于源域数据的常见场景。沿两个主方向对齐两个流形在剩余主方向调整二者距离构建不同表征对齐场景结果如图3所示。图3控制变量玩具实验可视化。协同训练目标域约30个样本、源域约3000个样本。每列纵向的预测样本差异体现表征对齐的影响每行横向的差异体现混合比例控制的重要性重加权效应的变化。发现1玩具模型行为与理论分析一致。如2.1节所述的三种表征场景下协同训练模型表现出截然不同的行为分离场景预测结果接近仅用目标域数据训练的模型模型可轻松区分两域但无法从源域迁移知识即学习到的映射。由于数据量有限模型倾向于记忆每个数据点无法在训练分布内插值、分布外泛化。结构化对齐场景该设置为最优区间模型在表征对齐与域可区分性之间取得平衡输出分布能以高保真度重建。重叠场景模型预测在源域与目标域之间随机分布无法有效区分两域将二者视为等同阻碍迁移知识的有效自适应。另一方面如2.2节所述数据混合比例通过重要性重加权效应对该能力产生独立但次要的影响。具体而言它调整源域知识迁移与目标域自适应的相对幅度。如图3横向对比所示当较小时如左数第二列去噪早期阶段源域数据贡献增加输出噪声更大。此外本文观察到一个有趣现象在合适的协同训练设置下模型可对分布外OOD区域做出合理预测具备OOD泛化能力。值得注意的是该能力并非简单复制源域知识而是源于学习到的表征中保留的分布偏移这对精准OOD预测至关重要。发现2结构化表征对齐是模型高性能的核心驱动因素。由于本文拥有真实映射以L2损失定量衡量结果如图4所示。重要性重加权效应受底层表征对齐约束仅调整混合比例无法弥补表征对齐不佳的问题也无法在对齐不足时诱导OOD泛化如红色与蓝色曲线混合比例对最终性能几乎无影响。基于此本文对两个因素进行方差分解分析发现结构化表征对齐的变化可解释约50%的损失方差混合比例的重要性重加权效应仅解释20%。由此可见结构化表征对齐是模型行为的核心决定因素仅作为调节因子微调源域与目标域知识的平衡。将玩具实验类比到仿真-真实协同训练本文提出假设底层机理一致结构化表征对齐使仿真知识有效迁移同时保留充足域可区分性以实现动作自适应。关键问题在于该机理能否在实际仿真-真实场景中被实验观测到而非仅停留在概念直觉层面。此外发现2引出更深层问题若数据混合比例是唯一显式控制变量结构化表征对齐能否在端到端协同训练中出现为回答该问题本文在真实世界机器人操作任务上开展大量实验。图4混合比例与距离增量扫描下的L2损失以及方差分解。表征重叠红线或分离蓝线时协同训练模型对混合比例不敏感。重要性重加权效应蓝柱仅能解释20%的性能方差。4 面向操作任务的仿真-真实协同训练为在机器人操作尤其是仿真-真实协同训练中验证本文假设的实验证据本文设计一系列仿真-仿真、仿真-真实协同训练实验图5。仿真-仿真实验用于显式控制源域与目标域的域间隙确保观测结果在不同域间隙下保持一致。所有实验均采用基于Transformer的扩散模型以ResNet18为视觉主干网络端到端训练。任务集选取robosuite中的三个操作任务螺母装配NutAssembly、杯子悬挂MugHang、杯子清洁MugCleanup。相比常规拾取放置任务螺母装配与杯子悬挂需要更精准的控制包含密集物体交互杯子悬挂的动作包含更多旋转运动杯子清洁则需要模型具备较长时域推理与执行能力。这些任务涵盖机器人操作的多项核心挑战。环境设置仿真-真实实验遵循Maddukukuri等人的方案校准相机位姿与内参最小化仿真与真实世界的相机对齐差异。仿真-仿真实验使用相同的源仿真环境创建第二个目标仿真环境并引入域间隙。域间隙分类仿真与真实世界数据存在多方面域偏移。为识别协同训练在不同间隙下的效果本文从视觉外观与环境物理两个维度分解间隙手动引入间隙并构建三种仿真-仿真协同训练设置纯视觉、纯物理、视觉-物理。数据准备目标域每个任务收集50条人类演示数据源域使用MimicGen基于50条人类演示合成约3000条轨迹。遵循Wei等人的定义设为自然混合比例、分别为真实世界与仿真数据集规模等价于直接拼接仿真与真实数据集。本节实验中协同训练策略的混合比例扫描范围为。4.1 表征对齐观测表征对齐可在端到端协同训练中隐式学习。实验首先使用UMAP可视化不同混合比例下仿真与真实世界观测特征在网络不同层的潜在嵌入重点观察视觉茎网络后的特征与编码器主干的最终层输出嵌入包含本体感知、语言等其他模态信息。令人意外的是在特定混合比例区间内视觉特征呈现局部几何对齐几何结构高度相似观测特征在全局空间呈现表征对齐如图6所示。这揭示了表征对齐在网络中的演化过程。本文进一步使用Gromov-Wasserstein距离与Wasserstein距离分别量化局部与全局表征对齐。调整数据混合比例时观察到清晰的相关性真实与仿真特征距离越小潜在几何结构越相似对齐强度越高如图6所示完整可视化见附录D.2。该趋势在仿真-真实、仿真-仿真实验中均一致成立。结果表明协同训练对数据混合比例敏感因为调整会同时大幅改变核心内在效应——表征对齐本身。换言之混合比例不仅重加权源域与目标域数据的贡献还会隐式重塑学习到的表征空间。Kareer等人的研究中也观察到类似现象对齐源于预训练数据的缩放。表征对齐与模型性能呈正相关。计算上述对数变换后的Wasserstein距离与对应成功率的相关性每个检查点策略在仿真中评估200次rollout、真实世界中评估30次rollout计算平均成功率。本文报告皮尔逊相关系数捕捉线性关联与斯皮尔曼等级相关系数对非线性但单调关系鲁棒。如图7所示除仿真-仿真协同训练的纯物理条件外所有设置下两种相关系数均处于0.6~0.8区间值0.04表明表征对齐与模型性能存在中等到强的正相关。部分情况下某一相关系数较低约0.4提示关系可能为非线性或部分单调而非严格线性。重要的是该整体模式在三个任务中均一致观测到。抑制表征对齐会导致性能下降。为进一步验证表征对齐的因果效应本文在视觉-物理仿真-仿真设置中开展最小消融实验显式鼓励表征分离。受对抗域自适应启发保留域分类器作用于学习到的表征但故意移除梯度反转层从而鼓励域判别特征而非域不变特征。三个任务的性能均持续下降。4.2 域可区分性观测尽管表征在低维空间对齐浅层神经网络仍可轻松区分。本文开展简易线性探针实验在编码器主干输出嵌入上训练2层MLP用于二分类域判别。令人意外的是即便表征在低维空间看似对齐良好简易MLP在所有设置的验证集上均可轻松实现约100%的准确率。这表明表征处于部分对齐场景协同训练策略确实保留了域相关信息。可区分性是动作自适应到目标域的必要条件。各任务在各设置下的成功率如图8所示。仿真-仿真的四种设置中纯物理策略在杯子清洁、螺母装配任务上的成功率甚至低于视觉-物理策略。由于大幅改变物体物理参数而保持视觉外观一致协同训练策略更难区分两种环境。有趣的是如图7所示纯物理策略中表征对齐与模型性能的相关性甚至变为负表明盲目表征对齐可能有害。5 协同训练方法的统一视角尽管已有大量协同训练技术被提出但这些方法为何在部分场景有效、部分场景失效仍不明确。本节以本文发现为视角重新审视三种代表性协同训练方法说明其实验表现可通过表征对齐与域可区分性的平衡得到合理解释。具体而言本文将现有方法按侧重跨域对齐或保留域相关信息分为两类。5.1 现有协同训练方法基于最优传输OT的方法旨在通过显式匹配表征分布潜在空间或轨迹空间对齐仿真与真实世界数据。近期研究将协同训练建模为联合最优传输问题软耦合仿真与真实域样本以最小化全局差异通常用两域间的Wasserstein距离计算。本文假设下该类方法强力鼓励跨域表征重叠将仿真与真实观测推入共享潜在空间。本文实现Cheng等人提出的OT正则化协同训练仅移除离线数据配对采样器。对抗域自适应ADDA方法同样追求域不变表征训练判别器区分仿真与真实数据同时学习编码器试图欺骗判别器可简单用二分类交叉熵损失实现。本文假设下对抗对齐同样侧重跨域重叠但通过表征不可区分性隐式实现而非显式分布匹配。本文按Tzeng等人的方案实现该方法。无分类器引导CFG为协同训练引入独特机制推理阶段在条件策略与无条件策略间插值。该方法不在训练阶段强制表征对齐而是通过引导尺度调制真实信号的影响。本文假设下CFG通过保留独立条件通路保留域可区分性同时支持仿真知识的可控迁移本文实现时在视觉编码器后的观测特征上拼接独热嵌入作为环境标签按Wei等人的建议将设为0。CFG-ADDA简易组合方法。从本文解释框架来看现有协同训练方法的核心差异在于表征对齐与域可区分性的权衡。OT与ADDA类方法侧重对齐域差异较小时有益域差异较大时易引发负迁移相反无分类器引导保留域感知能力支持灵活的信息共享。该统一视角明确了现有方法的优劣启发本文提出组合策略显式平衡两个竞争目标。本文简单组合CFG与ADDA技术命名为CFG-ADDA添加独热嵌入作为环境标签以支持域引导同时通过对抗判别器鼓励其余表征维度对齐。训练细节见附录C。通过上述域不变与域相关特征的显式解耦本文为得分插值系数提供新视角由于仅丢弃环境标签实际代表所有域的平均对数概率梯度方向。相比训练阶段通过重要性重加权效应迁移知识可作为推理阶段更灵活的“平均知识”迁移控制变量。本文默认将CFG-ADDA的设为-0.5。5.2 实验与分析仿真-仿真实验在协同训练模型基础上实现上述技术开展视觉-物理仿真-仿真协同训练实验结果如图9所示。本文将数据混合比例分为两组平衡混合与非平衡混合。平衡混合比例的性能持续优于非平衡混合。平衡混合下仿真与真实数据占比相当面向对齐的方法OT、ADDA在各任务上稳定提升性能表明训练阶段两域均被充分观测时表征对齐有效促进跨域知识迁移。相反非平衡混合下仅侧重对齐的方法性能显著下降尤其在杯子清洁、杯子悬挂任务上。该行为表明某一域主导训练数据时强制强对齐会使学习到的表征偏向次优不变性阻碍真实世界自适应。显式保留域信息的CFG在该区间鲁棒性更强但峰值性能仍有限。值得注意的是CFG-ADDA在两种区间均实现优异性能结合对抗对齐与显式域条件平衡混合下充分利用仿真的可迁移结构非平衡混合下保留域可区分性。仿真-真实实验由于平衡混合比例是有效协同训练的主要选择本文仅在该区间开展真实世界评估。观测结果与仿真-仿真实验一致本文提出的方法在真实世界中实现更稳定、显著的提升在这些挑战性任务上成功率达到约74%。引导尺度消融与仅使用正值不同本文在(-2, 2)区间扫描CFG与CFG-ADDA的。如图10所示本文提出的方法在不同引导尺度下均持续优于CFG。此外两种方法在时均实现提升。因此本文不采用传统放大动作差异的设置而是建议设置在推理阶段主动从代理域迁移知识。上述结果支持本文核心发现有效的仿真-真实协同训练同时需要表征对齐支持知识迁移与域可区分性支持自适应行为。6 讨论与未来工作为理解协同训练的工作机制本文结合理论分析与大量实验验证提出统一解释框架。该框架下本文识别出有效协同训练的两大内在效应结构化表征对齐与重要性重加权。结构化表征对齐的有效性需要谨慎平衡两个竞争目标沿域不变维度对齐表征以支持迁移同时保留域相关维度以维持自适应能力。该视角统一了多种现有协同训练技术并验证了简易组合策略的有效性。本文进一步明确混合比例与数据集规模的影响为未来大规模协同训练实验缩小搜索空间。附录D.5提供使用指南。总体而言本文希望揭示协同训练背后的机理指导设计更具理论依据、更鲁棒的协同训练算法。局限性与未来工作首先本文实验主要聚焦仿真-仿真、仿真-真实协同训练场景。尽管在人-机器人协同训练等其他场景观察到定性相似趋势但在更广泛域中验证本文发现的通用性是未来重要方向。其次本文分析集中于两种已识别机理的最终效果未显式刻画动态学习过程中的相互作用——尤其是混合比例如何在训练过程中塑造表征学习。此外本文未探究批次大小等实际因素的潜在影响。第三本文研究表征的相对关系而非内在结构即未直接刻画模型最终学习到的表征类型。理解这些表征的本质尤其是跨域泛化的表征可为结构化表征对齐的出现提供更深层见解。最后尽管本文基于模仿学习协同训练范式可广泛应用于其他学习场景包括世界模型与强化学习。本文希望推动该方法在更多域的探索最终深化对协同训练的理解与有效应用。