这项由复旦大学与阿里巴巴集团万象团队联合开展的研究以预印本形式于2026年5月14日发布在arXiv平台论文编号为arXiv:2605.15055。感兴趣的读者可通过该编号在arXiv上检索完整论文。当你打开一款AI绘图软件随手输入一段文字描述几秒钟后屏幕上便出现了一张精美的图片。这背后是一个叫做扩散模型的AI系统在默默运作。过去几年研究者们已经可以通过强化学习的方式把这类模型训练得越来越专注于某一项技能——比如让画面更好看、让文字渲染更准确、或者让物体的空间关系更符合描述。然而一个实际的烦恼始终存在现实中的用户并不只想要一项技能他们希望同一个模型既能画得好看又能准确呈现文字还能正确理解把苹果放在篮子左边这样的空间指令。这就像一个厨师不能只会做一道菜得是个全才。但问题在于现有的训练方法在面对多项任务时往往顾此失彼要么几个任务互相干扰、越练越乱要么得一个任务一个任务地依次教费时费力而且教完新任务又容易把旧任务忘掉。这篇论文提出的方法叫做**DiffusionOPD**其中OPD代表在线策略蒸馏On-Policy Distillation。研究团队用一个非常聪明的思路解决了上述难题并在多个权威评测上取得了目前最好的成绩。---一、为什么全能选手这么难培养回到厨师的比喻。假设你要培养一个能同时烹饪川菜、粤菜和法餐的厨师通常有两条路可走。第一条路是让他同时学三种菜系每天混着练。听起来高效但问题接踵而至——川菜追求麻辣法餐讲究精致清淡这两种口味的训练方向本身就相互冲突。更麻烦的是粤菜相对容易上手学徒很可能把大部分精力都花在粤菜上结果法餐练得稀烂。这就是研究者所说的跨任务干扰和任务难度失衡。第二条路是依次教先练一个月川菜再练一个月粤菜再练一个月法餐。这避免了同时学习的冲突但带来了另一个著名的麻烦——学完法餐之后厨师往往把川菜忘了大半。研究者把这个现象称为灾难性遗忘在AI训练中同样普遍存在。而且这种方式需要精心设计每个阶段的训练方案非常繁琐。DiffusionOPD的核心思路是把这两个步骤彻底拆开先让每个任务独立培养出一位专科大师再由一个全能学徒同时向所有大师学习。专科大师只需专注自己的领域互不干扰而全能学徒的学习过程也不是从零开始摸索而是直接从大师们的经验中汲取精华。这样一来既避免了多任务同时训练的混乱也不需要担心遗忘的问题。---二、从语言模型借来的在场学习法这个思路并非凭空而来。在大语言模型就是类似ChatGPT那类能聊天的AI领域有一种叫做在线策略蒸馏的训练方法已经被证明非常有效。它的核心精神是学生不应该在老师演示的场景下练习而应该在自己实际生成的内容上向老师学习每一步怎么做得更好。打个比方普通的学习方式像是临摹字帖——老师写一个字你照着描。而在线策略蒸馏更像是这样你自己先写一个字写完之后老师指着你写的每一笔说这里应该这样运笔那里力道要轻一些。这种方式的好处是老师的指导始终针对你自己实际会犯的错误而不是对着一个理想范本给出与你无关的建议。研究团队的第一个工作就是把这套原本为文字AI设计的方法移植到图像生成的扩散模型上。这个移植过程并不简单因为两者的工作机制有本质不同。文字AI每次生成一个词是从有限的词汇表里选一个而扩散模型的每一步是在连续的像素空间里做细微调整每一步都是无穷多种可能。---三、把图像生成理解成一条去噪之旅要理解DiffusionOPD的数学原理先得了解扩散模型的工作方式。一张图片的生成过程可以想象成从一团随机噪点出发一步步把杂质去掉最终雕刻出清晰图像的过程——就像雕塑家面对一块原石一刀一刀凿去多余的部分最终显现出作品的样子。这个去噪过程可以分成若干步骤每一步模型都要预测下一步应该往哪个方向调整。在数学上这被表达为一个从当前状态出发、跳到下一个状态的概率分布——研究团队将其称为马尔可夫链上的高斯转移核。关键在于在任意一步学生模型和老师模型虽然会预测不同的调整方向但它们调整时引入的随机性大小是完全相同的。这就好像两位雕塑家在同一步都使用相同力度的凿子但凿的位置稍有不同。由于随机性部分完全一样两者之间的差异就只取决于各自预测的调整方向均值之间的距离。这个发现非常重要因为它意味着衡量学生和老师在某一步有多不一样可以精确地用一个简洁的数学公式表达出来——两者预测的均值之间的距离平方除以步骤的随机幅度平方。这个量叫做KL散度的闭合形式不需要做任何近似或随机采样可以直接精确计算。整个训练目标因此变得非常清晰沿着学生模型自己走出的去噪轨迹在每一步都让学生的预测方向尽量靠近对应老师的预测方向把所有步骤的差距加起来让这个总差距尽量小。---四、为什么不用更流行的PPO强化学习熟悉AI训练的读者可能会问强化学习里有一种非常流行的算法叫PPO近端策略优化它已经被广泛用于扩散模型的训练为什么这里要换一种方式研究团队对这个问题做了详细的数学分析。他们发现如果把每一步的KL散度当作一个奖励信号再用PPO来优化表面上看起来行得通但背后会有一个问题PPO的梯度计算中除了一个有用的方向梯度之外还多出了一个额外的项这个项的形式是随机噪声乘以梯度。从数学上看这个多余的项在期望意义下等于零——也就是说平均而言它不会指错方向。但它的存在大大增加了每次梯度估计的抖动程度就像你在黑暗中用手电筒找路手电筒本身的稳定性变差了虽然平均照射方向没错但每一步都在左右晃动走起来自然更慢、更容易走偏。相比之下直接优化那个可以精确计算的KL散度公式梯度就完全来自确定性的预测均值没有任何额外噪声。两种方法在期望上等价但一个稳一个抖训练效果自然不同。除此之外PPO的框架依赖于随机策略的概念——模型必须能对每个动作输出一个概率密度然后计算重要性比例。但对于扩散模型的确定性ODE采样器一种不引入额外随机性的采样方式来说根本不存在这样的概率密度PPO就没法用了。而直接优化KL散度公式的方式对SDE随机微分方程有随机性和ODE常微分方程无随机性两种采样器都完全适用是一个更通用的框架。---五、具体怎么训练两阶段流水线整个DiffusionOPD的训练流程分为两个阶段可以用培养专家再培养全才来概括。第一阶段是独立培养每位专科老师。研究团队为三类任务各训练了一个专门的模型。第一类是构图理解任务使用GenEval评测体系衡量模型能否正确理解苹果在篮子左边斑马在消防栓右边这类空间关系这个老师用DiffusionNFT算法训练因为它在这个任务上收敛更快、上限更高。第二类是文字渲染任务衡量模型能否在图片中准确生成指定的文字这个老师用GRPO-Guard算法训练因为DiffusionNFT在这个任务上容易走捷径——通过扭曲图片来刷高分数而不是真正学会写字。第三类是美观度任务综合PickScore、ClipScore和HPSv2.1三个评分维度同样用GRPO-Guard训练。三位老师各自独立训练互不干扰每人只需专注自己的专长。第二阶段是全能学徒的在线学习。学生模型从原始的预训练扩散模型出发按照轮询方式逐一向每位老师学习。每轮学习的具体流程如下对于某个任务先从对应的提示词数据集里取一批文字描述然后用当前的学生模型不更新参数只生成轨迹做一次完整的去噪生成得到这条在线轨迹。接着让对应的老师模型在同样的轨迹状态点上做预测计算每一步的均值差距把所有步骤的差距加总。依次对三个任务都完成这个计算把三个任务的损失加在一起统一做一次反向传播更新学生参数。这种在整轮循环结束后才做一次参数更新的方式确保每次更新都充分反映了三个任务的综合需求避免模型偏向某一个任务。---六、实验结果到底好多少研究团队在一套覆盖两类规则奖励和六类模型奖励的综合评测体系上进行了对比实验基础模型是Stable Diffusion 3.5 Medium分辨率为512×512。规则类奖励包括GenEval构图理解满分1.0和OCR文字渲染也是满分1.0。模型类奖励包括PickScore人类偏好评分、ClipScore图文匹配度、HPSv2.1另一种人类偏好评分、Aesthetics美观度满分10分、ImageReward图像综合奖励和UnifiedReward多模态统一奖励。对比基准覆盖了多个层次。首先是三位单任务老师自己的表现可以看到每位老师确实只在自己的专长领域突出构图老师GenEval达到0.96但美观度只有5.24文字老师OCR达到0.93但GenEval只有0.65美观老师PickScore达到24.02但GenEval只有0.49。其次是两种联合训练的多任务强化学习方法Multi-Task GRPO-Guard和Multi-Task NFT两者分别需要约130小时GPU时间综合平均分分别为0.763和0.715。再次是级联训练方法Cascade NFT依次在三个任务上顺序微调耗时约148小时综合平均分达到0.851已经相当不错但依然存在灾难性遗忘的问题且训练流程最为繁琐。DiffusionOPD的结果则是综合平均分达到0.929超过所有基准。具体来看GenEval为0.96与单任务老师持平OCR为0.94PickScore为23.99HPSv2.1为0.342Aesthetics为6.15ImageReward为1.50UnifiedReward为3.50。更重要的是DiffusionOPD所用的总训练时间为老师最长训练时间美观老师85.75小时加上蒸馏训练时间11.26小时合计约97小时远少于级联NFT的148小时也少于联合训练方法的130小时左右。从收敛曲线上看多任务联合训练方法的PickScore增长曲线明显比单任务老师的训练曲线更平缓说明多任务干扰确实严重拖慢了学习速度。DiffusionOPD的曲线则从一开始就呈现出较快的爬升趋势最终稳定在0.914附近比级联NFT的0.903还高出一截。---七、消融实验哪些设计选择真的有效研究团队还通过一系列控制变量实验验证了关键设计选择的效果。第一组对比是不同的蒸馏方法。研究团队在相同的教师模型和相同的在线轨迹采样方式下分别尝试了DMD分布匹配蒸馏、TDM轨迹分布匹配、SFT有监督微调即让学生直接模仿老师生成的图片以及DiffusionOPD本身。其中SFT是离线的——用老师预先生成的图片来监督学生而不是在学生自己的轨迹上做监督。实验结果显示DiffusionOPD在GenEval、OCR和PickScore三个指标上均取得了最快的收敛速度和最高的性能上限尤其在早期训练阶段就明显领先其他方法。第二组对比是损失函数的形式。在完全相同的采样噪声水平a0.7下直接优化闭合形式KL散度与使用PPO风格策略梯度的效果进行对比。结果如理论分析所预期在相同噪声水平下闭合KL目标比PPO方法收敛更快、最终分数更高验证了减少梯度方差确实带来了实际收益。第三组对比是采样器的噪声水平。研究团队分别测试了噪声水平a等于0.7、0.5、0.3以及完全无噪声的ODE采样器相当于a0。实验结果非常清晰噪声水平越低收敛速度越快最终性能越高。使用ODE采样器无噪声的版本比噪声水平为0.7的SDE版本快出约五倍这与理论分析高度一致——噪声越小每步的KL估计越精确梯度信号越干净。这也是为什么DiffusionOPD默认使用确定性ODE采样器来进行蒸馏训练。---归根结底DiffusionOPD做的事情可以用一句话概括先让每个高手各自磨炼再让一个学徒同时跟着所有高手一起练而且学徒的练习场景完全来自自己实际操作而非照着高手的范本描摹。这种思路在实践中带来了双重收益——训练更快效果更好而且从理论上也有严格的数学支撑说明为什么这样做有效。对于普通用户而言这项研究意味着未来的AI绘图工具有望在单一模型内同时实现更准确的文字渲染、更合理的空间构图和更高的视觉美观度而不需要为每个需求单独切换不同的模型版本。当然目前这套方法的验证主要集中在512×512分辨率的SD3.5-Medium模型上能否平滑扩展到更大规模的模型和更高分辨率是一个值得进一步探索的开放问题。另外教师模型的质量上限直接决定了学生能达到的高度如何培养出更强的单任务教师同样是这一框架未来发展的重要方向。感兴趣的读者可以通过arXiv:2605.15055进一步查阅完整的论文原文。---QAQ1DiffusionOPD和普通多任务强化学习有什么本质区别A普通多任务强化学习让一个模型同时学多个任务不同任务的训练信号会互相干扰还容易偏向简单任务。DiffusionOPD先为每个任务单独训练一个专家模型再让一个统一的学生模型沿着自己的生成轨迹逐步向各专家模型靠拢。这样专家训练时互不干扰学生学习时也不需要从零摸索结果是训练更快、效果更好。Q2扩散模型训练中在线策略和离线策略有什么区别A离线策略是让老师先生成一批图片再让学生照着模仿就像临摹字帖。在线策略是让学生自己先走一遍生成过程然后老师针对学生实际走的每一步给出改进建议。DiffusionOPD用的是在线策略老师的指导始终对准学生自己实际犯错的地方因此比离线方式更有针对性收敛也更快。Q3DiffusionOPD为什么默认用ODE采样器而不是SDE采样器ASDE采样器每步都会注入额外的随机噪声导致对训练梯度的估计产生额外抖动就像在颠簸的路上开车方向不稳。ODE采样器不引入额外噪声每步的梯度信号更干净。实验表明ODE采样器比高噪声SDE采样器的训练效率高出约五倍因此被设置为默认选项。