字节跳动与厦门大学突破:视频AI生成速度提升6倍无损画质
这项由字节跳动与厦门大学多媒体可信感知与高效计算教育部重点实验室联合开展的研究发表于2026年5月预印本编号arXiv:2605.01725v1同时有来自德国图宾根ELLIS研究院的学者参与。感兴趣的读者可通过该编号在arXiv平台检索原文。**一、一段7秒的视频为什么要等27分钟**在手机上刷短视频只需要几秒钟但你可能不知道让AI凭空生成这段视频背后的计算量有多惊人。研究团队在论文里举了一个具体数字用当前顶尖的视频生成模型SkyReels-V2在一块专业级A800显卡上生成一段仅7秒钟、分辨率540×540的短视频需要整整27分钟。这还只是单张显卡、单个任务的情况。这27分钟是怎么花掉的理解这个问题需要先知道AI视频生成的基本原理。现代的视频生成模型本质上是一个去噪机器。它从一堆随机噪点出发一步一步把噪点擦掉最终露出一段清晰的视频。这个过程需要反复执行几十次甚至上百次每一次都要对视频里的每一帧、每一个像素点做大量数学计算。分辨率越高、视频越长计算量就越大耗时就越久。更麻烦的是现代视频生成用的神经网络结构叫做Diffusion Transformer可以理解为一个超级复杂的注意力分配器存在一个天然缺陷它在处理视频时需要让视频中的每一帧都关注其他所有帧这导致计算复杂度随视频长度呈平方级增长。视频长度翻倍计算量就变成原来的四倍。这对于需要生成几十秒甚至几分钟长视频的应用场景几乎是一道无法逾越的墙。为了绕过这道墙研究者们想出了一个聪明的方案不要一次性生成整段视频而是把视频切成一小段一小段像流水线一样逐段生成前一段的结果作为下一段的参考。这就是所谓的自回归视频生成Autoregressive Video Generation范式字节跳动的SkyReels-V2和初创公司Sand AI的MAGI-1都采用了这种框架。这样做确实把内存消耗从随视频长度平方增长压缩到了线性增长理论上可以生成无限长的视频。然而即便解决了内存问题速度问题依然严峻。逐段生成意味着每一段都要独立走完那几十步去噪流程而且段与段之间还得等待上一段完成才能开始。研究团队面临的核心挑战是有没有办法让这个去噪流水线跑得更快同时又不让生成的视频质量变差**二、偷懒的艺术缓存复用的聪明与局限**面对这个速度瓶颈学术界已经探索出一条思路既然每一步去噪的结果跟上一步差别不大那能不能偷懒直接把上一步算好的结果拿来用跳过当前这步的计算这就是特征缓存Feature Caching策略的核心逻辑。用一个日常比喻来理解厨师每天都要给同一家餐厅做招牌菜。如果菜谱今天和昨天几乎一样他完全可以把昨天炒好的底料先存着今天直接加热复用不用从头开始炒。只有当菜谱发生了明显变化他才需要重新开炉。特征缓存干的就是这件事——把中间计算结果存起来下一步需要的时候直接取用省掉重复计算。这个方向已经有一些先行者。TeaCache通过分析输入数据的变化幅度来判断当前这步要不要重新计算FlowCache则专门针对自回归视频生成的特点观察到不同段之间的去噪难度不一样靠前的段噪点多、变化大靠后的段已经相对稳定据此决定哪些段可以跳过计算。FlowCache是第一个专门为自回归视频生成量身打造的缓存方案已经是该领域的重要突破。然而这些方法都有一个共同的根本缺陷它们的决策粒度太粗了。无论是TeaCache按时间步整个去噪步骤决策还是FlowCache按视频段整段缓存或整段计算它们的逻辑都是要么全部重新算要么全部拿缓存。问题出在哪里一段视频里并不是所有区域都在动。以一个人骑自行车穿过公园这段视频为例自行车轮子、人的腿、飞速运动的树影——这些区域变化剧烈需要每一步都认真计算否则就会出现模糊、扭曲甚至形状幻觉比如人多长了一根手指。而远处的天空、静止的草坪、固定的建筑——这些区域几乎一帧一帧都没什么变化完全可以大胆地复用缓存不用浪费算力。但FlowCache这类方法的眼神不够细它只能看到整段视频的平均状态一旦决定跳过这一段的计算动态区域就跟着静态区域一起被偷懒了。这就好比那位厨师明明主菜的肉类部分需要重新烹饪但他因为配菜没变化就把整道菜都直接端出来了——主菜的口感肯定会出问题。这就是字节跳动与厦门大学这篇论文所要解决的核心矛盾**如何把缓存决策的粒度从整段视频精细到每一个像素点让动的地方精心计算、静的地方大胆偷懒****三、用数学证明哪里动了就算哪里不是拍脑袋**在动手做方案之前研究团队先做了一件很重要的事用严格的数学弄清楚跳过计算到底会引入多大的误差以及这个误差跟什么因素有关。去噪过程可以理解为一系列修正动作。在每一步模型会计算一个当前应该朝哪个方向修正的向量姑且叫它残差。当我们决定跳过这一步的计算直接用上一步存好的残差来代替误差就来自于上一步的残差和这一步真正应该有的残差之间的差距。研究团队从数学上严格推导出了这个误差的精确公式论文中的命题4.1**跳过一步计算引入的误差等于时间步长乘以真实残差与缓存残差的差值**。这个结论看起来简单却有深刻含义误差完全由残差的稳定程度决定。如果某个区域的残差从一步到下一步变化不大那就可以放心跳过如果变化很大就必须重新算。接下来的问题是残差的变化到底跟什么有关研究团队做了一系列实验来观察真实视频生成中的残差分布论文中的图2。他们发现了两个重要现象。第一个现象叫异质时间冗余性在相邻两个去噪步骤之间不同区域的残差变化幅度差异极大。大多数区域的变化很小中位数约2.078但有一些区域的变化可以高达9.878是中位数的将近五倍。这说明一刀切的整段跳过或整段计算策略都是低效的——静态区域被过度计算浪费了动态区域被跳过又损失了质量。第二个现象叫块内帧间差异性即便在同一个视频段内不同帧之间的残差变化也差异明显最大差值可以达到5.9219。这就再次否定了把一整段作为原子单元的思路——同一段里有的帧动得多有的帧动得少理应区别对待。然后研究团队继续追问既然残差变化决定了哪里该算、哪里可以跳但我们在计算之前根本不知道残差会变多少怎么办能不能找到一个简单易得的替代指标来预测残差变化这就是论文中最精妙的理论推导引理4.2**在数学上可以严格证明相邻帧之间的像素差异是残差变化量的一个上界**。也就是说两帧之间变化越大残差变化就越可能越大两帧之间几乎没变化残差变化就一定很小。这个结论的意义在于我们不需要等到模型算完才知道哪里变化大只需要看一眼相邻帧的像素差异就能预测出哪些区域的计算不可跳过。帧间差异是现成的信息计算成本几乎可以忽略不计——这就是所谓的轻量代理lightweight proxy。为了验证这个代理的实际效果研究团队做了一个排名对比实验把所有像素点按照帧间差异从大到小排列再把它们按照真实残差变化从大到小排列看两个排列有多相似。用一个叫NDCG的评分来衡量相似度满分1.0结果在整个去噪过程的50个步骤中得分始终高于0.94平均值达到0.9687论文图3。这意味着用帧间差异来预测哪里更需要计算准确率高达96%以上完全可以用于实际决策。**四、MotionCache给每个像素点单独配一个更新计划表**理论基础打牢之后研究团队提出了MotionCache方案。它的核心逻辑可以用一个差异化管理的比喻来理解公司里表现稳定的员工不需要每周开绩效会议但负责关键项目、工作变化频繁的员工则需要每天沟通进展。MotionCache就是给视频里的每一个像素点制定了个性化的沟通频率——动得多的像素高频更新静止的背景低频复用。具体来说MotionCache的工作流程分为三个环节。第一个环节是**计算运动重要性图**。对于视频段中的每一帧系统会计算它与前一帧之间的像素差异差异越大说明这个位置运动越剧烈重要性就越高。第一帧与上一视频段的最后一帧比较以保持时间连续性。唯一例外是整段视频的第一帧没有前驱帧这时就借用第二帧的重要性分数来代替这是一个工程上的实用处理。计算出原始重要性之后系统还会对每帧内部的分数做归一化处理把数值映射到一个统一的区间并设置一个兜底值α确保即便是最静止的背景也有一个最低更新频率不会被彻底冻结。这个α参数有点像给所有员工设置的最低沟通底线——就算事情不多至少也要定期打个招呼避免彻底失联。第二个环节是**重要性加权累积决策机制**。系统为视频中的每一个像素点维护一个误差累积器每过一个去噪步骤就把该步骤的总体变化量乘以这个像素点的运动重要性权重加到累积器里。高运动像素的权重接近1所以它的累积器涨得快低运动像素的权重接近α比如0.6累积器涨得慢。当某个像素点的累积器超过预设阈值τ时系统就判定这个点的误差已经积累到不能再忽视了必须重新算随即触发计算并将累积器清零。这就像一个精密的误差预算管理系统每个像素都有自己的误差账户账户余额超支就必须结算重新计算否则继续透支复用缓存。第三个环节是**粗到细双阶段推理调度**。研究团队在实践中发现视频去噪的前期和后期情况很不一样。前期去噪的最初几步就像一幅画还在草稿阶段整体结构还没定型笔触杂乱这时候如果只计算部分区域很容易导致整体构图出错。论文图3也验证了这一点——在前期运动重要性图的NDCG分数波动较大说明帧间差异作为代理的可靠性还不够高。正因如此MotionCache在前K步K是一个可调参数默认为6步执行的是全量计算策略要么这一段完全重新算要么完全复用缓存跟FlowCache一样保守但安全。等到完成了K次全量计算之后整体结构已经稳定运动重要性图也变得清晰可靠论文图6展示了这个演变过程前期的重要性图模糊弥散后期则精准地勾勒出运动物体的轮廓。从这一刻起MotionCache切换到精细模式启动前面描述的像素级差异化管理。系统只把需要更新的像素点集中起来做一次前向计算计算完毕后把结果写回缓存不需要更新的像素则直接取用缓存里存好的残差值。这样一来每次去噪步骤实际需要计算的像素数量大幅减少整体速度就显著提升了。**五、实验结果数字背后的故事**研究团队在两个顶尖的自回归视频生成模型上进行了全面评测分别是字节跳动自家的SkyReels-V213亿参数540p分辨率和Sand AI的MAGI-145亿参数蒸馏版720p分辨率。评测使用了多种指标PSNR和SSIM衡量生成视频与原版的像素级相似度LPIPS衡量人眼感知上的差异VBench-long则从十余个维度综合评估视频质量包括画面清晰度、时间连贯性、语义一致性等。在SkyReels-V2上结果相当亮眼。原始模型不做任何加速的基准延迟是1540秒。TeaCache慢速版能做到1.89倍加速但VBench从83.84%降到82.67%PSNR只有21.96TeaCache快速版加速到2.2倍但VBench骤降到80.06%PSNR更跌至18.39画质损失明显。FlowCache慢速版把速度提到了6.26倍延迟降至246秒VBench 82.70%PSNR 21.83这已经是相当不错的成绩。而MotionCache慢速版在6.28倍加速延迟245秒与FlowCache几乎相同的情况下VBench达到82.84%PSNR高达23.46SSIM达到0.9093LPIPS只有0.0875。与FlowCache慢速版相比速度相当但PSNR高出近1.6分SSIM高出约0.036LPIPS越低越好则低了约61%——这意味着MotionCache在相近速度下保留了更多视频细节人眼看到的失真感大幅降低。MotionCache快速版则达到7.26倍加速延迟212秒是所有方案中最快的且VBench仍维持在82.75%比TeaCache慢速版82.67%只有1.89倍加速还要高——换言之MotionCache最快版本的质量比TeaCache最慢版本还要好速度却快了将近4倍。在MAGI-1上情况有些不同。这个模型架构更复杂各方法整体加速幅度都比SkyReels-V2小但MotionCache依然表现最佳。TeaCache快速版加速到1.41倍时VBench从77.26%暴跌到68.81%质量损失触目惊心FlowCache快速版1.94倍加速时VBench也降到73.42%。而MotionCache慢速版在1.64倍加速下VBench维持在77.25%与原始模型基本持平仅差0.01%PSNR达到19.71远高于FlowCache慢速版的18.16。MotionCache快速版在2.07倍加速下VBench保持74.59%同样优于所有其他快速版方案。论文中还展示了一些具体的视觉案例直观呈现了这些数字背后的差异。比如在SkyReels-V2上测试一个人品尝啤酒的提示词FlowCache生成的视频里人的手出现了六根手指的解剖学幻觉在MAGI-1上测试大象平静漫步TeaCache和FlowCache都导致大象的象牙消失了而MotionCache则完整保留了这一细节。这些细节上的差异恰恰印证了动态区域需要精细计算这一核心理念。**六、调参的学问α和K设多少合适**任何方法都有需要调整的参数MotionCache也不例外。研究团队做了细致的消融实验帮助理解这两个关键参数的影响。关于兜底值α的影响实验在SkyReels-V2上把α从0.0扫到1.0间隔0.1逐一记录质量指标。结果显示出一条清晰的规律α0.0时效果最差PSNR 20.22因为静止背景区域完全没有强制更新机会背景细节逐渐劣化随着α增大质量稳步提升在α0.6时PSNR达到23.46的峰值之后继续增大α质量基本稳定在23.4~23.5之间徘徊但计算量有所上升效率下降。因此α0.6被选为默认最优值这个点恰好平衡了保护背景质量和节省计算资源两个目标。当α1.0时所有像素点的权重都变成1退化为与FlowCache逻辑相近的方案验证了这一极端情况的预期行为。关于Phase 1时长K的影响实验把K从0扫到17K17时等同于全程使用FlowCache的粗粒度策略。结果同样清晰K0时完全没有初期保护阶段PSNR只有20.79因为一开始结构就没建立稳固随着K增大质量迅速提升到K5时各项指标基本趋于稳定K6被选为默认值此后继续加大K只带来边际改善却增加了延迟。这个实验揭示了一个规律只需要约6步全量计算来奠定视频的结构底稿之后就可以放心切换到精细模式不会出现结构崩塌。**七、为什么快速版和慢速版会有两种配置**细心的读者可能注意到表格里每个方法都有slow慢速和fast快速两个版本。这两个版本的区别主要在于缓存复用的阈值设置——阈值低触发计算的频率就高质量更好但加速比低阈值高计算触发更少加速比高但可能牺牲一些质量。MotionCache-slow对应的是质量优先配置MotionCache-fast对应的是速度优先配置。两种配置都显著优于TeaCache和FlowCache的对应版本说明MotionCache的优势不只在于某个特定设置点而是在整个质量-速度权衡曲线上全面领先。归根结底MotionCache解决的是一个资源分配公平性问题。过去的方法对所有像素点一视同仁要么都计算要么都跳过。MotionCache意识到视频里不同区域天然不平等——有的区域在努力动有的区域在安静躺平——然后给它们分别制定不同的工作强度让整个系统的算力花在刀刃上。这个思路在理论上有严格的数学支撑在实践中也被大量实验所验证。对于普通用户而言这项研究的直接意义是未来在使用AI视频生成工具时生成同样质量的视频等待的时间可能从半小时缩短到几分钟或者在同样的等待时间内生成的视频分辨率更高、时长更长、细节更精准。对于视频创作者、游戏开发者、电影特效团队、甚至自动驾驶仿真数据生产这些场景这都意味着实质性的工作效率提升。这项研究也提出了一些值得继续探索的方向。目前MotionCache主要针对自回归视频生成模型能否将类似的精细化缓存思路迁移到其他视频生成架构在极端动作场景比如快速变换的舞蹈、激烈的体育运动中几乎每个像素都在高速运动MotionCache能带来多大收益这些问题都留给了未来的研究者。对于想深入了解技术细节的读者可通过arXiv编号2605.01725查阅完整论文代码也已开源在GitHub搜索ywlq/MotionCache即可找到有技术能力的读者可以直接尝试复现或在自己的项目中应用。---QAQ1MotionCache和FlowCache相比主要优势是什么AFlowCache把整段视频作为一个整体来决定算还是跳没法区分段内动态区域和静态区域。MotionCache则把决策精细到每一个像素点动的地方重新算、静的地方复用缓存。在SkyReels-V2上两者加速比相近6.26倍对6.28倍但MotionCache的PSNR高出约1.6分人眼感知失真度LPIPS降低了约61%视频细节保留更完整。Q2MotionCache的运动重要性是怎么判断的A系统会计算相邻两帧之间的像素差异差异越大的区域被认为运动越剧烈、越需要频繁更新。论文从数学上证明了帧间差异是残差变化的上界实验也验证了用帧间差异预测哪里需要计算的准确率高达96%以上NDCG评分均值0.9687。这个判断依据几乎不需要额外计算成本极低。Q3MotionCache在所有视频类型上都有效果吗A目前论文主要在标准文本生成视频场景下验证了有效性对于静态背景多的场景如海边潮水、平静走路效果尤为突出。对于几乎全帧运动的极端动态场景由于大部分像素都需要高频更新加速空间会相对缩小但方法本身依然适用只是加速比会有所降低。