26年4月来自小鹏汽车的论文“X-Cache: Cross-Chunk Block Caching for Few-Step Autoregressive World Models Inference”。实时世界模拟正成为自动驾驶系统可扩展评估与在线强化学习的关键基础设施。近期基于自回归视频扩散技术的驾驶世界模型虽能实现高保真且可控的多视角多相机图像生成但其推理成本仍是交互式部署的瓶颈。现有的扩散模型缓存方法主要针对包含多次去噪步骤的离线视频生成场景难以直接应用于此类实时交互场景。少-步蒸馏模型几乎消除步骤间的冗余使得传统缓存方法无从复用而序列级并行技术通常依赖于未来的条件信息这在闭环交互式生成中无法获取。为此X-Cache是一种无需额外训练的加速方法其缓存策略基于不同维度即在连续的生成片段chunk之间而非去噪步骤之间进行缓存。X-Cache 维护跨分块持久存在的“逐块残差缓存”并利用一种基于结构-与动作-觉察的“块-输入指纹”及双重指标门控机制独立决定每个计算块是重新计算还是复用缓存的残差。为防止近似误差永久污染自回归 KV 缓存X-Cache 识别出 KV 更新块即负责将干净的KV对写入持久缓存的前向传播步骤并强制对这些块进行完整计算从而切断误差传播链。在 X-world 上实现 X-Cache这是一个基于多块因果 DiTDiffusion Transformer、采用少步去噪与滚动 KV 缓存机制的产品级多视角动作条件驾驶世界模型。生成式世界模型正逐渐成为自动驾驶领域的关键基础设施。通过结合自车动作ego actions与传感器历史数据这些模型能够生成逼真的未来观测结果从而实现两种仅靠现实世界测试难以达成的能力端到端驾驶策略的可扩展闭环评估以及在线强化学习即策略在可控且可重复的环境中探索反事实机动行为[21, 15, 10]。在这两种场景下世界模型都必须充当交互式模拟器的角色在长时程的推演过程中实时生成观测结果、接收动作指令并做出响应。自回归视频扩散模型 [19, 9, 1, 3] 已成为此类模拟器极具吸引力的核心架构。与同时生成完整视频片段的双向视频扩散模型不同自回归模型利用因果注意机制causal attention逐片段生成视频即每个新片段的生成仅依赖于先前生成的内容。这种具有因果性和流处理特性的结构天然支持交互式模拟因为模型无需等待完整片段生成完毕即可对每一个新输入的动作做出响应。结合能够将内存占用限制在固定范围内的持久化KV缓存技术 [8, 9, 21]这些模型实现了稳定且长度不受限的生成能力。为了满足吞吐量需求它们通常被进一步蒸馏为少步去噪方案 [18, 19, 9]。本文致力于加速应用于交互式闭环世界模拟场景中少步自回归视频扩散模型的推理过程。一系列新兴的无需训练的缓存方法 [12, 4, 11, 5] 通过在扩散TransformerDiT[14] 的相邻去噪步骤间复用模块输出来加速扩散推理由于步骤间的结构变化通常微乎其微 [5, 11]这种复用策略往往行之有效。近期针对自回归视频模型的扩展研究也沿用这种跨步骤设计思路例如FlowCache [13] 采用分片段缓存策略而 SCOPE [6] 则结合三模态调度与沿去噪轨迹的预测外推技术。然而此类策略并不适用于实时交互式世界模拟所需的少步推理场景。在仅有四个去噪步骤的情况下这些方法所依赖的跨步骤相似性会大幅降低。每一步都会产生大量且非冗余的结构性更新这使得安全重用的空间十分有限。FlowCache 和 SCOPE 均受限于此它们都建立在“跨步骤冗余”的假设之上且仅在多步调度many-step schedules场景下进行评估。若要突破“少步few-step”这一瓶颈加速交互式世界模拟会面临两大结构性难题。首先许多无需训练的缓存方法 [11, 7, 6, 13] 依赖于在“局部平滑性假设”下对缓存的特征轨迹进行外推。在交互式模拟中外部策略输出的动作流按数据块划分在块边界处本质上是不平滑的离散的制动、转向或变道指令通过 adaLN-Zero 模块进入每个 DiT 块因此平滑性假设恰好在块边界处失效——而这正是世界模型需要响应新控制输入的关键时刻。其次交互式模拟特有的生成循环引入严格的因果依赖世界模型必须等待外部策略观察到当前数据块的完整生成结果并输出相应动作后才能开始下一步生成。这种顺序依赖性排除序列级并行技术如 Block Cascading [2]的应用因为后者依赖于预先获知未来条件以同时解码多个数据块因此所有加速手段都必须局限在当前的生成边界内。尽管存在上述局限少步自回归世界模型在另一个维度上表现出显著的冗余性即跨连续生成步骤的冗余而非跨去噪步骤的冗余。在自动驾驶场景中相对于生成速率场景演变较为缓慢因此物理世界在相邻数据块之间呈现连续且平滑的变化。这意味着在连续的生成过程中处于相同位置即对应相同的去噪步骤和 DiT 块的输入数据高度相似。这种跨数据块的冗余源于物理场景的连续性而非去噪轨迹上的邻近性因此它能够保留下来而不像跨步骤冗余那样在少步蒸馏过程中被消除。基于这一观察提出 X-Cache这是一种无需训练的块级缓存方法旨在利用跨数据块冗余来加速少步自回归世界模型的推理过程。如图 1 所示X-Cashe和基线方法的比较1 预备知识自回归AR视频扩散推理设 n 为生成步骤索引即视频的第 n 个分块t ∈ {0, . . . , S−1} 为块内的去噪步骤索引b ∈ {0, . . . , B−1} 为 DiT 模块索引。在生成步骤 n 中块的潜表示latent首先由高斯噪声初始化随后经过 S 个去噪步骤进行迭代细化在每个去噪步骤中数据需依次通过全部 B 个 DiT 模块。当块 n 的所有 S 个去噪步骤完成后模型执行一次 KV 更新操作利用已完全去噪即“干净”的潜表示再次通过所有模块进行一次前向传播计算KV投影这些投影将被追加到持久化 KV 缓存中以便在后续块的生成过程中通过交叉注意机制提供条件信息。在滚动式 KV 缓存实现中当缓存达到容量上限时最旧的条目将遵循先进先出FIFO原则被移除。2 跨块残差缓存X-cache的总体架构如图 2 所示关键观察在针对物理连续环境尤其是自动驾驶场景的自回归AR视频生成中连续片段所描绘的场景相对于生成速率而言变化平滑。因此位于位置 (t, b) 的块输入 x(n)_t,b-1 与上一生成步骤中同一位置的输入 x(n-1)_t,b-1 高度相似。这种跨块冗余性与去噪步数 S 无关即使在进行激进的少步蒸馏例如 S4时依然存在这与跨步冗余性不同后者会随着 S 的减小而减弱。缓存机制当块 b 在生成步骤 n 和去噪步骤 t 完成计算后会缓存其残差。在下一个生成步骤 n1 中如果门控机制判定可以跳过去噪步骤 t 处的块 b便通过“加法复用”来近似其输出。缓存的残差通过 (t, b) 这一对索引进行标识从而确保复用发生在去噪轨迹中相匹配的位置之间。初始化对于第一个生成步骤n 0不存在缓存的残差。在此预热阶段步数 W ≥ 1可配置所有块都会进行完整计算从而为每一对 (t, b) 填充缓存。3 双重指标门控机制预热阶段结束后X-Cache 会评估是否可以安全地跳过某个块。评估依据是双重指标相似度测试该测试比较当前的输入指纹与上一生成步骤中同一 (t, b) 位置的缓存指纹。指纹fingerprints每个块的输入 x(n)_{t,b−1} 的形状为 B×V×L×C其中 V 是视图组view group中的摄像机数量而 token 轴 L 是展平后的时空网格 (F_g×H_g×W_g)。直接比较每个 (t, b) 处的完整张量计算成本过高而沿 L 轴进行均匀的一维子采样则会导致对帧和空间位置的覆盖不均匀。因此本文转而在三维网格上进行子采样给定 K 个 token 的目标预算根据网格的纵横比按比例分配三个轴k_F : k_H : k_W ≈ F_g : H_g : W_g且 k_Fk_Hk_W ≈ K在每个轴上选取均匀间隔的索引并利用它们的笛卡尔积对 x 进行索引从而得到形状为 B × V × (k_Fk_Hk_W) × C 的紧凑指纹 φ(x)设定 K32。对于 L≤K 的块保留完整的 x如果运行时无法获取网格形状则回退到沿 L 轴进行一维线性采样linspace。指纹是按视图组独立计算的在多摄像机设置中七个摄像机根据共享的网格形状构成三个视图组前、侧、后组内摄像机沿 V 轴堆叠并共享同一个组级指纹。辅助通道由于指纹 φ(x) 是稀疏的且仅依赖于块输入引入两个低成本的辅助信号来弥补盲区• 全局通道块输入的视图组级序列均值通过沿 token 轴求平均值获得。它能捕捉到稀疏空间采样可能遗漏的整体潜漂移bulk latent drift。• 条件通道Condition channel由 adaLN-Zero 模块使用的“每分块动作向量”per-chunk action vector会被展平并作为额外的指纹条目附加进来。该向量的形状是固定的由动作维度和每分块帧数决定且每生成一次仅变化一次因此带来的额外开销微乎其微。将其纳入考量使得输入相似度指标能够直接响应逐步控制操作——否则这些操作只能通过 Block-0 的级联cascade过程进行传播。其他条件信号如通过交叉注意机制注入的动态物体和车道嵌入以及文本信息在不同分块间具有可变的填充长度且变化时间尺度较慢。在计算指标之前所有指纹条目均会被展平。指标 1余弦相似度反映全局方向指标 2最大 Token 偏差反映局部异常值跳过决策当且仅当两个指标均通过判定时才会跳过去噪步骤 t 中的 Block b这种保守的聚合方式即取所有指纹条目的最小余弦相似度以及空间视图组中的最大偏差确保了无论是单个视图组、全局摘要还是动作条件通道中出现的异常变化都能触发重新计算。4 自适应阈值X-Cache 不使用固定的余弦相似度阈值而是根据 Block 自身的历史数据学习每个位置特有的阈值。对于每个 (t, b) 位置维护一个观测的余弦相似度指数移动平均值EMA并在每次对 (t, b) 进行测试评估时更新该值α 0.3。那些跨分块相似度持续较高的 Block 会积累较高的 EMA 值其阈值会稳定在略低于典型相似度的水平从而最大化跳过次数。而相似度波动较大的 Block 则保持保守的阈值设定。质量底线quality floor机制提供一种独立于历史数据的绝对安全保障。5 安全机制条件可见性差异Condition visibility gap外部条件信号是注入到每个 DiT Block 内部的而非直接注入到 Block 的输入 x 中。因此空间指纹 φ(x) 无法直接反映条件的变化。动作条件通道将动作向量映射到指纹空间从而弥补针对逐步控制操作的这一感知缺失。动态物体和车道的嵌入embeddings在不同数据块chunks间具有可变的填充长度且变化的时间尺度较慢因此直接将其纳入指纹既无法保证形状稳定性也不具备成本效益它们与文本条件一道改由以下机制进行处理去噪步骤 0 保护在 t 0 时输入潜变量latent主要由高层噪声主导且条件信号对模块输出的影响力相对最大。此外噪声会在每个 KV 更新周期重新采样且来自前一个数据块chunk输出的新上下文信息会被嵌入到带噪输入中因此连续生成的样本在 t 0 时自然表现出较低的余弦相似度。默认情况下X-Cache 强制在 t 0 时进行全量计算。一种可选的松弛模式采用严格阈值 τ_strict 0.999接近 1即使潜变量发生微小变化相似度也会降至 0.999 以下从而有效保护步骤 0。一旦步骤 0 基于更新后的条件完成计算其输出会逐级传递至后续步骤由于每个模块的输入都源自前一步骤的输出因此指纹会偏离缓存版本并在必要时触发重新计算。锚定模块 (Fn)前 F_n 个模块在所有去噪步骤中均进行无条件计算默认 F_n 1。当 F_n 1 时模块 0 始终通过 adaLN-Zero 处理当前的条件信息其变化的输出会通过后续模块的指纹逐级传递。这提供了一种独立于步骤 0 保护机制之外的逐步保障。最后 B_n 个模块同样可被指定为尾部锚定模块默认 B_n 0。KV 更新帧保护用于 KV 更新过程的“干净潜变量”所在的生成步骤至关重要因为该步骤生成的 KV 投影会被后续所有数据块所关注。在此生成过程中X-Cache 进入强制计算模式所有模块均进行全量计算同时保持缓存连接状态以便刷新指纹和残差供下一次生成使用。这既确保 (a) KV 条目的精确性又保证 (b) 后续生成从最新的缓存数据开始从而避免连续出现“重负载帧”带来的性能损耗。最大陈旧度系统使用计数器跟踪每个 (t, b) 位置的连续跳过次数。若次数超过阈值 M该模块将被强制重新计算。设置硬件。所有的实验都在阿里巴巴T-Head开发的人工智能加速器真武810E上运行。在本文的其余部分中该设备称为并行处理单元 (PPU)。每个 PPU 集成 96 GB HBM2e 片上内存并原生支持带硬件加速的 FP16、BF16 和 INT8。实验中所有 DiT 前向传递均在单个 PPU 上的 BF16 中执行。实验模型。对 X-World [21] 进行评估这是一种基于 WAN 2.2 [17] 构建用于自动驾驶的、可控的、以自我为中心的多摄像头世界模型。 X-World 遵循潜视频扩散范例将因果 VAE 与 DiT 降噪器相结合从七个摄像头以 12 FPS 生成同步 360° 视频。在流式自回归推出期间它逐块生成视频块每个块从高斯噪声开始运行 4 步去噪并通过 FIFO 逐出更新固定大小的滚动 KV 缓存以支持有限内存下的长范围模拟。数据集。对从 X-World 训练分布中提取的内部保留测试分割进行评估该测试分割在 X-World 设计的交互式闭环推理协议下执行。在每个生成块中因果 DiT 仅关注初始 7 摄像机历史记录的一帧、单独应用于该块的条件自车动作状态、动态智体姿势、静态道路元素注释、场景级文本标题以及过去块的滚动 KV 缓存因果结构禁止对未来的调节进行任何预见。模型事先并不知道每个块的操作它们从记录的轨迹一次重播一个块因此每次运行都是可重现的从 DiT 的角度来看这与实时策略流没有区别。每个剪辑都会生成未来多机位视频的 264 帧12 FPS 下约 22 秒在推出期间不提供每帧视觉真值。该划分涵盖三个场景组7 个周围交通、行人和店面密集的城市街道片段 3个高速公路剪辑覆盖城市高架环线和普通高速公路以及 3 个城市掉头片段其中自车执行急剧的航向变化并且连续的块在视图中变化最大。用 u 形转弯组对分割中最大跨块运动下的选通假设进行压力测试。指标。由于 X-Cache 仅修改 DiT 降噪器因此仅评估直接反映其降噪效果的指标。在任何报告的数字中不包括 VAE 编码或解码、数据加载、后处理或​​设备间传输。在计算方面报告块跳过率定义为在推出期间重用缓存残差的 DiT 块评估的分数不包括预热块。还展示这种跳跃率如何随着去噪步骤和块索引的变化而变化。为了提高效率报告单个 PPU 上每个块的平均 DiT 挂钟时间以及相对于具有相同种子、调节和 KV 状态的完整计算运行所得到的 DiT 加速。为了保真度将每个 X-Cache 部署与其相应的全计算参考部署进行比较。因为两个分支共享相同的解码器所以任何差异仅来自 DiT 端。报告解码图像的三个帧级指标对所有七个相机进行平均PSNR 用于像素级保真度SSIM 用于结构保真度LPIPS [20] 用于深层特征的感知保真度。默认参数。除非另有说明X-Cache 使用表 1 中给出的默认超参运行。