好,先搞清楚问题是什么。大语言模型写代码的时候,是一个字一个字往外蹦的——这是自回归,token by token。GPU 很强,但这种串行方式让它大部分时间都在等,利用率低得可怜。以前有人想了个办法叫 Speculative Decoding:让一个小模型先快速"猜"一串 token,大模型再并行验证。猜对了就省时间。EAGLE-3 是这个方向的顶尖方案,但问题来了——它的"猜"模型也是自回归的。猜 8 个 token 要跑 8 次,成本线性增长。所以只能做得很浅(1 层 Transformer),猜不准。DFlash 发现了一个关键点:扩散模型可以做这个"猜"的工作,而且一次能猜一堆。但这里有个陷阱。如果只是随便找个扩散模型来猜,效果会很差。为什么?因为小模型不知道怎么猜——它不像大模型那样"理解"上下文。DFlash 的核心洞察很简单:the target knows best(目标模型最懂)。大模型的隐藏层里,包含了关于未来 token 的信息。不是显式的"下一个字是什么",而是隐式的、丰富的上下文。DFlash 的做法是:把这些隐藏状态抽出来,注入到小模型的每一层。不是只在输入层给点提示,而是在每一层都注入。这叫 KV Injection——把大模型的 Key 和 Value 直接塞进小模型的 KV cache 里。小模型在每个 layer 都能看到大模型的"思路"。这带来了什么变化?EAGLE-3 的问题是:信息在输入层进去,随着层数加深越来越稀释。加层数收益递减。DFlash 把信息直接注入每一