大型语言模型推理新框架:State over Tokens解析
1. 大型语言模型推理机制的新视角State over Tokens框架解析当大型语言模型LLM面对复杂问题时它们常常会生成一系列看似人类思考过程的中间文本——让我们一步步思考、因此可以得出结论等。这些被称为推理标记reasoning tokens的文本序列长期以来被研究者们以思维链Chain-of-Thought的隐喻来理解。然而最新研究表明这种理解方式可能从根本上误解了这些标记的真实功能。1.1 传统认知的局限性在传统观点中研究者倾向于将LLM生成的推理文本视为模型思考过程的可读记录。这种观点源于两个观察功能性包含推理标记的生成确实能显著提高模型在复杂任务上的表现如数学推理、逻辑问题等表象性这些标记序列在语法和语义上都符合人类可理解的推理叙述然而多项实证研究已经揭示了这种认知的缺陷。2025年Turpin等人的研究表明模型生成的推理文本常常遗漏关键计算步骤Chen等人的工作则发现LLM甚至可以在生成看似无关的推理文本的同时依然输出正确答案。这些发现迫使我们重新思考如果这些文本不是对内部计算的忠实记录那么它们究竟是什么1.2 State over Tokens框架的提出State over TokensSoT框架提供了全新的理论视角。它将推理标记重新定义为一种外部化的计算状态——在模型无状态的生成周期之间唯一持续存在的信息载体这一概念突破性地指出推理标记的本质功能不是作为人类可读的解释文本而是作为LLM维持跨计算周期连续性的状态编码机制。这与传统计算机科学中的状态概念一脉相承——就像有限状态机需要状态寄存器来维持计算连续性一样LLM通过生成的文本来实现类似功能。1.2.1 白板类比理解SoT的直观方式想象你被关在一个房间里面前有一块白板写着待解决的问题。但每10秒钟你的记忆就会被重置一次唯一能保留信息的方式就是在白板上写下内容。在这种情况下你很可能会写下中间计算结果而非完整推导过程使用只有自己理解的编码方式缩写、符号等每次重启后依靠白板上的内容继续推进解决过程这正是LLM的工作机制模型在每个生成周期约10-100毫秒后重置内部状态仅依靠已生成的文本来维持计算连续性。外部观察者人类看到的推理文本对模型而言可能只是特定状态编码的副产品。2. SoT框架的技术实现与理论基础2.1 LLM生成过程的数学描述从计算角度看LLM的生成过程可以形式化为递归应用的纯函数M(·)S₀ 用户输入 Sₖ₊₁ Sₖ ⊕ M(Sₖ)其中⊕表示拼接操作。关键特性包括状态唯一性序列Sₖ是跨周期唯一持续的信息载体计算局限性每个M(·)调用具有固定的计算容量信息编码模型自主决定如何在Sₖ中编码必要状态信息这种形式化揭示了为什么推理标记不必也通常不会忠实反映内部计算它们只需包含足够信息来驱动下一周期的计算而非记录已发生的计算过程。2.2 状态编码的实证证据多项研究支持SoT框架的核心论点研究发现研究团队对SoT的支持LLM可在推理文本中省略关键计算步骤Turpin et al. 2023状态不必完整无关推理文本仍能产生正确答案Stechly et al. 2025语义与功能解耦人类无法识别文本与计算的因果关系Levy et al. 2025编码方式不透明这些发现共同表明推理标记作为状态载体的功能与其作为自然语言文本的表象之间存在根本性分离。3. SoT框架的理论突破与认知纠偏3.1 破除两大认知误区SoT框架帮助我们识别并纠正关于LLM推理的两个常见误解3.1.1 完整性误区错误认知推理文本完整记录了模型的思考过程 SoT观点文本仅包含驱动下一周期所需的最小状态信息典型案例Catalan数计算 当LLM生成序列1,1,2,5,14来计算第6个Catalan数时这些数字是计算42的必要中间结果但它们既不反映具体的递归计算步骤也不排除存在未表达的并行计算3.1.2 共享语义误区错误认知模型以人类相同方式理解文本语义 SoT观点模型可能使用完全不同的编码方案典型案例数值偏移编码 假设模型使用原始值10的编码方案人类看到11,11,12,15,24,52模型实际处理1,1,2,5,14,42 这表明表面语义可能与实际功能完全脱节3.2 本体论分歧文本与状态的双重性SoT揭示了一个前所未有的现象同一符号序列同时作为自然语言文本遵循语法语义规则的人类交流媒介计算状态机器内部的过程驱动机制这种双重性不同于传统的多义性或隐喻而是根本不同的本体论范畴共存于同一物理载体。这解释了为什么推理标记能有效驱动正确推理作为状态同时不必是可信的解释作为文本4. SoT框架的研究启示与应用前景4.1 对可解释性研究的影响传统解释方法聚焦于内部机制分析如注意力模式特征归因如显著性分析SoT提出了新研究方向状态解码破解LLM如何在token中编码状态信息状态动力学信息如何在序列中传播和演化状态-计算映射特定状态如何引导后续计算初步工作如Bogdan等人的思维锚点研究已经开始探索哪些token对最终答案最关键。4.2 自然语言作为计算媒介的特殊性SoT引发了一个深刻问题为什么自然语言能有效作为状态编码媒介可能原因包括预训练诱导的归纳偏差语言结构天然适合渐进式状态更新高表达效率自然语言的压缩表征能力双重功能同时满足计算需求和人类可读性对比研究Hao et al. 2025显示替代编码方案如连续向量在某些任务上表现相当但自然语言在复杂推理中仍具优势。4.3 可信解释的可能性边界SoT框架尖锐地提出了一个根本限制同一token序列能否同时作为高效计算状态对机器最优作为透明解释文本对人类可读这种双重需求形成了本质性张力可能从根本上限制了忠实解释的可能性。未来的解释方法可能需要接受部分解释如关键决策点开发专门的解释生成模块与计算状态分离建立新的解释评估标准超越语义合理性5. 实践启示与未来方向5.1 对LLM应用开发的指导基于SoT框架开发者应当谨慎对待推理文本的解释性声明设计验证机制确认模型实际推理路径考虑专门的可解释性模块与主模型分离5.2 新兴研究课题SoT开辟了多个前沿方向状态压缩与优化如何最有效地编码状态信息跨模型状态兼容性不同LLM是否能互读状态状态操纵技术通过编辑token序列引导推理5.3 隐喻体系的更新传统隐喻如思维链需要被更准确的表述替代从链式思考到状态传递从草稿纸到寄存器从解释到状态轨迹这种概念更新将帮助研究社区更准确地理解和描述LLM的推理机制。在实际应用中我发现SoT视角能有效避免对模型输出的过度解读。例如当医疗诊断LLM生成考虑患者年龄因素...这类文本时专业人士现在会明白这可能是状态编码的副产品而非模型实际考虑了年龄因素的证据。这种认知转变对高风险领域的LLM应用尤为重要。