APPO: 代理式过程策略优化 (Agentic Procedural Policy Optimization)摘要 (Abstract)最近代理式强化学习Agentic RL在提升大语言模型代理的多轮工具调用能力方面取得了显著进展。然而现有方法大多在粗粒度的启发式单元如工具调用边界或固定工作流上进行信用分配难以识别哪些中间决策对下游结果产生了关键影响。本研究从两个维度探讨代理式强化学习分支的位置where to branch以及分支后的信用分配how to assign credit。我们的初步分析表明有影响力的决策点广泛分布在整个生成的序列中而非集中在工具调用处。仅凭标记熵无法可靠反映其对最终结果的影响。基于这些发现我们提出了代理式过程策略优化Agentic Procedural Policy Optimization, APPO将分支和信用分配从粗粒度的交互单元转移到序列中细粒度的决策点。APPO 使用一种结合标记不确定性与后续延续的策略似然增益的**分支得分Branching Score, BS**来选择分支位置从而实现更精准的探索并过滤虚假的高熵位置。它进一步引入过程级优势缩放以更好地在分支 rollout 中分布信用。在 13 个基准测试上的实验表明APPO 在保持高效工具调用的同时将强代理式 RL 基线性能提升了近 4 分并保持了行为的可解释性。核心方法 (Methodology)细粒度决策点 (Fine-grained Decision Points): 与传统的粗粒度交互单元不同APPO 关注序列内部的细粒度决策点。分支得分 (Branching Score, BS):结合标记熵Token Entropy与策略似然增益Policy-induced Likelihood Gains。通过衡量当前策略相对于旧策略对后续延续的似然增益APPO 捕获了当前标记携带的“未来价值”。该方法能有效过滤掉虚假的高熵位置实现更精准的探索。过程级优势缩放 (Procedure-level Advantage Scaling): 引入基于 ΩΩ 的缩放项鼓励代理在具有高分支值的过程中进行探索以更好地在分支 rollout 中分配信用。实验设置 (Experiment Setup)数据集: 13 个具有挑战性的基准测试涵盖深度信息搜索 (Deep information seeking)知识密集型推理 (Knowledge-intensive reasoning)计算问题求解 (Computational problem solving)基线模型: 强代理式 RL 基线模型 (Strong agentic RL baselines)。结果: APPO 在多个基准测试上均取得了显著的性能提升平均提升近 4 分。结论 (Conclusion)APPO 通过细粒度的决策点分支和过程级信用分配显著提升了代理式强化学习的性能。实验表明该方法在保持计算效率的同时有效利用了过程级信息为代理训练提供了新的思路。资源与链接 (Resources Links)论文原文: [| arXiv e-print repository项目主页 (Project Page): Github (Link from abstract)