APPO: 代理式过程策略优化 (Agentic Procedural Policy Optimization)

张

张建站

2026/6/11 17:05:06

10分钟阅读

APPO: 代理式过程策略优化 (Agentic Procedural Policy Optimization)摘要 (Abstract)最近代理式强化学习Agentic RL在提升大语言模型代理的多轮工具调用能力方面取得了显著进展。然而现有方法大多在粗粒度的启发式单元如工具调用边界或固定工作流上进行信用分配难以识别哪些中间决策对下游结果产生了关键影响。本研究从两个维度探讨代理式强化学习分支的位置where to branch以及分支后的信用分配how to assign credit。我们的初步分析表明有影响力的决策点广泛分布在整个生成的序列中而非集中在工具调用处。仅凭标记熵无法可靠反映其对最终结果的影响。基于这些发现我们提出了代理式过程策略优化Agentic Procedural Policy Optimization, APPO将分支和信用分配从粗粒度的交互单元转移到序列中细粒度的决策点。APPO 使用一种结合标记不确定性与后续延续的策略似然增益的**分支得分Branching Score, BS**来选择分支位置从而实现更精准的探索并过滤虚假的高熵位置。它进一步引入过程级优势缩放以更好地在分支 rollout 中分布信用。在 13 个基准测试上的实验表明APPO 在保持高效工具调用的同时将强代理式 RL 基线性能提升了近 4 分并保持了行为的可解释性。核心方法 (Methodology)细粒度决策点 (Fine-grained Decision Points): 与传统的粗粒度交互单元不同APPO 关注序列内部的细粒度决策点。分支得分 (Branching Score, BS):结合标记熵Token Entropy与策略似然增益Policy-induced Likelihood Gains。通过衡量当前策略相对于旧策略对后续延续的似然增益APPO 捕获了当前标记携带的“未来价值”。该方法能有效过滤掉虚假的高熵位置实现更精准的探索。过程级优势缩放 (Procedure-level Advantage Scaling): 引入基于 ΩΩ 的缩放项鼓励代理在具有高分支值的过程中进行探索以更好地在分支 rollout 中分配信用。实验设置 (Experiment Setup)数据集: 13 个具有挑战性的基准测试涵盖深度信息搜索 (Deep information seeking)知识密集型推理 (Knowledge-intensive reasoning)计算问题求解 (Computational problem solving)基线模型: 强代理式 RL 基线模型 (Strong agentic RL baselines)。结果: APPO 在多个基准测试上均取得了显著的性能提升平均提升近 4 分。结论 (Conclusion)APPO 通过细粒度的决策点分支和过程级信用分配显著提升了代理式强化学习的性能。实验表明该方法在保持计算效率的同时有效利用了过程级信息为代理训练提供了新的思路。资源与链接 (Resources Links)论文原文: [| arXiv e-print repository项目主页 (Project Page): Github (Link from abstract)

民办本科大数据专业性价比如何，值得报考吗

民办本科大数据专业性价比分析民办本科大数据专业的性价比需从就业前景、课程设置、学费成本、证书加持（如CDA数据分析师证书）等多维度综合评估。以下为详细分析：就业前景与行业需求大数据行业近年需求旺盛，但竞争激烈。民办本科毕…...

2026/6/11 16:58:10 阅读更多 →

实用浏览器插件全面解析：三步掌握网页视频音频资源提取技巧

实用浏览器插件全面解析：三步掌握网页视频音频资源提取技巧【免费下载链接】cat-catch 猫抓浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 猫抓（Cat-Catch…...

2026/6/11 16:58:05 阅读更多 →

终极OneNote迁移指南：如何用onenote-md-exporter实现无损笔记转换

终极OneNote迁移指南：如何用onenote-md-exporter实现无损笔记转换【免费下载链接】onenote-md-exporter ConsoleApp to export OneNote notebooks to Markdown formats 项目地址: https://gitcode.com/gh_mirrors/on/onenote-md-exporter 还在为OneNote笔记…...

2026/6/11 16:57:30 阅读更多 →

CSDN AI数字营销卡片配置手册（跳转权限解禁版）：官方未公开的3种合规跳转变通方案

更多请点击： https://codechina.net 第一章：CSDN AI 数字营销的引流卡片支持跳转官网、小程序链接吗？ CSDN AI 数字营销平台提供的引流卡片，是面向技术创作者与企业用户的核心转化组件，其核心能力之一即为外链跳转。目…...

2026/6/10 17:09:16 阅读更多 →

如何3分钟找回遗忘的压缩包密码：免费开源工具的终极指南

如何3分钟找回遗忘的压缩包密码：免费开源工具的终极指南【免费下载链接】ArchivePasswordTestTool 利用7zip测试压缩包的功能对加密压缩包进行自动化测试密码项目地址: https://gitcode.com/gh_mirrors/ar/ArchivePasswordTestTool 你是否曾经面对一个加密…...

2026/6/10 1:59:41 阅读更多 →

Linux桌面便签神器：Sticky如何让你的工作效率提升300%？

Linux桌面便签神器：Sticky如何让你的工作效率提升300%？ 【免费下载链接】sticky A sticky notes app for the linux desktop 项目地址: https://gitcode.com/gh_mirrors/stic/sticky 在Linux桌面上，你是否经常需要快速记录一闪而过的灵…...

2026/6/10 19:11:44 阅读更多 →

YOLO11部署优化：OpenVINO推理 | 在Intel CPU上利用OpenVINO异构推理加速，无需GPU也能实时检测

我在Intel i7-13700上实测，YOLO11n经过OpenVINO INT8量化后推理延迟从原始的92ms降至19ms，配合异构调度实现CPU+GPU双核并行后进一步压缩到11ms，无需独立GPU即可跑满30FPS实时检测写在前面：一个被低估的部署痛点过去两年，我在三个不同的工业视觉项目中遇到同样的困境—…...

2026/6/10 7:12:49 阅读更多 →