再读Agentic RL经典综述，讲清楚从LLM RL到Agent RL的演进及生态

张

张建站

2026/4/29 18:26:49

10分钟阅读

再读Agentic RL经典综述，讲清楚从LLM RL到Agent RL的演进及生态

该综述去年发布梳理了大语言模型LLM 智能体Agent 强化学习RL交叉领域的全景综述。文章整合了全球 500 项最新研究今年4月又增加了不少新的工作。一、背景传统 LLM-RLRLHF/DPO 等把大模型当作静态、单步、被动的文本生成器重点优化输出是否符合偏好用来对齐用。Agentic RL 把大模型当作动态、连续自主的决策智能体用强化学习优化完整交互与决策能力全文结构二、从 LLM RL 到 Agentic RL 范式演进综述在理论上的最大贡献是将大模型对齐的底层数学模型从**马尔可夫决策过程MDP**演进至**时序扩展的部分可观测马尔可夫决策过程POMDP。从而来说明LLM RL到Agentic RL的演进过程。从 LLM RL 到 Agentic RL 的范式转变。扇形设计体现了 RL 表述的向外扩展——从传统 RL内层到 LLM RL再到完整的 Agentic RL外层。颜色编码区域表示红色 LLM RL 特有功能蓝绿色 AgenticRL 所需功能紫色现有 Agentic RL 实现。箭头向外指表示在迈向更具智能体特性的设置时交互广度工具使用、网页浏览、动态环境不断增加2.1传统偏好强化学习PBRFT / RLHF单步MDP范式传统RLHF可以建模为一个单步马尔可夫决策过程Single-step MDP其形式定义为状态空间仅包含由用户初始提示prompt定义的单一静态状态整个交互过程中状态不发生变化。动作空间模型的唯一动作是生成一段完整的文本序列。转移动态模型生成回应后交互过程立即终止时间跨度固定为属于典型的单步决策问题。奖励函数奖励是对整段生成文本的一次性标量评估通常由预先训练好的奖励模型给出仅在对话结束时提供一次反馈。学习目标优化目标为最大化单步期望奖励PBRFT的逻辑就像做一道“一次性选择题”给定题干prompt模型直接输出完整答案生成文本随后获得一个最终分数reward整个过程只有一步决策。2.2智能体强化学习Agentic RL长程POMDP范式Agentic RL的场景复杂度显著提升需建模为部分可观测马尔可夫决策过程POMDP其形式定义为状态空间与观测模型环境状态随交互动态演化且智能体无法直接观测完整状态只能通过观测模型获取部分信息属于典型的“部分可观测”场景。动作空间采用混合式动作空间覆盖文本与工具交互两类行为生成自然语言文本用于推理、表达与交互执行结构化动作如调用API、使用工具、与虚拟/物理环境交互。转移动态环境根据智能体的动作随机转移到下一状态时间跨度支持多步长时序交互。奖励函数采用分层奖励设计既包含任务完成时的稀疏终局奖励也包含基于中间步骤进度的稠密反馈奖励解决长程任务的信用分配难题。学习目标优化目标为最大化长程折扣累积奖励引导模型兼顾短期行为有效性与长期任务目标2.3传统 PBRFTRLHF/DPO和Agentic RL详细对比维度传统 PBRFTRLHF/DPOAgentic RL决策过程退化单步 MDP时序扩展 POMDP观测完全可观测部分可观测动作仅文本生成文本工具 / 环境操作奖励单步最终奖励稠密步骤奖励最终奖励优化目标定位被动生成文本自主决策智能体三、主流算法体系为实现上述 POMDP 目标的求解当前 Agentic RL 演化出三大主流算法谱系1. PPO 系列机制通过 Actor-Critic 架构进行在线策略梯度更新是目前最通用的对齐算法衍生如 VinePPO, LitePPO。目标函数其中优势函数。2. DPO 系列机制将强化学习问题转化为监督学习中的分类问题无需训练独立的奖励模型RM简单高效衍生如 SimPO, IPO, Step-DPO。目标函数3. GRPO 系列机制放弃了传统 PPO 中与 Actor 同等规模的 Critic价值网络。针对同一个输入 Prompt问题模型一次性采样个不同的输出轨迹组通过计算这组轨迹的相对得分来更新策略。极大地节省了显存少加载一个千亿参数模型是当前大模型 RL如 DeepSeek-R1的绝对主流。目标函数 GRPO 的目标是最大化以下目标函数组采样Group Sampling 表示对于同一个问题旧策略生成了个不同的回答例如或。重要性采样比Ratio用于评估新旧策略的差异。组内相对优势Group Advantage。不需要价值网络来预测直接用这个回答的真实奖励Reward进行标准化*(得分高于组内平均值的轨迹优势为正鼓励生成低于平均的为负抑制生成)*。PPO 截断机制Clipping 继承自 PPO防止单次参数更新步子迈得太大导致模型崩溃。KL 散度惩罚KL Penalty。强制当前训练的模型不要偏离初始参考模型太远防止模型为了刷高分而输出乱码Reward Hacking。PPO、DPO 与 GRPO 系列主流变体的对比。Clip 指将策略比值限制在 1 附近防止其变动过大从而保证更新稳定KLpenalty 指对学习策略与参考策略之间的 KL 散度施加惩罚以确保对齐四、RL 赋能的六大智能体能力LLM Agent–环境交互与 RL 循环面向智能体 LLM 的智能体–环境交互与 RL 循环。核心智能体能力驱动动作生成环境提供反馈与奖励这些通过基于 RL 的优化在多样化任务域中聚合“Collab.”表示需要显式任务划分与多智能体协调的任务1.规划Planning规划是智能体为达成长期目标对未来动作、推理步骤、工具调用序列进行预结构化与序贯决策的能力是智能体从“被动响应”走向“主动控制”的核心标志。强化学习的核心作用RL 将规划从固定提示、静态分解、无反馈升级为可学习、可自适应、可随环境优化的策略解决传统方法无法适应动态环境、无法从失败中修正规划的问题。两大范式1RL 作为外部引导External Guide机制不直接微调LLM参数而是训练价值网络/启发式函数指导MCTS等搜索算法选择高价值规划路径。核心逻辑LLM负责生成候选动作RL负责评估与引导搜索。典型工作RAP将推理视为世界模型规划用RL价值函数指导MCTS。LATS语言智能体树搜索融合思考、行动、反思与RL价值评估。Planning without Search离线RL训练语言价值裁判零参数更新增强规划。优势不破坏LLM原有生成能力即插即用。2RL 作为内部驱动Internal Driver机制直接将LLM视为策略网络通过与环境交互端到端微调让规划能力内化为模型行为。核心逻辑规划不再是单纯的prompt而是LLM在交互中习得的内在策略。典型工作VOYAGER具身智能体中用RL终身学习规划与技能库。ETO、AdaPlan用DPO/RL优化长程任务规划。Planner-R1用过程奖励强化规划步骤提升小模型规划能力。优势完全自主、动态适应、可长期自我改进。结论传统规划固定prompt分解、无反馈、不可学习。Agentic RL 规划价值引导策略学习实现动态、自适应、长程、鲁棒的序贯决策。2.工具使用Tool Using工具使用是智能体在推理过程中自主调用外部模块检索、计算器、浏览器、代码解释器、API等扩展能力的行为是LLM突破知识边界的关键。智能体工具使用的发展强化学习的核心作用RL让工具使用从模仿、固定模式、不可泛化升级为战略级自主决策实现“何时用、用什么、如何组合、如何从错误恢复”。三阶段演进1早期ReAct 式提示范式无RL代表ReAct模式Think → Act → Observe局限纯上下文学习、不可学习、无法泛化新工具。2中期监督微调 SFT无RL代表Toolformer、AgentTuning、FireAct模式学习固定工具调用格式局限静态复制、无法处理异常、不会动态决策。3高阶RL 驱动工具集成推理 TIRAgentic RL 核心定义Tool-integrated Reasoning工具调用与认知推理深度融合。RL 机制优化工具调用时机、选择、顺序、组合、错误恢复。用过程奖励最终奖励进行长程信用分配。典型工作ToolRL从零直接用RL学习工具策略。ReTool长程工具链规划。GiGPO、SpaRL步级优势估计解决信用分配难题。OpenAI o3、Kimi K2工业级TIR系统。优势自适应、鲁棒、可处理复杂多工具协同。区别传统工具使用模仿学习、静态格式、被动触发。Agentic RL 工具使用自主策略、动态调度、长程规划、错误恢复真正实现工具增强智能。3.记忆Memory记忆是智能体对历史信息、对话、知识、经验进行存储、检索、更新、遗忘与管理的能力是长时程交互的基础。三类经典智能体Memory方案强化学习的核心作用RL让记忆从被动存储、固定规则、启发式检索升级为可学习、可控制、可优化的主动管理系统。三大技术路线1.RAG 风格记忆 RL机制RL控制检索时机、写入策略、摘要粒度、重排排序。代表Memory-R1、Prospect、Mem-α能力学习何时查、查什么、如何整合记忆。2.Token 级记忆 RL显式记忆TokenMemAgent、MEM1、Memory TokenRL决策保留/覆盖哪些自然语言Token。隐式记忆TokenMemoryLLM、M、MemGen可微记忆向量RL端到端优化读写。3.结构化记忆 RL前沿方向形态时序知识图谱、层级图、原子记忆单元代表Zep、G-Memory、A-MEM、Mem0未来方向RL自动控制图谱增删改查尚未充分探索。对比传统记忆静态存储、规则检索、无自适应。Agentic RL 记忆RL驱动全生命周期管理包括写入、检索、更新、遗忘、压缩、扩展。4.自我改进Self-Improving智能体通过反思、纠错、迭代、自博弈、自训练持续提升自身策略、推理与规划的能力是通用智能的核心标志。强化学习的核心作用RL让自我改进从一次性语言反思升级为可固化、可迭代、可无限进化的内在能力。三层进化体系1语言自我纠正非参数、无梯度机制生成→评判→改写纯文本反馈。代表Reflexion、Self-Refine、CRITIC、Chain-of-Verification局限改进不持久、不内化到参数。2内化自我纠正参数化 RL机制用DPO/GRPO/RPO将反思能力固化到模型权重。代表Reflection-DPO、KnowSelf、DuPo优势反思成为模型固有行为跨任务泛化。3迭代自我训练最高阶、无上限进化机制自创任务、自博弈、自验证、RL迭代。代表Absolute Zero无人类数据自对弈。R-ZeroMCTSRL自主推演。Sirius、MALT集体自举进化。优势完全自主、脱离数据、无限进化。结论传统自我改进临时纠错、不可迁移。Agentic RL 自我改进反思→参数固化→自博弈迭代实现真正自主智能体进化。5.推理Reasoning推理是智能体对问题进行逻辑推断、多步演绎、验证与反思的能力综述采用双系统理论快思考 vs 慢思考。强化学习的核心作用RL解决快思考易幻觉、慢思考效率低的问题实现自适应思考长度并激励严谨、可信、长程推理。双系统 RL1快推理System 1直觉、快速、一步到位缺陷易幻觉、浅推理RL作用学习置信度、拒绝不确定问题。2慢推理System 2多步、结构化、验证式、长思维链RL作用激励思考延长步骤监督过程奖励自我修正代表DeepSeek-R1、OpenAI o1/o3、GRPO、ReflexionAgentic RL 推理创新自适应思考根据难度自动选择快慢思考。过程奖励解决长推理信用分配难题。可验证奖励基于执行/符号检验降低幻觉。结论传统推理固定长度、单步生成、不可控。Agentic RL 推理快慢协同、自适应思考、过程监督、自我修正。6.感知Perception感知是智能体获取并理解多模态信息图像、视频、音频、状态的能力从“被动看图”升级为“主动视觉认知”。强化学习的核心作用RL让感知从被动特征提取升级为主动感知、交互式查询、聚焦式理解。三大主动感知范式1定位驱动感知机制推理步骤绑定图像区域反复查询、聚焦、验证。代表GRIT、Ground-R1、DeepEyes、Chain-of-Focus能力看哪里、聚焦哪里、回看哪里。2工具驱动感知机制调用视觉工具检测、分割、编辑、绘制辅助认知。代表VisTA、VTool-R1、Visual-ARFT、Pixel-Reasoner能力用工具“增强眼睛”。3生成驱动感知机制在推理中生成草图、想象图像辅助逻辑推理。代表Visual Planning、GoT-R1、T2I-R1能力用想象力辅助感知与推理。多模态扩展视觉Vision-R1、VLM-R1、Visual-RFT音频RL优化TTS与音频问答3D感知3D空间推理与RL奖励塑形结论传统感知被动输入、一次性编码、无交互。Agentic RL 感知主动看、聚焦看、反复看、用工具看、用想象看。RL 如何在六大核心能力上赋能智能体 LLM 的概览。中央面板汇总能力分类侧面板展示代表性 RL 机制与交互模式。能力传统方式无RLAgentic RL 方式核心升级规划固定Prompt分解外部价值引导内部策略学习动态自适应、长程鲁棒工具使用ReAct/SFT静态模仿工具集成推理TIR、自主策略战略调用、错误恢复记忆规则检索、被动存储RL全生命周期主动管理读写优化、自适应遗忘自我改进临时语言反思内化纠错自博弈迭代永久进化、无上限推理固定长度单步生成快慢双系统自适应思考低幻觉、强严谨感知被动看图主动定位工具想象交互式、多步认知五、应用领域Agentic RL 已落地高验证性、高交互性任务search / deep research agent自主联网检索、深度报告OpenAI Deep Research、Search-R1代码智能体生成、调试、软件工程SWE-Bench、DeepSWE、Qwen3-Coder数学智能体非形式推理形式定理证明DeepSeek-Prover、rStar2-AgentGUI 智能体手机 / 电脑 / 网页自动操作WebArena、OSWorld、UI-R1视觉智能体多模态主动感知与推理具身智能体机器人导航与操控Voyager多智能体系统协作 / 博弈 / 分工MAGRPO、MAPoRL其他文本游戏、时序预测、Text-to-SQ面向领域智能体的强化学习演化树基于强化学习的search agent与research agent方法汇总面向代码与软件工程智能体的强化学习方法汇总面向数学推理智能体的强化学习方法汇总按训练范式和环境复杂度分类的 GUI 智能体方法汇总基于 LLM 的多智能体系统中强化学习与演化范式汇总。“Dynamic”表示该多智能体系统是否为任务动态即是否以不同配置智能体数量、拓扑结构、推理深度、提示词等处理不同任务查询。“Train”表示该方法是否对智能体的 LLM 主干进行训练面向智能体强化学习的环境与基准概览按智能体能力、任务领域及模态分类。智能体能力以如下符号表示推理、规划、工具使用、记忆、协作、自我改进按类型与关键特征分类的强化学习框架汇总六、核心结论、挑战与未来方向1. 主要发现Scaling 规律加大 RL 训练阶段的计算量Test-time Compute / RL Scaling Law可系统性提升智能体能力。充分 RL 训练的小模型可匹敌大模型。奖励的关键性纯 RL 的后训练可能损害事实性而将 SFT 与可验证奖励的 RL 过程相结合的结构化方法则可缓解这种退化。可验证、密集过程奖励”Process-based rewards如 FSPO对智能体的每一步推理进行事实性验证从而直接惩罚不真实的中间步骤。这类的的奖励设计是 Agentic RL 成功的关键因素。2. 当前核心挑战可信度危机RL 容易引发Reward Hacking、幻觉放大以及Sycophancy行为(LLM在有ground truth的情况下为迎合用户显性表达的信念而偏离事实的行为)。规模化瓶颈长序列多步采样的计算成本极高模型在强化学习过程中容易出现熵坍缩Entropy Collapse)策略Policy的熵值Entropy急剧下降导致策略的随机性显著降低智能体过早放弃探索陷入局部最优环境局限当前多为静态模拟器缺乏能与智能体协同进化的动态自适应训练环境。3. 未来研究方向可信智能体内嵌安全护栏、基于事实的奖励模型设计。高效训练算法低算力消耗、小数据依赖、跨任务迁移的轻量级 RL 算法。元学习Meta-Learning让智能体在 RL 过程中学会“如何学习”与“如何反思”。真实世界部署建立“Human-in-the-loop”、分层编排与标准化的多智能体通信协议。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

Gemma-4-26B-A4B-it-GGUF部署案例：从ss -tlnp端口监听验证到supervisorctl status状态确认

Gemma-4-26B-A4B-it-GGUF部署案例：从ss -tlnp端口监听验证到supervisorctl status状态确认 1. 项目概述 Gemma-4-26B-A4B-it-GGUF是Google Gemma 4系列中高性能、高效能的MoE（混合专家）聊天模型，具备256K tokens的超长文本处理能…...

2026/4/29 18:24:33 阅读更多 →

避开RH850U2A的坑：RAM未初始化导致ECC错误？升级标志如何巧妙存储？

避开RH850U2A的坑：RAM未初始化导致ECC错误？升级标志如何巧妙存储？ 作为一名长期奋战在汽车电子一线的嵌入式工程师，我至今记得第一次遇到RH850U2A的RAM ECC校验错误时的场景——凌晨三点的实验室里，示波器上跳动的异常…...

2026/4/29 18:22:27 阅读更多 →

Labelme标注数据喂给MMDetection/YOLO？先搞定COCO格式转换这个坑

Labelme标注数据转COCO格式实战指南：与MMDetection/YOLO无缝对接当你用Labelme精心标注完数百张图像，准备在MMDetection或YOLO框架中大展身手时，突然发现模型根本不认你的标注文件——这种挫败感我深有体会。本文将带你穿越从Labelme标注到主…...

2026/4/29 18:20:26 阅读更多 →

保姆级避坑指南：用MIM搞定MMSegmentation 2.0.0安装，告别版本兼容性报错

深度学习语义分割实战：MMSegmentation 2.0极简安装与避坑手册在计算机视觉领域，语义分割技术正以惊人的速度重塑着医疗影像分析、自动驾驶和工业质检等场景的应用边界。作为OpenMMLab生态中的重要成员，MMSegmentation 2.0凭借其模块化设计和…...

2026/4/28 17:43:50 阅读更多 →

Chrome-GPT：将大语言模型深度集成到浏览器的开发实践

1. 项目概述：当浏览器插件遇上大语言模型最近在折腾一个挺有意思的开源项目，叫“Chrome-GPT”。光看名字，你大概就能猜到它的核心玩法：把当下最火的大语言模型（LLM）能力，直接集成到我们每天都要…...

2026/4/28 11:00:59 阅读更多 →

别再用Node.js写MCP网关了！C++ 2024性能基准测试：相同硬件下吞吐量超Go 3.8倍，延迟降低62%

更多请点击： https://intelliparadigm.com 第一章：MCP协议核心原理与C网关设计全景概览 MCP（Modular Communication Protocol）是一种面向微服务间低延迟、高可靠通信的二进制协议，其核心在于“模块化帧结构”与“状态…...

2026/4/28 17:43:49 阅读更多 →

终极指南：如何通过Newtonsoft.Json配置实现高性能JSON序列化

终极指南：如何通过Newtonsoft.Json配置实现高性能JSON序列化【免费下载链接】Newtonsoft.Json Json.NET is a popular high-performance JSON framework for .NET 项目地址: https://gitcode.com/gh_mirrors/ne/Newtonsoft.Json Newtonsoft.Json&#xff08…...

2026/4/29 10:22:30 阅读更多 →