蒙特卡洛方法、TD 方法、TD Error、GAE 与 Advantage 的关系

张

张建站

2026/5/7 3:55:00

10分钟阅读

蒙特卡洛方法、TD 方法、TD Error、GAE 与 Advantage 的关系在 PPO、A2C、Actor-Critic 这类算法中，核心问题之一是：如何判断当前动作ata_tat在当前状态sts_tst下到底是好还是坏？这个判断通常依赖Advantage，也就是优势函数。优势函数定义为：A(st,at)=Q(st,at)−V(st) A(s_t,a_t)=Q(s_t,a_t)-V(s_t)A(st,at)=Q(st,at)−V(st)其中：V(st)V(s_t)V(st)：状态价值，表示从状态sts_tst出发，未来预计能获得多少累计奖励；Q(st,at)Q(s_t,a_t)Q(st,at)：动作价值，表示在状态sts_tst下先执行动作ata_tat，之后继续按照当前策略行动，未来预计能获得多少累计奖励；A(st,at)A(s_t,a_t)A(st,at)：动作ata_tat相对于当前状态平均水平的优势。如果：A(st,at)0 A(s_t,a_t)0A(st,at)0说明当前动作比平均水平好，策略应该提高该动作概率。如果：A(st,at)0 A(s_t,a_t)0A(st,at)0说明当前动作比平均水平差，策略应该降低该动作概率。一、先明确：这里的“价值”是什么？在前面讨论的蒙特卡洛方法、TD 方法、GAE 中，“价值”主要指：状态价值函数V(s)V(s)V(s)，也就是从某个状态出发，未来累计折扣奖励的期望。其定义为：Vπ(st)=Eπ[Gt∣st] V^\pi(s_t)=\mathbb{E}_\pi[G_t|s_t]Vπ(st)=Eπ[Gt∣st]其中GtG_tGt是从时刻ttt开始的累计折扣回报：Gt=rt+γrt+1+γ2rt+2+⋯ G_t=r_t+\gamma r_{t+1}+\gamma^2 r_{t+2}+\cdotsGt=rt+γrt+1+γ2rt+2+⋯也可以写成：Gt=∑l=0∞γlrt+l G_t=\sum_{l=0}^{\infty}\gamma^l r_{t+l}Gt=l=0∑∞γlrt+l所以，状态价值Vπ(st)V^\pi(s_t)Vπ(st)的含义是：在当前策略π\piπ下，从状态sts_tst出发，未来平均能拿到多少累计奖励。在 Actor-Critic、A2C、PPO 中，Critic 通常就是用来估计这个V(s)V(s)V(s)的。二、蒙特卡洛方法是什么？1. 蒙特卡洛方法的定义蒙特卡洛方法，Monte Carlo Method，指的是：等一条轨迹真实采样完成后，用真实发生的累计回报GtG_tGt来估计价值。也就是说，蒙特卡洛方法不提前预测未来，而是等未来真的发生之后，把真实奖励加起来。从时刻ttt开始，蒙特卡洛回报为：Gt=rt+γrt+1+γ2rt+2+⋯ G_t=r_t+\gamma r_{t+1}+\gamma^2 r_{t+2}+\cdotsGt=rt+γrt+1+γ2rt+2+⋯然后用GtG_tGt来估计状态价值：Vπ(st)≈Gt V^\pi(s_t)\approx G_tVπ(st)≈Gt如果多次从同一个状态sts_tst出发采样，得到多个回报：Gt(1),Gt(2),Gt(3),⋯ G_t^{(1)},G_t^{(2)},G_t^{(3)},\cdotsGt(1),Gt(2),Gt(3),⋯那么可以用平均值估计真实状态价值：Vπ(st)≈1N∑i=1NGt(i) V^\pi(s_t)\approx \frac{1}{N}\sum_{i=1}^{N}G_t^{(i)}Vπ(st)≈N1i=1∑NGt(i)2. 蒙特卡洛方法如何估计 Advantage？Advantage 的定义是：A(st,at)=Q(st,at)−V(st) A(s_t,a_t)=Q(s_t,a_t)-V(s_t)A(st,at)=Q(st,at)−V(st)如果我们用蒙特卡洛回报GtG_tGt来近似当前动作之后的动作价值Q(st,at)Q(s_t,a_t)Q(st,at)，那么可以得到：A^tMC=Gt−V(st) \hat A_t^{MC}=G_t-V(s_t)A^tMC=Gt−V(st)含义是：当前动作之后真实拿到的累计回报，比 Critic 认为当前状态平均能拿到的回报高多少。如果：GtV(st) G_tV(s_t)GtV(st)则：A^tMC0 \hat A_t^{MC}0A^tMC0说明当前动作比平均水平好。如果：GtV(st) G_tV(s_t)GtV(st)则：A^tMC0 \hat A_t^{MC}0

HoRain云--超全PHP安装指南：Linux/Windows/macOS全攻略

🎬 HoRain 云小助手：个人主页 ⛺️生活的理想，就是为了理想的生活! ⛳️ 推荐前些天发现了一个超棒的服务器购买网站，性价比超高，大内存超划算！忍不住分享一下给大家。点击跳转到网站。目录 ⛳️ 推荐 …...

2026/5/7 3:50:30 阅读更多 →

边缘计算容器运行时edgecrab：Rust实现、轻量设计与性能实测

1. 项目概述：一个专为边缘计算设计的轻量级容器运行时最近在折腾一些边缘计算和物联网（IoT）场景下的应用部署，发现了一个挺有意思的项目：edgecrab。这个项目在GitHub上的仓库是raphaelmansuy/edgecrab，从名…...

2026/5/7 3:36:52 阅读更多 →

别再被纹波坑了！手把手教你用20MHz带宽示波器精准测量DCDC电源（附探头选择避坑指南）

20MHz示波器实战：DCDC电源纹波测量的黄金法则与避坑指南当你盯着示波器屏幕上那些跳动的波形时，是否曾怀疑过自己看到的究竟是真实的电源纹波，还是测试方法引入的"假信号"？这个问题困扰着无数硬件工程师——从刚入行的…...

2026/5/7 3:34:28 阅读更多 →

LoopViT：结合循环机制的视觉Transformer优化架构

1. 项目概述在计算机视觉领域，Transformer架构近年来展现出惊人的潜力。LoopViT是我最近开发的一种新型视觉推理架构，它通过引入循环机制改进了传统视觉Transformer的计算效率和信息流模式。这个架构特别适合处理视频分析、医学影像分割等需要时序建模的…...

2026/5/6 0:37:48 阅读更多 →

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天【免费下载链接】wechat-need-web 让微信网页版可用 / Allow the use of WeChat via webpage access 项目地址: https://gitcode.com/gh_mirrors/we/wechat-need-web 还在为微信网页版频繁提示…...

2026/5/6 23:09:49 阅读更多 →

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间【免费下载链接】zhihuishu 智慧树刷课插件，自动播放下一集、1.5倍速度、无声项目地址: https://gitcode.com/gh_mirrors/zh/zhihuishu 还在为智慧树平台繁琐的视频学习流程而烦恼吗&am…...

2026/5/6 0:37:48 阅读更多 →