p08 2.3 贝尔曼方程_cdn

张

张建站

2026/6/5 8:39:20

10分钟阅读

p08 2.3 贝尔曼方程UP主: 吴恩达-深度学习时长: 12:52链接: https://www.bilibili.com/video/BV1fdgVzmEhU?p8笔记时间: 2026-06-04 16:10:40强化学习教程笔记贝尔曼方程p08 2.3[LIST] 课程概览本节课介绍了强化学习中的核心概念——贝尔曼方程Bellman Equation重点讲解了状态-动作值函数 $ Q(s,a) $ 的定义及其递推公式。通过一个一维网格世界MDP示例演示了如何利用贝尔曼方程计算最优策略下的Q值并理解其背后的数学逻辑与实际意义。$ Q(s,a) $[TOC] 目录大纲贝尔曼方程引入状态-动作值函数定义贝尔曼方程公式推导实例计算Q(2,→) 与 Q(4,←)终止状态的特殊情况最佳回报的获取方式[NOTE] 详细笔记1. 贝尔曼方程引入贝尔曼方程是强化学习中用于计算最优策略的关键工具。它描述了当前状态和动作的价值是如何由即时奖励和未来期望回报共同决定的。本节课将围绕状态-动作值函数 $ Q(s,a) $ 展开分析。视频开头展示标题页“State-action value function” 和 “Bellman Equation”表明本节主题。[00:00]2. 状态-动作值函数定义核心知识点$ Q(s,a) $ 表示在状态 $ s $ 下执行动作 $ a $ 后所能获得的期望回报。回报包括当前状态的即时奖励 $ R(s) $之后所有时间步的折扣奖励总和假设从该动作后开始采取最优行为。重要术语$ Q(s,a) $状态-动作值函数State-action value function表示在状态 $ s $ 执行动作 $ a $ 后的长期回报。$ s $当前状态current state$ a $当前动作current action$ R(s) $当前状态的即时奖励reward of current state屏幕显示Q(s,a) Return if you • start in state s. • take action a (once). • then behave optimally after that.[00:29]3. 贝尔曼方程公式推导推导过程在状态 $ s $ 执行动作 $ a $得到即时奖励 $ R(s) $进入下一个状态 $ s’ $在新状态 $ s’ $ 中选择最优动作 $ a’ $使得后续回报最大将未来回报乘以折扣因子$ \gamma $体现时间偏好因此贝尔曼方程为Q(s,a)R(s)γmax⁡a′Q(s′,a′) Q(s,a) R(s) \gamma \max_{a} Q(s, a)Q(s,a)R(s)γa′maxQ(s′,a′)其中$ s’ $执行动作 $ a $ 后到达的新状态$ a’ $在状态 $ s’ $ 中可能采取的动作$ \gamma $折扣因子通常 $ 0 \gamma 1 $屏幕上新增内容s : state you get to after taking action a a : action that you take in state s[00:59]公式逐步写出Q(s,a)R(s)γmax⁡a′Q(s′,a′) Q(s,a) R(s) \gamma \max_{a} Q(s, a)Q(s,a)R(s)γa′maxQ(s′,a′)[01:29]4. 实例计算Q(2,→) 与 Q(4,←)示例环境设定一维网格共6个状态1 到 6每个状态有对应的奖励值$ R(1) 100 $$ R(2) 0 $$ R(6) 40 $其余为0或未标注默认0动作向左或向右移动折扣因子 $ \gamma 0.5 $计算 $ Q(2, \rightarrow) $$ s 2 $, $ a \rightarrow $ → $ s’ 3 $$ R(2) 0 $$ \max_{a’} Q(3, a’) $状态3有两个动作← 和 →对应Q值分别为 25 和 6.25所以最大值为 25代入公式Q(2,→)R(2)γ⋅max⁡a′Q(3,a′)00.5×2512.5 Q(2, \rightarrow) R(2) \gamma \cdot \max_{a} Q(3, a) 0 0.5 \times 25 12.5Q(2,→)R(2)γ⋅a′maxQ(3,a′)00.5×2512.5图中显示表格123456100000040上方写有Q值100, 50, 25, 6.25, 12.5, 10, 6.25, 20, 40, 40部分重复可能是上下两行[01:58]写出Q(2,→)R(2)0.5max⁡a′Q(3,a′)00.5×2512.5 Q(2, \rightarrow) R(2) 0.5 \max_{a} Q(3, a) 0 0.5 \times 25 12.5Q(2,→)R(2)0.5a′maxQ(3,a′)00.5×2512.5[02:28]计算 $ Q(4, \leftarrow) $$ s 4 $, $ a \leftarrow $ → $ s’ 3 $$ R(4) 0 $$ \max_{a’} Q(3, a’) 25 $所以Q(4,←)R(4)0.5×25012.512.5 Q(4, \leftarrow) R(4) 0.5 \times 25 0 12.5 12.5Q(4,←)R(4)0.5×25012.512.5屏幕显示Q(4,←)R(4)0.5max⁡a′Q(3,a′)00.5×2512.5 Q(4, \leftarrow) R(4) 0.5 \max_{a} Q(3, a) 0 0.5 \times 25 12.5Q(4,←)R(4)0.5a′maxQ(3,a′)00.5×2512.5[02:58]5. 终止状态的特殊情况若当前状态 $ s $ 是终止状态则没有后续状态 $ s’ $此时贝尔曼方程简化为Q(s,a)R(s) Q(s,a) R(s)Q(s,a)R(s)因为无法继续行动所以未来回报为0。字幕说明“如果你处于终止状态那么贝尔曼方程简化为 q(SA) 等于 r(S)因为没有状态 S’所以第二项会消失。”[03:28]6. 最佳回报的获取方式从任意状态 $ s $ 出发能获得的最佳回报是max⁡aQ(s,a) \max_a Q(s,a)amaxQ(s,a)对于下一状态 $ s’ $最佳回报为max⁡a′Q(s′,a′) \max_{a} Q(s, a)a′maxQ(s′,a′)这正是贝尔曼方程中“未来最优回报”的来源。屏幕文字The best possible return from state s is max_a Q(s,a)然后更新为The best possible return from state s is max_{a} Q(s,a)[03:57]最终写出完整公式Q(s,a)R(s)γmax⁡a′Q(s′,a′) Q(s,a) R(s) \gamma \max_{a} Q(s, a)Q(s,a)R(s)γa′maxQ(s′,a′)[04:27][TIP] 重点总结编号知识点解释1$ Q(s,a) $ 定义表示在状态 $ s $ 执行动作 $ a $ 后的期望回报假设之后行为最优。2贝尔曼方程$ Q(s,a) R(s) \gamma \max_{a’} Q(s’,a’) $连接当前奖励与未来最优价值。3折扣因子 $ \gamma $控制未来奖励的重要性通常取 $ 0 \gamma 1 $。4状态转移动作 $ a $ 导致从 $ s $ 转移到 $ s’ $是计算 $ Q(s,a) $ 的基础。5最优动作选择$ \max_{a’} Q(s’,a’) $ 保证了后续决策是最优的。6终止状态处理若 $ s $ 是终止状态则 $ Q(s,a) R(s) $无后续状态。7数值示例如 $ Q(2,\rightarrow) 12.5 $展示了公式的实际应用。[Q] 思考题如果折扣因子 $ \gamma 1 $会对贝尔曼方程的结果产生什么影响是否会导致无限循环在状态3中为什么 $ Q(3,\rightarrow) 6.25 $ 而不是更大的值这与哪个状态的Q值有关如果某个状态的奖励为负数比如 $ R(3) -10 $那么 $ Q(3,\rightarrow) $ 会如何变化如何判断一个状态是否为终止状态在贝尔曼方程中它有什么特殊性质你能写出 $ Q(1,\leftarrow) $ 的表达式吗并解释为何它的值是100[PIN] 学习建议✅复习建议重新手推一次 $ Q(2,\rightarrow) $ 和 $ Q(4,\leftarrow) $ 的计算过程确保理解每一步。尝试画出状态转移图并标出每个状态的奖励和Q值。复习之前章节中关于马尔可夫决策过程MDP的基本结构。延伸阅读方向学习价值迭代Value Iteration算法它是基于贝尔曼方程的求解方法。探索Q-learning算法它是用贝尔曼方程进行在线学习的经典方法。阅读《Reinforcement Learning: An Introduction》第3章深入理解贝尔曼方程的理论基础。提示掌握贝尔曼方程是理解后续强化学习算法如DP、TD、DQN等的前提请务必熟练运用此公式进行数值计算和逻辑推理。AI自检修正以下为AI自动检查发现的潜在问题请人工确认[错误] 原文: $ R(s) $ → 应改为: $ R(s, a) $ 或者明确指出即时奖励是与状态和动作相关的即R(s,a)R(s, a)R(s,a)。在强化学习中即时奖励通常是依赖于采取的动作的而不仅仅是状态。[错误] 原文: “回报包括当前状态的即时奖励 $ R(s) $” → 应改为: “回报包括执行动作后获得的即时奖励 $ R(s, a) $”。这更准确地反映了即时奖励是由特定状态下采取的动作决定的。[错误] 在计算 $ Q(2, \rightarrow) $ 和 $ Q(4, \leftarrow) $ 时原文假设了某些Q值如Q(3,→)6.25Q(3, \rightarrow) 6.25Q(3,→)6.25但没有给出这些值是如何得到的。如果这些值不是直接从视频中给定的则需要说明它们是如何通过贝尔曼方程迭代计算得出的或者明确指出这是基于某种初始设定或假设。[澄清建议] 对于终止状态的描述“若当前状态 $ s $ 是终止状态则没有后续状态 $ s’ $”虽然正确但可以进一步解释说在这种情况下任何动作都不会导致状态改变因此未来回报为0。这有助于理解为什么在这种情况下贝尔曼方程简化为只考虑即时奖励。除了上述提到的点外笔记中的其他部分看起来与提供的信息相符没有发现明显的数学公式推导、数值或术语定义上的错误。补充截图

实战virtualbox搭建攻防靶场：快马ai生成完整网络拓扑与渗透脚本

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 请生成一个基于virtualbox的实战项目：构建一个小型企业级网络攻防靶场。项目需包含：第一，使用virtualbox虚拟机组网功能，构建一个包…...

2026/6/5 8:33:08 阅读更多 →

专为Agent使用的磁盘清理脚本

专为Agent使用的磁盘清理脚本想着用小米 MiMo 的免费 token 清理一下 D盘，发现清理一次实在是太慢了(跑了一个小时都没跑完，还一直让我点确认😅)，所以写了一个可以复用的脚本来辅助清理，可以节省大部分时间&#xff…...

2026/6/5 8:23:56 阅读更多 →

2026安卓开发大洗牌：死的是“搬砖人”，留下的全在啃这三块硬骨头

最近带实训项目，被问得最多的就是一个老生常谈的问题：“2026年了，全网都在吹鸿蒙，大模型又能一键生成代码，安卓是不是真没戏了？” 这其实是个伪命题。我在企业敲了十年代码，现在退回高校&#x…...

2026/6/5 8:16:04 阅读更多 →

Windows防撤回终极指南：如何永久保存微信QQ撤回消息

Windows防撤回终极指南：如何永久保存微信QQ撤回消息【免费下载链接】RevokeMsgPatcher :trollface: A hex editor for WeChat/QQ/TIM - PC版微信/QQ/TIM防撤回补丁（我已经看到了，撤回也没用了） 项目地址: https://gitcode.com/…...

2026/6/5 8:41:58 阅读更多 →

终极视频下载解决方案：VideoDownloadHelper 完全指南

终极视频下载解决方案：VideoDownloadHelper 完全指南【免费下载链接】VideoDownloadHelper Chrome Extension to Help Download Video for Some Video Sites. 项目地址: https://gitcode.com/gh_mirrors/vi/VideoDownloadHelper 还在为无法保存网络上的精彩…...

2026/6/4 10:13:41 阅读更多 →

小微企业合作网络与成长预测解析方案【附代码】

✨ 长期致力于小微企业、合作网络、网络结构、企业成长、成长预测研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）基于提名生成法的合作网络构建与结构…...

2026/6/5 8:42:00 阅读更多 →

终极键盘映射工具：如何免费解决游戏按键冲突问题

终极键盘映射工具：如何免费解决游戏按键冲突问题【免费下载链接】socd Key remapper for epic gamers 项目地址: https://gitcode.com/gh_mirrors/so/socd 你是否曾在激烈的游戏中因为同时按下左右方向键而让角色卡顿不前？是否在关键时刻因为按键…...

2026/6/5 8:41:59 阅读更多 →