p08 2.3 贝尔曼方程_cdn
p08 2.3 贝尔曼方程UP主: 吴恩达-深度学习时长: 12:52链接: https://www.bilibili.com/video/BV1fdgVzmEhU?p8笔记时间: 2026-06-04 16:10:40强化学习教程笔记贝尔曼方程p08 2.3[LIST] 课程概览本节课介绍了强化学习中的核心概念——贝尔曼方程Bellman Equation重点讲解了状态-动作值函数 $ Q(s,a) $ 的定义及其递推公式。通过一个一维网格世界MDP示例演示了如何利用贝尔曼方程计算最优策略下的Q值并理解其背后的数学逻辑与实际意义。$ Q(s,a) $[TOC] 目录大纲贝尔曼方程引入状态-动作值函数定义贝尔曼方程公式推导实例计算Q(2,→) 与 Q(4,←)终止状态的特殊情况最佳回报的获取方式[NOTE] 详细笔记1. 贝尔曼方程引入贝尔曼方程是强化学习中用于计算最优策略的关键工具。它描述了当前状态和动作的价值是如何由即时奖励和未来期望回报共同决定的。本节课将围绕状态-动作值函数 $ Q(s,a) $ 展开分析。视频开头展示标题页“State-action value function” 和 “Bellman Equation”表明本节主题。[00:00]2. 状态-动作值函数定义核心知识点$ Q(s,a) $ 表示在状态 $ s $ 下执行动作 $ a $ 后所能获得的期望回报。回报包括当前状态的即时奖励 $ R(s) $之后所有时间步的折扣奖励总和假设从该动作后开始采取最优行为。重要术语$ Q(s,a) $状态-动作值函数State-action value function表示在状态 $ s $ 执行动作 $ a $ 后的长期回报。$ s $当前状态current state$ a $当前动作current action$ R(s) $当前状态的即时奖励reward of current state屏幕显示Q(s,a) Return if you • start in state s. • take action a (once). • then behave optimally after that.[00:29]3. 贝尔曼方程公式推导推导过程在状态 $ s $ 执行动作 $ a $得到即时奖励 $ R(s) $进入下一个状态 $ s’ $在新状态 $ s’ $ 中选择最优动作 $ a’ $使得后续回报最大将未来回报乘以折扣因子$ \gamma $体现时间偏好因此贝尔曼方程为Q(s,a)R(s)γmaxa′Q(s′,a′) Q(s,a) R(s) \gamma \max_{a} Q(s, a)Q(s,a)R(s)γa′maxQ(s′,a′)其中$ s’ $执行动作 $ a $ 后到达的新状态$ a’ $在状态 $ s’ $ 中可能采取的动作$ \gamma $折扣因子通常 $ 0 \gamma 1 $屏幕上新增内容s : state you get to after taking action a a : action that you take in state s[00:59]公式逐步写出Q(s,a)R(s)γmaxa′Q(s′,a′) Q(s,a) R(s) \gamma \max_{a} Q(s, a)Q(s,a)R(s)γa′maxQ(s′,a′)[01:29]4. 实例计算Q(2,→) 与 Q(4,←)示例环境设定一维网格共6个状态1 到 6每个状态有对应的奖励值$ R(1) 100 $$ R(2) 0 $$ R(6) 40 $其余为0或未标注默认0动作向左或向右移动折扣因子 $ \gamma 0.5 $计算 $ Q(2, \rightarrow) $$ s 2 $, $ a \rightarrow $ → $ s’ 3 $$ R(2) 0 $$ \max_{a’} Q(3, a’) $状态3有两个动作← 和 →对应Q值分别为 25 和 6.25所以最大值为 25代入公式Q(2,→)R(2)γ⋅maxa′Q(3,a′)00.5×2512.5 Q(2, \rightarrow) R(2) \gamma \cdot \max_{a} Q(3, a) 0 0.5 \times 25 12.5Q(2,→)R(2)γ⋅a′maxQ(3,a′)00.5×2512.5图中显示表格123456100000040上方写有Q值100, 50, 25, 6.25, 12.5, 10, 6.25, 20, 40, 40部分重复可能是上下两行[01:58]写出Q(2,→)R(2)0.5maxa′Q(3,a′)00.5×2512.5 Q(2, \rightarrow) R(2) 0.5 \max_{a} Q(3, a) 0 0.5 \times 25 12.5Q(2,→)R(2)0.5a′maxQ(3,a′)00.5×2512.5[02:28]计算 $ Q(4, \leftarrow) $$ s 4 $, $ a \leftarrow $ → $ s’ 3 $$ R(4) 0 $$ \max_{a’} Q(3, a’) 25 $所以Q(4,←)R(4)0.5×25012.512.5 Q(4, \leftarrow) R(4) 0.5 \times 25 0 12.5 12.5Q(4,←)R(4)0.5×25012.512.5屏幕显示Q(4,←)R(4)0.5maxa′Q(3,a′)00.5×2512.5 Q(4, \leftarrow) R(4) 0.5 \max_{a} Q(3, a) 0 0.5 \times 25 12.5Q(4,←)R(4)0.5a′maxQ(3,a′)00.5×2512.5[02:58]5. 终止状态的特殊情况若当前状态 $ s $ 是终止状态则没有后续状态 $ s’ $此时贝尔曼方程简化为Q(s,a)R(s) Q(s,a) R(s)Q(s,a)R(s)因为无法继续行动所以未来回报为0。字幕说明“如果你处于终止状态那么贝尔曼方程简化为 q(SA) 等于 r(S)因为没有状态 S’所以第二项会消失。”[03:28]6. 最佳回报的获取方式从任意状态 $ s $ 出发能获得的最佳回报是maxaQ(s,a) \max_a Q(s,a)amaxQ(s,a)对于下一状态 $ s’ $最佳回报为maxa′Q(s′,a′) \max_{a} Q(s, a)a′maxQ(s′,a′)这正是贝尔曼方程中“未来最优回报”的来源。屏幕文字The best possible return from state s is max_a Q(s,a)然后更新为The best possible return from state s is max_{a} Q(s,a)[03:57]最终写出完整公式Q(s,a)R(s)γmaxa′Q(s′,a′) Q(s,a) R(s) \gamma \max_{a} Q(s, a)Q(s,a)R(s)γa′maxQ(s′,a′)[04:27][TIP] 重点总结编号知识点解释1$ Q(s,a) $ 定义表示在状态 $ s $ 执行动作 $ a $ 后的期望回报假设之后行为最优。2贝尔曼方程$ Q(s,a) R(s) \gamma \max_{a’} Q(s’,a’) $连接当前奖励与未来最优价值。3折扣因子 $ \gamma $控制未来奖励的重要性通常取 $ 0 \gamma 1 $。4状态转移动作 $ a $ 导致从 $ s $ 转移到 $ s’ $是计算 $ Q(s,a) $ 的基础。5最优动作选择$ \max_{a’} Q(s’,a’) $ 保证了后续决策是最优的。6终止状态处理若 $ s $ 是终止状态则 $ Q(s,a) R(s) $无后续状态。7数值示例如 $ Q(2,\rightarrow) 12.5 $展示了公式的实际应用。[Q] 思考题如果折扣因子 $ \gamma 1 $会对贝尔曼方程的结果产生什么影响是否会导致无限循环在状态3中为什么 $ Q(3,\rightarrow) 6.25 $ 而不是更大的值这与哪个状态的Q值有关如果某个状态的奖励为负数比如 $ R(3) -10 $那么 $ Q(3,\rightarrow) $ 会如何变化如何判断一个状态是否为终止状态在贝尔曼方程中它有什么特殊性质你能写出 $ Q(1,\leftarrow) $ 的表达式吗并解释为何它的值是100[PIN] 学习建议✅复习建议重新手推一次 $ Q(2,\rightarrow) $ 和 $ Q(4,\leftarrow) $ 的计算过程确保理解每一步。尝试画出状态转移图并标出每个状态的奖励和Q值。复习之前章节中关于马尔可夫决策过程MDP的基本结构。延伸阅读方向学习价值迭代Value Iteration算法它是基于贝尔曼方程的求解方法。探索Q-learning算法它是用贝尔曼方程进行在线学习的经典方法。阅读《Reinforcement Learning: An Introduction》第3章深入理解贝尔曼方程的理论基础。提示掌握贝尔曼方程是理解后续强化学习算法如DP、TD、DQN等的前提请务必熟练运用此公式进行数值计算和逻辑推理。AI自检修正以下为AI自动检查发现的潜在问题请人工确认[错误] 原文: $ R(s) $ → 应改为: $ R(s, a) $ 或者明确指出即时奖励是与状态和动作相关的即R(s,a)R(s, a)R(s,a)。在强化学习中即时奖励通常是依赖于采取的动作的而不仅仅是状态。[错误] 原文: “回报包括当前状态的即时奖励 $ R(s) $” → 应改为: “回报包括执行动作后获得的即时奖励 $ R(s, a) $”。这更准确地反映了即时奖励是由特定状态下采取的动作决定的。[错误] 在计算 $ Q(2, \rightarrow) $ 和 $ Q(4, \leftarrow) $ 时原文假设了某些Q值如Q(3,→)6.25Q(3, \rightarrow) 6.25Q(3,→)6.25但没有给出这些值是如何得到的。如果这些值不是直接从视频中给定的则需要说明它们是如何通过贝尔曼方程迭代计算得出的或者明确指出这是基于某种初始设定或假设。[澄清建议] 对于终止状态的描述“若当前状态 $ s $ 是终止状态则没有后续状态 $ s’ $”虽然正确但可以进一步解释说在这种情况下任何动作都不会导致状态改变因此未来回报为0。这有助于理解为什么在这种情况下贝尔曼方程简化为只考虑即时奖励。除了上述提到的点外笔记中的其他部分看起来与提供的信息相符没有发现明显的数学公式推导、数值或术语定义上的错误。补充截图