p09 2.4 random stochastic e_cdn

张

张建站

2026/6/6 21:36:46

10分钟阅读

p09 2.4 random stochastic environment可选UP主: 吴恩达-深度学习时长: 8:24链接: https://www.bilibili.com/video/BV1fdgVzmEhU?p9笔记时间: 2026-06-05 10:07:46强化学习笔记随机随机环境中的状态-动作价值函数[LIST] 课程概览本节课介绍了强化学习中随机环境Stochastic Environment的建模方法重点讲解了在不确定环境下如何定义期望回报Expected Return并推导了适用于随机环境的贝尔曼方程。通过一个六格机器人移动的例子展示了当动作执行存在失败概率时如何计算最优策略下的期望回报。[TOC] 目录大纲随机环境的定义与示例期望回报的概念与公式推导贝尔曼方程在随机环境中的修改Jupyter Notebook 实践示例[NOTE] 详细笔记1. 随机环境的定义与示例核心知识点在真实世界中智能体的动作可能不会总是成功执行例如机器人滑倒、传感器失灵等。这种不确定性称为“随机性”或“随机环境stochastic environment”。智能体在状态 $ s $ 执行动作 $ a $ 后下一状态 $ s’ $ 不是确定的而是以一定概率分布出现。重要概念/术语随机环境Stochastic Environment指智能体执行动作后下一状态具有概率分布而非确定性转移。失误概率Misstep Probability如视频中提到的 0.1表示动作执行失败的概率。图示说明展示了不同路径下的奖励序列若连续向左移动奖励序列为000100→ 回报 $ 100\gamma^3 $若先向右再向左奖励序列为0040→ 回报 $ 40\gamma^3 $由于路径不确定我们考虑所有可能路径的平均回报Expected ReturnE[R1γR2γ2R3⋯ ] \text{Expected Return} \mathbb{E}[R_1 \gamma R_2 \gamma^2 R_3 \cdots]Expected ReturnE[R1γR2γ2R3⋯]其中 $ \mathbb{E}[\cdot] $ 表示对所有可能路径取期望。中显示了多个可能的奖励序列并用蓝色数字标记每一步的奖励值。显示了期望回报的数学表达式Expected ReturnE[R1γR2γ2R3⋯ ] \text{Expected Return} \mathbb{E}[R_1 \gamma R_2 \gamma^2 R_3 \cdots]Expected ReturnE[R1γR2γ2R3⋯]3. 贝尔曼方程在随机环境中的修改核心知识点在确定性环境中贝尔曼方程为Q(s,a)R(s)γmax⁡a′Q(s′,a′) Q(s,a) R(s) \gamma \max_{a} Q(s, a)Q(s,a)R(s)γa′maxQ(s′,a′)在随机环境中由于 $ s’ $ 是概率性的必须对所有可能的下一个状态求期望。重要概念/术语状态-动作价值函数 $ Q(s,a) $表示在状态 $ s $ 执行动作 $ a $ 后遵循最优策略所能获得的期望回报。贝尔曼方程Bellman Equation递归定义 $ Q(s,a) $ 的基本公式。公式对比环境类型贝尔曼方程确定性环境$ Q(s,a) R(s) \gamma \max_{a’} Q(s’, a’) $随机环境$ Q(s,a) R(s) \gamma \sum_{s’} P(s’注意虽然截图中未显式写出求和形式但从上下文可推断出应使用期望运算符替代最大值。图示说明显示了原始贝尔曼方程Q(s,a)R(s)γmax⁡a′Q(s′,a′) Q(s,a) R(s) \gamma \max_{a} Q(s, a)Q(s,a)R(s)γa′maxQ(s′,a′)标注了变量含义$ R(s) $当前状态的即时奖励$ \gamma $折现因子$ s’ $下一个状态可能是 2 或 4$ \max_{a’} Q(s’, a’) $对下一个状态的最优动作价值取最大但因环境随机需改为对所有可能 $ s’ $ 的期望Q(s,a)R(s)γE[max⁡a′Q(s′,a′)] Q(s,a) R(s) \gamma E[\max_{a} Q(s, a)]Q(s,a)R(s)γE[a′maxQ(s′,a′)]注从状态s采取行动a一旦在最优行为中总回报等于你立即获得的奖励也称为即时奖励加上折扣因子γ在加上你预期未来回报的平均值。4. Jupyter Notebook 实践示例核心知识点提供了一个交互式代码示例用于可视化随机环境下的 $ Q(s,a) $ 值。可调整参数如奖励、折扣因子、失误概率来观察其影响。代码片段importnumpyasnpfromutilsimport*# Do not modifynum_states6num_actions2terminal_left_reward100terminal_right_reward40each_step_reward0# Discount factorgamma0.5# Probability of going in the wrong directionmisstep_prob0.1generate_visualization(terminal_left_reward,terminal_right_reward,each_step_reward,gamma,misstep_prob)显示了上述代码结构用户可通过修改参数进行实验。输出结果显示了最优策略下的 $ Q(s,a) $ 值表状态左移 Q值右移 Q值最优动作1100.0-左246.06-左321.25-左410.4918.52右518.52-右640.0-右说明即使有 10% 的失误概率系统仍能计算出最优策略对应的 Q 值。[TIP] 重点总结随机环境意味着动作执行不保证成功智能体可能因外部干扰而偏离预期路径。期望回报是强化学习在随机环境中的目标因为实际回报是随机变量必须优化其期望值。期望回报公式为 $ \mathbb{E}[R_1 \gamma R_2 \gamma^2 R_3 \cdots] $这是所有可能轨迹的平均折现奖励。贝尔曼方程需引入期望运算将确定性环境中的 $ \max $ 改为对所有可能下一状态的加权平均。Jupyter Notebook 可帮助理解参数影响如改变 $ \gamma $、失误概率等观察 Q 值变化趋势。[Q] 思考题如果失误概率增加到 0.3会对最优策略产生什么影响为什么为什么在随机环境中不能直接最大化单次回报如何从理论上推导出随机环境下的贝尔曼方程若环境完全不可预测即每个动作都有均匀分布的下一状态该如何建模在实际机器人控制中如何估计“失误概率”这一参数[PIN] 学习建议✅复习建议重新观看[00:59 ![截图 00:29](https://cdn.jsdelivr.net/gh/CDDCoder211/blog-images/bili_20260605/frame_00_29.jpg) ]至[06:55 ![截图 07:25](https://cdn.jsdelivr.net/gh/CDDCoder211/blog-images/bili_20260605/frame_07_25.jpg) ]的动画演示理解随机性如何影响路径选择。手动计算一个简单例子的期望回报例如从状态 4 出发左右各 0.9 和 0.1 概率。尝试修改 Jupyter Notebook 中的参数观察 Q 值的变化规律。延伸阅读方向马尔可夫决策过程MDP正式框架用于建模随机环境。Q-learning 算法一种基于贝尔曼方程的无模型强化学习算法。策略梯度方法另一种处理随机环境的方法尤其适用于连续动作空间。深度强化学习结合神经网络与强化学习在复杂随机环境中应用。推荐阅读Sutton Barto《Reinforcement Learning: An Introduction》第 3 章 “Model-Based Methods”AI自检修正以下为AI自动检查发现的潜在问题请人工确认[错误] 原文:Q(s,a) R(s) \gamma \max_{a} Q(s, a)→ 应改为:Q(s,a) R(s) \gamma \sum_{s} P(s|s,a) \max_{a} Q(s, a)。在随机环境部分虽然提到了需要对所有可能的下一个状态求期望但给出的贝尔曼方程仍然是确定性环境下的形式。正确的表达应该包括对所有可能下一状态的概率加权平均。[错误] 原文: “若连续向左移动奖励序列为000100→ 回报 $ 100\gamma^3 $” 和 “若先向右再向左奖励序列为0040→ 回报 $ 40\gamma^3 $” → 应改为: 根据提供的信息如果最终目标是到达左边或右边获得奖励则上述序列中的回报计算似乎忽略了即时奖励与折现因子之间的关系。例如对于序列000100实际回报应为100γ5100\gamma^5100γ5假设从状态4开始而非100γ3100\gamma^3100γ3同样地对于0040回报应该是40γ240\gamma^240γ2而不是40γ340\gamma^340γ3。这里假设了每一步都有一个折扣并且只有在达到特定状态时才会得到非零奖励。[澄清建议] 在“Jupyter Notebook 实践示例”部分提到的代码片段中虽然没有直接指出错误但为了提高清晰度可以明确说明generate_visualization函数的作用以及它如何根据给定参数生成可视化结果。此外关于输出结果表中的解释建议增加对为何某些状态下仅有一个动作值被列出如状态1、2、3和6的解释这可能是由于这些状态只允许朝一个方向移动或者另一个方向移动会导致立即离开环境。其余内容看起来准确反映了课程视频中的信息。补充截图

游戏王大师决斗终极离线版：免费畅享完整卡牌对战体验

游戏王大师决斗终极离线版：免费畅享完整卡牌对战体验【免费下载链接】YgoMaster Offline Yu-Gi-Oh! Master Duel 项目地址: https://gitcode.com/gh_mirrors/yg/YgoMaster 你是否渴望随时随地沉浸在游戏王的世界中，却受限于网络连接？…...

2026/6/6 21:35:28 阅读更多 →

从零开始构建企业级元数据平台：OpenMetadata Docker部署实战指南

从零开始构建企业级元数据平台：OpenMetadata Docker部署实战指南【免费下载链接】OpenMetadata The Open Context Layer for Data and AI , OpenMetadata is the open platform for building trusted data context and business semantics for humans, AI assistan…...

2026/6/6 21:35:27 阅读更多 →

新版本 OceanBase seekdb 1.3.0：22倍性能增益，P99抖动小于1.1倍

Agent 的真实负载是 streaming workload——大多数向量数据库不是为它设计的。如果你正在为 Agent 选向量数据库，大概率参考的是 ann-benchmarks 或者各家官方发的性能对比。那些测试跑的是这样的负载：先批量导入全部数据，建好索引&#xff…...

2026/6/6 21:33:32 阅读更多 →

Windows防撤回终极指南：如何永久保存微信QQ撤回消息

Windows防撤回终极指南：如何永久保存微信QQ撤回消息【免费下载链接】RevokeMsgPatcher :trollface: A hex editor for WeChat/QQ/TIM - PC版微信/QQ/TIM防撤回补丁（我已经看到了，撤回也没用了） 项目地址: https://gitcode.com/…...

2026/6/6 12:13:44 阅读更多 →

终极视频下载解决方案：VideoDownloadHelper 完全指南

终极视频下载解决方案：VideoDownloadHelper 完全指南【免费下载链接】VideoDownloadHelper Chrome Extension to Help Download Video for Some Video Sites. 项目地址: https://gitcode.com/gh_mirrors/vi/VideoDownloadHelper 还在为无法保存网络上的精彩…...

2026/6/6 11:10:45 阅读更多 →

小微企业合作网络与成长预测解析方案【附代码】

✨ 长期致力于小微企业、合作网络、网络结构、企业成长、成长预测研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）基于提名生成法的合作网络构建与结构…...

2026/6/6 12:08:39 阅读更多 →

终极键盘映射工具：如何免费解决游戏按键冲突问题

终极键盘映射工具：如何免费解决游戏按键冲突问题【免费下载链接】socd Key remapper for epic gamers 项目地址: https://gitcode.com/gh_mirrors/so/socd 你是否曾在激烈的游戏中因为同时按下左右方向键而让角色卡顿不前？是否在关键时刻因为按键…...

2026/6/6 10:41:39 阅读更多 →