那个靠摸爬滚打自学成才的AI：强化学习到底是什么神仙操作？（下篇）

张

张建站

2026/5/7 16:48:26

10分钟阅读

之前我们聊了强化学习是什么、为什么会出现以及它的核心要素。这一篇我们继续往下走它具体有哪些类型和算法在真实世界里到底能解决什么问题它又有什么搞不定的一、强化学习的主要类型强化学习的算法家族很庞大但如果按最上层的思路划分可以分为三大类基于值函数的、基于策略的、以及基于模型的。1. 基于值函数的方法学会“评估”每一种状态这类算法的核心思想是我不直接学“该做什么动作”我学的是“每个状态有多好”。什么叫“状态有多好”就是你从这个状态出发按照最优策略走到底能获得的累积奖励是多少。这个值叫价值函数。比如在围棋里一个棋盘局面的价值函数就是“如果双方都下得最好当前这方最终能赢的概率”。智能体不需要知道每一步该怎么走它只需要知道哪个状态更好然后选择能把自己带到“更好状态”的那个动作。最经典的算法是Q-learning。它学的不是状态的价值而是“在某个状态下做某个动作”的价值——这叫Q值。Q值告诉你在这个棋盘局面下落在A3这个点最后能赢的概率是多少。Q-learning的厉害之处在于它不需要知道环境是怎么运转的比如棋局的规则只需要不断尝试、不断更新Q值最终就能收敛到最优策略。它的一个著名变种是Deep Q-NetworkDQN——用深度神经网络来近似Q值函数。2015年DeepMind用DQN让AI学会了玩49款雅达利游戏只输入屏幕像素输出操作水平超过了人类专业玩家。这是强化学习出圈的重要里程碑。2. 基于策略的方法直接学“该怎么做”基于值函数的方法有个问题如果动作空间很大、或者动作是连续的比如机器人关节要转多少度学Q值会非常困难——因为你需要评估“每个状态下每个动作”的价值而连续动作空间里动作是无穷多的。基于策略的方法绕过了这个问题。它直接学一个策略函数——给定一个状态直接输出应该做的动作或者动作的概率分布不经过“评估状态”那一步。这类算法的代表是策略梯度方法。它的思路很直接你让智能体按照当前策略去玩玩完一局之后如果赢了就提升这一局里所有动作的概率如果输了就降低这些动作的概率。然后重复。这种方法在机器人控制、自动驾驶等连续动作领域特别有效。3. 基于模型的方法先学世界的规律再规划前面两种方法都是“无模型”的——智能体不尝试理解环境是怎么运转的只是盲目地试错、更新策略。但人类不是这样的。你学骑自行车的时候你脑子里会慢慢建立一个“模型”如果我往左倾车就会往左拐如果我刹车太猛可能会翻。有了这个模型你就不需要真的摔一跤才知道后果——你可以在脑子里“模拟”一下。基于模型的方法就是这个思路。智能体首先尝试学习一个“环境模型”——给定状态和动作预测下一个状态和奖励。然后它可以用这个模型来做“规划”在脑子里模拟各种可能的动作序列选一个看起来最好的。这种方法的优点是样本效率高——不需要像DQN那样玩几千万局才学会。缺点是模型可能学不准如果模型有偏差规划出来的“最优策略”可能在真实环境里一塌糊涂。4. 一个特殊分支逆向强化学习还有一个有意思的分支叫逆向强化学习。前面所有的强化学习都假设奖励函数是已知的——你下棋赢了就得1分输了得0分。但现实里很多任务的奖励函数是很难定义的。比如你想让机器人学会做一道菜。你可以告诉它“好吃就是好”但“好吃”怎么量化你没法给一个数学公式。逆向强化学习做的就是我给你看一堆人类专家的示范比如人类炒菜的视频你来反推“人类的奖励函数到底是什么”。推出来之后再用这个奖励函数去训练机器人。这种方法在自动驾驶、机器人模仿学习里用得越来越多。二、强化学习到底能干什么——真实世界的应用场景如果说前几篇聊的监督学习、非监督学习更多是在“理解世界”那强化学习就是在“改变世界”——它直接输出决策直接作用于环境。1. 游戏AI——从雅达利到AlphaGo到星际争霸游戏是强化学习的“果蝇”——就像生物学家用果蝇做实验一样强化学习研究者用游戏来做算法验证。最著名的几个里程碑DQN打雅达利2013只输入屏幕像素AI学会了玩49款游戏其中多款超越人类。AlphaGo2016击败李世石成为第一个战胜围棋世界冠军的AI。它结合了监督学习从人类棋谱学习和强化学习自我对弈。AlphaZero2017更夸张——不学任何人类棋谱只告诉它规则让它自己跟自己下从零开始学。它不仅征服了围棋还征服了国际象棋和将棋。OpenAI Five2018-2019在《Dota 2》这种极其复杂的多人在线战术竞技游戏里击败了人类职业战队。游戏是强化学习的“理想试验场”因为规则明确、模拟速度快、可以并行跑几百万局。但它的意义远不止“打游戏”——这些算法后来都被迁移到了现实世界里。2. 机器人控制——让机器学会“动起来”机器人是强化学习最自然的落地场景之一。因为机器人的动作是连续的、高维的而且很难用传统方法精确建模。用强化学习训练机器人走路大概是这样让一个虚拟的机器人在仿真环境里不断地摔倒、爬起来、再摔倒。每次摔倒给负奖励走得远给正奖励。几百万次迭代之后它学会了协调四肢、保持平衡甚至能在崎岖地形上行走。然后把这个策略“迁移”到真实的机器人上。虽然仿真和现实之间有差距这叫“仿真到现实的鸿沟”但近年来已经有很多成功的案例——比如四足机器人机器狗在野外奔跑、翻越障碍背后都有强化学习的影子。3. 自动驾驶——决策层的核心自动驾驶分为几层感知看到什么、决策该做什么、控制怎么执行。强化学习主要作用在决策层。在高速路上并线什么时候打灯、什么时候加速、留多少安全距离——这些决策很难用规则写全因为路况千变万化。强化学习可以在仿真环境里训练几百万次并线操作学会一个既安全又高效的策略。同样在复杂的城市路口、环岛、无信号灯的人车混行路段强化学习也比规则系统更灵活。4. 推荐系统与广告竞价——让用户多待一会儿你可能没想到推荐系统也在用强化学习。传统的推荐系统大多用监督学习给你看一个商品预测你会不会点。但这里有个问题推荐不是孤立的一步而是连续的序列。你今天推荐了一个视频用户看了明天再推荐类似的他可能就腻了。你要考虑的是长期的用户留存而不是单次点击率。强化学习天然适合这种“序列决策”问题。它可以把“用户一周后还在用这个App”作为长期奖励然后学习一套推荐策略——不是每次都推点击率最高的而是推那种能让用户持续回来的。类似的广告竞价系统里你要决定出多少钱去竞一个广告位。出高了亏本出低了拿不到流量。这也是一个典型的序贯决策问题强化学习正在越来越多地被用在这里。5. 数据中心冷却——省下几百万电费这是强化学习一个非常“接地气”的应用。Google在2017年就用强化学习优化了数据中心的冷却系统。数据中心的服务器发热巨大冷却系统是主要的能耗来源。传统方法是靠工程师写的规则来控制空调、风扇、冷水机组。Google用强化学习训练了一个策略实时根据室外温度、服务器负载、机房内温度分布动态调整冷却设备的运行参数。结果是什么冷却能耗降低了40%。对于一个大型数据中心来说这意味着一年的电费省下几百万美元而且完全不需要更换硬件。这个案例的意义在于强化学习不一定要做很炫酷的事它可以在你根本看不见的地方悄无声息地帮你省钱、提效。6. 大语言模型中的RLHF——让AI学会“说人话”最近两年强化学习在另一个领域火了——大语言模型的对齐。像ChatGPT这样的模型预训练阶段学的是“预测下一个词”但它学到的内容不一定符合人类的偏好——它可能会输出有害的、偏见的、或者纯粹废话的内容。于是OpenAI搞出了RLHF基于人类反馈的强化学习。流程大概是先让人给模型的多种输出打分哪个回答更好用这些打分训练一个“奖励模型”——它能自动判断一段回答的质量然后用强化学习具体是PPO算法来微调大模型让它朝着“奖励模型打分更高”的方向优化这一步被广泛认为是让大模型“对齐”人类意图的关键技术。没有强化学习大模型可能只是“知道很多”但不“懂得怎么回答”。三、强化学习的边界它不是什么都能搞定讲了这么多成功案例也得说说强化学习的“软肋”。这东西在实验室里很猛但真到现实世界里挑战还不少。1. 样本效率太低——太“费命”了你让AlphaGo学围棋它自己跟自己下了几千万局。这在模拟环境里没问题——电脑速度快一秒能跑几万局。但到了现实世界呢你要训练一个机器人走路它每摔一跤你得花时间去扶起来、充电、重新部署。你不可能让它摔几百万次。这就是“样本效率”问题——强化学习需要太多试错在真实物理世界里成本太高。虽然基于模型的方法能缓解这个问题但总体而言强化学习的样本效率远不如人类。人类小孩学走路摔几十次就会了强化学习机器人需要摔几万次。2. 奖励函数设计是个玄学强化学习的表现完全取决于奖励函数。你设计得好它学得又快又好你设计得不好它可能学会“钻空子”。有个著名的例子研究人员训练一个AI玩赛艇游戏奖励设为“尽可能多地碰到浮标”。结果AI学出来的策略是不往前划而是在原地转圈反复碰同一个浮标——因为它发现这样拿到的“奖励”最多。这种“奖励黑客”行为在强化学习里非常普遍。你想要的和你奖励的往往不是一回事。而设计一个好的奖励函数往往比训练模型本身还难。3. 安全性与探索的冲突强化学习需要探索——它要去试那些没试过的动作才能发现更好的策略。但探索意味着风险。在自动驾驶里你敢让车去“探索”一下“逆行会不会更快”吗当然不敢。在医疗决策里你敢让AI去“探索”一下“这个没试过的药量”吗更不敢。这就引出了安全强化学习这个子领域——如何在保证安全的前提下进行探索。但目前这个问题远没有解决。4. 泛化能力差强化学习学出来的策略往往高度依赖训练时的环境。你在一张地图上训练的打游戏AI换一张新地图可能完全不会玩。你在晴天训练的自驾策略遇到大雨天可能直接翻车。这个叫“泛化问题”。强化学习模型太容易过拟合到训练环境的细节上而没学到真正鲁棒的策略。这也是为什么“仿真到现实”的迁移如此困难。聊到这里我们差不多把强化学习翻了个底朝天。你知道了它是一个在试错中学习最优决策序列的框架它之所以出现是因为有太多问题“目标明确但路径未知”——游戏、机器人、自动驾驶、推荐系统——这些问题的共同点是你需要做一连串决策每一步都影响未来而你无法提前写出所有规则。它的核心价值在于提供了一套数学框架让“从交互中学习”这件事变得可计算、可优化、可扩展。强化学习也提醒了我们一件事智能的本质可能不是“知道”而是“行动”。一个孩子可能背不出物理定律但他能稳稳地骑自行车一只狗可能不懂博弈论但它知道怎么讨到更多零食。这些能力不是靠记忆事实获得的而是在无数次尝试、失败、调整、成功中“长”出来的。强化学习就是把这种“长出来”的过程搬进了计算机里。下一次当你面对一个不知道该怎么做、但又必须做出一连串决策的问题时你可以停下来想一想——也许我需要的不是更多的答案而是更多的尝试。

3步解锁B站视频价值倍增新范式：Bili2text智能转写工具全解析

3步解锁B站视频价值倍增新范式：Bili2text智能转写工具全解析【免费下载链接】bili2text Bilibili视频转文字，一步到位，输入链接即可使用项目地址: https://gitcode.com/gh_mirrors/bi/bili2text 在信息爆炸的时代，B站作为…...

2026/4/10 7:42:49 阅读更多 →

Fix | Resolving ImportError: libGL.so.1 Missing in Docker/Local Environments

1. 遇到libGL.so.1缺失报错怎么办？ 最近在部署一个基于OpenGL的图形处理项目时，又双叒叕遇到了这个熟悉的报错："ImportError: libGL.so.1: cannot open shared object file: No such file or directory"。这已经是这个月第三次碰到…...

2026/4/10 7:42:49 阅读更多 →

用Python处理ERA5数据：手把手教你批量计算高分辨率VPD（附完整代码）

用Python处理ERA5数据：从气象变量到植被生理指标的全流程实战清晨的阳光透过实验室的窗户洒进来，桌面上堆满了从Copernicus Climate Data Store下载的ERA5数据文件。作为一名生态学研究者，我深知VPD（饱和水汽压差）这个…...

2026/4/10 7:42:48 阅读更多 →

LoopViT：结合循环机制的视觉Transformer优化架构

1. 项目概述在计算机视觉领域，Transformer架构近年来展现出惊人的潜力。LoopViT是我最近开发的一种新型视觉推理架构，它通过引入循环机制改进了传统视觉Transformer的计算效率和信息流模式。这个架构特别适合处理视频分析、医学影像分割等需要时序建模的…...

2026/5/7 5:06:09 阅读更多 →

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天【免费下载链接】wechat-need-web 让微信网页版可用 / Allow the use of WeChat via webpage access 项目地址: https://gitcode.com/gh_mirrors/we/wechat-need-web 还在为微信网页版频繁提示…...

2026/5/6 23:09:49 阅读更多 →

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间【免费下载链接】zhihuishu 智慧树刷课插件，自动播放下一集、1.5倍速度、无声项目地址: https://gitcode.com/gh_mirrors/zh/zhihuishu 还在为智慧树平台繁琐的视频学习流程而烦恼吗&am…...

2026/5/7 9:19:11 阅读更多 →