1. 定位导航前面的梯度下降(第13篇)用的是全数据集计算梯度——但在深度学习中这几乎不可行。GPT-3 训练集 300B tokens,每步计算梯度要过一遍全部数据,一次迭代可能要几天。SGD是整个深度学习时代的发动机。本篇系统覆盖:SGD 的数学原理与 mini-batch学习率调度(现代大模型训练标配)ML 算法的四元素配方SGD 动态迭代过程(GIF 演示)2. 问题:全批量梯度下降的瓶颈2.1 代价函数的可分解性机器学习代价函数通常可分解为每个样本代价的平均:J(θ)=1m∑i=1mL(x(i),y(i),θ)J(\boldsymbol{\theta}) = \frac{1}{m} \sum_{i=1}^{m} L(\mathbf{x}^{(i)}, y^{(i)}, \boldsymbol{\theta})