零阶优化稳定性边缘:从Hessian最大特征值到迹的范式转变
1. 零阶优化与稳定性边缘从理论到实践的深度解析在深度学习的优化工具箱里梯度下降及其变体如带动量的SGD、Adam无疑是绝对的主角。我们习惯于分析损失曲面的局部几何性质——特别是Hessian矩阵的特征值——来理解优化器的行为。一个著名的现象是“稳定性边缘”在训练深度网络时梯度下降往往会将Hessian的最大特征值推向并稳定在 (2/\eta) 附近其中 (\eta) 是学习率。这个现象不仅有趣还揭示了优化与泛化之间深刻的联系。但如果我们拿不到梯度呢这就是零阶优化登场的场景。无论是黑盒优化、隐私保护下的微调还是受内存限制的大模型训练零阶方法都提供了一种仅通过函数值评估就能更新参数的途径。最近的研究表明像MeZO这样的零阶方法甚至能以可比的精度微调大语言模型同时大幅降低内存开销。然而一个根本问题随之而来零阶优化器在深度网络训练中是否也存在类似的“稳定性边缘”现象如果存在它又由什么机制控制我最初也以为答案会是Hessian最大特征值的简单类比。但实际的理论推导和实验结果表明事情远比这复杂。零阶优化的稳定性机制与一阶方法有着本质的不同它不再只关注损失曲面最陡峭的方向最大特征值而是与整个曲面的“总曲率”——即Hessian的迹——紧密相关。这种差异带来了独特的隐式正则化效应大学习率在零阶优化中主要惩罚的是Hessian的迹而非其最大特征值。在这篇文章里我将带你深入零阶优化的动力学世界。我们会从基本的均方稳定性理论出发推导出ZO-GD、ZO-GDM和ZO-Adam的精确稳定性条件并通过在CNN、ResNet和Vision Transformer上的实验展示这些方法如何在实际训练中自然地运行在理论预测的稳定性边界上。无论你是正在探索内存高效微调的研究者还是对优化理论本身感兴趣的实践者理解零阶优化的这一独特性质都能为你提供新的视角和工具。2. 理论基础从一阶到零阶的稳定性范式转变2.1 一阶优化的稳定性边缘一个经典图景让我们先快速回顾一下一阶优化中的稳定性边缘理论。考虑一个简单的二次损失函数 (f(x) \frac{1}{2}x^\top H x)其中 (H) 是正定Hessian矩阵。对于梯度下降GD更新规则为 (x_{t1} x_t - \eta \nabla f(x_t) (I - \eta H)x_t)。从线性动力学的角度看迭代稳定的条件是矩阵 (I - \eta H) 的所有特征值的模都小于1。这等价于要求对于Hessian的每个特征值 (\lambda_i)都有 (|1 - \eta \lambda_i| 1)即 (0 \eta \lambda_i 2)。因此临界学习率由最大特征值决定(\eta_{\text{crit}} 2/\lambda_{\text{max}}(H))。超过这个值迭代就会在对应特征方向上发散。在深度神经网络训练中Cohen等人2021观察到一个有趣的现象即使学习率超过了这个局部二次模型的阈值优化过程仍然能够保持稳定。沿着训练轨迹Hessian的最大特征值 (\lambda_{\text{max}}(H_t)) 会在训练早期增长然后长期稳定在 (2/\eta) 附近。这就是所谓的“稳定性边缘”现象——优化器并非在绝对稳定的区域内运行而是在稳定与不稳定的边界上“走钢丝”。对于带动量的梯度下降GDM稳定性条件变为 (\eta_{\text{crit}} 2(1\beta)/\lambda_{\text{max}}(H))其中 (\beta) 是动量系数。对于Adam类优化器稳定性则由预条件Hessian (P^{-1}H) 的最大特征值控制。无论哪种情况稳定性都由Hessian谱的“极端”部分——最大特征值——主导。2.2 零阶优化的核心挑战随机性带来的根本差异零阶方法的核心思想是用函数值的差分来估计梯度。最常用的对称两点估计器为[ \hat{\nabla} f(x) \frac{f(x \mu u) - f(x - \mu u)}{2\mu} \cdot u, \quad u \sim \mathcal{N}(0, I) ]其中 (\mu 0) 是一个小的平滑参数。在二次损失 (f(x) \frac{1}{2}x^\top H x) 下这个估计器可以简化为 (\hat{\nabla} f(x) (uu^\top H) x)。这里的关键在于即使使用全批量数据零阶更新的随机性也不会消失因为每个迭代都要采样新的随机方向 (u)。这种固有的随机性使得我们不能像分析一阶方法那样只关注平均轨迹 (\mathbb{E}[x_t]) 的稳定性。即使平均轨迹保持有界迭代的二阶矩 (\mathbb{E}[|x_t|^2]) 仍可能发散导致实际训练不稳定。因此对于零阶优化正确的稳定性概念是均方稳定性要求 (\sup_{t \geq 0} \mathbb{E}[|x_t - x^*|^2] \infty)。这比一阶方法中的平均稳定性更强也更能捕捉随机动力学中的波动行为。2.3 零阶优化的均方稳定性理论框架为了分析零阶优化的均方稳定性我们需要研究二阶矩矩阵 (\Sigma_t \mathbb{E}[x_t x_t^\top]) 的演化。对于ZO-GD在二次损失下迭代公式为 (x_{t1} (I - \eta u_t u_t^\top H) x_t)。利用高斯向量的四阶矩公式Isserlis定理我们可以推导出 (\Sigma_t) 的线性递归关系[ \Sigma_{t1} \Sigma_t - \eta(H\Sigma_t \Sigma_t H) \eta^2(2H\Sigma_t H \text{Tr}(H\Sigma_t H)I) ]这个递归关系定义了一个线性算子 (T_H: \Sigma \mapsto \Sigma_{t1})。均方稳定性等价于这个算子的谱半径 (\rho(T_H) 1)。通过仔细分析这个算子的谱性质我们可以得到ZO-GD的精确稳定性条件。令人惊讶的是这个条件不再仅仅依赖于 (\lambda_{\text{max}}(H))而是涉及Hessian的所有特征值。具体来说临界学习率 (\eta_{\text{ms}}^*) 是下面方程的唯一解[ \eta \lambda_{\text{max}}(H) 1 \quad \text{且} \quad \sum_{i1}^d \frac{\eta \lambda_i}{2(1 - \eta \lambda_i)} 1 ]这个方程明确显示了整个Hessian谱的参与。然而在实际的神经网络训练中计算完整的Hessian谱是不现实的。因此我们推导出了仅依赖于Hessian迹和最大特征值的可计算边界[ \frac{2}{\text{Tr}(H) 2\lambda_{\text{max}}(H)} \leq \eta_{\text{ms}}^* \leq \frac{2}{\text{Tr}(H)} ]这个结果已经暗示了迹在零阶稳定性中的核心作用。当 (\text{Tr}(H) \gg \lambda_{\text{max}}(H)) 时这在过参数化的深度网络中通常是成立的上下界会变得很紧此时稳定性主要由迹项 (\text{Tr}(H)) 控制。2.4 动量与自适应方法的影响与一阶方法的对比对于带动量的零阶梯度下降ZO-GDM稳定性条件变得更加复杂。我们的分析显示动量系数 (\beta) 对零阶和一阶方法的影响方向是相反的一阶GDM增加 (\beta) 会扩大稳定区域允许更大的学习率对应EoS处有 (\lambda_{\text{max}}(H_t) \approx 2(1\beta)/\eta)零阶GDM增加 (\beta) 反而会缩小稳定区域对应EoS处有 (\text{Tr}(H_t) \approx 2(1-\beta)/\eta)这种差异的直观解释是在一阶GDM中动量主要作用是阻尼确定性振荡从而稳定尖锐方向上的动力学。但在零阶GDM中动量不仅累积梯度信号也累积了随机方向估计器的噪声。由于零阶稳定性由二阶矩控制这种额外的噪声积累使得动力学更不稳定因此增加 (\beta) 会缩小稳定区域。对于ZO-Adam情况又有所不同。在“冻结预条件器”的近似下即假设预条件器 (P_t) 在局部变化缓慢稳定性由预条件Hessian (P^{-1}H) 的迹控制。我们的实验表明在EoS处有 (\text{Tr}(P_t^{-1}H_t) \approx 2/\eta)这个关系对 (\beta_1) 相对不敏感。注意零阶优化的稳定性分析依赖于一个关键技术工具——Krein-Rutman定理。这个定理保证了在适当定义的锥上线性算子存在与谱半径相等的正特征值。正是通过这个定理我们才能将复杂的稳定性条件简化为一个标量方程。3. 实验验证零阶方法确实运行在稳定性边缘理论是优美的但它在实际神经网络训练中成立吗为了验证我们的均方稳定性理论我们在三个标准的视觉架构上进行了全面的实验一个简单的CNN、ResNet-20和Vision TransformerViT。所有实验都使用CIFAR-10数据集的子集前4个类别1000个样本采用全批量训练以匹配线性化稳定性理论的假设。3.1 跟踪均方稳定性的实用方法在大型神经网络中直接计算完整的Hessian谱是不现实的。幸运的是我们的理论提供了仅需迹和最大特征值的可计算边界。具体来说对于不同的零阶优化器我们跟踪以下量对于ZO-GD [ \text{Tr}(H_t) \leq \frac{2}{\eta} \leq \text{Tr}(H_t) 2\lambda_{\text{max}}(H_t) ]对于ZO-GDM [ \text{Tr}(H_t) \leq \frac{2(1-\beta)}{\eta} \leq \text{Tr}(H_t) \frac{2\lambda_{\text{max}}(H_t)}{1\beta} ]对于ZO-Adam [ \text{Tr}(P_t^{-1}H_t) \leq \frac{2}{\eta} \leq \text{Tr}(P_t^{-1}H_t) \frac{2\lambda_{\text{max}}(P_t^{-1}H_t)}{1\beta_1} ]在训练过程中我们每1000次迭代使用Hutchinson估计器估计Hessian迹使用幂迭代法估计最大特征值。如果优化器确实运行在均方稳定性边缘那么理论阈值 (2/\eta)或相应的缩放版本应该始终落在这些边界构成的区间内。3.2 ZO-GD迹主导的稳定性行为让我们首先看最简单的ZO-GD。图1论文中的Figure 1展示了一个鲜明的对比对于一阶GDHessian最大特征值 (\lambda_{\text{max}}(H_t)) 稳定在 (2/\eta) 附近而对于ZO-GD最大特征值没有明显的稳定趋势反而是Hessian迹 (\text{Tr}(H_t)) 稳定在略低于 (2/\eta) 的位置。图1ZO-GD与一阶GD在CNN上的EoS行为对比。左图显示GD的 (\lambda_{\text{max}}(H_t)) 稳定在 (2/\eta)右图显示ZO-GD的 (\text{Tr}(H_t)) 稳定在略低于 (2/\eta) 的位置。这个现象在改变学习率时依然稳健。在图2论文中的Figure 2左图中我们固定架构CNN和任务CIFAR-10子集但改变ZO-GD的学习率。对于每个学习率 (\eta)理论阈值 (2/\eta)虚线在整个训练过程中都保持在区间 ([\text{Tr}(H_t), \text{Tr}(H_t)2\lambda_{\text{max}}(H_t)]) 内或非常接近。特别值得注意的是下界 (\text{Tr}(H_t)) 与阈值 (2/\eta) 的跟踪非常紧密而上界 (\text{Tr}(H_t)2\lambda_{\text{max}}(H_t)) 则提供了相对宽松的边界。实操心得在实际使用ZO-GD时如果你观察到Hessian迹稳定在某个值附近而最大特征值波动较大这很可能是正常的。零阶优化的稳定性机制天然地更关注迹而非最大特征值。不要试图强行将最大特征值压到 (2/\eta) 以下——那可能不是零阶方法的工作方式。3.3 ZO-GDM动量效应的反转对于ZO-GDM动量对稳定性的影响与一阶GDM相反。在图2中图中我们固定学习率 (\eta 10^{-4})改变动量系数 (\beta)。随着 (\beta) 从0.8增加到0.9稳定性阈值从 (2(1-\beta)/\eta) 相应减小而Hessian迹 (\text{Tr}(H_t)) 也同步降低以匹配新的阈值。这个观察有重要的实际意义在零阶优化中使用动量时你可能需要比一阶情况更保守地选择动量系数。较大的动量不仅不会像在一阶优化中那样稳定训练反而可能使动力学更容易发散。3.4 ZO-Adam预条件迹的稳定性对于ZO-Adam稳定性由预条件Hessian (P_t^{-1}H_t) 的迹控制。在图2右图中我们固定 (\beta_10.9, \beta_20.999)改变学习率 (\eta)。预条件迹 (\text{Tr}(P_t^{-1}H_t)) 稳定在 (2/\eta) 附近而预条件最大特征值 (\lambda_{\text{max}}(P_t^{-1}H_t)) 则没有明显的稳定趋势。这里有一个技术细节我们的理论分析假设预条件器 (P) 与Hessian (H) 可交换即 (PH HP)。在实际的神经网络训练中这个假设是否成立我们在附录D.3中测量了相对交换子范数 (|P_tH_t - H_tP_t|_F / |P_tH_t|_F)。实验显示这个比值从初始化的0.8-0.9迅速下降到0.05以下并在整个训练过程中保持在这个水平。这表明 (P_t) 和 (H_t) 近似可交换为我们的理论提供了经验支持。3.5 架构通用性从CNN到Transformer为了验证这些发现不是特定于某种架构我们在ResNet-20和Vision Transformer上重复了相同的实验。图6和图7论文中的Figure 6和7展示了完全一致的模式无论架构如何ZO-GD、ZO-GDM和ZO-Adam都运行在它们各自的均方稳定性边缘且稳定性主要由迹相关的量控制。优化器控制稳定性的量EoS处的近似关系ZO-GDHessian迹 (\text{Tr}(H_t))(\text{Tr}(H_t) \approx 2/\eta)ZO-GDMHessian迹 (\text{Tr}(H_t))(\text{Tr}(H_t) \approx 2(1-\beta)/\eta)ZO-Adam预条件迹 (\text{Tr}(P_t^{-1}H_t))(\text{Tr}(P_t^{-1}H_t) \approx 2/\eta)表1不同零阶优化器的稳定性控制量总结这种跨架构的一致性强烈表明基于迹的稳定性机制是零阶优化的一个基本性质而非特定于某种网络结构。4. 深入分析平滑参数、批大小与弹射动力学4.1 平滑参数 (\mu) 的双重作用在两点估计器中平滑参数 (\mu) 控制着梯度估计的偏差-方差权衡。当 (\mu \to 0) 时估计器是无偏的但方差可能很大较大的 (\mu) 会引入偏差但可能降低方差。我们的实验发现(\mu) 的值对是否达到稳定性边缘有显著影响。在图4论文中的Figure 4中我们固定ZO-GD的学习率改变 (\mu) 的值。对于中等和小 (\mu)(\mu \leq 10^{-3})优化器确实运行在均方稳定性边缘Hessian迹增长到接近 (2/\eta)。但对于较大的 (\mu)(\mu \geq 3\times 10^{-3})迹和最大特征值都饱和在远低于 (2/\eta) 的值表明训练没有接近理论预测的稳定性边界。为什么会出现这种现象Zhang等人2025a的工作提供了一个解释零阶优化实际上在最小化一个平滑后的目标函数 (f_\mu(x) f(x) \frac{\mu^2}{2}\text{Tr}(\nabla^2 f(x)))忽略高阶项。从这个角度看(\mu) 直接调节了依赖于曲率的偏差项。较大的 (\mu) 会给Hessian迹添加一个惩罚阻止动力学接近无平滑线性化模型预测的稳定性阈值。注意事项选择 (\mu) 时需要在估计精度和稳定性之间权衡。太小的 (\mu) 可能导致梯度估计噪声过大训练不稳定太大的 (\mu) 则可能引入过强的隐式正则化阻止网络达到“尖锐”的极小值。实践中(\mu10^{-3}) 是一个不错的起点。4.2 小批量ZO-SGD向更平坦区域收敛虽然我们的主要分析集中在全批量零阶方法但实际应用更常使用小批量版本。在图5论文中的Figure 5的初步实验中我们比较了全批量ZO-GD与批大小为250和500的ZO-SGD。与全批量情况相比小批量ZO-SGD收敛到明显更平坦的区域更小的Hessian迹。这个观察与一阶SGD中的现象类似随机性起到了隐式正则化的作用推动优化器趋向更平坦的极小值。对于零阶方法这种效应可能更加显著因为除了数据采样噪声外还有方向估计噪声。一个完整的理论需要同时考虑这两种噪声源这是未来工作的重要方向。4.3 弹射动力学学习率变化时的瞬态行为“弹射动力学”是一阶优化中观察到的现象当学习率超过局部稳定性阈值时损失会先急剧上升“弹射”然后Hessian最大特征值下降动力学重新稳定在新的平衡点。零阶优化中是否存在类似现象在图3论文中的Figure 3中我们在训练ZO-GD时中途增加学习率。确实观察到了典型的弹射行为每次增加学习率后训练损失都会出现明显的尖峰同时Hessian迹急剧下降然后重新上升并稳定在新的阈值 (2/\eta) 附近。这种弹射行为表明零阶优化器具有自我调节机制当学习率暂时超过当前的均方稳定性临界值时动力学变得局部不稳定损失增加同时Hessian迹下降以“适应”新的学习率最终重新达到平衡。5. 理论启示与未来方向5.1 为什么均方稳定性对零阶动力学是相关的在零阶优化中随机性即使在全批量训练中也持续存在因为它来自随机扰动方向。因此稳定性不能仅通过平均轨迹来评估——即使 (\mathbb{E}[x_t]) 保持有界波动也可能增长并主导迭代行为。均方稳定性通过直接控制二阶矩 (\mathbb{E}[|x_t - x^*|^2]) 来捕捉这种效应同时在线性化动力学下仍然可分析并能产生显式的学习率条件。其他稳定性概念如高阶矩稳定性或尾概率界也有意义但我们的实验表明均方稳定性条件中出现的曲率量紧密跟踪了零阶神经网络训练中观察到的稳定性行为。5.2 动量如何重塑零阶稳定性动量为零阶和一阶稳定性之间的差异提供了一个具体例子。在一阶GDM中动量阻尼了尖锐方向上的确定性振荡从而扩大了稳定步长区域。在零阶GDM中动量不仅累积梯度信号也累积随机方向估计器的噪声。由于零阶稳定性由二阶矩控制这种额外的累积噪声使动力学更不稳定导致增加 (\beta) 会缩小稳定区域。自适应方法中也出现了类似的对比。对于冻结的Adam增加 (\beta_1) 会提高稳定性阈值在EoS处有 (\lambda_{\text{max}}(P_t^{-1}H_t) \approx 2(1\beta_1)/((1-\beta_1)\eta))。对于ZO-Adam我们的实验表明在均方EoS处有 (\text{Tr}(P_t^{-1}H_t) \approx 2/\eta)这与 (\beta_1) 无关。理解这些效应如何转化为零阶训练中动量的实际益处或权衡是一个有趣的开放问题。5.3 平滑参数 (\mu) 与迹相关隐式偏差的联系两点估计器引入了由 (\mu) 控制的平滑这改变了零阶更新的偏差和噪声结构。Zhang等人2025a将这种零阶优化与对小迹区域的隐式偏好联系起来形式化为近似最小化 (f_\mu(x) f(x) \frac{\mu^2}{2}\text{Tr}(\nabla^2 f(x)))忽略高阶项。从这个角度看(\mu) 直接调节了有效目标中依赖于曲率的偏差大的 (\mu) 可以阻止动力学接近无平滑线性化模型预测的均方稳定性阈值。建立一个同时捕捉1均方稳定性约束和2平滑偏差对有效景观影响的理论是未来工作的一个有趣方向。5.4 超越全批量小批量零阶方法我们的分析集中在全批量零阶动力学其中唯一的随机性来自估计器方向。在实际设置中小批量引入了通过数据点随机采样的额外噪声源。小批量零阶训练的完整稳定性理论需要同时结合估计器噪声和采样噪声并量化这两种源在二阶矩递归中如何相互作用。最近的工作给出了小批量SGD的尖锐均方稳定性阈值Mulayoff Michaeli, 2024。为零阶方法推导类似的结果将阐明均方EoS在数据子采样下是否持续存在以及在该机制中哪些曲率量控制稳定性。6. 实践指南如何在零阶优化中设置超参数基于我们的理论和实验发现我为实际应用零阶优化提供以下实用建议6.1 学习率选择策略对于ZO-GD稳定性主要由Hessian迹控制。在实践中你可以使用以下启发式方法设置学习率保守估计从 (\eta 2 / \text{Tr}(H_0)) 开始其中 (H_0) 是初始点的Hessian自适应调整监控Hessian迹的估计值如果迹显著增长适当降低学习率弹射利用有意使用略高于稳定性阈值的学习率可能诱导弹射动力学帮助逃离尖锐的极小值对于ZO-GDM记住动量会缩小稳定区域。一个实用的经验法则是使用与ZO-GD相同的基础学习率然后乘以 ((1-\beta)) 因子。例如如果ZO-GD在某个任务上使用 (\eta0.01) 效果良好那么ZO-GDM with (\beta0.9) 应该使用大约 (\eta0.001)。6.2 平滑参数 (\mu) 的权衡(\mu) 的选择需要在梯度估计精度和隐式正则化强度之间平衡默认值对于大多数深度学习应用(\mu10^{-3}) 是一个合理的起点敏感性测试在最终确定前尝试 (\mu \in [10^{-4}, 10^{-2}]) 范围内的几个值任务依赖对于损失函数变化较快的任务如对抗训练可能需要更小的 (\mu)对于平滑的损失景观可以尝试稍大的 (\mu)6.3 监控稳定性指标在实际训练中你可以定期计算以下指标来监控优化器的稳定性状态Hessian迹估计使用Hutchinson方法只需要Hessian-向量积最大特征值估计使用幂迭代法稳定性间隔计算 (\text{Tr}(H_t)) 和 (\text{Tr}(H_t) 2\lambda_{\text{max}}(H_t))检查 (2/\eta) 是否落在这个区间内如果 (2/\eta) 持续高于上界说明学习率太大训练可能不稳定如果持续低于下界说明学习率可能过于保守。6.4 架构特定的考虑不同架构的Hessian谱结构不同这会影响零阶优化的行为CNN和ResNet通常有相对均匀的Hessian谱迹与最大特征值的比值较大基于迹的稳定性条件很紧TransformerHessian谱可能更不均匀最大特征值的影响相对更显著大语言模型微调在参数空间的高维区域迹通常远大于最大特征值此时稳定性几乎完全由迹控制7. 常见问题与故障排除7.1 为什么我的零阶训练不稳定可能原因1学习率太大检查计算当前点的Hessian迹估计检查是否满足 (\eta 2/\text{Tr}(H))解决降低学习率或使用学习率预热可能原因2平滑参数 (\mu) 太小检查梯度估计的噪声是否过大解决适当增加 (\mu)或在迭代过程中自适应调整 (\mu)可能原因3动量系数 (\beta) 太大检查对于ZO-GDM是否满足 (\eta 2(1-\beta)/\text{Tr}(H))解决降低 (\beta) 或进一步降低学习率7.2 如何高效估计Hessian迹和最大特征值对于大规模模型显式计算Hessian是不现实的。以下是实用的估计方法Hessian迹估计Hutchinson方法def estimate_hessian_trace(model, loss_fn, data, target, n_samples100): 使用Hutchinson方法估计Hessian迹 trace 0 for _ in range(n_samples): # 生成随机向量z元素为±1Rademacher分布 z torch.randint(0, 2, model.parameters().shape) * 2 - 1 z z.to(model.device) # 计算Hessian-向量积 Hv loss loss_fn(model(data), target) grad torch.autograd.grad(loss, model.parameters(), create_graphTrue) Hv torch.autograd.grad(grad, model.parameters(), grad_outputsz) # 计算迹估计 trace torch.sum(z * Hv).item() return trace / n_samples最大特征值估计幂迭代法def estimate_max_eigenvalue(model, loss_fn, data, target, n_iter50): 使用幂迭代法估计Hessian最大特征值 # 初始化随机向量 v torch.randn_like(model.parameters()) v v / torch.norm(v) for _ in range(n_iter): # 计算Hessian-向量积 Hv loss loss_fn(model(data), target) grad torch.autograd.grad(loss, model.parameters(), create_graphTrue) Hv torch.autograd.grad(grad, model.parameters(), grad_outputsv) # 更新特征向量估计 v Hv / torch.norm(Hv) # 计算Rayleigh商估计最大特征值 loss loss_fn(model(data), target) grad torch.autograd.grad(loss, model.parameters(), create_graphTrue) Hv_final torch.autograd.grad(grad, model.parameters(), grad_outputsv) lambda_max torch.sum(v * Hv_final).item() return lambda_max7.3 零阶优化相比一阶优化的实际优势是什么尽管零阶方法通常需要更多的迭代次数但它们在某些场景下有独特优势内存效率不需要存储梯度在微调大语言模型时内存占用可降低10倍以上隐私保护在差分隐私设置中零阶方法可以避免梯度裁剪带来的偏差黑盒优化当只能访问函数值而无法计算梯度时零阶是唯一选择对抗鲁棒性在黑盒对抗攻击中零阶方法可以直接优化不可微的目标7.4 如何将稳定性理论应用于实际调参基于我们的稳定性理论我建议以下调参流程初始化阶段使用小批量数据估计初始Hessian迹设置初始学习率 (\eta_0 1.5 / \text{Tr}(H_0))保守起见设置 (\mu 10^{-3})(\beta 0)无动量作为基准监控阶段每1000次迭代估计一次Hessian迹和最大特征值计算稳定性间隔 ([\text{Tr}(H_t), \text{Tr}(H_t)2\lambda_{\text{max}}(H_t)])检查 (2/\eta) 是否落在这个区间内调整阶段如果 (2/\eta) 持续高于上界降低学习率10-20%如果 (2/\eta) 持续低于下界考虑增加学习率或引入动量如果训练损失出现尖峰弹射这是正常的除非尖峰后不恢复收敛判断零阶优化的收敛通常比一阶慢关注Hessian迹的稳定化而不仅仅是损失的下降当迹稳定在 (2/\eta) 附近时优化器可能已找到平衡点8. 扩展与展望8.1 与其他优化框架的联系零阶优化的均方稳定性视角可以与几个现有的理论框架联系起来中心流框架Cohen等人2025为中心流框架提供了梯度下降动力学的宏观描述。一个自然的下一步是使用这个均方EoS视角将中心流框架扩展到零阶方法并实证验证所得的流描述是否能在不同架构和任务中捕捉零阶训练动力学。隐式偏差理论我们的工作与Zhang等人2025a关于零阶优化隐式偏差的工作有密切联系。他们证明在平滑凸目标下ZO-GD偏好Hessian迹小的解。我们的稳定性理论为这种偏好提供了动力学解释大学习率迫使优化器寻找迹小的区域以保持稳定。锐度感知最小化Foret等人2021的SAM方法明确最小化损失景观的锐度通常用最大特征值度量。对于零阶方法稳定性由迹控制这暗示了某种“迹感知”最小化的可能性。8.2 实际应用中的挑战与机遇大语言模型微调Malladi等人2023展示了MeZO一种零阶方法如何以可比精度微调LLM同时大幅降低内存使用。我们的稳定性理论为调整MeZO的超参数提供了指导关注预条件Hessian的迹而非最大特征值。分布式零阶优化在联邦学习等分布式设置中零阶方法可以避免传输梯度减少通信开销。理解在这种设置下的稳定性条件对于设计高效的分布式零阶算法至关重要。自适应零阶方法我们的工作主要集中在固定学习率的ZO-GD、ZO-GDM和ZO-Adam。一个有趣的方向是开发自适应零阶方法根据估计的Hessian迹自动调整学习率以保持在稳定性边缘。8.3 未解决的问题与未来方向小批量理论需要发展完整的小批量零阶优化稳定性理论同时考虑估计器噪声和数据采样噪声非凸景观我们的分析基于局部二次近似在高度非凸的神经网络损失景观中这种近似的有效性需要进一步研究泛化联系稳定性边缘与泛化之间的理论联系在一阶优化中已有探索对于零阶优化这种联系可能通过迹相关的隐式正则化实现高阶矩稳定性均方稳定性控制了二阶矩但更高阶矩或尾概率的行为如何这对于理解零阶优化的极端行为很重要零阶优化在深度学习中的地位正在迅速提升特别是在大模型微调和隐私敏感应用中。理解其独特的稳定性机制不仅丰富了优化理论也为实际应用提供了重要指导。通过将学习率与Hessian迹而非最大特征值联系起来我们揭示了零阶方法一种根本不同的工作方式——这种方式可能在某些场景下提供比一阶方法更理想的隐式正则化。我在实际应用中发现接受这种不同的动力学范式是关键。不要试图强迫零阶优化器像一阶优化器那样工作而是利用其独特的性质对总曲率而非最陡方向的敏感性可能正是某些应用中所需要的。