从“梯度消失”到“恒等映射”：用大白话和代码图解ResNet的Shortcut为什么能救活超深网络

张

张建站

2026/6/9 20:37:55

10分钟阅读

从“梯度消失”到“恒等映射”：用大白话和代码图解ResNet的Shortcut为什么能救活超深网络

残差网络的革命Shortcut如何成为深度神经网络的救星2015年当微软研究院的四位学者在ImageNet竞赛中展示他们的深度残差网络(ResNet)时整个计算机视觉领域都为之震动。这个看似简单的创新——在神经网络层之间添加捷径连接(shortcut)——不仅让152层的超深网络成为可能更彻底改变了我们对深度神经网络训练方式的认知。但究竟是什么让这个设计如此有效让我们抛开复杂的数学公式用直观的方式解析ResNet背后的精妙思想。1. 深度神经网络的困境为什么越深反而越差在ResNet出现之前神经网络的发展陷入了一个令人困惑的悖论理论上更深的网络应该能够学习更复杂的特征表示但实践中当网络深度超过20层后性能不仅停止提升反而开始下降。这不是简单的过拟合问题——训练误差本身也在增加学术界称之为退化(degradation)问题。想象你正在教一个孩子解决数学问题。如果每次只教一小步理论上经过足够多的步骤后他应该能解决任何复杂问题。但实际上随着步骤增加错误会不断累积最终结果可能比简单几步更差。这就是深度神经网络面临的困境。梯度消失是深层网络难以训练的主要原因之一。在反向传播过程中梯度通过链式法则逐层传递当中间层的梯度值小于1时经过多层连乘后会迅速趋近于零导致底层参数几乎得不到有效更新。但ResNet团队发现即使用ReLU激活函数和精心设计的初始化方法缓解了梯度消失退化问题依然存在——这表明还有更深层次的原因。2. 残差学习的核心思想从拟合函数到拟合变化传统神经网络的目标是让每一层直接学习从输入到输出的完整映射。ResNet提出了一种颠覆性的思路与其让网络学习完整的变换不如让它学习相对于输入的微小变化——即残差(residual)。用一个类比来说明假设你需要调整一张照片的亮度。传统方法相当于让网络从头学习如何输出一张亮度合适的照片而残差学习则是让网络只需学习需要增加多少亮度这个差值原始照片通过shortcut直接传递到后面。数学上传统网络层试图学习H(x) F(x)而残差块学习的是H(x) F(x) x其中F(x)就是需要学习的残差映射。这种设计的精妙之处在于当最优解接近恒等映射时F(x)只需学习接近0的残差这比学习完整的恒等映射容易得多即使增加网络深度至少能保证性能不会比浅层网络更差因为可以学习F(x)0梯度可以通过shortcut直接回传形成一条高速公路有效缓解梯度消失# 一个简单的残差块实现(PyTorch) class ResidualBlock(nn.Module): def __init__(self, in_channels, out_channels, stride1): super().__init__() self.conv1 nn.Conv2d(in_channels, out_channels, kernel_size3, stridestride, padding1) self.bn1 nn.BatchNorm2d(out_channels) self.conv2 nn.Conv2d(out_channels, out_channels, kernel_size3, padding1) self.bn2 nn.BatchNorm2d(out_channels) self.shortcut nn.Sequential() if stride ! 1 or in_channels ! out_channels: self.shortcut nn.Sequential( nn.Conv2d(in_channels, out_channels, kernel_size1, stridestride), nn.BatchNorm2d(out_channels) ) def forward(self, x): out F.relu(self.bn1(self.conv1(x))) out self.bn2(self.conv2(out)) out self.shortcut(x) # 关键步骤添加shortcut连接 return F.relu(out)3. Shortcut如何构建梯度高速公路让我们通过一个两层残差网络的简化例子直观理解shortcut如何改善梯度流动。考虑以下两种情况传统网络y w2 * relu(w1 * x)反向传播时w1的梯度为∂L/∂w1 ∂L/∂y * w2 * I(w1*x0) * x其中I是指示函数。如果w2很小或梯度∂L/∂y很小w1的更新就会非常微弱。残差网络y w2 * relu(w1 * x) x此时w1的梯度为∂L/∂w1 ∂L/∂y * (w2 * I(w1*x0) * x I(w1*x0) * x)即使w2很小第二项仍能保证梯度有效回传。这就像在主要道路旁修建了一条直达的高速公路确保交通梯度不会完全堵塞。提示在实际应用中ResNet的shortcut有两种处理方式——当输入输出维度相同时直接相加当维度不同时使用1x1卷积调整维度后再相加。4. ResNet的架构创新与实现细节标准的ResNet有多个变体(ResNet-18,34,50,101,152)数字代表层数。以ResNet-34为例其架构包含初始卷积层7x7卷积stride2将输入分辨率减半最大池化3x3池化进一步降低分辨率四个残差阶段每个阶段由多个残差块组成逐步增加通道数全局平均池化将空间维度降为1x1全连接分类层下表展示了ResNet-34的主要结构阶段组成模块输出尺寸重复次数conv17x7卷积112x1121pool13x3最大池化56x561stage1[3x3,64]×256x563stage2[3x3,128]×228x284stage3[3x3,256]×214x146stage4[3x3,512]×27x73实现时需要注意几个关键点瓶颈设计在更深的ResNet(如50/101/152)中使用1x1卷积先降维再升维减少计算量批归一化每个卷积后都接BatchNorm这是训练深层网络的关键下采样通过stride2的卷积或池化降低分辨率通常在每个stage的第一个残差块完成# ResNet-34的完整实现关键部分 def make_layer(self, in_channels, out_channels, blocks, stride1): layers [] # 第一个块可能需要下采样 layers.append(ResidualBlock(in_channels, out_channels, stride)) # 后续块保持维度不变 for _ in range(1, blocks): layers.append(ResidualBlock(out_channels, out_channels)) return nn.Sequential(*layers)5. 残差思想的深远影响ResNet的成功不仅在于它赢得了ImageNet竞赛更在于它开创的残差学习范式对深度学习产生了深远影响网络深度革命ResNet让训练100层以上的网络成为可能开启了深度的新纪元架构设计范式shortcut连接被广泛应用于各种网络如DenseNet中的密集连接跨领域影响Transformer中的残差连接直接借鉴了ResNet的思想优化视角残差结构使优化问题更容易启发了后续关于深度学习损失景观的研究在计算机视觉领域ResNet及其变体至今仍是许多任务的基准模型。而在其他领域残差思想也被证明是训练深层网络的利器。当我们回望这个设计不禁感叹最好的解决方案往往是最优雅简单的。

Hadoop HDFS客户端操作避坑指南：从环境变量到log4j配置的完整排错手册

Hadoop HDFS客户端操作避坑指南：从环境变量到log4j配置的完整排错手册在Windows环境下搭建Hadoop HDFS客户端环境，看似简单的步骤背后往往隐藏着无数"坑"。许多初学者按照教程一步步操作，却总被"一闪而过的命令行"、&q…...

2026/6/9 20:37:53 阅读更多 →

G-Helper终极教程：AMD CPU降压优化，轻松降低华硕笔记本温度15℃

G-Helper终极教程：AMD CPU降压优化，轻松降低华硕笔记本温度15℃ 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, V…...

2026/6/9 20:35:18 阅读更多 →

i.MX 8ULP异构处理器：架构解析与低功耗设计实战

1. 项目概述：为什么我们需要i.MX 8ULP这样的异构处理器？在嵌入式系统设计领域，尤其是面向物联网边缘节点、可穿戴设备、智能家居中控以及工业HMI（人机界面）等场景时，工程师们长期面临着一个经典的两难困境&…...

2026/6/9 20:32:42 阅读更多 →

CSDN AI数字营销卡片配置手册（跳转权限解禁版）：官方未公开的3种合规跳转变通方案

更多请点击： https://codechina.net 第一章：CSDN AI 数字营销的引流卡片支持跳转官网、小程序链接吗？ CSDN AI 数字营销平台提供的引流卡片，是面向技术创作者与企业用户的核心转化组件，其核心能力之一即为外链跳转。目…...

2026/6/9 10:04:41 阅读更多 →

如何3分钟找回遗忘的压缩包密码：免费开源工具的终极指南

如何3分钟找回遗忘的压缩包密码：免费开源工具的终极指南【免费下载链接】ArchivePasswordTestTool 利用7zip测试压缩包的功能对加密压缩包进行自动化测试密码项目地址: https://gitcode.com/gh_mirrors/ar/ArchivePasswordTestTool 你是否曾经面对一个加密…...

2026/6/8 18:53:33 阅读更多 →

Linux桌面便签神器：Sticky如何让你的工作效率提升300%？

Linux桌面便签神器：Sticky如何让你的工作效率提升300%？ 【免费下载链接】sticky A sticky notes app for the linux desktop 项目地址: https://gitcode.com/gh_mirrors/stic/sticky 在Linux桌面上，你是否经常需要快速记录一闪而过的灵…...

2026/6/9 18:44:24 阅读更多 →

YOLO11部署优化：OpenVINO推理 | 在Intel CPU上利用OpenVINO异构推理加速，无需GPU也能实时检测

我在Intel i7-13700上实测，YOLO11n经过OpenVINO INT8量化后推理延迟从原始的92ms降至19ms，配合异构调度实现CPU+GPU双核并行后进一步压缩到11ms，无需独立GPU即可跑满30FPS实时检测写在前面：一个被低估的部署痛点过去两年，我在三个不同的工业视觉项目中遇到同样的困境—…...

2026/6/9 2:16:14 阅读更多 →