ResNet 精读
Deep Residual Learning for Image Recognition
ResNet | He et al., 2015 | 【精读】
阅读重点
- 残差连接是现代深度网络的基础设计,后续 Transformer、视觉编码器和多模态模型里都能看到类似思想。
- 重点理解:为什么深层网络会退化,残差连接如何让网络至少更容易学习“不要破坏已有表示”。
- ResNet 的价值不只是 CV 精度提升,更是提供了一种训练深层网络的工程范式。
笔记
- 深层网络退化问题指的是:随着网络深度增加,训练误差反而增大,导致性能下降。这不完全等同于梯度消失。梯度消失强调反向传播时梯度越来越小,前面层几乎学不动;网络退化强调即使理论上更深的网络表达能力更强,实际训练出来的结果也可能比浅层更差。
- ResNet 的直觉是:什么都不做,有时候也很重要。直接把输入 x 传到输出 y,网络只需要学会一个恒等映射(identity mapping)就行了;传统网络每一层都被迫“重塑”表示,层数越深越容易把已有信息破坏掉。

- ResNet 不再直接让网络层学习期望映射 H(x),而是让这些层学习相对于输入的残差映射 F(x) := H(x) - x,于是原始映射可以写成 F(x) + x。
- 这样做的好处是,如果最优映射 H(x) 接近输入 x,那么残差函数 F(x) 就接近 0。拟合“零”通常比拟合精确恒等映射更容易,因为神经网络权重初始化时本来就接近 0;让网络输出接近 0 比让一堆随机初始化的层精确形成单位映射更自然。
- 梯度反传本质上是在回答:“最终错了这件事,前面这个参数要负多大责任?”损失函数只给最后总分,梯度则像逐层批注,把误差责任从后一层传给前一层。残差连接提供了更直接的信息路径,也让深层训练更稳定。
- 下采样(Downsampling)可以理解为减少数据分辨率或采样率。在视觉网络里,它常用于让特征图变小、通道数变多,从而降低后续计算量并扩大感受野。
- 读 ResNet 也能看到深度学习很强的工程属性:很多设计未必来自完全漂亮的理论推导,但它们解决了真实训练中的稳定性、效率和可扩展性问题。残差连接就是这种“让网络更容易训练”的典型设计。