duangxinBlog

记录 LLM、Agent、文章阅读与项目实践

来源:duangxin/LLM-learing week2/week2_log.md

Deep Residual Learning for Image Recognition

ResNet | He et al., 2015 | 【精读】

阅读重点

  • 残差连接是现代深度网络的基础设计,后续 Transformer、视觉编码器和多模态模型里都能看到类似思想。
  • 重点理解:为什么深层网络会退化,残差连接如何让网络至少更容易学习“不要破坏已有表示”。
  • ResNet 的价值不只是 CV 精度提升,更是提供了一种训练深层网络的工程范式。

笔记

  1. 深层网络退化问题指的是:随着网络深度增加,训练误差反而增大,导致性能下降。这不完全等同于梯度消失。梯度消失强调反向传播时梯度越来越小,前面层几乎学不动;网络退化强调即使理论上更深的网络表达能力更强,实际训练出来的结果也可能比浅层更差。
  2. ResNet 的直觉是:什么都不做,有时候也很重要。直接把输入 x 传到输出 y,网络只需要学会一个恒等映射(identity mapping)就行了;传统网络每一层都被迫“重塑”表示,层数越深越容易把已有信息破坏掉。

解决网络退化问题

  1. ResNet 不再直接让网络层学习期望映射 H(x),而是让这些层学习相对于输入的残差映射 F(x) := H(x) - x,于是原始映射可以写成 F(x) + x。
  2. 这样做的好处是,如果最优映射 H(x) 接近输入 x,那么残差函数 F(x) 就接近 0。拟合“零”通常比拟合精确恒等映射更容易,因为神经网络权重初始化时本来就接近 0;让网络输出接近 0 比让一堆随机初始化的层精确形成单位映射更自然。
  3. 梯度反传本质上是在回答:“最终错了这件事,前面这个参数要负多大责任?”损失函数只给最后总分,梯度则像逐层批注,把误差责任从后一层传给前一层。残差连接提供了更直接的信息路径,也让深层训练更稳定。
  4. 下采样(Downsampling)可以理解为减少数据分辨率或采样率。在视觉网络里,它常用于让特征图变小、通道数变多,从而降低后续计算量并扩大感受野。
  5. 读 ResNet 也能看到深度学习很强的工程属性:很多设计未必来自完全漂亮的理论推导,但它们解决了真实训练中的稳定性、效率和可扩展性问题。残差连接就是这种“让网络更容易训练”的典型设计。

来源:duangxin/LLM-learing week1/week1_log.md

Visual Instruction Tuning

LLaVA | Liu et al., 2023 | 【精读】

阅读重点

  • LLaVA 通过扩展 CLIP 视觉编码器,将视觉特征与大语言模型对齐,实现多模态理解。
  • 重点理解:视觉编码器如何接入 LLM,以及为什么“指令微调”能让模型更像一个可以对话的多模态助手。
  • 这篇文章适合作为理解现代 MLLM 的入口:视觉端负责看,语言端负责说,中间需要一个对齐层把两种表示接起来。

笔记

  1. LLaVA 的核心不是重新训练一个完整的视觉语言大模型,而是把已有的视觉编码器和大语言模型连接起来。视觉编码器通常来自 CLIP,它先把图像变成一组视觉特征,再通过投影层送入语言模型的表示空间。
  2. CLIP 本身可以理解为一种利用图文对构造监督信号的预训练方式:它不需要人为给每张图标注细粒度类别,而是用“图片-文本是否匹配”来学习视觉和语言的共同空间。这也是 LLaVA 能借用 CLIP 作为视觉入口的原因。
  3. LLaVA 后续会做视觉指令微调。这里的微调(fine-tuning)就是在预训练模型基础上,用更贴近任务的数据继续训练;和从零训练相比,它成本更低,也更容易把已有能力迁移到新任务里。
  4. 如果从监督信号角度看,LLaVA 的指令微调更接近全监督学习:训练样本里有图片、问题和目标回答,模型直接学习“看到这张图并收到这个指令后应该怎么回答”。这和 CLIP 那种用图文配对构造监督信号的方式不同。
  5. 读这篇文章时,我更应该关注“连接方式”和“训练阶段”的设计,而不是只看最终效果。因为后续很多 MLLM 的差异,本质上都在回答同一个问题:视觉特征到底应该怎样变成 LLM 能用的上下文。
0%