LLaVA 精读
Visual Instruction Tuning
LLaVA | Liu et al., 2023 | 【精读】
阅读重点
- LLaVA 通过扩展 CLIP 视觉编码器,将视觉特征与大语言模型对齐,实现多模态理解。
- 重点理解:视觉编码器如何接入 LLM,以及为什么“指令微调”能让模型更像一个可以对话的多模态助手。
- 这篇文章适合作为理解现代 MLLM 的入口:视觉端负责看,语言端负责说,中间需要一个对齐层把两种表示接起来。
笔记
- LLaVA 的核心不是重新训练一个完整的视觉语言大模型,而是把已有的视觉编码器和大语言模型连接起来。视觉编码器通常来自 CLIP,它先把图像变成一组视觉特征,再通过投影层送入语言模型的表示空间。
- CLIP 本身可以理解为一种利用图文对构造监督信号的预训练方式:它不需要人为给每张图标注细粒度类别,而是用“图片-文本是否匹配”来学习视觉和语言的共同空间。这也是 LLaVA 能借用 CLIP 作为视觉入口的原因。
- LLaVA 后续会做视觉指令微调。这里的微调(fine-tuning)就是在预训练模型基础上,用更贴近任务的数据继续训练;和从零训练相比,它成本更低,也更容易把已有能力迁移到新任务里。
- 如果从监督信号角度看,LLaVA 的指令微调更接近全监督学习:训练样本里有图片、问题和目标回答,模型直接学习“看到这张图并收到这个指令后应该怎么回答”。这和 CLIP 那种用图文配对构造监督信号的方式不同。
- 读这篇文章时,我更应该关注“连接方式”和“训练阶段”的设计,而不是只看最终效果。因为后续很多 MLLM 的差异,本质上都在回答同一个问题:视觉特征到底应该怎样变成 LLM 能用的上下文。