LLaVA 精读

发表于 2026-04-19 更新于 2026-06-04 分类于文章阅读

来源：duangxin/LLM-learing week1/week1_log.md

Visual Instruction Tuning

LLaVA | Liu et al., 2023 | 【精读】

LLaVA 的核心不是重新训练一个完整的视觉语言大模型，而是把已有的视觉编码器和大语言模型连接起来。视觉编码器通常来自 CLIP，它先把图像变成一组视觉特征，再通过投影层送入语言模型的表示空间。
CLIP 本身可以理解为一种利用图文对构造监督信号的预训练方式：它不需要人为给每张图标注细粒度类别，而是用“图片-文本是否匹配”来学习视觉和语言的共同空间。这也是 LLaVA 能借用 CLIP 作为视觉入口的原因。
LLaVA 后续会做视觉指令微调。这里的微调（fine-tuning）就是在预训练模型基础上，用更贴近任务的数据继续训练；和从零训练相比，它成本更低，也更容易把已有能力迁移到新任务里。
如果从监督信号角度看，LLaVA 的指令微调更接近全监督学习：训练样本里有图片、问题和目标回答，模型直接学习“看到这张图并收到这个指令后应该怎么回答”。这和 CLIP 那种用图文配对构造监督信号的方式不同。
读这篇文章时，我更应该关注“连接方式”和“训练阶段”的设计，而不是只看最终效果。因为后续很多 MLLM 的差异，本质上都在回答同一个问题：视觉特征到底应该怎样变成 LLM 能用的上下文。