BLIP-2 精读

发表于 2026-05-18 更新于 2026-06-04 分类于文章阅读

来源：duangxin/LLM-learing week4/week4_log.md

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

BLIP-2 | Li et al., 2023 | 【精读】

阅读重点

BLIP-2 是连接传统视觉语言预训练与现代 MLLM 的重要桥梁。
核心是 Q-Former：在冻结视觉编码器和冻结 LLM 的前提下，用轻量连接模块实现高效多模态对齐。
重点理解：Q-Former 设计、两阶段训练、冻结大模型带来的成本与性能权衡。

笔记

传统视觉语言预训练通常需要端到端联合训练大型图像模型和语言模型，成本很高。BLIP-2 的关键思路是利用现成的冻结模型：图像编码器不训练，LLM 也不训练，只训练中间的 Q-Former。
Q-Former 是视觉编码器和 LLM 之间的桥梁。它用一组可学习 query 从冻结视觉编码器输出中提取与语言任务相关的信息，再把这些视觉信息变成语言模型能接收的软提示。
Q-Former 包含两个共享自注意力层的 Transformer 子模块：一个用于和冻结图像编码器交互的视觉 Transformer，一个可以作为文本编码器和解码器的文本 Transformer。
第一阶段连接 Q-Former 和冻结图像编码器，让 Q-Former 学会从视觉表示中提取有用信息。第二阶段把 Q-Former 接到冻结 LLM 上，通过生成任务训练 Q-Former，让输出成为语言模型可用的视觉提示。
这篇文章里的“多模态对齐”已经不只是把图像和文本拉到同一个向量空间，而是进一步考虑：视觉表示怎样变成 LLM 可以用于生成的上下文。
冻结大模型的好处是成本低、训练稳定、复用已有能力；缺点是中间连接模块压力很大，所有跨模态适配几乎都压在 Q-Former 上。
我的质疑是：Q-Former 第一阶段学习的是图像和文字之间的匹配关系，第二阶段却要求它支持开放生成。两个阶段的目标跨度较大，第一阶段学到的东西可能不完全适合第二阶段。可以考虑增加过渡阶段，让 Q-Former 学习更通用的视觉语义表示。