BLIP 略读

发表于 2026-05-18 更新于 2026-06-04 分类于文章阅读

来源：duangxin/LLM-learing week4/week4_log.md

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

BLIP | Li et al., 2022 | 【略读】

阅读重点

BLIP 是视觉语言统一建模的重要过渡工作，核心贡献是通过 bootstrapping 方式清洗和增强图文数据。
它属于“纯视觉语言预训练”时代，和后续“接入 LLM”的 MLLM 范式之间还有一次跳跃。
重点把握 CapFilt 数据清洗的思路与动机。

笔记

当时视觉语言预训练已经很强，但模型常常偏科：encoder 型模型适合理解和检索，encoder-decoder 型模型更适合生成，单个模型很难同时兼顾两类任务。
数据侧也有问题。网页 alt-text 和图片配对规模大，但噪声也大；很多网页文本并不是图片内容的准确描述。规模变大带来收益，噪声也被一起放大。
BLIP 提出统一的视觉语言预训练框架，既能迁移到理解任务，也能迁移到生成任务。它要同时解决两个问题：模型架构不统一，以及网络图文对噪声太大。
BLIP 采用 CapFilt 数据增强方法：Captioner 为网络图像生成合成标题，Filter 根据图像-文本匹配损失筛选与图像匹配的高质量标题，从而移除噪声标题。
BLIP 提出 MED（Multimodal Mixture of Encoder-Decoder）。同一个模型可以切换三种功能：单模态编码器用于图文对比学习；图像引导文本编码器用于判断图文是否匹配；图像引导文本解码器用于看图后自回归生成文字。
从 ALBEF 到 BLIP，可以看到路线从“先对齐再融合”继续走向“理解和生成统一”。这一步很关键，因为后来的 MLLM 不只要判断图文是否匹配，还要能围绕图片生成开放回答。
我的质疑是：BLIP 的 ITM 是 matched / unmatched 二分类，但图文关系不是非黑即白。有些文本部分匹配，有些对象错了，有些属性错了。ITM 可以进一步升级为更细粒度标签，例如完全匹配、部分匹配、对象错、属性错、关系错。