BLIP 略读

来源:duangxin/LLM-learing week4/week4_log.md

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

BLIP | Li et al., 2022 | 【略读】

阅读重点

  • BLIP 是视觉语言统一建模的重要过渡工作,核心贡献是通过 bootstrapping 方式清洗和增强图文数据。
  • 它属于“纯视觉语言预训练”时代,和后续“接入 LLM”的 MLLM 范式之间还有一次跳跃。
  • 重点把握 CapFilt 数据清洗的思路与动机。

笔记

  1. 当时视觉语言预训练已经很强,但模型常常偏科:encoder 型模型适合理解和检索,encoder-decoder 型模型更适合生成,单个模型很难同时兼顾两类任务。
  2. 数据侧也有问题。网页 alt-text 和图片配对规模大,但噪声也大;很多网页文本并不是图片内容的准确描述。规模变大带来收益,噪声也被一起放大。
  3. BLIP 提出统一的视觉语言预训练框架,既能迁移到理解任务,也能迁移到生成任务。它要同时解决两个问题:模型架构不统一,以及网络图文对噪声太大。
  4. BLIP 采用 CapFilt 数据增强方法:Captioner 为网络图像生成合成标题,Filter 根据图像-文本匹配损失筛选与图像匹配的高质量标题,从而移除噪声标题。
  5. BLIP 提出 MED(Multimodal Mixture of Encoder-Decoder)。同一个模型可以切换三种功能:单模态编码器用于图文对比学习;图像引导文本编码器用于判断图文是否匹配;图像引导文本解码器用于看图后自回归生成文字。
  6. 从 ALBEF 到 BLIP,可以看到路线从“先对齐再融合”继续走向“理解和生成统一”。这一步很关键,因为后来的 MLLM 不只要判断图文是否匹配,还要能围绕图片生成开放回答。
  7. 我的质疑是:BLIP 的 ITM 是 matched / unmatched 二分类,但图文关系不是非黑即白。有些文本部分匹配,有些对象错了,有些属性错了。ITM 可以进一步升级为更细粒度标签,例如完全匹配、部分匹配、对象错、属性错、关系错。