ALBEF 略读
Align Before Fuse: Vision and Language Representation Learning with Momentum Distillation
ALBEF | Li et al., 2021 | 【略读】
阅读重点
- ALBEF 提出“先对齐再融合”:先让图像和文本在全局语义上对齐,再用跨模态模块做更深层的融合。
- 它是图文对齐与深度融合之间的过渡性工作,适合作为理解 BLIP 系列演进逻辑的背景。
- 重点理解:对比学习、跨模态融合、momentum distillation。
笔记
- ALBEF 的直觉是先让模型学会“图片和文字说的是同一件事”,再把两者融合起来做理解任务。多模态对齐就是把图像、文本等不同模态映射到共享空间,让模型能捕捉它们之间的语义关联。
- 当时一条主流路线依赖目标检测器提取图像区域特征,再和文本 token 一起送入跨模态 Transformer。这样做的问题是检测器成本高、类别有限,而且会提前压缩视觉信息;海报小字、细微表情、背景关系可能根本没被检测出来。
- 另一条路线是 CLIP 这种双塔对比学习。ALBEF 折中处理:先用对比学习做全局图文对齐,再通过轻量融合模块做深度交互。
- ALBEF 采用 12 层 ViT 作为视觉编码器,6 层 BERT 作为文本编码器,再加一个 6 层多模态编码器。图文特征在多模态编码器里通过交叉注意力融合,并配合 MLM 和 ITM 等预训练任务。
- 动量蒸馏(Momentum Distillation)用于稳定训练。蒸馏的直觉是让学生模型模仿教师模型输出,把较强或较稳定模型里的知识转移给当前模型。
- ALBEF 里的教师模型不是单独训练出来的专家,而是学生模型参数的指数移动平均。可以把学生模型理解成“每天变化很大的人”,教师模型是它过去一段时间表现的平滑版本:teacher = m * teacher + (1 - m) * student。
- 我的质疑是:ALBEF 认为 one-hot 标签太硬,因为一个 batch 里的其他文本不一定都是真负样本;但 soft label 也可能把本来应该区分开的样本拉近。比如两张图片都包含 “a dog”,一张是狗追球,一张是狗躺在沙发上,teacher 可能因为关键词相似而忽略动作和场景差异。