ALBEF 略读

发表于 2026-05-18 更新于 2026-06-04 分类于文章阅读

来源：duangxin/LLM-learing week4/week4_log.md

Align Before Fuse: Vision and Language Representation Learning with Momentum Distillation

ALBEF | Li et al., 2021 | 【略读】

阅读重点

ALBEF 提出“先对齐再融合”：先让图像和文本在全局语义上对齐，再用跨模态模块做更深层的融合。
它是图文对齐与深度融合之间的过渡性工作，适合作为理解 BLIP 系列演进逻辑的背景。
重点理解：对比学习、跨模态融合、momentum distillation。

笔记

ALBEF 的直觉是先让模型学会“图片和文字说的是同一件事”，再把两者融合起来做理解任务。多模态对齐就是把图像、文本等不同模态映射到共享空间，让模型能捕捉它们之间的语义关联。
当时一条主流路线依赖目标检测器提取图像区域特征，再和文本 token 一起送入跨模态 Transformer。这样做的问题是检测器成本高、类别有限，而且会提前压缩视觉信息；海报小字、细微表情、背景关系可能根本没被检测出来。
另一条路线是 CLIP 这种双塔对比学习。ALBEF 折中处理：先用对比学习做全局图文对齐，再通过轻量融合模块做深度交互。
ALBEF 采用 12 层 ViT 作为视觉编码器，6 层 BERT 作为文本编码器，再加一个 6 层多模态编码器。图文特征在多模态编码器里通过交叉注意力融合，并配合 MLM 和 ITM 等预训练任务。
动量蒸馏（Momentum Distillation）用于稳定训练。蒸馏的直觉是让学生模型模仿教师模型输出，把较强或较稳定模型里的知识转移给当前模型。
ALBEF 里的教师模型不是单独训练出来的专家，而是学生模型参数的指数移动平均。可以把学生模型理解成“每天变化很大的人”，教师模型是它过去一段时间表现的平滑版本：teacher = m * teacher + (1 - m) * student。
我的质疑是：ALBEF 认为 one-hot 标签太硬，因为一个 batch 里的其他文本不一定都是真负样本；但 soft label 也可能把本来应该区分开的样本拉近。比如两张图片都包含 “a dog”，一张是狗追球，一张是狗躺在沙发上，teacher 可能因为关键词相似而忽略动作和场景差异。