Week 4 学习记录（5.12 - 5.18）

发表于 2026-05-18 更新于 2026-05-24 分类于每周学习总结

来源：duangxin/LLM-learing week4/week4_log.md

文献阅读

6. Align Before Fuse: Vision and Language Representation Learning with Momentum Distillation

ALBEF | Li et al., 2021 | 【略读】

阅读重点

图文对齐与深度融合之间的过渡性工作，提出”先对齐再融合”的思想，并引入 momentum distillation
不属于最终形态，但能很好展示早期视觉语言预训练如何在对齐与融合之间寻找平衡
适合作为理解 BLIP 系列演进逻辑的背景

笔记

1.ALBEF提出先让模型学会“图片和文字说的是同一件事“，再把两者融合起来做理解任务，也就是先对齐再融合的思想。
2.当时主流的路线是多依赖于目标检测器提取图像区域特征，再和文本 token 一起送入跨模态 Transformer。另一条路线是 clip 这种双塔对比学习，ALBEF 则提出了一个折中的方案：先用对比学习让图像和文本在全局语义上对齐，再通过一个轻量级的融合模块进行深度融合。
3.ALBEF 采用的结构是 12 层的 vit 作为视觉编码器，6 层的 BERT 作为文本编码器，外加一个 6 层的多模态编码器，图文特征在其中通过交叉注意力机制进行融合。然后再进行 MLM（Masked Language Modeling）和 ITM（Image-Text Matching）的预训练任务。
4.ALBEF还引入了动量蒸馏（Momentum Distillation）的概念，来稳定训练过程。他们维护了一个教师模型（Teacher Model），让学生同时学习 one-hot 监督和教师模型的软标签输出，通过从教师模型中提取知识来提高学生模型的性能。教师模型的参数是学生模型参数的指数移动平均（Exponential Moving Average），这样可以让教师模型在训练过程中保持相对稳定，提供更可靠的指导信号。
5.质疑：ALBEF 认为 one-hot 标签太硬，因为一个 batch 里的其他文本不一定都是真负样本。但反过来，soft label 也可能把本来应该区分开的样本拉近。比如两张图片都包含 “a dog”，但一张是狗追球，一张是狗躺在沙发上。teacher 模型可能因为关键词相似给它们较高相似度，导致模型不够重视动作和场景差异。

7. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

BLIP | Li et al., 2022 | 【略读】

阅读重点

视觉语言统一建模的重要过渡工作，核心贡献是通过 bootstrapping 方式清洗和增强图文数据
BLIP 属于”纯视觉语言预训练”时代，和后续”接入 LLM”的 MLLM 范式有跳跃，精读价值相对有限
重点把握 bootstrapping 数据清洗的思路与动机

笔记
1.当时的视觉语言预训练已经很强，但大多偏科：encoder 型模型适合理解和检索，encoder-decoder 型模型更适合生成，单个模型很难同时在两类任务上都强。数据侧也有问题。为了扩大规模，很多方法直接用网页 alt-text 和图片配对，但网页文本常常不是图片内容的准确描述。规模变大带来了收益，但噪声也被一起放大，监督信号并不干净。
2.BLIP 提出一个统一的视觉语言预训练框架，既能迁移到理解任务，也能迁移到生成任务。它的目标是同时解决两个问题：模型架构不统一，以及网络图文对噪声太大。
3.BLIP 采用 capfilt 的数据增强方法。通过一个标题生成器（Captioner）为网络图像生成合成标题，并通过一个过滤器（Filter）根据图像-文本匹配损失（ITM）来筛选出与图像匹配的高质量标题来移除噪声标题。
4.BLIP 提出 MED, Multimodal Mixture of Encoder-Decoder。同一个模型可以切换三种功能，单模态编码器：分别编码图像和文本，用于图文对比学习；图像引导的文本编码器：文本侧加入 cross-attention，看图后判断图文是否匹配；图像引导的文本解码器：把双向 self-attention 换成 causal self-attention，看图后自回归生成文字。通过在不同层级上共享参数，模型可以在理解和生成任务之间更好地迁移。
5.质疑：BLIP 的 ITM 是 matched / unmatched 二分类，但图文关系不是非黑即白。有些文本部分匹配，有些对象错了，有些属性错了。ITM 可以从二分类升级成更细粒度的多级标签：完全匹配、部分匹配、对象错、属性错、关系错。

8. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

BLIP-2 | Li et al., 2023 | 【精读】

阅读重点

连接传统视觉语言预训练与现代 MLLM 的重要桥梁
提出 Q-Former 作为轻量级连接模块，在冻结视觉编码器和冻结 LLM 的前提下实现高效多模态对齐
重点理解：Q-Former 的设计、两阶段训练方式、冻结大模型带来的成本与性能权衡

笔记

当时传统的视觉-语言预训练模型通常需要对巨大的图像和语言模型进行端到端的联合训练，BLIP-2 的核心创新是引入了一个叫 Q-Former 的轻量级 Transformer 模块，作为视觉编码器和大型语言模型之间的桥梁。完美利用现成的冻结模型，它允许图像编码器和大语言模型（LLM）在训练过程中保持参数冻结（不训练）。
2.Q-Former 包含两个共享自注意力层的变换器子模块：一个用于与冻结图像编码器交互的视觉变换器，以及一个可以作为文本编码器和解码器的文本变换器。
3.预训练分为两个阶段：第一阶段通过连接Q-Former（一个轻量级的查询转换器）到冻结的图像编码器，从冻结的视觉编码器输出中提取信息；第二阶段再把第一阶段训练的 Q-Former 连接到冻结的LLM，通过生成任务进一步训练Q-Former，输出投影为语言模型的软视觉提示。
4.质疑：Q-former 在第一阶段学习到的是这个图像和文字之间的匹配关系，第二阶段就需要它支持根据这个关系来开放回答问题。我感觉这两个阶段的目标跨度太大，第一阶段学到的东西可能并不完全适合第二阶段的生成任务。可以在两个阶段之间增加一个过渡阶段，让 Q-Former 学习一些更通用的视觉表示。

9. Flamingo: a Visual Language Model for Few-Shot Learning

Flamingo | Alayrac et al., 2022 | 【略读】

阅读重点

首次证明 few-shot 多模态 in-context learning 可行
核心思想是将冻结的视觉编码器与冻结的 LLM 通过跨注意力机制连接
由于工程细节和训练成本较高，重点把握其历史定位和”如何把视觉信息高效注入 LLM”的思想
与 BLIP-2、LLaVA 形成对照

笔记

flamingo 想让一个模型看懂图片或视频，并且只靠几个例子就学会回答新任务。它是一类视觉语言模型，可以接收图片、视频和文字交错组成的提示，然后生成文字输出。论文目标是把大语言模型的上下文学习能力搬到多模态任务里。
它的核心也是冻结视觉编码器和冻结语言模型，但是与 BLIP-2 不同的是，Flamingo 主要面向交错图文序列的自回归生成，它直接在语言模型的每一层都插入了一个跨模态注意力模块，让视觉信息能够在语言模型的每一层都被利用到。
质疑：Flamingo 使用网页级大规模图文数据，从而容易出现噪声和不准确的标签。他原本使用的数据清洗基本上是（基础网页过滤 + 图像尺寸/质量过滤 + 显式内容过滤 + 部分 benchmark 去重 + 用高质量 LTIP/VTP 补充 noisy ALIGN。）。它可以使用 blip 中的 capflit 的方式来进一步清洗数据，以提高模型的泛化能力和减少训练成本。

知识学习

蒸馏（Distillation）

蒸馏是一种模型压缩技术，旨在将一个大型、复杂的教师模型（Teacher Model）中的知识转移到一个较小、较简单的学生模型（Student Model）中。通过让学生模型模仿教师模型的输出，可以在保持性能的同时减少模型的参数量和计算资源需求。

多模态对齐

多模态对齐是指在多模态学习中，将来自不同模态（如图像、文本、音频等）的数据映射到一个共享的表示空间中，使得它们之间的关系能够被模型理解和利用。对齐的目标是让模型能够捕捉不同模态之间的语义关联，从而实现更有效的多模态理解和生成。
分为全局对齐和局部对齐。将整张图片和整段文本看作一个整体进行对齐；将图像中的特定区域（Region/Patch）与文本中的特定词（Token）建立对应关系。

直接进行多模态融合

依赖目标检测器。检测器通常是在 Visual Genome 这类带框标注的数据上训练出来的，成本高，而且它能识别的类别有限。检测器漏掉的东西，后面的视觉语言模型基本也很难补回来。
视觉信息被提前压缩了。一张图片原本有丰富的纹理、布局、细节、小字、小物体，但 region feature 只保留检测器认为重要的区域。比如海报上的文字、细微表情、背景关系，可能根本没有被检测器提出来。

教师模型的参数是学生模型参数的指数移动平均（Exponential Moving Average）

可以把它理解成：学生模型是“正在认真学习、每天变化很大的人”；教师模型是“学生过去一段时间表现的平滑平均版本”。
在 ALBEF 里，教师模型不是单独训练出来的，也不是人工标注出来的专家。它的参数来自学生模型，但不是直接复制，而是用指数移动平均 EMA 慢慢更新。公式大概是：teacher = m * teacher + (1 - m) * student

多智能体，- 多智能体系统（Multi-Agent Systems）是指由多个智能体组成的系统，这些智能体可以是软件程序、机器人或其他类型的实体。多智能体系统的研究涉及智能体之间的交互、协作、竞争等方面，旨在实现更复杂、更灵活的行为和决策能力。

需要实践，多人多智能体协作， agent memory，记忆系统设计，并且省token
自己进行做决策进行记忆系统
一边做一边总结，通用或者场景特化。
ai驾驭系统，
尽可能少的人来介入，让 agent 来做。
每周让 agent 来做 ppt，总结，写周报，做计划。

ai 写一个报告：自己要做些什么，建立一个认识