GPT-3 略读

发表于 2026-04-27 更新于 2026-06-04 分类于文章阅读

来源：duangxin/LLM-learing week2/week2_log.md

Language Models are Few-Shot Learners

GPT-3 | Brown et al., 2020 | 【略读】

decoder-only 结构适合文本生成任务，因为它本质上就是根据已有上下文预测下一个 token。相比 encoder-decoder，它更专注于自回归生成，也更适合大规模预训练。
GPT 和 BERT 的差别可以粗略理解为：GPT 是知道过去和当前状态去预测开放未来；BERT 是知道前后文去预测被遮挡的中间内容。预测未来更难，也更依赖模型规模和数据规模。
GPT-2 做 zero-shot 时，已经开始用 prompt 让模型直接适配下游任务。GPT-3 进一步展示 few-shot learning：在 prompt 里给几个例子，模型不改参数，只靠上下文“临场学习”。
in-context learning 指的是模型在推理阶段通过上下文中的示例或提示适应新任务，而不是通过梯度更新去微调参数。它让大模型看起来像是在“学习”，但这种学习发生在上下文里。
scaling law 关注模型性能与参数量、数据量、计算量之间的关系。GPT-3 的重要性在于，它让“扩大模型规模会带来通用能力提升”这件事变成了非常有说服力的工程路线。
论文也暴露了语言模型的局限：大型预训练语言模型缺少来自视频、现实物理交互等其他领域的经验数据，因此对世界背景的理解仍然不充分。这也是后续多模态模型和世界模型方向继续发展的原因之一。