GPT-3 略读
Language Models are Few-Shot Learners
GPT-3 | Brown et al., 2020 | 【略读】
阅读重点
- 理解 decoder-only 架构、自回归训练、in-context learning 与 scaling law。
- GPT-3 的意义不只是模型变大,而是展示了大模型在不改参数的情况下通过上下文完成新任务的能力。
- 这篇更适合作为理解现代 LLM 范式的背景文章。
笔记
- decoder-only 结构适合文本生成任务,因为它本质上就是根据已有上下文预测下一个 token。相比 encoder-decoder,它更专注于自回归生成,也更适合大规模预训练。
- GPT 和 BERT 的差别可以粗略理解为:GPT 是知道过去和当前状态去预测开放未来;BERT 是知道前后文去预测被遮挡的中间内容。预测未来更难,也更依赖模型规模和数据规模。
- GPT-2 做 zero-shot 时,已经开始用 prompt 让模型直接适配下游任务。GPT-3 进一步展示 few-shot learning:在 prompt 里给几个例子,模型不改参数,只靠上下文“临场学习”。
- in-context learning 指的是模型在推理阶段通过上下文中的示例或提示适应新任务,而不是通过梯度更新去微调参数。它让大模型看起来像是在“学习”,但这种学习发生在上下文里。
- scaling law 关注模型性能与参数量、数据量、计算量之间的关系。GPT-3 的重要性在于,它让“扩大模型规模会带来通用能力提升”这件事变成了非常有说服力的工程路线。
- 论文也暴露了语言模型的局限:大型预训练语言模型缺少来自视频、现实物理交互等其他领域的经验数据,因此对世界背景的理解仍然不充分。这也是后续多模态模型和世界模型方向继续发展的原因之一。