LLaMA 略读
LLaMA: Open and Efficient Foundation Language Models
LLaMA | Touvron et al., 2023 | 【略读】
阅读重点
- LLaMA 更贴近开源大模型实践,重点不是提出全新架构,而是在较小参数规模下用更多高质量数据训练出强模型。
- 理解它的意义:让高性能 LLM 从“只有少数公司能玩”变得更接近研究社区和工程实践。
- 适合作为后续读 LLaMA 2、LLaMA 3、Qwen、Mistral 等技术报告的背景。
笔记
- LLaMA 系列要解决的问题更偏现实工程:在推理预算更低、参数规模相对更小的条件下,通过更多数据和更好的训练配方获得高性能。
- 它延续了 decoder-only 自回归范式,这说明 GPT-3 之后的主线并不是频繁换掉核心结构,而是在数据、训练稳定性、注意力实现和推理效率上持续优化。
- LLaMA 后续框架常见的优化包括分组查询注意力(Grouped Query Attention)。直觉上,它把 Query 分成多个组共享或复用 Key/Value,从而减少计算量和显存占用,同时尽量保持性能。
- pre-normalization 指把 LayerNorm 放在子层前面,而不是子层输出之后。这样做可以让非常深的 Transformer 更稳定,缓解深层训练中的梯度问题。
- LayerNorm 会减均值、除以标准差,并带有缩放和偏置:$\text{LN}(x)=\frac{x-\mu}{\sqrt{\sigma^2+\epsilon}},\gamma+\beta$。
- RMSNorm 则更简单:$\text{RMSNorm}(x)=\frac{x}{\sqrt{\mathbb{E}[x^2]+\epsilon}},\gamma$。它不减均值,也通常没有偏置,因此计算更轻,在 LLaMA 这类模型里很常见。
- 对我来说,LLaMA 这种技术报告的阅读价值在于看“工程取舍”:不是每次都发明新结构,而是在成本、数据、训练稳定性、开源可复现之间找到更好的平衡。