LLaMA 略读

发表于 2026-04-27 更新于 2026-06-04 分类于文章阅读

来源：duangxin/LLM-learing week2/week2_log.md

LLaMA: Open and Efficient Foundation Language Models

LLaMA | Touvron et al., 2023 | 【略读】

LLaMA 系列要解决的问题更偏现实工程：在推理预算更低、参数规模相对更小的条件下，通过更多数据和更好的训练配方获得高性能。
它延续了 decoder-only 自回归范式，这说明 GPT-3 之后的主线并不是频繁换掉核心结构，而是在数据、训练稳定性、注意力实现和推理效率上持续优化。
LLaMA 后续框架常见的优化包括分组查询注意力（Grouped Query Attention）。直觉上，它把 Query 分成多个组共享或复用 Key/Value，从而减少计算量和显存占用，同时尽量保持性能。
pre-normalization 指把 LayerNorm 放在子层前面，而不是子层输出之后。这样做可以让非常深的 Transformer 更稳定，缓解深层训练中的梯度问题。
LayerNorm 会减均值、除以标准差，并带有缩放和偏置：$\text{LN}(x)=\frac{x-\mu}{\sqrt{\sigma^2+\epsilon}},\gamma+\beta$。
RMSNorm 则更简单：$\text{RMSNorm}(x)=\frac{x}{\sqrt{\mathbb{E}[x^2]+\epsilon}},\gamma$。它不减均值，也通常没有偏置，因此计算更轻，在 LLaMA 这类模型里很常见。
对我来说，LLaMA 这种技术报告的阅读价值在于看“工程取舍”：不是每次都发明新结构，而是在成本、数据、训练稳定性、开源可复现之间找到更好的平衡。