扩展法则 (Scaling laws)

经验观察：LLM 表现会随模型大小、训练数据、算力增加而可预测地提升，常以幂律曲线描述。

Scaling laws 是经验观察——OpenAI 2020 年（Kaplan et al.）首先正式化，DeepMind 2022 年（Chinchilla, Hoffmann et al.）精炼——显示 LLM loss 随三个变量可预测地下降：参数数、训练 token 数、总算力。关系是幂律：算力翻倍通常让 loss 下降一个已知比例。它重要的原因是：scaling laws 把 LLM 开发从手工艺变成食谱。知道曲线后就能规划：「要 loss 减半，需要 10× 算力跟 5× 数据」。实验室就是这样事先合理化几亿美金的训练——不是乱猜，是外推测量过的曲线。GPT-2 之后多数能力进展来自规模化，不是架构改变。举个例子：GPT-3（175B 参数）胜过 GPT-2（1.5B）不是架构创新，而是大了 100×、训练数据更多、跑更多算力。Scaling laws 的预测说这会有用；确实有用。Chinchilla 显示 Kaplan 原始法则稍微调错了数据 vs 参数的 trade-off——Llama 跟多数现代 open-source 模型每个参数用的训练数据比 GPT-3 多很多。争论：scaling laws 还会继续吗？有些研究者认为遇到 diminishing returns 需要新想法；有些认为曲线会延续。Test-time scaling（o1、DeepSeek R1）跟 Mixture-of-Experts 开了新维度。延伸阅读：emergent abilities、frontier model、Chinchilla、compute。