跳到内容

其他

扩展法则 (Scaling laws)

Scaling laws

经验观察:LLM 表现会随模型大小、训练数据、算力增加而可预测地提升,常以幂律曲线描述。

登入以收藏
Scaling laws 是经验观察——OpenAI 2020 年(Kaplan et al.)首先正式化,DeepMind 2022 年(Chinchilla, Hoffmann et al.)精炼——显示 LLM loss 随三个变量可预测地下降:参数数、训练 token 数、总算力。关系是幂律:算力翻倍通常让 loss 下降一个已知比例。 它重要的原因是:scaling laws 把 LLM 开发从手工艺变成食谱。知道曲线后就能规划:「要 loss 减半,需要 10× 算力跟 5× 数据」。实验室就是这样事先合理化几亿美金的训练——不是乱猜,是外推测量过的曲线。GPT-2 之后多数能力进展来自规模化,不是架构改变。 举个例子:GPT-3(175B 参数)胜过 GPT-2(1.5B)不是架构创新,而是大了 100×、训练数据更多、跑更多算力。Scaling laws 的预测说这会有用;确实有用。Chinchilla 显示 Kaplan 原始法则稍微调错了数据 vs 参数的 trade-off——Llama 跟多数现代 open-source 模型每个参数用的训练数据比 GPT-3 多很多。 争论:scaling laws 还会继续吗?有些研究者认为遇到 diminishing returns 需要新想法;有些认为曲线会延续。Test-time scaling(o1、DeepSeek R1)跟 Mixture-of-Experts 开了新维度。延伸阅读:emergent abilities、frontier model、Chinchilla、compute。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more