跳到內容

其他

規模化法則 (Scaling laws)

Scaling laws

經驗觀察:LLM 表現會隨模型大小、訓練資料、算力增加而可預測地提升,常以冪次律曲線描述。

登入以收藏
Scaling laws 是經驗觀察——OpenAI 2020 年(Kaplan et al.)首先正式化,DeepMind 2022 年(Chinchilla, Hoffmann et al.)精煉——顯示 LLM loss 隨三個變數可預測地下降:參數數、訓練 token 數、總算力。關係是冪次律:算力翻倍通常讓 loss 下降一個已知比例。 它重要的原因是:scaling laws 把 LLM 開發從手工藝變成食譜。知道曲線後就能規劃:「要 loss 減半,需要 10× 算力跟 5× 資料」。實驗室就是這樣事先合理化幾億美金的訓練——不是亂猜,是外推測量過的曲線。GPT-2 之後多數能力進展來自規模化,不是架構改變。 舉個例子:GPT-3(175B 參數)勝過 GPT-2(1.5B)不是架構創新,而是大了 100×、訓練資料更多、跑更多算力。Scaling laws 的預測說這會有用;確實有用。Chinchilla 顯示 Kaplan 原始法則稍微調錯了資料 vs 參數的 trade-off——Llama 跟多數現代 open-source 模型每個參數用的訓練資料比 GPT-3 多很多。 爭論:scaling laws 還會繼續嗎?有些研究者認為遇到 diminishing returns 需要新想法;有些認為曲線會延續。Test-time scaling(o1、DeepSeek R1)跟 Mixture-of-Experts 開了新維度。延伸閱讀:emergent abilities、frontier model、Chinchilla、compute。

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more