規模化法則 (Scaling laws)

經驗觀察：LLM 表現會隨模型大小、訓練資料、算力增加而可預測地提升，常以冪次律曲線描述。

Scaling laws 是經驗觀察——OpenAI 2020 年（Kaplan et al.）首先正式化，DeepMind 2022 年（Chinchilla, Hoffmann et al.）精煉——顯示 LLM loss 隨三個變數可預測地下降：參數數、訓練 token 數、總算力。關係是冪次律：算力翻倍通常讓 loss 下降一個已知比例。它重要的原因是：scaling laws 把 LLM 開發從手工藝變成食譜。知道曲線後就能規劃：「要 loss 減半，需要 10× 算力跟 5× 資料」。實驗室就是這樣事先合理化幾億美金的訓練——不是亂猜，是外推測量過的曲線。GPT-2 之後多數能力進展來自規模化，不是架構改變。舉個例子：GPT-3（175B 參數）勝過 GPT-2（1.5B）不是架構創新，而是大了 100×、訓練資料更多、跑更多算力。Scaling laws 的預測說這會有用；確實有用。Chinchilla 顯示 Kaplan 原始法則稍微調錯了資料 vs 參數的 trade-off——Llama 跟多數現代 open-source 模型每個參數用的訓練資料比 GPT-3 多很多。爭論：scaling laws 還會繼續嗎？有些研究者認為遇到 diminishing returns 需要新想法；有些認為曲線會延續。Test-time scaling（o1、DeepSeek R1）跟 Mixture-of-Experts 開了新維度。延伸閱讀：emergent abilities、frontier model、Chinchilla、compute。