涌现能力 (Emergent abilities)

大模型才会突然出现、小模型完全没有的能力，例如多步推理、代码生成、follow 没看过的指令。

Emergent abilities（涌现能力）是 LLM 在小模型完全看不到、跨过某个规模或训练门槛后才出现的能力——有时是急遽出现的。多步算术、罕见语言对的翻译、follow 没看过的多步指令、基础代码生成：这些在某个规模以下的模型完全不会或接近随机，跨过门槛后就跳到可用水准。它重要的原因是：涌现是现代 LLM 最令人惊讶的特征之一，也是为什么规模化推动进展的关键原因。你没办法从 1B 参数模型预测 100B 模型会做算术——但它真的会。这种不可预测也是实验室对继续放大保持谨慎的原因；你没办法排除新的涌现行为，包括不想要的。举个例子：GPT-2（1.5B）基本不会多位数乘法。GPT-3（175B）配合 chain-of-thought prompting 常能算对。同样的模式在几十种能力上都看到——小规模没有、大规模有，门槛依任务不同。争论：2023 年 Stanford 一篇论文认为部分「涌现」是评估指标计算方式造成的假象（accuracy 的硬门槛让平滑的底层进步看起来像突然跳一阶）。但实务观察——大模型会的事小模型不会——显然成立。延伸阅读：scaling laws、frontier model、in-context learning。