跳到内容

其他

涌现能力 (Emergent abilities)

Emergent abilities

大模型才会突然出现、小模型完全没有的能力,例如多步推理、代码生成、follow 没看过的指令。

登入以收藏
Emergent abilities(涌现能力)是 LLM 在小模型完全看不到、跨过某个规模或训练门槛后才出现的能力——有时是急遽出现的。多步算术、罕见语言对的翻译、follow 没看过的多步指令、基础代码生成:这些在某个规模以下的模型完全不会或接近随机,跨过门槛后就跳到可用水准。 它重要的原因是:涌现是现代 LLM 最令人惊讶的特征之一,也是为什么规模化推动进展的关键原因。你没办法从 1B 参数模型预测 100B 模型会做算术——但它真的会。这种不可预测也是实验室对继续放大保持谨慎的原因;你没办法排除新的涌现行为,包括不想要的。 举个例子:GPT-2(1.5B)基本不会多位数乘法。GPT-3(175B)配合 chain-of-thought prompting 常能算对。同样的模式在几十种能力上都看到——小规模没有、大规模有,门槛依任务不同。 争论:2023 年 Stanford 一篇论文认为部分「涌现」是评估指标计算方式造成的假象(accuracy 的硬门槛让平滑的底层进步看起来像突然跳一阶)。但实务观察——大模型会的事小模型不会——显然成立。延伸阅读:scaling laws、frontier model、in-context learning。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more