跳到内容

技术

知识蒸馏 (Distillation)

Knowledge distillation

用大模型(teacher)的输出训练小模型(student),让小模型在更便宜的成本下保留大模型的能力。

登入以收藏
知识蒸馏是让小模型学大模型的输出。跟用标注数据直接训练 student 不同,你喂 student 的是 teacher 的预测——通常是 token 的整个概率分布,而不是只有最终答案。这个更丰富的信号让 student 能吸收一些光看 label 学不到的细微行为。 它重要的原因是:前沿模型部署成本太高。70B 模型在高 QPS production 环境通常不实际,但能保留 90% 质量的 7B distilled 版就能 ship。多数「flash」「mini」变体(GPT-4o-mini、Claude Haiku、Gemini Flash)某种程度上都是从大模型蒸馏出来的。 举个例子:Stanford 的 Alpaca 是早期示范——他们用 text-davinci-003(一个大很多的模型)的输出 fine-tune 了一个 7B Llama,用很少预算做出表现意外好的小模型。中文 open-source 社区也大量用这个方法——用 GPT-4 或 Claude 的输出 fine-tune 小模型。 法律提醒:多数商业 API 在 ToS 禁止用它们的输出训练竞争模型。技术本身学术上很成熟,实际部署能用哪家数据要看 provider。延伸阅读:fine-tuning、teacher-student、model compression、SFT。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

知识蒸馏 (Distillation) · BuilderWorld