知识蒸馏 (Distillation)

用大模型（teacher）的输出训练小模型（student），让小模型在更便宜的成本下保留大模型的能力。

知识蒸馏是让小模型学大模型的输出。跟用标注数据直接训练 student 不同，你喂 student 的是 teacher 的预测——通常是 token 的整个概率分布，而不是只有最终答案。这个更丰富的信号让 student 能吸收一些光看 label 学不到的细微行为。它重要的原因是：前沿模型部署成本太高。70B 模型在高 QPS production 环境通常不实际，但能保留 90% 质量的 7B distilled 版就能 ship。多数「flash」「mini」变体（GPT-4o-mini、Claude Haiku、Gemini Flash）某种程度上都是从大模型蒸馏出来的。举个例子：Stanford 的 Alpaca 是早期示范——他们用 text-davinci-003（一个大很多的模型）的输出 fine-tune 了一个 7B Llama，用很少预算做出表现意外好的小模型。中文 open-source 社区也大量用这个方法——用 GPT-4 或 Claude 的输出 fine-tune 小模型。法律提醒：多数商业 API 在 ToS 禁止用它们的输出训练竞争模型。技术本身学术上很成熟，实际部署能用哪家数据要看 provider。延伸阅读：fine-tuning、teacher-student、model compression、SFT。