跳到内容

技术

监督式微调 (SFT)

Supervised fine-tuning (SFT)

用一组(输入、理想输出)配对数据 fine-tune 预训练模型的方法,是 post-training 的第一步。

登入以收藏
Supervised fine-tuning(SFT,监督式微调)拿一个 base LLM,继续用标注过的示例训练它——一组组(prompt、理想响应)配对,响应由人类撰写或挑选。模型调整权重,让自己更可能产生这类响应。SFT 是把原始的 next-token predictor 变成会 follow 指令、会聊天、会用特定格式写东西的关键一步。 它重要的原因是:用网络文字 pre-train 出来的 base 模型只会「续写」文字,不会自然回答问题、follow 指令、或拒绝有害请求。SFT 是「post-training」的第一步——把 Llama 3 base 变成 Llama 3 Instruct。SFT 之后通常接 preference optimization(RLHF 或 DPO)做进一步精炼。 举个例子:你想做一个客服模型。收集 10,000 组(客户问题、理想支持回答)——由你的客服团队撰写。在这些数据上 SFT 1-3 个 epoch,模型就学会你的语气、你的产品、你的退款政策。同样的流程可以从「做一个领域专家」延伸到「做一个输出我 pipeline 需要的 JSON 格式的模型」。 SFT 可以是 full fine-tuning(更新每个权重,贵)或 parameter-efficient(LoRA、QLoRA——只更新小 adapter,便宜)。对多数开发者,LoRA-based SFT 配 1-10k 笔数据是实务的甜蜜点。延伸阅读:fine-tuning、LoRA、RLHF、DPO、instruction tuning。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

监督式微调 (SFT) · BuilderWorld