监督式微调 (SFT)

用一组（输入、理想输出）配对数据 fine-tune 预训练模型的方法，是 post-training 的第一步。

Supervised fine-tuning（SFT，监督式微调）拿一个 base LLM，继续用标注过的示例训练它——一组组（prompt、理想响应）配对，响应由人类撰写或挑选。模型调整权重，让自己更可能产生这类响应。SFT 是把原始的 next-token predictor 变成会 follow 指令、会聊天、会用特定格式写东西的关键一步。它重要的原因是：用网络文字 pre-train 出来的 base 模型只会「续写」文字，不会自然回答问题、follow 指令、或拒绝有害请求。SFT 是「post-training」的第一步——把 Llama 3 base 变成 Llama 3 Instruct。SFT 之后通常接 preference optimization（RLHF 或 DPO）做进一步精炼。举个例子：你想做一个客服模型。收集 10,000 组（客户问题、理想支持回答）——由你的客服团队撰写。在这些数据上 SFT 1-3 个 epoch，模型就学会你的语气、你的产品、你的退款政策。同样的流程可以从「做一个领域专家」延伸到「做一个输出我 pipeline 需要的 JSON 格式的模型」。 SFT 可以是 full fine-tuning（更新每个权重，贵）或 parameter-efficient（LoRA、QLoRA——只更新小 adapter，便宜）。对多数开发者，LoRA-based SFT 配 1-10k 笔数据是实务的甜蜜点。延伸阅读：fine-tuning、LoRA、RLHF、DPO、instruction tuning。