監督式微調 (SFT)

用一組（輸入、理想輸出）配對資料 fine-tune 預訓練模型的方法，是 post-training 的第一步。

Supervised fine-tuning（SFT，監督式微調）拿一個 base LLM，繼續用標註過的範例訓練它——一組組（prompt、理想回應）配對，回應由人類撰寫或挑選。模型調整權重，讓自己更可能產生這類回應。SFT 是把原始的 next-token predictor 變成會 follow 指令、會聊天、會用特定格式寫東西的關鍵一步。它重要的原因是：用網路文字 pre-train 出來的 base 模型只會「續寫」文字，不會自然回答問題、follow 指令、或拒絕有害請求。SFT 是「post-training」的第一步——把 Llama 3 base 變成 Llama 3 Instruct。SFT 之後通常接 preference optimization（RLHF 或 DPO）做進一步精煉。舉個例子：你想做一個客服模型。收集 10,000 組（客戶問題、理想支援回答）——由你的客服團隊撰寫。在這些資料上 SFT 1-3 個 epoch，模型就學會你的語氣、你的產品、你的退款政策。同樣的流程可以從「做一個領域專家」延伸到「做一個輸出我 pipeline 需要的 JSON 格式的模型」。 SFT 可以是 full fine-tuning（更新每個權重，貴）或 parameter-efficient（LoRA、QLoRA——只更新小 adapter，便宜）。對多數開發者，LoRA-based SFT 配 1-10k 筆資料是實務的甜蜜點。延伸閱讀：fine-tuning、LoRA、RLHF、DPO、instruction tuning。