跳到內容

技術

監督式微調 (SFT)

Supervised fine-tuning (SFT)

用一組(輸入、理想輸出)配對資料 fine-tune 預訓練模型的方法,是 post-training 的第一步。

登入以收藏
Supervised fine-tuning(SFT,監督式微調)拿一個 base LLM,繼續用標註過的範例訓練它——一組組(prompt、理想回應)配對,回應由人類撰寫或挑選。模型調整權重,讓自己更可能產生這類回應。SFT 是把原始的 next-token predictor 變成會 follow 指令、會聊天、會用特定格式寫東西的關鍵一步。 它重要的原因是:用網路文字 pre-train 出來的 base 模型只會「續寫」文字,不會自然回答問題、follow 指令、或拒絕有害請求。SFT 是「post-training」的第一步——把 Llama 3 base 變成 Llama 3 Instruct。SFT 之後通常接 preference optimization(RLHF 或 DPO)做進一步精煉。 舉個例子:你想做一個客服模型。收集 10,000 組(客戶問題、理想支援回答)——由你的客服團隊撰寫。在這些資料上 SFT 1-3 個 epoch,模型就學會你的語氣、你的產品、你的退款政策。同樣的流程可以從「做一個領域專家」延伸到「做一個輸出我 pipeline 需要的 JSON 格式的模型」。 SFT 可以是 full fine-tuning(更新每個權重,貴)或 parameter-efficient(LoRA、QLoRA——只更新小 adapter,便宜)。對多數開發者,LoRA-based SFT 配 1-10k 筆資料是實務的甜蜜點。延伸閱讀:fine-tuning、LoRA、RLHF、DPO、instruction tuning。

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

監督式微調 (SFT) · BuilderWorld