指令微調 (Instruction Tuning)

用大量「指令—回應」資料對語言模型做微調,讓它學會聽懂並執行人類指令,而不只是接續文字。

指令微調是在預訓練語言模型之後,再用大量「指令—理想回應」配對資料做一次監督式訓練,目的是讓模型學會理解使用者的請求並給出有用的回答,而不只是依統計續寫文字。這個步驟之所以重要,是因為原始的預訓練模型(例如 GPT 或 LLaMA 的 base 版)雖然很會預測下一個 token,卻不太會聽指令。你叫一個 base 模型「寫一首關於貓的俳句」,它很可能回給你另一個寫作題目,而不是真的寫俳句。指令微調就是把「文字接龍機器」變成像 ChatGPT、Claude 那樣的助理,通常是在 RLHF 之前進行,屬於現代 LLM 訓練流程裡 CP 值很高的一段。具體例子:Google 的 FLAN、OpenAI 的 InstructGPT、史丹佛的 Alpaca 都是經典案例。Alpaca 拿 LLaMA 用約 52,000 筆由 GPT 生成的指令資料微調,雖然成本很低,聽指令的能力卻遠勝原本的 base 模型。資料涵蓋摘要、翻譯、白話解釋等各種任務,模型因此能推廣到沒看過的指令類型。指令微調通常是監督式訓練(也叫 SFT,supervised fine-tuning),資料來源可以是人類撰寫、把既有 NLP 資料集改寫成指令格式,或由更強的模型生成合成資料(蒸餾)。延伸概念:fine-tuning、RLHF、SFT、FLAN、Alpaca、chat model、system prompt。