指令微调 (Instruction Tuning)

用大量「指令—回应」数据对语言模型做微调,让它学会听懂并执行人类指令,而不只是接续文字。

指令微调是在预训练语言模型之后,再用大量「指令—理想回应」配对数据做一次监督式训练,目的是让模型学会理解用户的请求并给出有用的回答,而不只是按统计续写文字。这个步骤之所以重要,是因为原始的预训练模型(例如 GPT 或 LLaMA 的 base 版)虽然很会预测下一个 token,却不太会听指令。你让一个 base 模型「写一首关于猫的俳句」,它很可能回给你另一个写作题目,而不是真的写俳句。指令微调就是把「文字接龙机器」变成像 ChatGPT、Claude 那样的助手,通常在 RLHF 之前进行,属于现代 LLM 训练流程里性价比很高的一环。具体例子:Google 的 FLAN、OpenAI 的 InstructGPT、斯坦福的 Alpaca 都是经典案例。Alpaca 用 LLaMA 加上约 52,000 条由 GPT 生成的指令数据做微调,成本很低,听指令的能力却远胜原本的 base 模型。数据涵盖摘要、翻译、通俗解释等各种任务,模型因此能泛化到没见过的指令类型。指令微调通常是监督式训练(也叫 SFT,supervised fine-tuning),数据来源可以是人工撰写、把已有的 NLP 数据集改写成指令格式,或由更强的模型生成合成数据(蒸馏)。延伸概念:fine-tuning、RLHF、SFT、FLAN、Alpaca、chat model、system prompt。