微调 (Fine-tuning)

在预训练模型基础上，用较小的专属数据集继续训练，让模型适配特定领域或任务。

微调是指拿一个已经预训练好的模型（如 Llama、GPT 或 BERT），在一份规模小得多、针对特定任务或领域的数据集上继续训练。模型保留原本的通用语言能力，但权重会被调整去专精某件事。这件事重要的原因是：从零训练一个基础模型动辄花费数百万美元，而微调往往只需要几千条数据、几小时就能完成。企业就是用这种方式，把通用 LLM 改造成符合自家口吻的客服机器人、医疗摘要助手，或是读得懂内部代码库的编程助手。ChatGPT、Claude 这类聊天助手之所以"听话"，背后也是通过 RLHF（人类反馈强化学习）这种特殊的微调流程训练出来的。打个比方：预训练模型像一个刚毕业的大学生，什么都懂一点；微调就是上班后的在职培训，把他训练成法务助理、放射科医生或 Python code reviewer。他不需要重新学中文，只是学会了新角色的工作模式。实践中，"全参数微调"会更新整个模型的权重，成本很高。现在多数团队改用 LoRA、QLoRA 这类参数高效方法，冻结原模型、只训练小型 adapter 层，便宜又方便切换。其实很多场景用 prompt engineering 或 RAG 就够了，微调通常是最后手段——用在你需要稳定的输出风格、固定格式，或 prompt 无法可靠唤出的领域知识时。延伸阅读：LoRA、RLHF、instruction tuning、迁移学习、RAG、预训练。