跳到内容

技术

微调 (Fine-tuning)

Fine-tuning

在预训练模型基础上,用较小的专属数据集继续训练,让模型适配特定领域或任务。

登入以收藏
微调是指拿一个已经预训练好的模型(如 Llama、GPT 或 BERT),在一份规模小得多、针对特定任务或领域的数据集上继续训练。模型保留原本的通用语言能力,但权重会被调整去专精某件事。 这件事重要的原因是:从零训练一个基础模型动辄花费数百万美元,而微调往往只需要几千条数据、几小时就能完成。企业就是用这种方式,把通用 LLM 改造成符合自家口吻的客服机器人、医疗摘要助手,或是读得懂内部代码库的编程助手。ChatGPT、Claude 这类聊天助手之所以"听话",背后也是通过 RLHF(人类反馈强化学习)这种特殊的微调流程训练出来的。 打个比方:预训练模型像一个刚毕业的大学生,什么都懂一点;微调就是上班后的在职培训,把他训练成法务助理、放射科医生或 Python code reviewer。他不需要重新学中文,只是学会了新角色的工作模式。 实践中,"全参数微调"会更新整个模型的权重,成本很高。现在多数团队改用 LoRA、QLoRA 这类参数高效方法,冻结原模型、只训练小型 adapter 层,便宜又方便切换。其实很多场景用 prompt engineering 或 RAG 就够了,微调通常是最后手段——用在你需要稳定的输出风格、固定格式,或 prompt 无法可靠唤出的领域知识时。 延伸阅读:LoRA、RLHF、instruction tuning、迁移学习、RAG、预训练。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more