什么是 fine-tuning?什么时候你才真的需要?

Fine-tuning 是拿一个预训练好的模型,用你自己的数据继续训练,让它学会你的任务或你的风格。所有想做「定制 AI」的 builder 第一个会问的就是这招,而且最常用错。2026 年,prompt 工程加 RAG 可以解决 80% 的「定制」需求,fine-tuning 是给更小、更明确一群人用的工具。

Fine-tuning 实际在做什么

预训练好的 LLM 有固定的权重 — 预训练时学出来的好几十亿个数字。Fine-tuning 根据你的数据集调整这些数字。具体来说:

你准备一个数据集,内容是输入-输出配对。Instruction 风格 fine-tune 大约几百到几万条 {"prompt": "...", "completion": "..."}。
跑一个训练 job(用 OpenAI 的 fine-tuning API、Together AI、Modal、或自己的 GPU),更新模型权重让你的样本变成更可能的输出。
拿到一个新的模型 checkpoint,调用它而不是 base model。

Open-weight 模型现在主流做法是 LoRA(Low-Rank Adaptation):冻结 base 权重,旁边训练一些小小的 “adapter” 矩阵,而不是动整个模型。LoRA 便宜很多(一张 GPU、几小时,不是几周),大多数任务的质量也够用。

Fine-tuning 擅长的三件事

**风格跟语气。**想要每个输出都读起来像你品牌的声音、像你法务团队的笔触、或一个特定技术腔调,fine-tuning 教会模型那个味道,prompt 只能逼近。200-500 条「好的输出」样本,通常就能迁移风格。

**结构化输出的可靠度。**如果你要求严格格式(JSON 带精确字段名、特定 markdown 模板),纯 prompt 一直跑出微小变化,fine-tuning 能让格式错误几乎归零。现代替代方案:structured outputs / JSON mode,没 fine-tuning 也能跑。

**规模化降成本。**一个 fine-tune 过的小模型(Llama 8B、Mistral 7B、GPT-4.1-mini)在窄范围任务上可以追平一个大很多的前沿模型 — 而每 token 成本便宜 10-50 倍。只在高量产服务(每月百万级查询)才划算。

Fine-tuning 不擅长的三件事

**加新事实知识。**这是第一名误解。Fine-tuning 教模型模式,不是事实。如果你拿公司 HR 政策来 fine-tune,模型有时记得、有时幻觉出听起来很像的政策、整体在训练集外的问题还变更差。「我要模型知道 X」这种需求,用 RAG,不是 fine-tuning。

**没数据的任务。**至少要 100-500 条高质量样本,fine-tune 才会赢一个写得好的 prompt。如果你连手写 100 条正确输出都做不到,你还没到 fine-tuning 的门槛。

**会频繁迭代的东西。**Fine-tune 一次要几小时到几天,再加 eval、再加部署。Prompt 工程是秒级的。早期产品 spec 每周变,fine-tuning 拖慢你。

什么时候才真的该 fine-tune

决策树:

**这问题能用更好的 prompt 解吗?**先试一周。八成可以。
**这问题是要参考私有/实时数据吗?**用 RAG。
**需要 prompt 达不到的一致风格或格式吗?**这时候才考虑 fine-tuning。
**量大到付前沿模型的钱预算炸了吗?**Fine-tune 一个小模型常可以大幅降本。

实务上,2026 年最干净的 fine-tuning 场景是:

用特定品牌语气的客服回复
翻译成领域特定风格(法律、医疗)
在私有 codebase 惯用法下生成代码
高量分类任务(例如客服工单路由)
把前沿模型的行为蒸馏(distill)到一个你能自架的便宜模型

实际会花多少钱

2026 年的粗略现实:

OpenAI fine-tuning API(GPT-4.1-mini、GPT-4o-mini):1,000-10,000 条训练,大约 $5-25 美元。推理价是 base 的 1.5-3 倍。
Anthropic 没有对外公开 fine-tuning,只给 enterprise。
Open-weight 模型 + Together AI / Modal / Replicate 上跑 LoRA:7B-13B 模型 $5-50,依数据量定。
自架,70B 模型完整 fine-tune:租 A100/H100 算下来几百美元起跳,还要自己负责部署。

对大多数团队来说,fine-tuning 本身不贵。真正的成本在数据准备 — 收集、清理、标注 500-5000 条样本。这才是工作量所在。

什么时候不要 fine-tune

你还没把 prompt 工程跟 RAG 都试到极限
你没有 eval 集可以量「fine-tune 真的有变好吗」
训练数据很少(<100 条)或很杂
任务每两周就改
没有 MLOps 角色长期维护训练好的模型