什么时候微调赢 prompt 工程,什么时候不赢

在 LLM 上盖东西的团队最后都会问同一个问题:我们该不该微调?通常是在 prompt 已经膨胀到 3000 token、模型还是不稳、有人读到博客说微调解决一切之后。

通常答案是:不。或更精确说:还不要。Prompt 工程、RAG、few-shot 范例 —— 按这个顺序 —— 解决 90% 的「模型没做我要它做的事」问题。微调是剩下 10% 的对的答案,把那 10% 做对需要知道你真的在那 10% 里。

这是决策树。

各个技巧实际在做什么

快速复习:

各自解不同问题。

给一个问题,按顺序走这个列表。别跳步。

大部分「模型错了」问题是 prompt 问题。试:

解:格式遵守、语气、简单分类、基本抽取、大部分「请用这个风格回答」问题。

如果问题是「模型不知道我的数据」—— 内部文档、最近事件、客户特定脉络 —— 95% 时候 RAG 才是答案。微调修不了这个,模型需要在推理时拿到实际信息。

解:「回答关于我们公司的问题」、「参考我们的文档」、「总结这个特定文档」。

如果模型「能力缺失」—— 不能搜网络、不能跑代码、不能更新 DB —— 给它工具。别微调它来假装有能力。

解:「我要它真的做事」、「我要它抓最新数据」、「我要它跟我们系统互动」。

现在才考虑微调。到这里你已经试完便宜选项了。微调对的时机:

格式 / 行为一致而 prompt 强制不可靠。 你要每个输出长得完全像 X,即使 10 个 few-shot 加结构化输出,5% 还是漂掉。
你的 prompt 太长以致成本不划算。 每次请求送 5000 token prompt 很贵,微调把行为烤进权重,prompt 降到 200 token。
延迟重要而 token 是瓶颈。 同上,进的 token 少 = 响应快。
隐私 / 合规需要本地跑。 自家部署的微调开源权重模型。
基底模型搞砸的特定领域语言。 法律术语、医疗缩写、交易词汇,基底模型默认用门外汉解释。

微调不可靠地教新事实。如果模型要知道你公司的 API endpoint,微调勉强可以但 RAG 更好。微调教行为,不教知识。

2025 年一个我合作的团队跑这个实验。任务:把客服工单分到 18 个类别。

微调 Haiku 在 1/150 成本下打平 Opus 准确率。那就是微调赚到的时候 —— 规模、可量差距、稳定任务上。

如果他们是 100 次分类/天,微调的力气不值得。他们是 50,000/天,数学很残酷。

已知反 pattern:

LoRA 显著改变数学。对比 GPT-4 全微调,Llama 3.3 70B 上 LoRA:

有 LoRA,「微调值得吗?」门槛大幅降低。5,000 次分类/天的团队可能在 LoRA 上打平,在前沿 API 微调上打不平。

大家忘记的三个成本:

对任何「模型没做我要它做的事」问题:

本 Learn 库的「在本机微调 Llama」那篇。
Fine-tuning vs RAG —— Microsoft Research 文章,仍然相关。
PEFT survey(Hu et al, 2024)—— LoRA、DoRA、adapter 方法总览。
查这些词:catastrophic forgetting、instruction tuning、parameter-efficient fine-tuning、LoRA vs RAG。