什麼時候微調贏 prompt 工程,什麼時候不贏

在 LLM 上蓋東西的團隊最後都會問同一個問題:我們該不該微調?通常是在 prompt 已經膨脹到 3000 token、模型還是不穩、有人讀到部落格說微調解決一切之後。

通常答案是:不。或更精確說:還不要。Prompt 工程、RAG、few-shot 範例 —— 按這個順序 —— 解決 90% 的「模型沒做我要它做的事」問題。微調是剩下 10% 的對的答案,把那 10% 做對需要知道你真的在那 10% 裡。

這是決策樹。

各個技巧實際在做什麼

快速複習:

各自解不同問題。

給一個問題,按順序走這個清單。別跳步。

大部分「模型錯了」問題是 prompt 問題。試:

解:格式遵守、語氣、簡單分類、基本抽取、大部分「請用這個風格回答」問題。

如果問題是「模型不知道我的資料」—— 內部文件、最近事件、客戶特定脈絡 —— 95% 時候 RAG 才是答案。微調修不了這個,模型需要在推論時拿到實際資訊。

解:「回答關於我們公司的問題」、「參考我們的文件」、「總結這個特定文件」。

如果模型「能力缺失」—— 不能搜網路、不能跑程式、不能更新 DB —— 給它工具。別微調它來假裝有能力。

解:「我要它真的做事」、「我要它抓最新資料」、「我要它跟我們系統互動」。

現在才考慮微調。到這裡你已經試完便宜選項了。微調對的時機:

格式 / 行為一致而 prompt 強制不可靠。 你要每個輸出長得完全像 X,即使 10 個 few-shot 加結構化輸出,5% 還是漂掉。
你的 prompt 太長以致成本不划算。 每次請求送 5000 token prompt 很貴,微調把行為烤進權重,prompt 降到 200 token。
延遲重要而 token 是瓶頸。 同上,進的 token 少 = 回應快。
隱私 / 合規需要本地跑。 自家部署的微調開源權重模型。
基底模型搞砸的特定領域語言。 法律術語、醫療縮寫、交易詞彙,基底模型預設用門外漢解釋。

微調不可靠地教新事實。如果模型要知道你公司的 API endpoint,微調勉強可以但 RAG 更好。微調教行為,不教知識。

2025 年一個我合作的團隊跑這個實驗。任務:把客服工單分到 18 個類別。

微調 Haiku 在 1/150 成本下打平 Opus 準確率。那就是微調賺到的時候 —— 規模、可量差距、穩定任務上。

如果他們是 100 次分類/天,微調的力氣不值得。他們是 50,000/天,數學很殘酷。

已知反 pattern:

LoRA 顯著改變數學。對比 GPT-4 全微調,Llama 3.3 70B 上 LoRA:

有 LoRA,「微調值得嗎?」門檻大幅降低。5,000 次分類/天的團隊可能在 LoRA 上打平,在前沿 API 微調上打不平。

大家忘記的三個成本:

對任何「模型沒做我要它做的事」問題:

本 Learn 庫的「在本機微調 Llama」那篇。
Fine-tuning vs RAG —— Microsoft Research 文章,仍然相關。
PEFT survey(Hu et al, 2024)—— LoRA、DoRA、adapter 方法總覽。
查這些詞:catastrophic forgetting、instruction tuning、parameter-efficient fine-tuning、LoRA vs RAG。