什麼是 fine-tuning?什麼時候你才真的需要?

Fine-tuning 是拿一個預訓練好的模型,用你自己的資料繼續訓練,讓它學會你的任務或你的風格。所有想做「客製 AI」的 builder 第一個會問的就是這招,而且最常用錯。2026 年,prompt 工程加 RAG 可以解決 80% 的「客製」需求,fine-tuning 是給更小、更明確一群人用的工具。

Fine-tuning 實際在做什麼

預訓練好的 LLM 有固定的權重 — 預訓練時學出來的好幾十億個數字。Fine-tuning 根據你的資料集調整這些數字。具體來說:

你準備一個資料集,內容是輸入-輸出配對。Instruction 風格 fine-tune 大約幾百到幾萬筆 {"prompt": "...", "completion": "..."}。
跑一個訓練 job(用 OpenAI 的 fine-tuning API、Together AI、Modal、或自己的 GPU),更新模型權重讓你的範例變成更可能的輸出。
拿到一個新的模型 checkpoint,呼叫它而不是 base model。

Open-weight 模型現在主流做法是 LoRA(Low-Rank Adaptation):凍結 base 權重,旁邊訓練一些小小的 “adapter” 矩陣,而不是動整個模型。LoRA 便宜很多(一張 GPU、幾小時,不是幾週),大多數任務的品質也夠用。

Fine-tuning 擅長的三件事

**風格跟語氣。**想要每個輸出都讀起來像你品牌的聲音、像你法務團隊的筆觸、或一個特定技術腔調,fine-tuning 教會模型那個味道,prompt 只能逼近。200-500 筆「好的輸出」範例,通常就能轉移風格。

**結構化輸出的可靠度。**如果你要求嚴格格式(JSON 帶精確欄位名、特定 markdown 模板),純 prompt 一直跑出微小變化,fine-tuning 能讓格式錯誤幾乎歸零。現代替代方案:structured outputs / JSON mode,沒 fine-tuning 也能跑。

**規模化降成本。**一個 fine-tune 過的小模型(Llama 8B、Mistral 7B、GPT-4.1-mini)在窄範圍任務上可以追平一個大很多的前沿模型 — 而每 token 成本便宜 10-50 倍。只在高量產服務(每月百萬級查詢)才划算。

Fine-tuning 不擅長的三件事

**加新事實知識。**這是第一名誤解。Fine-tuning 教模型模式,不是事實。如果你拿公司 HR 政策來 fine-tune,模型有時記得、有時幻覺出聽起來很像的政策、整體在訓練集外的問題還變更差。「我要模型知道 X」這種需求,用 RAG,不是 fine-tuning。

**沒資料的任務。**至少要 100-500 筆高品質範例,fine-tune 才會贏一個寫得好的 prompt。如果你連手寫 100 筆正確輸出都做不到,你還沒到 fine-tuning 的門檻。

**會頻繁迭代的東西。**Fine-tune 一次要幾小時到幾天,再加 eval、再加部署。Prompt 工程是秒級的。早期產品 spec 每週變,fine-tuning 拖慢你。

什麼時候才真的該 fine-tune

決策樹:

**這問題能用更好的 prompt 解嗎?**先試一週。八成可以。
**這問題是要參考私有/即時資料嗎?**用 RAG。
**需要 prompt 達不到的一致風格或格式嗎?**這時候才考慮 fine-tuning。
**量大到付前沿模型的錢預算炸了嗎?**Fine-tune 一個小模型常可以大幅降本。

實務上,2026 年最乾淨的 fine-tuning 場景是:

用特定品牌語氣的客服回覆
翻譯成領域特定風格(法律、醫療)
在私有 codebase 慣用法下生成程式碼
高量分類任務(例如客服單路由)
把前沿模型的行為蒸餾(distill)到一個你能自架的便宜模型

實際會花多少錢

2026 年的粗略現實:

OpenAI fine-tuning API(GPT-4.1-mini、GPT-4o-mini):1,000-10,000 筆訓練,大約 $5-25 美元。推論價是 base 的 1.5-3 倍。
Anthropic 沒有對外公開 fine-tuning,只給 enterprise。
Open-weight 模型 + Together AI / Modal / Replicate 上跑 LoRA:7B-13B 模型 $5-50,依資料量定。
自架,70B 模型完整 fine-tune:租 A100/H100 算下來幾百美元起跳,還要自己負責部署。

對大多數團隊來說,fine-tuning 本身不貴。真正的成本在資料準備 — 收集、清理、標註 500-5000 筆範例。這才是工作量所在。

什麼時候不要 fine-tune

你還沒把 prompt 工程跟 RAG 都試到極限
你沒有 eval 集可以量「fine-tune 真的有變好嗎」
訓練資料很少(<100 筆)或很雜
任務每兩週就改
沒有 MLOps 角色長期維護訓練好的模型