2026 年怎麼為你的場景挑對 LLM

2026 年挑 LLM 像挑車:幾十個選項都還行,差別在細節。錯的挑法是讀 benchmark,對的挑法是從你的任務和預算開始。這篇切過雜訊。

第一步 — 把任務歸類

不同任務各有冠軍。誠實看你在哪一格:

**Code 生成 / review。**前沿:Claude Sonnet/Opus(多數工程師最愛)、GPT-5。Open-weight:DeepSeek V3、Qwen Coder。避免:小型通用模型寫非平凡 code。

**一般寫作和推理。**前沿:GPT-5、Claude Sonnet、Gemini 2.5 Pro。差別主要在風格,挑你喜歡的聲音。Open-weight:Llama 4、Qwen 3。

**數學和複雜推理。**Reasoning model 才對:o3、DeepSeek R1、Claude extended thinking。標準模型在難數學上仍差。

**長文件 QA。**Gemini 2.5 Pro(1M+ context)跟 Claude Sonnet(200K + caching)領先。多文件 RAG 場合,檢索品質比模型重要。

**多語言、特別是中文。**Qwen 3、DeepSeek、Yi 是 open-weight 中文榜的頂尖。閉源模型裡 Gemini 跟 Claude 中文都不錯,GPT-5 OK 但不出眾。zh-TW(繁體)場景特別注意輸出會不會漂到 zh-CN 風格 — 我們的經驗 Claude 處理最好。

**即時對話 / 語音。**GPT-4o realtime、Gemini Flash、Claude Haiku。優化延遲不是能力。

**圖像理解。**三大前沿多模態(Claude、GPT-5、Gemini)都行;Gemini 純 OCR 常贏,Claude 在版面推理較強。

第二步 — 定義延遲和成本預算

三個誠實的限制:

**延遲預算。**Chat UI:< 3 秒 first token。背景批次:幾分鐘 OK。要 < 1 秒就是小/快模型(Haiku、Flash、Cerebras-hosted Llama)。

**每次查詢成本預算。**估算:token × 價格。不要在會做 1000 萬次便宜查詢的場景挑 GPT-5,帳單會壓死你。一個月 100 萬+ 查詢,好好算過。

**Self-host vs API。**自架只在以下情境合理:(a) 量夠大攤平 GPU 成本,(b) 資料不能離開基礎建設,(c) 你需要 API 不允許的客製化(fine-tuning、部署拓撲)。

第三步 — 對應到 tier

大多數工作量落在三個 tier:

**Premium tier — Claude Opus、GPT-5、Gemini Ultra、o3。**用在:品質不可妥協、量適中、可容忍延遲。例:法律文件分析、策略決策、難 code review。

**Standard tier — Claude Sonnet、GPT-5 Standard、Gemini 2.5 Pro。**多數 production 工作量的預設。優秀品質、合理成本。80% 功能應該落這。

**Cheap / fast tier — Claude Haiku、GPT-4o-mini、Gemini Flash、DeepSeek V3。**用在:量大、簡單任務(分類、routing、短內容摘要)。比 standard 便宜 5-20 倍。

實用 pattern:按查詢難度路由。小分類器(或規則)決定送哪個 tier。便宜 tier 處理 70-80% 流量;難的給 standard;最高風險才用 premium。

第四步 — 自己測,不要信 benchmark

公開 benchmark(MMLU、HumanEval、MATH)越來越被 game。Benchmark 好的模型可能在你的具體任務上爛。

對的測法:從你真實工作量挑 30-50 個代表性 input。所有候選模型都跑。請人類盲評排序。在你 eval 上贏的就是你的模型 — 不管它 leaderboard 排第幾。

花 2-4 小時,省下幾週誤部署。不要跳過。

第五步 — 二階因素

品質、延遲、成本之外,長期會咬你的事:

鎖定。Anthropic 隨時可改價或淘汰模型。用官方 SDK 但設計成可換模型。Gateway 服務(OpenRouter、LiteLLM、Portkey)讓切換更簡單。

**隱私與合規。**Prompt 跑去哪裡?Anthropic 有 zero-retention enterprise,OpenAI Enterprise 也有。預設可能有 30 天保留、training opt-in 等。讀 data-use 條款。

**地理跟延遲。**Anthropic、OpenAI 跑在美/歐。Gemini 全球。亞太 user 的 round-trip 是真實的、工程上沒辦法消掉。

**API 穩定性。**前沿 API 偶爾出錯或調 rate limit。接好 fallback 模型,品質低一點也沒關係。

**模型淘汰。**模型會 sunset。在依賴單一模型前先想好遷移路徑。

常見挑錯

三個浪費時間的模式:

**「為了保險」挑最貴的。**每次查詢都打 GPT-5 / Opus 通常不對。Standard tier 對多數任務已夠好,花 5 倍想換邊際改善是爛 ROI。

**只看 benchmark 分數。**MMLU 贏的模型可能在你真實任務輸出令人煩。用真資料 eval。

**永遠卡在第一個選擇。**模型每 2-3 個月就變。每 6 個月重新 eval — 有時候你會發現自己付了 2 倍該付的錢。

什麼時候不要用前沿 LLM

很簡單的分類:fine-tune 過的 BERT 風小模型常常便宜 10 倍、又快。
純 regex / parsing:5 行 regex 解的事不要丟 LLM。
你已有確定性演算法的任務:數學、排程、優化。用演算法。