2026 年挑 LLM 像挑車:幾十個選項都還行,差別在細節。錯的挑法是讀 benchmark,對的挑法是從你的任務和預算開始。這篇切過雜訊。
第一步 — 把任務歸類
不同任務各有冠軍。誠實看你在哪一格:
**Code 生成 / review。**前沿:Claude Sonnet/Opus(多數工程師最愛)、GPT-5。Open-weight:DeepSeek V3、Qwen Coder。避免:小型通用模型寫非平凡 code。
**一般寫作和推理。**前沿:GPT-5、Claude Sonnet、Gemini 2.5 Pro。差別主要在風格,挑你喜歡的聲音。Open-weight:Llama 4、Qwen 3。
**數學和複雜推理。**Reasoning model 才對:o3、DeepSeek R1、Claude extended thinking。標準模型在難數學上仍差。
**長文件 QA。**Gemini 2.5 Pro(1M+ context)跟 Claude Sonnet(200K + caching)領先。多文件 RAG 場合,檢索品質比模型重要。
**多語言、特別是中文。**Qwen 3、DeepSeek、Yi 是 open-weight 中文榜的頂尖。閉源模型裡 Gemini 跟 Claude 中文都不錯,GPT-5 OK 但不出眾。zh-TW(繁體)場景特別注意輸出會不會漂到 zh-CN 風格 — 我們的經驗 Claude 處理最好。
**即時對話 / 語音。**GPT-4o realtime、Gemini Flash、Claude Haiku。優化延遲不是能力。
**圖像理解。**三大前沿多模態(Claude、GPT-5、Gemini)都行;Gemini 純 OCR 常贏,Claude 在版面推理較強。
第二步 — 定義延遲和成本預算
三個誠實的限制:
**延遲預算。**Chat UI:< 3 秒 first token。背景批次:幾分鐘 OK。要 < 1 秒就是小/快模型(Haiku、Flash、Cerebras-hosted Llama)。
**每次查詢成本預算。**估算:token × 價格。不要在會做 1000 萬次便宜查詢的場景挑 GPT-5,帳單會壓死你。一個月 100 萬+ 查詢,好好算過。
**Self-host vs API。**自架只在以下情境合理:(a) 量夠大攤平 GPU 成本,(b) 資料不能離開基礎建設,(c) 你需要 API 不允許的客製化(fine-tuning、部署拓撲)。
第三步 — 對應到 tier
大多數工作量落在三個 tier:
**Premium tier — Claude Opus、GPT-5、Gemini Ultra、o3。**用在:品質不可妥協、量適中、可容忍延遲。例:法律文件分析、策略決策、難 code review。
**Standard tier — Claude Sonnet、GPT-5 Standard、Gemini 2.5 Pro。**多數 production 工作量的預設。優秀品質、合理成本。80% 功能應該落這。
**Cheap / fast tier — Claude Haiku、GPT-4o-mini、Gemini Flash、DeepSeek V3。**用在:量大、簡單任務(分類、routing、短內容摘要)。比 standard 便宜 5-20 倍。
實用 pattern:按查詢難度路由。小分類器(或規則)決定送哪個 tier。便宜 tier 處理 70-80% 流量;難的給 standard;最高風險才用 premium。
第四步 — 自己測,不要信 benchmark
公開 benchmark(MMLU、HumanEval、MATH)越來越被 game。Benchmark 好的模型可能在你的具體任務上爛。
對的測法:從你真實工作量挑 30-50 個代表性 input。所有候選模型都跑。請人類盲評排序。在你 eval 上贏的就是你的模型 — 不管它 leaderboard 排第幾。
花 2-4 小時,省下幾週誤部署。不要跳過。
第五步 — 二階因素
品質、延遲、成本之外,長期會咬你的事:
鎖定。Anthropic 隨時可改價或淘汰模型。用官方 SDK 但設計成可換模型。Gateway 服務(OpenRouter、LiteLLM、Portkey)讓切換更簡單。
**隱私與合規。**Prompt 跑去哪裡?Anthropic 有 zero-retention enterprise,OpenAI Enterprise 也有。預設可能有 30 天保留、training opt-in 等。讀 data-use 條款。
**地理跟延遲。**Anthropic、OpenAI 跑在美/歐。Gemini 全球。亞太 user 的 round-trip 是真實的、工程上沒辦法消掉。
**API 穩定性。**前沿 API 偶爾出錯或調 rate limit。接好 fallback 模型,品質低一點也沒關係。
**模型淘汰。**模型會 sunset。在依賴單一模型前先想好遷移路徑。
常見挑錯
三個浪費時間的模式:
**「為了保險」挑最貴的。**每次查詢都打 GPT-5 / Opus 通常不對。Standard tier 對多數任務已夠好,花 5 倍想換邊際改善是爛 ROI。
**只看 benchmark 分數。**MMLU 贏的模型可能在你真實任務輸出令人煩。用真資料 eval。
**永遠卡在第一個選擇。**模型每 2-3 個月就變。每 6 個月重新 eval — 有時候你會發現自己付了 2 倍該付的錢。
什麼時候不要用前沿 LLM
- 很簡單的分類:fine-tune 過的 BERT 風小模型常常便宜 10 倍、又快。
- 純 regex / parsing:5 行 regex 解的事不要丟 LLM。
- 你已有確定性演算法的任務:數學、排程、優化。用演算法。
延伸閱讀
- 什麼是 LLM
- Open-source LLM vs 前沿 API:什麼任務該用哪個
- LLM routing:把簡單問題丟給便宜模型
- 怎麼把 LLM API 帳單砍半
- 2026 年中文任務最強的 LLM 是哪個