2026 年挑 LLM 像挑车:几十个选项都还行,差别在细节。错的挑法是读 benchmark,对的挑法是从你的任务和预算开始。这篇切过噪音。
第一步 — 把任务归类
不同任务各有冠军。诚实看你在哪一格:
**Code 生成 / review。**前沿:Claude Sonnet/Opus(多数工程师最爱)、GPT-5。Open-weight:DeepSeek V3、Qwen Coder。避免:小型通用模型写非平凡 code。
**一般写作和推理。**前沿:GPT-5、Claude Sonnet、Gemini 2.5 Pro。差别主要在风格,挑你喜欢的声音。Open-weight:Llama 4、Qwen 3。
**数学和复杂推理。**Reasoning model 才对:o3、DeepSeek R1、Claude extended thinking。标准模型在难数学上仍差。
**长文档 QA。**Gemini 2.5 Pro(1M+ context)跟 Claude Sonnet(200K + caching)领先。多文档 RAG 场合,检索质量比模型重要。
**多语言、特别是中文。**Qwen 3、DeepSeek、Yi 是 open-weight 中文榜的顶尖。闭源模型里 Gemini 跟 Claude 中文都不错,GPT-5 OK 但不出众。zh-TW(繁体)场景特别注意输出会不会漂到 zh-CN 风格 — 我们的经验 Claude 处理最好。
**实时对话 / 语音。**GPT-4o realtime、Gemini Flash、Claude Haiku。优化延迟不是能力。
**图像理解。**三大前沿多模态(Claude、GPT-5、Gemini)都行;Gemini 纯 OCR 常赢,Claude 在版面推理较强。
第二步 — 定义延迟和成本预算
三个诚实的限制:
**延迟预算。**Chat UI:< 3 秒 first token。后台批次:几分钟 OK。要 < 1 秒就是小/快模型(Haiku、Flash、Cerebras-hosted Llama)。
**每次查询成本预算。**估算:token × 价格。不要在会做 1000 万次便宜查询的场景挑 GPT-5,账单会压死你。一个月 100 万+ 查询,好好算过。
**Self-host vs API。**自架只在以下场景合理:(a) 量够大摊平 GPU 成本,(b) 数据不能离开基础设施,(c) 你需要 API 不允许的定制化(fine-tuning、部署拓扑)。
第三步 — 对应到 tier
大多数工作量落在三个 tier:
**Premium tier — Claude Opus、GPT-5、Gemini Ultra、o3。**用在:质量不可妥协、量适中、可容忍延迟。例:法律文档分析、策略决策、难 code review。
**Standard tier — Claude Sonnet、GPT-5 Standard、Gemini 2.5 Pro。**多数 production 工作量的默认。优秀质量、合理成本。80% 功能应该落这。
**Cheap / fast tier — Claude Haiku、GPT-4o-mini、Gemini Flash、DeepSeek V3。**用在:量大、简单任务(分类、routing、短内容摘要)。比 standard 便宜 5-20 倍。
实用 pattern:按查询难度路由。小分类器(或规则)决定送哪个 tier。便宜 tier 处理 70-80% 流量;难的给 standard;最高风险才用 premium。
第四步 — 自己测,不要信 benchmark
公开 benchmark(MMLU、HumanEval、MATH)越来越被 game。Benchmark 好的模型可能在你的具体任务上烂。
对的测法:从你真实工作量挑 30-50 个代表性 input。所有候选模型都跑。请人类盲评排序。在你 eval 上赢的就是你的模型 — 不管它 leaderboard 排第几。
花 2-4 小时,省下几周误部署。不要跳过。
第五步 — 二阶因素
质量、延迟、成本之外,长期会咬你的事:
锁定。Anthropic 随时可改价或淘汰模型。用官方 SDK 但设计成可换模型。Gateway 服务(OpenRouter、LiteLLM、Portkey)让切换更简单。
**隐私与合规。**Prompt 跑去哪里?Anthropic 有 zero-retention enterprise,OpenAI Enterprise 也有。默认可能有 30 天保留、training opt-in 等。读 data-use 条款。
**地理跟延迟。**Anthropic、OpenAI 跑在美/欧。Gemini 全球。亚太 user 的 round-trip 是真实的、工程上没办法消掉。
**API 稳定性。**前沿 API 偶尔出错或调 rate limit。接好 fallback 模型,质量低一点也没关系。
**模型淘汰。**模型会 sunset。在依赖单一模型前先想好迁移路径。
常见挑错
三个浪费时间的模式:
**「为了保险」挑最贵的。**每次查询都打 GPT-5 / Opus 通常不对。Standard tier 对多数任务已够好,花 5 倍想换边际改善是烂 ROI。
**只看 benchmark 分数。**MMLU 赢的模型可能在你真实任务输出令人烦。用真数据 eval。
**永远卡在第一个选择。**模型每 2-3 个月就变。每 6 个月重新 eval — 有时候你会发现自己付了 2 倍该付的钱。
什么时候不要用前沿 LLM
- 很简单的分类:fine-tune 过的 BERT 风小模型常常便宜 10 倍、又快。
- 纯 regex / parsing:5 行 regex 解的事不要丢 LLM。
- 你已有确定性算法的任务:数学、调度、优化。用算法。
延伸阅读
- 什么是 LLM
- Open-source LLM vs 前沿 API:什么任务该用哪个
- LLM routing:把简单问题丢给便宜模型
- 怎么把 LLM API 账单砍半
- 2026 年中文任务最强的 LLM 是哪个