开源 LLM vs 前沿 API:2026 年哪个任务该用哪个

2026 年的开源 vs 前沿 API 之争比「闭源好,开源够用」更微妙。某些任务上,把延迟、成本、控制力一起算进来,开源模型现在真的更好;另一些任务上,前沿实验室(Anthropic、OpenAI、Google)还是有实质领先。重点是知道你的特定问题分界线在哪。

开源已经追上(或超前)的地方

通用文字生成 — 摘要、改写、简单 Q&A、内容重新格式化。Llama 3.1 70B、Qwen 2.5 72B、DeepSeek V3、Mistral Large 都到 GPT-4 Turbo 级。高量内容处理的话,成本差距巨大、品质在 blind test 下难以区分。

Embedding — BGE M3、Jina、Nomic Embed 在检索 benchmark 上跟 OpenAI text-embedding-3-small 平手或更好。自架 RAG 的话没理由再付钱给 OpenAI 做 embedding。

特定语言的代码 — DeepSeek Coder V3、Qwen 2.5 Coder 在 Python、JavaScript 上跟 Claude、GPT-4 有竞争力。较少见的语言跟长 horizon 多文件任务上落后。

领域微调 — 有特定领域(法律、医疗、内部文件)的话,在自己数据上微调开源模型,比在前沿模型上做 prompt engineering 在那个领域上表现更好。

对延迟敏感的 workload — 本地推论在 4090 或 H100 上,把网络算进来后比任何 API call 快。实时 agent、语音界面、互动产品,自架开源常常赢。

多步推理 — Claude 4.5 Sonnet、GPT-5、Gemini 2.5 Pro 在需要 5+ 逻辑步骤才能得到答案的任务上,还是实质好过任何开源模型。差距在数学、代码审查、计划、复杂写作上很明显。

长 context — Gemini 2.5 Pro 的 1-2M token context 还是无人匹敌。Claude 的 1M context(有效使用 context)也是。开源模型名义上支持长 context,但 context 填满时品质下降比较快。

Tool use 可靠性 — 前沿模型遵循 tool-use 规格更可靠。开源模型也会 tool-use,但 parsing 失败跟畸形 tool call 是 2-3 倍常见。production agent 上这很重要。

安全跟拒绝校准 — 前沿模型该拒绝的拒绝、该答的答。开源模型看 alignment 怎么做的,常常在安全话题上过度拒绝,或在边缘话题上拒绝不够。

多语言品质 — 前沿模型在非英语、特别是资源较少的语言上,还是实质好过。

最新知识 — 前沿模型训练资料更新更频繁。开源模型 cutoff 常常较旧。

「开源是免费的」很误导。自架的真实成本:

GPU 租用:Lambda / Together / Modal 上单张 H100 约 $1-3/小时。70B 模型需要 1-2 张 H100。24/7 跑 = 每月约 $1500-2000。
工程时间:让自架推论 server 持续运作、监控、scale。轻易就是每月 10 小时资深工程时间。
推论工程师:vLLM 调校、量化、batching。production 需要真实专业。

低量(每月 5000 万 token 以下),把工程成本算进来后前沿 API 比自架便宜。再上去,自架在纯成本上开始赢。

大部分用户不到 10 万人的团队,前沿 API 是对的财务选择。自架在规模实质大、或延迟、或数据境内存放强迫时,才变得吸引。

某些问题不能用前沿 API:

这些选项是:自架开源,或经由保护隐私的部署用前沿 API(Azure OpenAI HIPAA 合规版、AWS Bedrock 私有 VPC、Google Vertex AI 带数据境内)。后者常常满足合规同时保住品质领先。

产品是任务关键、团队只有 1-3 个工程师,不要自架。让推论 stack 稳定运作的工作量会吃掉你的 roadmap。

任务涉及长 horizon 推理(研究式、多步规划),你花在 prompt 工程绕过开源模型限制的时间会超过 API 成本省下的。

早期还在找 product-market fit,不管成本用最好的模型。在找到 product-market fit 之前,迭代速度跟品质比基础设施省钱重要。

你处理的资料法律上不能送美国 API,只能自架或用区域隔离部署。

推论成本真的是你 unit economics 的瓶颈 — 例如一个处理数十亿 token 的内容审核产品 — 自架开源是实质省钱。

你已经发现在自己特定数据上微调较小开源模型,表现超过在前沿模型上下 prompt,你赢得自架的权利(还是要仔细量)。

你真的重视自由:可以审计、修改、ship 的权重。这是价值选择,不是技术选择 — 但是合理理由。

2026 年很多成熟团队两个都用:

LLM routing 工具(Martian、Portkey、OpenRouter、自写的 router)帮你把每个 request 送到能处理它的最便宜模型。