2026 年的开源 vs 前沿 API 之争比「闭源好,开源够用」更微妙。某些任务上,把延迟、成本、控制力一起算进来,开源模型现在真的更好;另一些任务上,前沿实验室(Anthropic、OpenAI、Google)还是有实质领先。重点是知道你的特定问题分界线在哪。
开源已经追上(或超前)的地方
通用文字生成 — 摘要、改写、简单 Q&A、内容重新格式化。Llama 3.1 70B、Qwen 2.5 72B、DeepSeek V3、Mistral Large 都到 GPT-4 Turbo 级。高量内容处理的话,成本差距巨大、品质在 blind test 下难以区分。
Embedding — BGE M3、Jina、Nomic Embed 在检索 benchmark 上跟 OpenAI text-embedding-3-small 平手或更好。自架 RAG 的话没理由再付钱给 OpenAI 做 embedding。
特定语言的代码 — DeepSeek Coder V3、Qwen 2.5 Coder 在 Python、JavaScript 上跟 Claude、GPT-4 有竞争力。较少见的语言跟长 horizon 多文件任务上落后。
领域微调 — 有特定领域(法律、医疗、内部文件)的话,在自己数据上微调开源模型,比在前沿模型上做 prompt engineering 在那个领域上表现更好。
对延迟敏感的 workload — 本地推论在 4090 或 H100 上,把网络算进来后比任何 API call 快。实时 agent、语音界面、互动产品,自架开源常常赢。
前沿还在领先的地方
多步推理 — Claude 4.5 Sonnet、GPT-5、Gemini 2.5 Pro 在需要 5+ 逻辑步骤才能得到答案的任务上,还是实质好过任何开源模型。差距在数学、代码审查、计划、复杂写作上很明显。
长 context — Gemini 2.5 Pro 的 1-2M token context 还是无人匹敌。Claude 的 1M context(有效使用 context)也是。开源模型名义上支持长 context,但 context 填满时品质下降比较快。
Tool use 可靠性 — 前沿模型遵循 tool-use 规格更可靠。开源模型也会 tool-use,但 parsing 失败跟畸形 tool call 是 2-3 倍常见。production agent 上这很重要。
安全跟拒绝校准 — 前沿模型该拒绝的拒绝、该答的答。开源模型看 alignment 怎么做的,常常在安全话题上过度拒绝,或在边缘话题上拒绝不够。
多语言品质 — 前沿模型在非英语、特别是资源较少的语言上,还是实质好过。
最新知识 — 前沿模型训练资料更新更频繁。开源模型 cutoff 常常较旧。
成本面比表面更复杂
「开源是免费的」很误导。自架的真实成本:
- GPU 租用:Lambda / Together / Modal 上单张 H100 约 $1-3/小时。70B 模型需要 1-2 张 H100。24/7 跑 = 每月约 $1500-2000。
- 工程时间:让自架推论 server 持续运作、监控、scale。轻易就是每月 10 小时资深工程时间。
- 推论工程师:vLLM 调校、量化、batching。production 需要真实专业。
低量(每月 5000 万 token 以下),把工程成本算进来后前沿 API 比自架便宜。再上去,自架在纯成本上开始赢。
大部分用户不到 10 万人的团队,前沿 API 是对的财务选择。自架在规模实质大、或延迟、或数据境内存放强迫时,才变得吸引。
数据境内 / 隐私强迫用开源时
某些问题不能用前沿 API:
- 病历(HIPAA、欧盟 GDPR 敏感数据)
- 政府 / 机密 workload
- 受监管资料隔离的金融机构
- 受数据主权法规范的国内企业
- 跟客户合同禁止把资料送第三方的人
这些选项是:自架开源,或经由保护隐私的部署用前沿 API(Azure OpenAI HIPAA 合规版、AWS Bedrock 私有 VPC、Google Vertex AI 带数据境内)。后者常常满足合规同时保住品质领先。
什么时候不适合用开源
产品是任务关键、团队只有 1-3 个工程师,不要自架。让推论 stack 稳定运作的工作量会吃掉你的 roadmap。
任务涉及长 horizon 推理(研究式、多步规划),你花在 prompt 工程绕过开源模型限制的时间会超过 API 成本省下的。
早期还在找 product-market fit,不管成本用最好的模型。在找到 product-market fit 之前,迭代速度跟品质比基础设施省钱重要。
什么时候不适合用前沿 API
你处理的资料法律上不能送美国 API,只能自架或用区域隔离部署。
推论成本真的是你 unit economics 的瓶颈 — 例如一个处理数十亿 token 的内容审核产品 — 自架开源是实质省钱。
你已经发现在自己特定数据上微调较小开源模型,表现超过在前沿模型上下 prompt,你赢得自架的权利(还是要仔细量)。
你真的重视自由:可以审计、修改、ship 的权重。这是价值选择,不是技术选择 — 但是合理理由。
实用混合模式
2026 年很多成熟团队两个都用:
- 前沿(Claude / GPT / Gemini):orchestration、难推理、面对客户的主要 AI 功能、任何品质抖动不能接受的场景。
- 开源自架(Llama / Qwen / DeepSeek):大量背景任务,像分类、摘要、embedding、简单抽取。
LLM routing 工具(Martian、Portkey、OpenRouter、自写的 router)帮你把每个 request 送到能处理它的最便宜模型。
决策树
- 大量文字处理、要低成本:开源自架
- 面对客户的 AI agent、品质关键:前沿 API
- 合规 / 数据境内要求:开源自架 或 前沿私有部署
- Embedding:开源(BGE M3 / Jina / Nomic)
- 长 context(>20 万 token):Gemini 2.5 Pro
- 多语言产品:前沿 API
- 代码 agent:看情况 — Python/JS 大量用 DeepSeek Coder、跨语言或复杂任务用 Claude / GPT-5
- 需要领域微调:开源
下一步
- 看一下特定开源模型:Llama 系列、Qwen 系列、DeepSeek 系列
- 研究 vLLM 跟 TGI 在 production 服务开源模型
- 试 LLM routing library 做混搭
- 用你真实 workload 跑两种选项,量测品质 + 成本