有人说「Llama 3 是 open source」其实用词不严谨。在 AI 圈更精确的说法是 open weights:训练好的模型文件可下载,但训练数据、代码、确切配方通常不公开。这个区别重要,因为它影响你法律上和实务上能拿模型做什么。
三个层级的「开放」
大多数「开放」LLM 落在这个光谱上:
Open weights、限制性授权 — Llama 3 / 4(Meta)、Qwen(阿里)等。你可以下载、fine-tune、商用,但授权加了限制:月活跃用户门槛、命名要求、禁用条款。例如 Llama 的授权规定服务 MAU > 7 亿就要特殊许可。
Open weights、真正宽松的授权 — Mistral 7B / Mixtral(Apache 2.0)、Falcon、OLMo(Allen Institute)、Pythia。任何商用,没附带条件。
完全 open — open weights + 训练数据 + 代码 + 配方都公开。例如 OLMo 2、Pythia、BLOOM。罕见,benchmark 通常较弱,因为最好的训练数据都是私有的。
你会听到的「开源 LLM」绝大多数(Llama、Qwen、DeepSeek、Yi 等)是 open weights — 不是 Free Software Foundation 标准下的完整 open source。Open Source Initiative 在 2024 年公布了「Open Source AI Definition」,几乎没有主流模型符合。
为什么这个区别重要
你做产品时,实际会被三件事影响:
**能不能商用?**主流「open」模型几乎都可以。要注意:Llama 的 MAU 门槛、Mistral 衍生命名限制、模型版本之间授权变动。用之前先读一次授权。
**能不能 fine-tune 跟分发?**多半可以,但如果分发 fine-tune 后的权重,原始授权通常还是套用。「Built with Llama」归属要求很常见。
**能不能重现或审计?**没有训练数据跟代码,不行 — 你必须信任 lab。这对受监管产业(医疗、金融)很重要,合规要求可重现性。
Open weights 你实际得到什么
用 open-weight 模型的实务好处:
- **没有 per-token API 费用。**你付 GPU hour,不付每次查询。每月几百万次查询以上,这就赢前沿 API 成本。
- **隐私。**数据不离开你的基础设施。医疗、法律、政府等不能把数据送 OpenAI 的场景。
- **定制化。**完整控制 fine-tuning、量化、部署。你的硬件、你的配置。
- **没有 vendor lock-in。**Anthropic 明天可以改价,你本地的 Llama 3 70B 照跑不误。
- **可查看。**你可以 probe、剪枝、分析模型,闭源 API 做不到。
取舍是真的。前沿闭源模型(Claude、GPT-5)在纯能力上通常领先 open-weight 6-12 个月。多数任务这个差距小到「便宜 + 隐私」会赢;最难的推理,前沿仍然领先。
2026 年 open-weight 模型阵容
主要家族:
- Llama 3 / 4(Meta) — 最热门通用家族,英文强、生态广。
- Qwen 3(阿里) — 多语言顶尖,中文特别强;从 0.5B 到 235B 都有。
- DeepSeek V3 / R1 — 中国、极度成本高效。R1 是第一个主流 open-weight reasoning 模型。
- Mistral / Mixtral — 法国、欧语质量好、授权严格宽松。
- Gemma(Google) — DeepMind 的 open-weight 线、规模较小、质量高。
- Phi(Microsoft) — 小模型用合成「教科书风」数据训练,以小搏大。
- Yi(零一万物) — 有竞争力的中文模型家族。
- OLMo(Allen AI) — 完整 open-source,benchmark 较弱,但对研究跟教育有用。
怎么跑 open-weight 模型
四种部署模式:
本地笔记本:
- Ollama — 最简单。
ollama run llama3就有 chat。Mac 跟 Linux 强,Windows 基本可用。 - LM Studio — GUI app,适合非技术 user。
- llama.cpp — 很多工具底下的引擎。量化后 CPU + 小 GPU 都能跑。
自架 server:
- vLLM — 服务 open-weight LLM 的同类最强。流量认真的人都用。
- TensorRT-LLM、TGI、SGLang — 替代品,各有取舍。
托管推理(别人的 GPU):
- Together AI、Fireworks、Groq、Cerebras — 按 token 付费,免运维。同模型常常比前沿 API 便宜。
- Replicate、Modal、RunPod — 弹性的 per-second GPU 租用 + 部署助手。
On-prem 自家机房:
- 受监管产业跑自己的 GPU。复杂度是真的(驱动版本、内存管理、调度),但成熟度上升中。
什么时候不要用 open-weight
- **质量不可妥协、延迟可以等。**前沿闭源在最难任务还是领先。
- **没 GPU 预算或专业。**自架 LLM 有真实运维成本,managed API 免掉。
- **量很小。**每天 < 1M tokens,前沿 API 比闲置 GPU 还便宜。
- **你需要 OpenAI 特定功能。**有些工作流靠闭源功能(Canvas、Tasks 等),open-weight 生态没有。
Open weight 对世界「比较好」吗?
值得知道的争议。优点(更多研究、更少集中、更多控制)、缺点(发布时程加速能力扩散、包括恶意用途)。Lab 之间公开意见不一。作为 builder,你的选择主要是务实的 — 能力、成本、控制 — 但这场政治决定明年会有哪些模型存在。
延伸阅读
- 什么是 LLM
- Open-source LLM vs 前沿 API:什么任务该用哪个
- 怎么在单一 GPU 机器上自架 LLM stack
- 怎么为你的场景挑对 LLM
- 用 vLLM 自架高吞吐推理服务器