LLM 讲的「open source」到底是什么意思?

有人说「Llama 3 是 open source」其实用词不严谨。在 AI 圈更精确的说法是 open weights:训练好的模型文件可下载,但训练数据、代码、确切配方通常不公开。这个区别重要,因为它影响你法律上和实务上能拿模型做什么。

三个层级的「开放」

大多数「开放」LLM 落在这个光谱上:

Open weights、限制性授权 — Llama 3 / 4(Meta)、Qwen(阿里)等。你可以下载、fine-tune、商用,但授权加了限制:月活跃用户门槛、命名要求、禁用条款。例如 Llama 的授权规定服务 MAU > 7 亿就要特殊许可。

Open weights、真正宽松的授权 — Mistral 7B / Mixtral(Apache 2.0)、Falcon、OLMo(Allen Institute)、Pythia。任何商用,没附带条件。

完全 open — open weights + 训练数据 + 代码 + 配方都公开。例如 OLMo 2、Pythia、BLOOM。罕见,benchmark 通常较弱,因为最好的训练数据都是私有的。

你会听到的「开源 LLM」绝大多数(Llama、Qwen、DeepSeek、Yi 等)是 open weights — 不是 Free Software Foundation 标准下的完整 open source。Open Source Initiative 在 2024 年公布了「Open Source AI Definition」,几乎没有主流模型符合。

为什么这个区别重要

你做产品时,实际会被三件事影响:

**能不能商用?**主流「open」模型几乎都可以。要注意:Llama 的 MAU 门槛、Mistral 衍生命名限制、模型版本之间授权变动。用之前先读一次授权。

**能不能 fine-tune 跟分发?**多半可以,但如果分发 fine-tune 后的权重,原始授权通常还是套用。「Built with Llama」归属要求很常见。

**能不能重现或审计?**没有训练数据跟代码,不行 — 你必须信任 lab。这对受监管产业(医疗、金融)很重要,合规要求可重现性。

Open weights 你实际得到什么

用 open-weight 模型的实务好处:

**没有 per-token API 费用。**你付 GPU hour,不付每次查询。每月几百万次查询以上,这就赢前沿 API 成本。
**隐私。**数据不离开你的基础设施。医疗、法律、政府等不能把数据送 OpenAI 的场景。
**定制化。**完整控制 fine-tuning、量化、部署。你的硬件、你的配置。
**没有 vendor lock-in。**Anthropic 明天可以改价,你本地的 Llama 3 70B 照跑不误。
**可查看。**你可以 probe、剪枝、分析模型,闭源 API 做不到。

取舍是真的。前沿闭源模型(Claude、GPT-5)在纯能力上通常领先 open-weight 6-12 个月。多数任务这个差距小到「便宜 + 隐私」会赢;最难的推理,前沿仍然领先。

2026 年 open-weight 模型阵容

主要家族:

Llama 3 / 4(Meta) — 最热门通用家族,英文强、生态广。
Qwen 3(阿里) — 多语言顶尖,中文特别强;从 0.5B 到 235B 都有。
DeepSeek V3 / R1 — 中国、极度成本高效。R1 是第一个主流 open-weight reasoning 模型。
Mistral / Mixtral — 法国、欧语质量好、授权严格宽松。
Gemma(Google) — DeepMind 的 open-weight 线、规模较小、质量高。
Phi(Microsoft) — 小模型用合成「教科书风」数据训练,以小搏大。
Yi(零一万物) — 有竞争力的中文模型家族。
OLMo(Allen AI) — 完整 open-source,benchmark 较弱,但对研究跟教育有用。

怎么跑 open-weight 模型

四种部署模式:

本地笔记本:

Ollama — 最简单。ollama run llama3 就有 chat。Mac 跟 Linux 强,Windows 基本可用。
LM Studio — GUI app,适合非技术 user。
llama.cpp — 很多工具底下的引擎。量化后 CPU + 小 GPU 都能跑。

自架 server:

vLLM — 服务 open-weight LLM 的同类最强。流量认真的人都用。
TensorRT-LLM、TGI、SGLang — 替代品,各有取舍。

托管推理(别人的 GPU):

Together AI、Fireworks、Groq、Cerebras — 按 token 付费,免运维。同模型常常比前沿 API 便宜。
Replicate、Modal、RunPod — 弹性的 per-second GPU 租用 + 部署助手。

On-prem 自家机房:

受监管产业跑自己的 GPU。复杂度是真的(驱动版本、内存管理、调度),但成熟度上升中。

什么时候不要用 open-weight

**质量不可妥协、延迟可以等。**前沿闭源在最难任务还是领先。
**没 GPU 预算或专业。**自架 LLM 有真实运维成本,managed API 免掉。
**量很小。**每天 < 1M tokens,前沿 API 比闲置 GPU 还便宜。
**你需要 OpenAI 特定功能。**有些工作流靠闭源功能(Canvas、Tasks 等),open-weight 生态没有。

Open weight 对世界「比较好」吗?

值得知道的争议。优点(更多研究、更少集中、更多控制)、缺点(发布时程加速能力扩散、包括恶意用途)。Lab 之间公开意见不一。作为 builder,你的选择主要是务实的 — 能力、成本、控制 — 但这场政治决定明年会有哪些模型存在。