有人說「Llama 3 是 open source」其實用詞不嚴謹。在 AI 圈更精確的說法是 open weights:訓練好的模型檔可下載,但訓練資料、code、確切配方通常不公開。這個區別重要,因為它影響你法律上和實務上能拿模型做什麼。
三個層級的「開放」
大多數「開放」LLM 落在這個光譜上:
Open weights、限制性授權 — Llama 3 / 4(Meta)、Qwen(阿里)等。你可以下載、fine-tune、商用,但授權加了限制:月活躍用戶門檻、命名要求、禁用條款。例如 Llama 的授權規定服務 MAU > 7 億就要特殊許可。
Open weights、真正寬鬆的授權 — Mistral 7B / Mixtral(Apache 2.0)、Falcon、OLMo(Allen Institute)、Pythia。任何商用,沒附帶條件。
完全 open — open weights + 訓練資料 + code + 配方都公開。例如 OLMo 2、Pythia、BLOOM。罕見,benchmark 通常較弱,因為最好的訓練資料都是私有的。
你會聽到的「開源 LLM」絕大多數(Llama、Qwen、DeepSeek、Yi 等)是 open weights — 不是 Free Software Foundation 標準下的完整 open source。Open Source Initiative 在 2024 年公布了「Open Source AI Definition」,幾乎沒有主流模型符合。
為什麼這個區別重要
你做產品時,實際會被三件事影響:
**能不能商用?**主流「open」模型幾乎都可以。要注意:Llama 的 MAU 門檻、Mistral 衍生命名限制、模型版本之間授權變動。用之前先讀一次授權。
**能不能 fine-tune 跟散布?**多半可以,但如果散布 fine-tune 後的權重,原始授權通常還是套用。「Built with Llama」歸屬要求很常見。
**能不能重現或審計?**沒有訓練資料跟 code,不行 — 你必須信任 lab。這對受規管產業(醫療、金融)很重要,合規要求可重現性。
Open weights 你實際得到什麼
用 open-weight 模型的實務好處:
- **沒有 per-token API 費用。**你付 GPU hour,不付每次查詢。每月幾百萬次查詢以上,這就贏前沿 API 成本。
- **隱私。**資料不離開你的基礎建設。醫療、法律、政府等不能把資料送 OpenAI 的場景。
- **客製化。**完整控制 fine-tuning、量化、部署。你的硬體、你的配置。
- **沒有 vendor lock-in。**Anthropic 明天可以改價,你本地的 Llama 3 70B 照跑不誤。
- **可檢視。**你可以 probe、剪枝、分析模型,閉源 API 做不到。
取捨是真的。前沿閉源模型(Claude、GPT-5)在純能力上通常領先 open-weight 6-12 個月。多數任務這個差距小到「便宜 + 隱私」會贏;最難的推理,前沿仍然領先。
2026 年 open-weight 模型陣容
主要家族:
- Llama 3 / 4(Meta) — 最熱門通用家族,英文強、生態廣。
- Qwen 3(阿里) — 多語言頂尖,中文特別強;從 0.5B 到 235B 都有。
- DeepSeek V3 / R1 — 中國、極度成本高效。R1 是第一個主流 open-weight reasoning 模型。
- Mistral / Mixtral — 法國、歐語品質好、授權嚴格寬鬆。
- Gemma(Google) — DeepMind 的 open-weight 線、規模較小、品質高。
- Phi(Microsoft) — 小模型用合成「教科書風」資料訓練,以小搏大。
- Yi(零一萬物) — 有競爭力的中文模型家族。
- OLMo(Allen AI) — 完整 open-source,benchmark 較弱,但對研究跟教育有用。
怎麼跑 open-weight 模型
四種部署模式:
本機筆電:
- Ollama — 最簡單。
ollama run llama3就有 chat。Mac 跟 Linux 強,Windows 基本可用。 - LM Studio — GUI app,適合非技術 user。
- llama.cpp — 很多工具底下的引擎。量化後 CPU + 小 GPU 都能跑。
自架 server:
- vLLM — 服務 open-weight LLM 的同類最強。流量認真的人都用。
- TensorRT-LLM、TGI、SGLang — 替代品,各有取捨。
託管推論(別人的 GPU):
- Together AI、Fireworks、Groq、Cerebras — 按 token 付費,免維運。同模型常常比前沿 API 便宜。
- Replicate、Modal、RunPod — 彈性的 per-second GPU 租用 + 部署助手。
On-prem 自家機房:
- 受規管產業跑自己的 GPU。複雜度是真的(驅動版本、記憶體管理、排程),但成熟度上升中。
什麼時候不要用 open-weight
- **品質不可妥協、延遲可以等。**前沿閉源在最難任務還是領先。
- **沒 GPU 預算或專業。**自架 LLM 有真實維運成本,managed API 免掉。
- **量很小。**每天 < 1M tokens,前沿 API 比閒置 GPU 還便宜。
- **你需要 OpenAI 特定功能。**有些工作流靠閉源功能(Canvas、Tasks 等),open-weight 生態沒有。
Open weight 對世界「比較好」嗎?
值得知道的爭議。優點(更多研究、更少集中、更多控制)、缺點(發布時程加速能力擴散、包括惡意用途)。Lab 之間公開意見不一。作為 builder,你的選擇主要是務實的 — 能力、成本、控制 — 但這場政治決定明年會有哪些模型存在。
延伸閱讀
- 什麼是 LLM
- Open-source LLM vs 前沿 API:什麼任務該用哪個
- 怎麼在單一 GPU 機器上自架 LLM stack
- 怎麼為你的場景挑對 LLM
- 用 vLLM 自架高吞吐推論伺服器