DeepSeek 系列

DeepSeek 的 open-weight LLM 家族，含 DeepSeek V2/V3（高效 MoE）、DeepSeek R1（媲美 o1 的 open-weight 推理模型）、DeepSeek-Coder、DeepSeek-VL。

DeepSeek 模型家族是中國實驗室 DeepSeek 的 open-weight 陣容。重要發佈：DeepSeek-V2（2024，高效 MoE，因 performance-per-parameter 受關注）、DeepSeek-V3（2024 年 12 月，671B 參數 MoE，每次 forward pass 37B active，多數 benchmark 上達 GPT-4o 水準）、DeepSeek-R1（2025 年 1 月，第一個公開釋出能跟 OpenAI o1 競爭的推理模型）、DeepSeek-Coder（程式碼專用）、DeepSeek-VL（視覺語言）。這個家族重要的原因是：2025 年初幾乎一夜之間改變業界預期。DeepSeek-V3 證明非美國實驗室能用遠低於預期的訓練預算達到前緣級表現。DeepSeek-R1 接著釋出推理模型——open-weight、完整 chain-of-thought 可見——在數學跟 coding eval 上達 o1 水準。發佈影響大到讓 Nvidia 股價可測量地下跌，引發對美式大規模算力價值的辯論。家族中的特色技術創新：Multi-head Latent Attention（MLA，高效 KV cache 壓縮）、大型 MoE 架構（多個小 expert）、訓練論文跟詳細技術筆記積極開放。授權寬鬆（許多發佈用 MIT-style）——可商業使用，權重跟完整推理 code 都公開。家族被廣泛部署在自架環境、當 fine-tune 基座、整合到許多中文 AI 產品。延伸閱讀：DeepSeek（公司）、Mixture of Experts、MLA、open-source、R1。