跳到內容

模型家族

DeepSeek 系列

DeepSeek (family)

DeepSeek 的 open-weight LLM 家族,含 DeepSeek V2/V3(高效 MoE)、DeepSeek R1(媲美 o1 的 open-weight 推理模型)、DeepSeek-Coder、DeepSeek-VL。

登入以收藏
DeepSeek 模型家族是中國實驗室 DeepSeek 的 open-weight 陣容。重要發佈:DeepSeek-V2(2024,高效 MoE,因 performance-per-parameter 受關注)、DeepSeek-V3(2024 年 12 月,671B 參數 MoE,每次 forward pass 37B active,多數 benchmark 上達 GPT-4o 水準)、DeepSeek-R1(2025 年 1 月,第一個公開釋出能跟 OpenAI o1 競爭的推理模型)、DeepSeek-Coder(程式碼專用)、DeepSeek-VL(視覺語言)。 這個家族重要的原因是:2025 年初幾乎一夜之間改變業界預期。DeepSeek-V3 證明非美國實驗室能用遠低於預期的訓練預算達到前緣級表現。DeepSeek-R1 接著釋出推理模型——open-weight、完整 chain-of-thought 可見——在數學跟 coding eval 上達 o1 水準。發佈影響大到讓 Nvidia 股價可測量地下跌,引發對美式大規模算力價值的辯論。 家族中的特色技術創新:Multi-head Latent Attention(MLA,高效 KV cache 壓縮)、大型 MoE 架構(多個小 expert)、訓練論文跟詳細技術筆記積極開放。 授權寬鬆(許多發佈用 MIT-style)——可商業使用,權重跟完整推理 code 都公開。家族被廣泛部署在自架環境、當 fine-tune 基座、整合到許多中文 AI 產品。延伸閱讀:DeepSeek(公司)、Mixture of Experts、MLA、open-source、R1。

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more