跳到内容

模型家族

DeepSeek 系列

DeepSeek (family)

DeepSeek 的 open-weight LLM 家族,含 DeepSeek V2/V3(高效 MoE)、DeepSeek R1(媲美 o1 的 open-weight 推理模型)、DeepSeek-Coder、DeepSeek-VL。

登入以收藏
DeepSeek 模型家族是中国实验室 DeepSeek 的 open-weight 阵容。重要发布:DeepSeek-V2(2024,高效 MoE,因 performance-per-parameter 受关注)、DeepSeek-V3(2024 年 12 月,671B 参数 MoE,每次 forward pass 37B active,多数 benchmark 上达 GPT-4o 水准)、DeepSeek-R1(2025 年 1 月,第一个公开释出能跟 OpenAI o1 竞争的推理模型)、DeepSeek-Coder(代码专用)、DeepSeek-VL(视觉语言)。 这个家族重要的原因是:2025 年初几乎一夜之间改变业界预期。DeepSeek-V3 证明非美国实验室能用远低于预期的训练预算达到前沿级表现。DeepSeek-R1 接着释出推理模型——open-weight、完整 chain-of-thought 可见——在数学跟 coding eval 上达 o1 水准。发布影响大到让 Nvidia 股价可测量地下跌,引发对美式大规模算力价值的辩论。 家族中的特色技术创新:Multi-head Latent Attention(MLA,高效 KV cache 压缩)、大型 MoE 架构(多个小 expert)、训练论文跟详细技术笔记积极开放。 授权宽松(许多发布用 MIT-style)——可商业使用,权重跟完整推理 code 都公开。家族被广泛部署在自部署环境、当 fine-tune 基座、集成到许多中文 AI 产品。延伸阅读:DeepSeek(公司)、Mixture of Experts、MLA、open-source、R1。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more