DeepSeek 系列

DeepSeek 的 open-weight LLM 家族，含 DeepSeek V2/V3（高效 MoE）、DeepSeek R1（媲美 o1 的 open-weight 推理模型）、DeepSeek-Coder、DeepSeek-VL。

DeepSeek 模型家族是中国实验室 DeepSeek 的 open-weight 阵容。重要发布：DeepSeek-V2（2024，高效 MoE，因 performance-per-parameter 受关注）、DeepSeek-V3（2024 年 12 月，671B 参数 MoE，每次 forward pass 37B active，多数 benchmark 上达 GPT-4o 水准）、DeepSeek-R1（2025 年 1 月，第一个公开释出能跟 OpenAI o1 竞争的推理模型）、DeepSeek-Coder（代码专用）、DeepSeek-VL（视觉语言）。这个家族重要的原因是：2025 年初几乎一夜之间改变业界预期。DeepSeek-V3 证明非美国实验室能用远低于预期的训练预算达到前沿级表现。DeepSeek-R1 接着释出推理模型——open-weight、完整 chain-of-thought 可见——在数学跟 coding eval 上达 o1 水准。发布影响大到让 Nvidia 股价可测量地下跌，引发对美式大规模算力价值的辩论。家族中的特色技术创新：Multi-head Latent Attention（MLA，高效 KV cache 压缩）、大型 MoE 架构（多个小 expert）、训练论文跟详细技术笔记积极开放。授权宽松（许多发布用 MIT-style）——可商业使用，权重跟完整推理 code 都公开。家族被广泛部署在自部署环境、当 fine-tune 基座、集成到许多中文 AI 产品。延伸阅读：DeepSeek（公司）、Mixture of Experts、MLA、open-source、R1。