DeepSeek（深度求索）

杭州的中国 AI 实验室，2025 年初以 DeepSeek-V3、R1 震撼业界，用一小部分典型成本就训练出前沿级的 open-weight 模型。

DeepSeek（深度求索）是 2023 年由梁文锋成立的中国 AI 实验室，当作他的量化交易公司幻方（High-Flyer）的研究导向部门。位于杭州，刻意保持小规模。DeepSeek-V3（2024 年 12 月）跟 DeepSeek-R1（2025 年 1 月）在全球引发震撼，因为以远低于美国实验室假设需要的训练预算，达到或接近 GPT-4o 等级表现，而且是 open-weight。它重要的原因是：DeepSeek 证明前沿能力不是 OpenAI / Anthropic / Google 专有。特别是 R1 推理模型 open-weight，让所有人——研究者、竞争者、独立开发者——能复制并基于它的技术。发布当天 Nvidia 股价跌约 17%，因为市场推论可能不需要 bull case 假设的那么多 GPU。主要贡献：DeepSeek-V2（高效 MoE 架构）、DeepSeek-V3（671B 参数 MoE，37B active）、DeepSeek-R1（媲美 o1 的推理模型，完全开源）、Multi-head Latent Attention（MLA，KV cache 压缩技术）、code、论文、权重的积极开源。 DeepSeek 现在是使用最广的中文 open-source LLM，西方实验室被迫拿来比较的 benchmark。延伸阅读：DeepSeek family、Mixture of Experts、MLA、open-source、Qwen。