跳到内容

公司

DeepSeek(深度求索)

DeepSeek

杭州的中国 AI 实验室,2025 年初以 DeepSeek-V3、R1 震撼业界,用一小部分典型成本就训练出前沿级的 open-weight 模型。

登入以收藏
DeepSeek(深度求索)是 2023 年由梁文锋成立的中国 AI 实验室,当作他的量化交易公司幻方(High-Flyer)的研究导向部门。位于杭州,刻意保持小规模。DeepSeek-V3(2024 年 12 月)跟 DeepSeek-R1(2025 年 1 月)在全球引发震撼,因为以远低于美国实验室假设需要的训练预算,达到或接近 GPT-4o 等级表现,而且是 open-weight。 它重要的原因是:DeepSeek 证明前沿能力不是 OpenAI / Anthropic / Google 专有。特别是 R1 推理模型 open-weight,让所有人——研究者、竞争者、独立开发者——能复制并基于它的技术。发布当天 Nvidia 股价跌约 17%,因为市场推论可能不需要 bull case 假设的那么多 GPU。 主要贡献:DeepSeek-V2(高效 MoE 架构)、DeepSeek-V3(671B 参数 MoE,37B active)、DeepSeek-R1(媲美 o1 的推理模型,完全开源)、Multi-head Latent Attention(MLA,KV cache 压缩技术)、code、论文、权重的积极开源。 DeepSeek 现在是使用最广的中文 open-source LLM,西方实验室被迫拿来比较的 benchmark。延伸阅读:DeepSeek family、Mixture of Experts、MLA、open-source、Qwen。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more