DeepSeek（深度求索）

杭州的中國 AI 實驗室，2025 年初以 DeepSeek-V3、R1 震撼業界，用一小部分典型成本就訓練出前緣級的 open-weight 模型。

DeepSeek（深度求索）是 2023 年由梁文鋒成立的中國 AI 實驗室，當作他的量化交易公司幻方（High-Flyer）的研究導向部門。位於杭州，刻意保持小規模。DeepSeek-V3（2024 年 12 月）跟 DeepSeek-R1（2025 年 1 月）在全球引發震撼，因為以遠低於美國實驗室假設需要的訓練預算，達到或接近 GPT-4o 等級表現，而且是 open-weight。它重要的原因是：DeepSeek 證明前緣能力不是 OpenAI / Anthropic / Google 專有。特別是 R1 推理模型 open-weight，讓所有人——研究者、競爭者、獨立開發者——能複製並基於它的技術。發佈當天 Nvidia 股價跌約 17%，因為市場推論可能不需要 bull case 假設的那麼多 GPU。主要貢獻：DeepSeek-V2（高效 MoE 架構）、DeepSeek-V3（671B 參數 MoE，37B active）、DeepSeek-R1（媲美 o1 的推理模型，完全開源）、Multi-head Latent Attention（MLA，KV cache 壓縮技術）、code、論文、權重的積極開源。 DeepSeek 現在是使用最廣的中文 open-source LLM，西方實驗室被迫拿來比較的 benchmark。延伸閱讀：DeepSeek family、Mixture of Experts、MLA、open-source、Qwen。