跳到內容

公司

DeepSeek(深度求索)

DeepSeek

杭州的中國 AI 實驗室,2025 年初以 DeepSeek-V3、R1 震撼業界,用一小部分典型成本就訓練出前緣級的 open-weight 模型。

登入以收藏
DeepSeek(深度求索)是 2023 年由梁文鋒成立的中國 AI 實驗室,當作他的量化交易公司幻方(High-Flyer)的研究導向部門。位於杭州,刻意保持小規模。DeepSeek-V3(2024 年 12 月)跟 DeepSeek-R1(2025 年 1 月)在全球引發震撼,因為以遠低於美國實驗室假設需要的訓練預算,達到或接近 GPT-4o 等級表現,而且是 open-weight。 它重要的原因是:DeepSeek 證明前緣能力不是 OpenAI / Anthropic / Google 專有。特別是 R1 推理模型 open-weight,讓所有人——研究者、競爭者、獨立開發者——能複製並基於它的技術。發佈當天 Nvidia 股價跌約 17%,因為市場推論可能不需要 bull case 假設的那麼多 GPU。 主要貢獻:DeepSeek-V2(高效 MoE 架構)、DeepSeek-V3(671B 參數 MoE,37B active)、DeepSeek-R1(媲美 o1 的推理模型,完全開源)、Multi-head Latent Attention(MLA,KV cache 壓縮技術)、code、論文、權重的積極開源。 DeepSeek 現在是使用最廣的中文 open-source LLM,西方實驗室被迫拿來比較的 benchmark。延伸閱讀:DeepSeek family、Mixture of Experts、MLA、open-source、Qwen。

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more