「Mixture of Experts」(MoE)到底是什麼

DeepSeek V3 在 2024 年底推出時帶著 6710 億參數,新聞標題都聚焦在大小上。真正令人印象深刻的是 DeepSeek 能用一個 70B dense 模型的零頭成本跑這個東西。秘訣是 Mixture of Experts。到 2026 年,MoE 已經是前緣開放權重模型的主流架構 — 而且封閉模型也越來越這樣。這篇講內部發生什麼。

Dense 基準

標準的 dense transformer(像原版 Llama 或 GPT-3)是一疊層。每處理一個 token,模型會跑遍每一層的每一個參數。如果你的模型有 70B 參數,每一個輸入或輸出 token 都做 70B 規模的計算。

這很浪費。語言和推理的不同部分大概會受惠於不同的專門電路,但 dense 模型對每件事都用全部。像每個問題都諮詢全部 70B 個「員工」,即使只有少數幾個擅長那個問題。

MoE 改變了什麼

MoE 模型把每個 transformer 層裡的 feed-forward 網路換成一組「專家」(通常 8、16、64 或 128 個)加一個小型「router」網路。對每個 token,router 挑出 top-K 個專家(通常 2 個),只有那幾個處理這個 token。其餘的對這個 token 來說是休眠的。

這意味 MoE 模型有兩個重要的參數數量:

總參數(頭條數字,例如 DeepSeek V3 的 671B)。這些參數全部存在記憶體。
每 token 啟用的參數(例如 DeepSeek V3 的 37B)。這才是任一給定 token 真正在做的計算。

模型容量是 671B,但每 token 只做大約 37B 的計算。所以跑起來比 671B dense 快很多便宜很多 — 推論成本接近 37B dense。但因為不同 token 用不同專家,模型整體受惠於全部 671B 的學習容量。

像有一個 100 位專家員工的大公司,但每個客戶問題只 route 到最相關的 2 位。容量是總專業度;每個問題的成本只是那 2 位。

為什麼這個架構突然到處都是

MoE 從 1990 年代就存在,但要到 2021-2022 年(Switch Transformer、Google 的 GShard)才在規模上實際可行,2024 年成為主流。為什麼現在到處都是:

**規模化下,推論成本比訓練成本更重要。**如果一個模型要服務數十億次,每次推論省 50% 比訓練省值錢得多。
**VRAM 便宜;算力貴。**GPU 記憶體比算力吞吐量擴張得快。MoE 用「記憶體裡更多參數」換「每 token 更少算力」,這個交易是對的方向。
**品質可擴展。**經驗上,N 個總參數、K 個啟用的 MoE 表現常常接近 N 大小的 dense,而成本像 K 大小的 dense。算是免費午餐(類似)。

2025-2026 年值得注意的 MoE 模型:

DeepSeek V3(671B 總 / 37B 啟用) — 開放權重,目前以價格論最強。
DeepSeek R1 — 推理模型,也是 MoE。
Mixtral 8x7B 和 8x22B — Mistral 的 MoE 系列,小一點,自架者很容易上手。
Llama 4(Scout 109B / Maverick 400B) — Meta 第一個 MoE 旗艦。
Qwen 3 MoE 變體 — 阿里巴巴的開放權重 MoE。
GPT-5 / Claude / Gemini — 內部幾乎肯定是 MoE,雖然實驗室沒完全揭露架構。

MoE 用起來跟 dense 有什麼差別

對 99% 的使用者來說 MoE 是隱形的 — 一樣的聊天介面、一樣的 API。但有下游效應:

同等品質下推論成本較低,所以 DeepSeek V3 能訂這麼侵略性的價(類似任務常常是 GPT-5 的 1/10)。

**自架更難。**671B 參數的 MoE 要塞進 VRAM,很貴(通常多 GPU H100 配置)。「跑起來便宜」這部分只在你付得起 VRAM 之後才生效。Mixtral 8x7B 對嗜好者是甜蜜點,大約 95GB 總量但推論成本合理。

第一個 token 的延遲可能稍高,因為 routing 有 overhead。一旦開始產生,吞吐量很好。

**量化更難。**不同專家可能有不同分布,所以單純的 4-bit 量化有時候對 MoE 比對 dense 傷得多。社群已開發 MoE 專門的量化技術。

**微調更複雜。**你要決定是更新全部專家、只更新某些、還是只更新 router。多數消費級微調框架(axolotl、unsloth)現在處理得來,但花了一段時間。

常見誤解

**「671B MoE 跟 671B dense 一樣強。」**不對。它的表現介於它啟用大小的 dense 和總大小的 dense 之間。經驗上 MoE 品質擴展得不錯但不是跟總參數 1:1。

**「MoE 跟 ensemble 一樣。」**不對。ensemble 跑 N 個獨立模型再結合輸出。MoE 是單一模型,不同部分對每個 token 啟用。Router 跟專家是端到端聯合訓練的。

**「每個專家擅長特定主題。」**大致不對。專家不會清楚地專業化成「數學專家」/「程式專家」/「法文專家」 — 它們專業化在 router 學會分派的更抽象的 pattern 上。有時候專家分派有可解釋性,但不是總有。

**「MoE 只是假裝參數多。」**對也不對。不是「假」,因為那些參數確實對模型品質有貢獻。但用參數數量比較 671B MoE 和 671B dense 是誤導 — 用品質基準比才對。

對使用者什麼時候有差

2026 年挑模型的時候,MoE 解釋了為什麼最強的某些開源選項(DeepSeek V3、Llama 4 Maverick、Qwen 3 235B)同時也是每 token 最便宜的。對自架,MoE 把瓶頸從算力轉到 VRAM — 規劃時要考慮這點。

如果你不訓練、不自架,MoE 不改變你怎麼用 API 開發。你還是基於品質 / 成本權衡挑模型;底層架構是實作細節。

什麼時候不要過度想

做應用開發時,把「是不是 MoE」當好奇心,不是決策因素。對的問題是「這個模型在我的任務上表現好不好、成本我能不能負擔」,不是「架構是不是 MoE」。某些特定場景最強的模型是 dense(Mistral Small 3、Qwen 32B Instruct),某些是 MoE。

下一步

量化解釋 — 對自架者來說,跟 MoE 有有趣的互動
怎麼挑自架技術棧 — 本地跑 MoE 的實際情況
開源 vs 前緣 LLM — MoE 大致是開放權重追上前緣的原因