混合專家模型 (Mixture of Experts, MoE)

一種把模型拆成多個「專家」子網路的架構,每次只啟動少數幾個專家來處理輸入,讓參數量大增但運算成本不會等比上升。

混合專家模型(MoE)是一種神經網路架構:一層裡放了很多個平行的子網路,稱為「專家」(experts),再加上一個小型的「路由器」(router / gating network)負責決定每個 token 該交給哪幾位專家處理。並不是所有參數都會對每個輸入做運算,而是每次只啟動其中 top-k 個專家(常見是從 8、16 或 64 位專家中挑 2 位)。這個設計的關鍵在於:總參數量和推論成本被解耦了。一個 70B 的 dense 模型每跑一個 token 就要動用全部 70B 參數;但一個由 8 個 70B 專家組成的 MoE 模型(總參數約 560B),每個 token 可能只啟動約 140B 參數——運算便宜得多,卻仍能受惠於分散在所有專家裡的廣泛知識。Mixtral 8x7B、DeepSeek-V3、外界普遍認為的 GPT-4、Qwen 的 MoE 版本都採用這種設計。一個好懂的比喻:dense 模型像一位讀遍所有教科書、什麼問題都自己回答的全科醫師;MoE 模型則像一間有很多專科醫師加一位分診護理師的醫院——護理師(router)看一眼症狀,就把病人轉給兩位專科醫師,由他們一起給出答案。整間醫院「懂」的東西多很多,但每次看診依然很快。當然也有取捨:MoE 模型需要更多記憶體(就算只用幾個,所有專家還是要載入)、訓練比較棘手(路由器可能會偏心、只挑那幾位常用的專家),要高效部署也得有專家平行(expert parallelism)等基礎設施配合。延伸關鍵字:sparse activation、router / gating network、dense model、Mixtral、DeepSeek-V3、expert parallelism。