混合专家模型 (Mixture of Experts, MoE)

一种把模型拆成多个"专家"子网络的架构,每次只激活少数几个专家来处理输入,使参数量大幅增加但算力成本不会等比上升。

混合专家模型(MoE)是一种神经网络架构:一层里放了多个并行的子网络,称为"专家"(experts),再加上一个小型的"路由器"(router / gating network)来决定每个 token 该交给哪几个专家处理。并不是所有参数都对每个输入参与运算,而是每次只激活其中 top-k 个专家(常见是从 8、16 或 64 个专家里挑 2 个)。这个设计的关键在于:总参数量和推理成本被解耦了。一个 70B 的 dense 模型每处理一个 token 就要动用全部 70B 参数;而由 8 个 70B 专家组成的 MoE 模型(总参数约 560B),每个 token 可能只激活约 140B 参数——算力便宜得多,却仍能受益于分散在所有专家中的广泛知识。Mixtral 8x7B、DeepSeek-V3、外界普遍认为的 GPT-4、Qwen 的 MoE 版本都采用这种设计。一个好懂的类比:dense 模型像一位读遍所有教科书、所有问题都自己回答的全科医生;MoE 模型则像一家有很多专科医生加一位分诊护士的医院——护士(router)看一眼症状,就把病人转给两位专科医生,由他们共同给出答案。整家医院"懂"的东西多得多,但每次看诊依然很快。当然也有代价:MoE 模型需要更多显存(即使只用几个,所有专家也都得加载)、训练更棘手(路由器可能会偏向少数几个常用专家),要高效部署还得依赖专家并行(expert parallelism)等基础设施。延伸关键词:sparse activation、router / gating network、dense model、Mixtral、DeepSeek-V3、expert parallelism。