架构
混合专家模型 (Mixture of Experts, MoE)
Mixture of Experts (MoE)
一种把模型拆成多个"专家"子网络的架构,每次只激活少数几个专家来处理输入,使参数量大幅增加但算力成本不会等比上升。
架构
Mixture of Experts (MoE)
一种把模型拆成多个"专家"子网络的架构,每次只激活少数几个专家来处理输入,使参数量大幅增加但算力成本不会等比上升。
We use cookies
Anonymous analytics help us improve the site. You can opt out anytime. Learn more