【AIGC】大模型面试高频考点13-混合专家模型MOE
混合专家模型MOE混合专家(MoE)?(一)专家的含义及工作方式(1)密集层(2)稀疏层(3)专家学习的内容(4)专家的架构(二)路由机制(1)路由(2)选择专家(3)路由的复杂性(三)负载均衡(1)KeepTopK(2)词元选择(3)辅助损失(4)专家容量(5)借助Switch Transformer简化MoE1 切换层2 容量因子3 辅助损失(四)视觉模型中的混合专家(1)视觉混合专家(Vision-MoE)(2)从稀疏混合专家到软混合专家(3)Mixtral 8x7B的活跃参数与稀疏参数(五)附录MoE层前向传播(PyTorch伪代码)混合专家(MoE)?混合专家(Mixture of Experts, MoE)是一种通过动态组合多个子模型(专家)提升模型性能的技术,其核心组件包括:专家(Experts):独立的FFNN子模块,各专家学习不同粒度的特征(如句法、词性等),而非领域知识。路由网络(Router):轻量级FFNN,根据输入词元动态选择Top-K专家(稀疏MoE)或加权所有专家(密集MoE)。架构对比:MoE vs 传统FFNN特性传统FFNN(密集层)MoE(稀疏层)参数激活方式全参数激活仅激活部分专家(如Top-2)计算复杂度随维度平方增长(O(d²))线性增长(O(k·d²), k≪总专家数)典型应用小规模模型超大规模模型(如Mixtral 8x7B)