面向混合专家模型的流行专家预取策略

叶进, 李温良, 余天添, 彭涯军

小型微型计算机系统 ›› 2025, Vol. 46 ›› Issue (07) : 1760 -1766.

PDF
小型微型计算机系统 ›› 2025, Vol. 46 ›› Issue (07) : 1760 -1766. DOI: 10.20009/j.cnki.21-1106/TP.2024-0240

面向混合专家模型的流行专家预取策略

    叶进, 李温良, 余天添, 彭涯军
作者信息 +

Author information +
文章历史 +
PDF

摘要

在混合专家模型训练中,引入专家并行可以有效减轻单节点的内存压力并提高模型性能.然而,专家并行训练存在因令牌(Token)频繁跨节点传输及节点间负载不均衡而导致的高通信开销问题.针对此问题,本文提出了一种基于流行度的预取专家策略(Prefetch Expert, PE).该策略根据专家的流行度智能预测并提前拉取当前训练所需的专家,以提高训练效率.此外,针对预取不成功的情况,PE策略引入了一种异步拉取机制,允许专家计算的同时进行其他专家的拉取操作,实现专家间通信与计算的重叠,有效降低由网络争用引起的通信延迟.在CIFAR-100、WikiText-103和SQUAD数据集上的大规模实验表明,较对比方案,采用PE策略能够使主流深度学习模型的收敛时间至少减少30%.

关键词

专家并行 / 通信开销 / 专家流行度 / 专家预取 / 深度学习

Key words

引用本文

引用格式 ▾
面向混合专家模型的流行专家预取策略[J]. 小型微型计算机系统, 2025, 46(07): 1760-1766 DOI:10.20009/j.cnki.21-1106/TP.2024-0240

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

63

访问

0

被引

详细

导航
相关文章

AI思维导图

/