深度神经网络模型并行自适应计算任务调度方法

巨涛, 刘帅, 火久元, 张学军

吉林大学学报(工学版) ›› 2024, Vol. 54 ›› Issue (12) : 3601 -3613.

PDF
吉林大学学报(工学版) ›› 2024, Vol. 54 ›› Issue (12) : 3601 -3613. DOI: 10.13229/j.cnki.jdxbgxb.20230164

深度神经网络模型并行自适应计算任务调度方法

作者信息 +

Author information +
文章历史 +
PDF

摘要

针对大规模深度神经网络模型并行面临的内存消耗大、设备利用率低、训练时间长、模型难以收敛的问题,提出了一种面向深度神经网络模型并行的计算任务自适应调度方法。通过建立模型并行计算任务的多迭代异步并行管理机制,控制微批量单元具体调度过程,实现模型合理分区和计算资源合理分配,解决异步迭代时产生的梯度延迟更新问题;基于拓扑感知设计计算资源的分配机制,实现模型训练任务和计算资源的合理匹配;设计计算资源和模型任务的运行时调度策略,实现深度学习模型训练过程中计算与通信重叠的最大化,提高计算资源利用率。实验结果表明:与已有的模型并行方法相比,本文方法可以充分利用各GPU计算资源,在保证模型训练精度的同时,可以将大规模深度神经网络模型训练速度平均提高2.8倍。

关键词

并行计算 / 深度神经网络模型并行 / 流水线并行 / 异步并行 / 任务调度 / 计算通信重叠

Key words

引用本文

引用格式 ▾
巨涛, 刘帅, 火久元, 张学军 深度神经网络模型并行自适应计算任务调度方法[J]. 吉林大学学报(工学版), 2024, 54(12): 3601-3613 DOI:10.13229/j.cnki.jdxbgxb.20230164

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

55

访问

0

被引

详细

导航
相关文章

AI思维导图

/