考虑多资源交错的深度学习训练作业调度策略

林洁楠; 郑裕恒; 陈星

doi:10.20009/j.cnki.21-1106/TP.2024-0561

小型微型计算机系统 ›› 2026, Vol. 47 ›› Issue (1) : 80 -88. DOI: 10.20009/j.cnki.21-1106/TP.2024-0561

考虑多资源交错的深度学习训练作业调度策略

林洁楠, 郑裕恒, 陈星

作者信息 +

Author information +

文章历史 +

PDF

摘要

随着深度学习(Deep Learning, DL)的迅速发展，各类DL模型在CPU、GPU、存储IO和网络IO等资源的使用上表现出明显差异化特征.然而，在带有资源约束的集群环境中，面对资源瓶颈各异的DL训练作业，如何进行作业调度以最小化完工时间是一个挑战.大多数现有工作主要关注GPU分配，难以有效应对不同类型模型对多种资源的综合需求.为了解决这一挑战，本文引入了一种考虑多资源交错的DL训练作业调度策略，该策略充分利用DL作业分阶段迭代的特点，通过不同资源的交替使用实现作业的并行运行，并提出一种结合了DDPSO-GA(Dynamic Discrete Particle Swarm Optimization algorithm with Genetic Algorithm operators)和多轮Blossom算法的调度方法DPGB,以搜索最优作业调度方案.实验结果表明，该方法能够有效缩短集群环境下DL训练作业的完工时间.