PDF
摘要
随着深度学习(Deep Learning, DL)的迅速发展,各类DL模型在CPU、GPU、存储IO和网络IO等资源的使用上表现出明显差异化特征.然而,在带有资源约束的集群环境中,面对资源瓶颈各异的DL训练作业,如何进行作业调度以最小化完工时间是一个挑战.大多数现有工作主要关注GPU分配,难以有效应对不同类型模型对多种资源的综合需求.为了解决这一挑战,本文引入了一种考虑多资源交错的DL训练作业调度策略,该策略充分利用DL作业分阶段迭代的特点,通过不同资源的交替使用实现作业的并行运行,并提出一种结合了DDPSO-GA(Dynamic Discrete Particle Swarm Optimization algorithm with Genetic Algorithm operators)和多轮Blossom算法的调度方法DPGB,以搜索最优作业调度方案.实验结果表明,该方法能够有效缩短集群环境下DL训练作业的完工时间.
关键词
资源共享
/
深度学习
/
作业调度
/
粒子群优化算法
Key words
考虑多资源交错的深度学习训练作业调度策略[J].
小型微型计算机系统, 2026, 47(1): 80-88 DOI:10.20009/j.cnki.21-1106/TP.2024-0561