基于端到端深度强化学习的多订单动态柔性作业车间调度方法

王旭; 李寰; 韩玉艳; 王玉亭; 王雅坤

doi:10.19728/j.issn1672-6634.2025070005

聊城大学学报（自然科学版） ›› 2026, Vol. 39 ›› Issue (2) : 192 -204+273. DOI: 10.19728/j.issn1672-6634.2025070005

基于端到端深度强化学习的多订单动态柔性作业车间调度方法

王旭, 李寰, 韩玉艳, 王玉亭, 王雅坤

作者信息 +

Author information +

文章历史 +

PDF

摘要

针对多订单随机到达条件下的动态柔性作业车间调度问题(Dynamic Flexible Job Shop Scheduling Problem with Order Random Arrival, DFJSP＿ORA),提出一种面向实际生产环境的建模与求解框架。首先构建了以最小化最大完工时间为优化目标DFJSP＿ORA的数学模型。引入流体模型对系统行为进行连续近似,从而提取关键状态特征。调度过程被建模为马尔可夫决策过程(Markov Decision Process, MDP),并采用近端策略优化(Proximal Policy Optimization, PPO)算法构建端到端的深度强化学习框架进行求解。该方法结合复合规则驱动的离散动作空间与优势函数驱动的策略优化机制,实现了对动态环境的高效决策。最后通过81个不同规模的实例,对所提方法与6种优先调度规则及3种强化学习方法进行比较,结果验证了其优越性,为DFJSP＿ORA的求解提供了一种高效、灵活的解决方案。