PDF
摘要
针对多订单随机到达条件下的动态柔性作业车间调度问题(Dynamic Flexible Job Shop Scheduling Problem with Order Random Arrival, DFJSP_ORA),提出一种面向实际生产环境的建模与求解框架。首先构建了以最小化最大完工时间为优化目标DFJSP_ORA的数学模型。引入流体模型对系统行为进行连续近似,从而提取关键状态特征。调度过程被建模为马尔可夫决策过程(Markov Decision Process, MDP),并采用近端策略优化(Proximal Policy Optimization, PPO)算法构建端到端的深度强化学习框架进行求解。该方法结合复合规则驱动的离散动作空间与优势函数驱动的策略优化机制,实现了对动态环境的高效决策。最后通过81个不同规模的实例,对所提方法与6种优先调度规则及3种强化学习方法进行比较,结果验证了其优越性,为DFJSP_ORA的求解提供了一种高效、灵活的解决方案。
关键词
柔性作业车间调度
/
深度强化学习
/
近端策略优化
/
流体模型
/
最大完工时间
Key words
基于端到端深度强化学习的多订单动态柔性作业车间调度方法[J].
聊城大学学报(自然科学版), 2026, 39(2): 192-204+273 DOI:10.19728/j.issn1672-6634.2025070005