基于DRQN的复杂产品工艺路线柔性规划方法

李继运; 李璐瑜; 郭娜; 安云哲; 夏秀峰

doi:10.3969/j.issn.2095-1248.2025.03.009

沈阳航空航天大学学报 ›› 2025, Vol. 42 ›› Issue (3) : 65 -74. DOI: 10.3969/j.issn.2095-1248.2025.03.009

信息科学与工程

基于DRQN的复杂产品工艺路线柔性规划方法

李继运 ¹ ,
李璐瑜 ² ,
郭娜 ² ,
安云哲 ² ,
夏秀峰 ²

作者信息 +

A DRQN-based flexible process route planning method for complex products

Jiyun LI ¹ ,
Luyu LI ² ,
Na GUO ² ,
Yunzhe AN ² ,
Xiufeng XIA ²

Author information +

文章历史 +

PDF (1833K)

摘要

针对动态工艺需求及工艺数据复杂多变的工艺路线规划问题，提出了一种基于深度循环Q网络（deep recurrent q-network，DRQN）的工艺路线柔性规划方法。首先，结合长短期记忆网络（deep recurrent q-network，DRQN）的结构优势，充分挖掘序列数据中的特征，提高工艺路线规划的准确性和稳定性。其次，借助深度Q网络及自适应调整策略的强大动态决策能力，解决需求变更和加工环境变化带来的挑战。最后，采用“选择性遗忘”机制，提高频繁工艺更改时工艺路线规划的响应速度。仿真实验结果表明，所提方法能有效地解决零件发生特征重构的工艺路线规划问题。

Abstract

To address the process route planning problem characterized by dynamic process requirements and intricate process data，a flexible process route planning method was proposed based on deep recurrent q-network （DRQN）.Firstly， leveraging the structural advantages of the long short-term memory （LSTM） network， sequential data features were thoroughly mined to enhance the accuracy and stability of process route planning.Secondly， by integrating the robust dynamic decision-making capability of the deep q-network （DQN） with an adaptive adjustment strategy， the challenges posed by fluctuations in requirements and processing environments were effectively mitigated.Lastly， in response to frequent process changes， a "selective forgetting" mechanism was implemented to improve the response speed of process route planning during step process changes.Simulation results demonstrate that the proposed method can efficiently resolve the process route planning issue associated with part occurrence feature reconstruction.

Graphical abstract

关键词

复杂产品 / 深度强化学习 / 工艺路线 / 柔性规划 / DRQN

Key words

complex products / reinforcement learning / process route / flexible planning / DRQN

引用本文

引用格式 ▾

李继运,李璐瑜,郭娜,安云哲,夏秀峰. 基于DRQN的复杂产品工艺路线柔性规划方法[J]. 沈阳航空航天大学学报, 2025, 42(3): 65-74 DOI:10.3969/j.issn.2095-1248.2025.03.009

登录浏览全文

4963

注册一个新账户忘记密码

复杂产品系统是各类产业中对技术和组织要求最高的产业类别，集中代表了一个国家的经济和科技发展水平，也是一个国家制造实力的综合体现。复杂产品的工艺路线规划是关键步骤之一，描述了在满足加工约束的前提下，零件从原材料到半成品或成品零件特征的加工顺序及所使用的资源等。

目前对于工艺路线规划方法主要分为基于知识的方法、基于启发式的方法和基于机器学习的方法3个派别。基于知识的工艺路线规划方法^［1］主要利用知识库和专家系统，根据加工任务推理出合理的工艺路线，但无法保证所得解的全局最优。基于启发式算法^［2-3］如遗传算法、模拟退火算法、蚁群算法等方法能够很好地逼近全局最优解，但其普适性、稳定性和鲁棒性差，因此产生基于机器学习的相关算法。文献［4］和文献［5］针对柔性加工系统变化的加工环境恶化和工艺需求简化，提出了基于深度强化学习的工艺路线规划算法，并在算法取得最优解和收敛速度方面提出了优化策略。

然而现有的基于机器学习的工艺路线规划方法^［6-7］都普遍适用于传统产品的工艺路线优化，鲜有研究是针对复杂产品工艺路线的，都不能很好地解决复杂产品的工艺路线规划问题。航空发动机制造过程具有以下特点和难点：

1）新产品多、新构型多、新工艺多。为了解决设计阶段考虑不全面带来的加工难题，需要进行大量的工艺技术攻关。

2）需求多样、复杂性高，使工艺路线规划难度大。需要全面考虑技术状态变更、资源保障及时效性对进度管理的约束。

3）工艺更改频繁，操作难度大、风险大。复杂产品研制生产需要经过反复研制和验证（如图1所示），其工艺需要根据实际情况进行更改。

因此，本文针对频繁更新的工艺数据及具有动态工艺需求的复杂产品工艺路线规划问题，开展基于深度强化学习的柔性规划方法研究。结合长短期记忆网络（long short-term memory，LSTM）^［8］和深度Q网络（deep q-network，DQN）^［9］，提出了一种基于DRQN^［10］的深度强化学习算法的工艺路线柔性规划方法。

采用DRQN处理部分可观测的马尔可夫决策过程（partial observable Markov decision process， POMDP），挖掘提取工艺路线数据中的特征，为工艺路线规划的准确性和稳定性奠定了基础。

1 基于POMDP的工艺路线建模

在对复杂产品零件进行工艺路线规划时，首先需要对复杂产品零件的工艺特征、工艺操作、加工资源和约束矩阵等信息进行建模。

1.1 基础建模

每个零件P由一系列工艺特征构成，定义为FS_P =｛F₁，F₂，…，F_N ｝。其中，F_i 为P的第i个工艺特征，N为P的工艺特征的数量。

每个零件P工艺特征由一系列工艺加工操作集

O p S P = {O p 1, O p 2, ⋯, O p i, ⋯, O p M}

完成，其中，Op _i 表示P的第i个加工操作，M是P的总操作数。不同的操作Op _i 对应不同的加工资源（机器集MS（Op _i ）和工具TS（Op _i ）集等）和加工步骤（进刀方向DS（Op _i ）等）。

在复杂产品零件加工过程中，存在一些如先后顺序等的加工约束限制，用约束矩阵（constraint matrix， CM ）表示。零件P的工艺加工约束矩阵定义为

C M (P) = [c (i, j)] n × n

。其中，n为零件P的工艺特征数；矩阵

C M (P)

第i行第j列的值表示特征F_i 和特征F_j 之间的约束关系。复杂产品零件的工艺复杂，本文将工艺特征之间的关系分为依赖关系、相邻关系、模式关系和基准关系4种类型。

复杂产品工艺路线规划的目标是：在零件特征工艺加工约束下，为产品生产过程中的每个工序选择最优的操作路径，以最小化成本、时间或最大化质量。

1.2 马尔可夫决策过程定义

在应用DRQN前，给出POMDP中状态向量、动作空间、转移概率、观测空间、观测概率和奖励函数的具体定义。

1.2.1 状态向量

状态向量作为智能体的输入，要求能清晰地描述零件加工状态。因此，本文将零件P加工操作执行情况映射到状态向量 S 中，定义为 S_p =［S₁，S₂，

⋯

，S_i，

⋯

，S_M ］。其中，M为p的总操作数，S_i 为P的Op _i 完成状态。S_i 取值情况分为以下2种情况：

1） S_i =0，该操作可以被执行；

2） S_i =1，该操作已执行完毕。

1.2.2 动作空间

根据零件P当前的加工状态S_P，在 CM （P）限制下的动作空间为可选择的加工操作集合OpS_avl（S_P ）=｛Op _i ∈OpS|（S_P +Op _i ）~ CM （P）｝，其中，+表示在某状态下进行某种加工操作；~表示符合约束关系。

1.2.3 转移概率

由于下一步处理操作是根据当前状态S_P 和工艺特征间的约束限制选出的可能操作。因此，状态转移概率为1/|OpS_avl（S_P ）|。其中，|OpS_avl（S_P ）|为可执行操作数。

1.2.4 观测空间

通过观察，当前选择的动作（即加工操作Op _i ）是通过选取的加工资源（如机床和刀具）和加工步骤（进刀方向）等一系列步骤完成的。例如，某加工零件的机床和刀具及进刀方向。

1.2.5 观测概率

根据当前选择的动作

O p i ∈ O p S a v l

，对应的可用加工资源（如机床和刀具）和加工步骤（进刀方向）进行组合。因此，在状态转换过程中，状态转移概率的计算如式（1）所示。

1 / M S (O p i) ⋅ T S (O p i) ⋅ D S (O p i)

（1）

式中：MS（Op）和TS（Op）分别为执行操作Op对应的可用的加工资源数和加工步骤数。

1.2.6 奖励函数

智能体选择动作后，根据零件加工状态的变化，获得对应的奖励。为了获得最优工艺路线，奖励函数R定义如式（2）所示。

R = w q R q - w t R t - w e R e

（2）

式中：R为在零件状态为S_t 时执行动作a_t 所获得的奖励；R_q 、R_t 、R_e 分别为选择动作a_t 即执行对应操作所需要的加工质量、加工时间和加工能耗（设备能耗及工序切换能耗）；w_q 、w_t 、w_e 分别为根据工艺需求确定归一化的权重系数。

1.3 整体架构

由于递归神经网络在处理时间序列数据方面具有优势，本文将其作为价值函数拟合的基本单元，可以表示串行数据之间的时间相关性。在构建价值网络和目标网络时，选取相邻的多个状态作为输入，使用LSTM进行预处理，并将LSTM的输出结果作为深度网络的输入。DRQN网络结构如图2所示。

2 基于DRQN的工艺路线规划算法

通过将LSTM与DQN、DRQN算法结合为处理部分可观测的马尔可夫决策过程提供了有效的解决方案。构建LSTM结构，挖掘提取工艺路线数据中的特征，为工艺路线规划的准确性和稳定性奠定基础。为了适应动态的工艺需求，本文提出了基于自适应调整策略和选择性遗忘机制的DRQN算法（selective amnesia dynamic DRQN， SADDRQN）。

2.1 自适应调整策略

复杂产品零件加工过程的加工环境复杂多变。为快速响应加工环境的动态变化制定节能工艺路线，提高加工质量和效率，提出了动态环境自适应策略。

2.1.1 动态奖励函数

动态环境下，奖励信号可能会随时间变化或者受外部因素的影响。设计鲁棒性强的奖励函数是建模动态环境的关键，可以考虑引入适应性奖励调整机制来适应环境变化。

对于复杂产品零件加工而言，奖励通常由执行对应操作所需要的设备加工精度、加工能耗、工序切换能耗及加工时间等组成，可以通过调节权重构建基于不同的工艺需求。然而，工艺需求总是变化的，而随需求变化频繁训练模型的代价是高昂的。

基于上述动机，本节提出了一个易调节的动态奖励函数（dynamic reward function， DRF）策略满足上述需求，如式（3）所示。

R D = ∑ i = 1 n w i ⋅ c o s t i

（3）

给定权重系数w_i （根据某些特定要求，使得

∑ i = 1 n w i = 1

）和不同应用特定指标的开销（cost₁，cost₂，…，cost _n ），DRF可以预测奖励R_D。即使这些权重发生变化，动作价值估计函数仍有效，从而可以适应变化的工艺需求，而无需重新训练模型。

2.1.2 模型策略调整

针对动态环境，传统的离线学习可能无法适应环境的实时变化。引入在线学习机制，及时更新策略参数以适应新的环境特征，可以提高智能体在动态环境下的性能。

在每个时间步t，DRQN智能体的经验以时间序列片段的形式存储在回放缓冲区中。每个经验片段都会被存储在经验池中。在每一步中，使用Boltzmann探索策略^［11］为当前状态选择动作。为了使训练过程更加稳定，使用双Q网络模型，策略网络的权重会在预设的时间步（超参）后被更新到目标网络。

给定一批状态转移样本< s，a，r， s'>，通过最小化目标网络Q_T计算的动作估计价值与策略网络Q计算的动作估计价值之间的平均绝对误差（mean absolute error，MAE）损失，使用梯度下降更新策略网络的模型参数 θ

-

。损失函数计算如式（4）所示。

L (θ) = ∑ s, a, r, s' (| r + γ ∑ z = 1 a w z m a x a z' Q T (s z', a z'; θ -) - Q (s, a; θ) |)

（4）

式中：

γ

为折扣因子，在区间（0， 1）内取值，用于均衡智能体对即时奖励和未来奖励的侧重程度；

m a x a z' Q T (s z', a z')

为在下一个状态

s z'

下采取的所有可能的动作中期望回报最大的值；a_z'为在状态 s_z'下采取的最优动作；w_z 为 s_z'的权重。每隔K（超参）步同步一次目标网络参数 θ

-

与策略网络参数 θ。

2.1.3 经验缓冲池更新

在动态环境中，智能体需要在探索未知领域和利用已知信息之间平衡。在训练过程中使用加权采样方法，从一个偏向于最近收集样本的采样分布中抽取样本。在学习中更加强调最近获取的样本，可以帮助智能体更好地适应环境变化。

采用本地遗忘（local forgetting，LOFO）重放缓冲器置换机制^［12］，当环境发生改变并且被智能体观察到需要改变时，将新样本添加到重放缓冲器中，并且仅从新数据的局部邻域中移除最老的样本，而不是从整个重放缓冲器中移除最老的样本，从而有助于更快地移除潜在错误和陈旧数据。该策略可以减少由于工艺更改导致的过期样本对新样本的干扰。由于仅移除新样本局部邻域中的样本，所以状态空间的其他部分中的旧样本保留在重放缓冲池中。那么在进行经验重用时，其大致均匀地散布在整个相关状态空间中的，从而更好地适应环境的变化。

2.2 “选择性遗忘”机制

“遗忘”本身是机器学习方法的天然缺陷，然而如果能实现“选择性遗忘”则可以使模型在不重新训练的情况下，“遗忘”某些过时的知识。本文针对DRQN学习框架，提出一种“选择性遗忘”机制，用来处理工艺变更和加工环境变更对模型的影响和调整。

2.2.1 变更工艺“遗忘”

变更工艺“遗忘”旨在从训练好的DRQN模型中删除变更工艺知识的学习信息，而不会显著影响模型在未变更数据上的性能。该算法的核心思想是通过选择性撤销与敏感数据相关的参数更新来实现数据的“遗忘”。

本文采用一种无需再训练的“选择性遗忘”算法“选择性突触阻尼”^［13］，通过两步过程实现变更工艺“遗忘”策略如算法1所示。首先，计算DRQN模型参数的Fisher信息矩阵评估每个参数对模型性能的重要性。然后，根据这些参数对“遗忘”数据集的相对重要性，按比例抑制这些参数，从而保护模型在剩余数据上的性能，同时实现特定信息的“遗忘”，如算法1所示。

算法1：变更工艺“遗忘”算法

输入：

φ θ

， D， D_f，

输出：

φ θ'

1.计算［D］和［D_f ］；

α

=diag［D］/diag［D_f ］

3.fori ← 0 to| θ | do

4.if

[D] i > α [D f] i

then

θ i'

←

m i n (λ [D] i [D f] i θ i, θ i)

；

6.return

φ θ'

；

2.2.2 变更环境“遗忘”

当加工资源发生故障予以更换或新增资源时，会导致原有的最优加工路线失效或者变得低效。这是因为DRQN智能体的环境发生了改变，频繁的环境变更导致智能体低效甚至失效。为了避免频繁的重新训练过程，从“遗忘”学习和强化学习的基础概念出发，结合使用两种强化学习场景下进行“遗忘”的方法：在加工环境动态变化和工艺变更同时发生时，基于减量强化学习方法和基于环境“中毒”方法共同的目标是主动降低智能体在未知环境中的性能，同时保持其在已知环境中的性能。

基于递减强化学习的方法需要建立一个优化目标指导遗忘过程。使用式（5）中的损失函数更新智能体，调整现有策略以最小化先前学习的知识带来的影响，引导智能体学习给定环境中的知识。

L u = E s ∈ S u [Q π' (s) ∞] + E s ∉ S u [Q π' (s) - Q π (s) ∞]

（5）

式中：等式右侧第1项引导智能体搜索和尝试不同的策略，以充分探索环境u的状态空间；第2项激励智能体战略性地修改策略。

基于环境中毒的方法用于加速感知未学习环境。该方法在环境的状态转换功能中引入主动修改，随后在改变的环境中更新智能体。该修改包括加工资源发生故障予以更换或新增资源所导致的加工技术和步骤等加工约束限制的改变，即“中毒动作”。以马尔可夫决策过程来执行此过程，DRQN的策略作为状态s，其对未学习环境的修改作为动作a，而新旧策略之间的奖励差异作为优化目标。第i个中毒期的奖励函数如式（6）所示。

R i = λ 1 Δ π i (s i) π i' (s i) + λ 2 ∑ s ∉ S u ∑ a π i (s, a) r (s, a)

（6）

式中：

π i

和

π'

分别为当前策略和更新后策略；

π i

（ s_i ）为在策略

π i

下状态 s_i 中可用动作的概率分布；∆（

π i

（ s_i ）||

π'

（ s_i ））为

π i

（ s_i ）和

π'

（ s_i ）之差，使用KL散度来度量；

λ 1

和

λ 2

为平衡系数。

2.3 工艺路线柔性规划算法

首先从训练集中随机选择一种零件，对于每个训练回合，初始化该零件的加工状态s_t；之后使用boltzmann探索策略为当前状态选取最优的动作a_best（即执行的操作步骤）；动作a_best确定后，即可把采取动作a_best后的能耗和质量用来计算奖励值R_t，并更新到下一状态s_t+₁。至此，一条经验已生成，将其存储在经验池中。重复执行上述过程直至尝试所有可能的加工步骤，最终零件加工完成。积累这一系列经验后，在经验池中随机采样一个训练批次大小的经验，评估两个网络计算的估计动作价值的MAE来最小化损失。迭代执行上述训练过程，直至模型收敛。具体训练过程如算法2所示。工艺路线柔性规划算法框架如图3所示。

算法2：SADDQN训练过程

输入：零件P、约束矩阵 CM （P）、资源能耗表Tables

输出：策略网络

1.初始化策略网络目标网络及 θ 、 θ

-

；

2.fori ← 0 to num_episode do

3.根据零件加工状态，提取状态向量 s_t；

4.while零件没有加工完成 do

5.a_best ← boltzmann（ s_t， CM （P），Tables， θ ）；

6. s_t₊₁， R_t₊₁ ← 执行动作a_best；

7.R_D ← 根据a_best选择操作并计算奖励；

8.< s_t，a_best，R_t₊₁， s_t₊₁>入经验池并更新权重；

9.训练策略网络，并使用梯度下降方法更新 θ；

10.每隔K步更新目标网络参数 θ ← θ

-

；

11.return Q；

3 结果验证与分析

仿真实验在64位的Ubuntu 22.04.6 LTS机器上进行，该机器配备了AMD 7900X CPU、128GB DDR5 5200MHz RAM和一个NVIDIA 4070 12GB GPU，采用Python编程语言。实验使用的超参数及其设置为：训练回合数num_episode为300；奖励折扣率y为0.98；学习率a为0.001；训练批大小batch_size为50；经验回放池容量memory_capacity为15 000；“选择性遗忘”机制的超参数

λ

为0.75，

λ 1

为0.6、

λ 2

为0.4。

为了验证在解决工艺变更和环境变更情况下SADDRQN算法在工艺路线规划方面的有效性，与DPPO算法^［14］GA遗传算法、SA模拟退火算法、ACO蚁群算法进行对比实验。以柔性加工系统的典型机械加工过程为例，选取文献［15］中零件P5为加工目标。其工艺特征详情如表1所示，并根据实际情况补充了耗时和精度属性值，能耗计算和设置同文献［16］。

3.1 工艺知识训练性能实验

在深度强化学习中，神经网络层数对算法的性能影响显著，所以开展对比实验前，先选取合适的神经网络层数进行神经网络层数敏感性实验。工艺知识训练性能实验结果如图4所示。从图4a可以看出，当除了单层的LSTM以外的DQN层数由2层增加到3层之后，智能体学习到了更深层次的零件特征，因而算法的收敛速度加快。但当神经网络由3层增加到4层时，由于神经网络层数的增加导致训练难度增大，算法的收敛速度下降。继续增加层数会因梯度消失导致不再收敛。综上，选取3层神经网络结构。

SADDRQN的训练性能如图4b所示。SADDRQN算法收敛速度略低于GDPPO算法，这是因为SADDRQN算法使用了LSTM+DQN结构代替GCN，但离线的训练过程提取了零件加工状态图更深层次的序列特征信息，以便后续在线的工艺变更和加工环境发生变化时，能更快、更好地更新和选择加工资源和步骤。

3.2 工艺特征变更性能实验

在智能体完成训练的基础上，为验证零件在发生和未发生零件特征增减的情况下，智能体是否能够利用之前训练中学习到的知识做出快速响应，本部分实验设计了2个应用案例。

案例1：零件加工需求以能耗最低为目标，工艺特征没有变更，以零件P5为加工任务，对比工艺路线规划效率和质量。

案例2：加工零件P5以能耗最低为目标，移除特征F3、添加特征F10模拟工艺变更，对变更后的零件P5进行工艺路线规划，对比工艺路线规划效率和质量。

SADDRQN算法智能体训练模型在2个案例上的工艺特征变更实验对比效果如图5所示。从图5中可以看出，SADDRQN算法在案例1中大概循环18次收敛，在案例2中大概循环45次收敛，远远小于GDPPO算法，因为智能体在训练模型中已经学习了未发生工艺特征变更时零件P5的工艺路线规划知识；当零件工艺特征变更时，采用选择性遗忘机制，通过参数调整代替重训练。

在案例2中，针对变更后的零件进行工艺路线规划。GDPPO算法沿用传统线性流程，依次执行Op11、Op12、Op8等磨削工序及Op6、Op14、Op7等钻孔操作，路径结构较为固定，面对变更时响应不够灵活。相比之下，SADDRQN通过强化学习动态调整工艺顺序，将Op12、Op8等前置执行，并优化Op6、Op7、Op9等工序排列，减少资源切换，提升响应效率，在时间、能耗与精度之间实现更优平衡，展现出更强的适应性与路径优化能力。

3.3 工艺需求变更性能实验

在智能体完成训练的基础上，为验证零件在发生和未发生工艺需求变更的情况下，智能体是否能够基于之前离线训练中积累的知识有针对性地达成工艺需求，做出快速响应，本部分实验设计了2个应用案例。

案例3：零件加工工艺特征不变更，以零件P5为加工任务，且工艺需求同时考虑耗能、耗时与精度，对比工艺路线规划效率和质量。

案例4：以零件P5为加工任务，移除特征F3、添加特征F10模拟工艺变更，且改变耗能、耗时与精度工艺需求目标，进行工艺路线规划，对比工艺路线规划效率和质量。

图6展示了工艺需求发生变更时，进行工艺路线规划时算法质量（能耗）对比曲线。与GDPPO相比，SADDRQN通过DRF改变耗能、耗时与精度的权重系数，调整工艺路线规划结果，平衡耗能、耗时与精度，表现出了更好的自适应性和整体性能。DRF的调控使SADDRQN能够适应动态环境并保持良好的性能。GDPPO算法无法动态调整工艺需求优化目标，只能通过定期多次重新训练来完成。所以GDPPO算法的曲线有比较大的抖动及性能劣势。

两种算法对案例3和案例4的工艺路线规划质量对比如表2所示。在案例4中，面对耗能、耗时与精度等工艺目标的动态变化，GDPPO算法在路径规划中仍以固定策略为主，未能根据工艺需求灵活调整任务顺序，其路径依旧遵循预设的线性流程，依次完成Op12、Op14、Op6等工序，再进行Op7、Op9、Op5等钻削操作，路径结构虽稳定但适应性不足。相比之下，SADDRQN通过强化学习机制动态感知环境与工艺权重变化，智能调整如Op10、Op11、Op12等高精度工序的执行优先级，并重排Op6、Op7、Op9等能耗敏感操作，显著减少了刀具与机床切换频率。同时，SADDRQN在机床分配上更具灵活性，如优先调用M6完成关键工序，实现资源负载平衡。整体来看，SADDRQN在多目标约束下实现了路径执行效率、能耗控制与加工精度的协调优化，展现出更强的工艺适应性与调度智能。

3.4 工艺环境变更性能实验

为了验证SADDRQN算法在加工环境动态变化时是否能迅速响应并获得高质量的解，本次实验设计了2个应用案例。

案例5：以零件P5为加工任务，选取0~1台机床、0~1个刀具发生故障来模拟加工环境动态变化，零件特征保持不变，加工需求以能耗最低为目标，对比工艺路线规划效率和质量。

案例6：以零件P5为加工任务，选取0~1台机床、0~1个刀具发生故障不可用来模拟加工环境动态变化，随机选取零件P5的0~1个特征进行移除，随机选取0~1个特征进行添加，模拟特征重构，加工需求以能耗最低为目标，对比工艺路线规划效率和质量。

将SADDRQN算法与GDPPO、GA、ACO、SA算法对比，验证当加工环境动态变化及零件特征变更发生时，响应速度及获得路线的质量。以案例5和案例6为例进行工艺路线规划，规划路线质量（能耗）对比曲线如图7所示。

从图7可以看出，SADDRQN曲线在一定范围内震荡，这是因为在加工环境动态变化和工艺变更同时发生时，采用基于减量强化学习方法和基于环境中毒的方法来进行增量训练过程代替重新训练，对过时环境进行有针对性地“遗忘”。虽然曲线震荡但没有突变点，说明智能体稳步适应了工艺知识和加工环境的差异。

以案例6为例进行工艺路线规划，各算法规划出的工艺路线质量对比详情如表3所示。

从表3中可以看出，在加工环境动态变化和零件工艺变更同时发生时，SADDRQN算法达到收敛时循环次数最少，算法响应速度比GDPPO、GA、ACO、SA算法更快，耗时2.25 s，比GDPPO算法快1.28倍左右，比GA算法快9.19倍左右，比ACO算法快7.16倍左右，比SA算法快2.78倍左右。SADDRQN算法获得的最优工艺路线耗能、耗时和精度的综合比更优。

4 结论

本文针对零件工艺特征动态重构问题，提出基于DRQN的规划方法：通过将工艺变更问题构建为POMDP模型，利用LSTM挖掘工艺数据特征，设计自适应调整策略与选择性遗忘机制以适应加工环境变化并提升规划质量。实验证明，所提方法SADDRQN能有效解决工艺路线的动态规划，相比基于GDPPO、GA、ACO、SA算法的工艺路线规划方法，所提方法响应速度更快，所得解的质量更高。

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	Qian J H， Zhang Z J， Shi L L，et al.An assembly timing planning method based on knowledge and mixed integer linear programming［J］.Journal of Intelligent Manufacturing，2023，34（1）：429-453.

[2]	Che Z H， Chiang T A， Lin T T.A multi-objective genetic algorithm for assembly planning and supplier selection with capacity constraints［J］.Applied Soft Computing，2021，101：107030.

[3]	Demir H I， Erden C.Dynamic integrated process planning，scheduling and due-date assignment u-sing ant colony optimization［J］.Computers & Industrial Engineering，2020，149：106799.

[4]	陶鑫钰，王艳，纪志成.基于深度强化学习的节能工艺路线发现方法［J］.智能系统学报，2023，18（1）：23-35.

[5]	陶鑫钰，王艳，纪志成.基于A3C的特征重构工艺路线规划方法［J］.现代制造工程，2023（10）：15-26.

[6]	徐文韬，张立勇，职彦锋，等.基于蚁群算法的立式行星齿轮传动装置并行装配序列规划研究［J］.机械传动，2024，48（7）：143-149，157.

[7]	Zhang H， Wang W H， Zhang S S，et al.A novel method based on deep reinforcement learning for machining process route planning［J］.Robotics and Computer-Integrated Manufacturing，2024，86：102688.

[8]	Hochreiter S， Schmidhuber J.Long short-term memory［J］.Neural Computation，1997，9（8）：1735-1780.

[9]	Mnih V， Kavukcuoglu K， Silver D，et al.Human-level control through deep reinforcement learning［J］.Nature，2015，518（7540）：529-533.

[10]	Hausknecht M， Peter S.Deep recurrent q-learning for partially observable mdps［J］.AAAI Fall Symposium Series，2015，15（6）：29-37.

[11]	Achbany Y， Fouss F， Yen L，et al.Tuning continual exploration in reinforcement learning：an optimality property of the boltzmann strategy［J］.Neurocomputing，2008，71（13/14/15）：2507-2520.

[12]	Ali R-K， Janarthanan R， Ida M， et al.Replay buffer with local forgetting for adapting to local environment changes in deep model-based reinforcement learning［C］//Conference on Lifelong Learning Agents，Montreal：PMLR，2023： 21-42.

[13]	Foster J， Schoepf S， Brintrup A.Fast machine unlearning without retraining through selective sy-naptic dampening［J］.Proceedings of the AAAI Conference on Artificial Intelligence，2024，38（11）：12043-12051.

[14]	陶鑫钰.基于深度强化学习的柔性加工系统工艺路线规划方法研究［D］.无锡：江南大学，2023.

[15]	李伯虎，柴旭东，朱文海.复杂产品集成制造系统技术［J］.航空制造技术，2002，45（12）：17-20，40.

[16]	Liu X J， Yi H， Ni Z H.Application of ant colony optimization algorithm in process planning optimization［J］.Journal of Intelligent Manufacturing，2013，24（1）：1-13.