基于深度强化学习NoisyNet-A3C算法的自动化渗透测试方法

董卫宇; 刘鹏坤; 刘春玲; 唐永鹤; 马钰普

doi:10.13705/j.issn.1671-6833.2024.02.011

郑州大学学报（工学版） ›› 2025, Vol. 46 ›› Issue (05) : 60 -68. DOI: 10.13705/j.issn.1671-6833.2024.02.011

基于深度强化学习NoisyNet-A3C算法的自动化渗透测试方法

董卫宇, 刘鹏坤, 刘春玲, 唐永鹤, 马钰普

作者信息 +

Author information +

文章历史 +

PDF

摘要

在自动化渗透测试领域，现有攻击路径决策算法大多基于部分可观测马尔可夫决策过程(POMDP),存在算法复杂度过高、收敛速度慢、易陷入局部最优解等问题。针对这些问题，提出了一种基于马尔可夫决策过程(MDP)的强化学习算法NoisyNet-A3C,并用于自动化渗透测试领域。该算法通过多线程训练actor-critic,每个线程的运算结果反馈到主神经网络中，同时从主神经网络中获取最新的参数更新，充分利用计算机性能，减少数据相关性，提高训练效率。另外，训练网络添加噪声参数与权重网络训练更新参数，增加了行为策略的随机性，利于更快探索有效路径，减少了数据扰动的影响，从而增强了算法的鲁棒性。实验结果表明：与A3C、Q-learning、DQN和NDSPI-DQN算法相比，NoisyNet-A3C算法收敛速度提高了30%以上，验证了所提算法的收敛速度更快。