基于剪枝与后门遗忘的深度神经网络后门移除方法

李学相; 高亚飞; 夏辉丽; 王超; 刘明林

doi:10.13705/j.issn.1671-6833.2025.05.018

郑州大学学报（工学版） ›› 2026, Vol. 47 ›› Issue (02) : 27 -34. DOI: 10.13705/j.issn.1671-6833.2025.05.018

基于剪枝与后门遗忘的深度神经网络后门移除方法

李学相, 高亚飞, 夏辉丽, 王超, 刘明林

作者信息 +

Author information +

文章历史 +

PDF

摘要

后门攻击对深度神经网络的安全性构成了严重威胁。现有的大多数后门防御方法依赖部分原始训练数据来移除模型中的后门，但在数据访问受限这一现实场景中，这些方法在移除模型后门时的效果不佳，并且对模型的原始精度产生较大影响。针对上述问题，提出了一种基于剪枝和后门遗忘的无数据后门移除方法(DBR-PU)。首先，用所提方法分析模型神经元在合成数据集上的预激活分布差异，以此来定位可疑神经元；其次，通过对这些可疑神经元进行剪枝操作来降低后门对模型的影响；最后，使用对抗性后门遗忘策略来进一步消除模型对少量残留后门信息的内部响应。在CIFAR10和GTSRB数据集上对6种主流后门攻击方法进行实验，结果表明：在数据访问受限的条件下，所提方法在准确率上可以与最优的基准防御方法保持较小差距，并且在降低攻击成功率方面表现最好。