基于多分类器的电力监控系统未知威胁检测方法

苏扬 ,  曹扬 ,  郭舒扬 ,  韩晓鹏 ,  张伟丽

信息工程大学学报 ›› 2025, Vol. 26 ›› Issue (01) : 57 -63.

PDF (1621KB)
信息工程大学学报 ›› 2025, Vol. 26 ›› Issue (01) : 57 -63. DOI: 10.3969/j.issn.1671-0673.2025.01.009
计算机科学与技术

基于多分类器的电力监控系统未知威胁检测方法

作者信息 +

Unknown Threat Detection Method for Power Monitoring System Based on Multiple Classifiers

Author information +
文章历史 +
PDF (1659K)

摘要

传统网络防御技术依赖先验知识,面对复杂且隐蔽的未知威胁时,防御能力有限。为应对这一挑战,提出一种基于内生安全理论和动态异构冗余(DHR)构造的未知威胁检测方法,旨在提升电力监控系统中的异常流量感知精度。该方法融合多种分类器优势,采用动态、异构、冗余的学习框架,通过集成学习、判别式模型等异构学习方法,增强模型的鲁棒性与精度。核心技术包括多分类器表决与反馈机制,通过迭代优化调整样本分布,持续提升检测性能。该方法有降低单一模型的泛化问题、减少陷入局部极小的风险以及扩展表示空间提升适应性等优点。实验结果表明,该方法在电力监控系统中检测未知威胁的高准确性。

Abstract

The traditional network defense technologies, which rely on prior knowledge, are thus limited in effectiveness against complex, covert, and unknown threats.An unknown threat detection method is proposed, based on endogenous security theory and the dynamic heterogeneous redundancy (DHR) architecture, to improve the accuracy of anomaly detection in traffic within power monitoring systems. In this method, the advantages of multiple classifiers are integrated and a dynamically heterogeneous and redundant learning framework is adopted. Ensemble learning, discriminative models, and other heterogeneous learning techniques are leveraged to enhance the robustness and accuracy of the model. The core technology involved consists of multi-classifier voting and feedback mechanisms, which are utilized to iteratively optimize and adjust sample distribution for continuous improvement in detection performance.The advantages of the method include reducing the generalization issue of single models, mitigating the risk of falling into local minima, and expanding the representation space to enhance adaptability. Experimental results showed that high accuracy in detecting unknown threats in power monitoring systems is achieved by using the proposed method.

Graphical abstract

关键词

电力监控系统 / 内生安全 / 未知威胁检测 / 异常检测 / 态势感知

Key words

power monitoring system / endogenous security / unknown threat detection / anomaly detection / situation awareness

引用本文

引用格式 ▾
苏扬,曹扬,郭舒扬,韩晓鹏,张伟丽. 基于多分类器的电力监控系统未知威胁检测方法[J]. 信息工程大学学报, 2025, 26(01): 57-63 DOI:10.3969/j.issn.1671-0673.2025.01.009

登录浏览全文

4963

注册一个新账户 忘记密码

国家电网提出了“坚强智能电网”概念,实现以坚强网架为基座,以信息化、自动化、数字化、互动化为技术支撑的智能电网[1-2]。在此背景下,智能电网快速发展使电网运行模式发生了快速变化。因此,以监视并控制智能电网正常运营为使命的电力监控系统是智能电网的核心[3]。电力监控系统在对电网运行状态实时掌控的同时,也伴随着严峻的信息安全问题[4]。特别是新型电力系统建设推进过程中,多类型负荷、储能和分布式能源的并网伴随着大量非传统电力信息设备(如分布式量测装置、监控终端等)的广泛接入,原有的依赖专网和专用私有协议的信息安全保护思路无法完全适用于这些泛在设备的接入,导致目前电力通信协议规范和管理方式可能存在安全漏洞,给电力信息网络安全带来新的挑战。因此,面向电力监控系统网络安全的威胁感知与认识得到了相关领域专家和学者的广泛关注。网络安全威胁感知主要针对网络空间包含的设备和服务,研究其配置、状态、流量、拓扑结构、访问行为等内容 [5]。智能感知是通过研究网络空间中的对象,获取网络空间中设备与服务的状态、运行特征、时间画像等信息,对网络空间的安全态势进行综合分析,感知网络空间中的安全威胁的过程。在这些研究当中,基于流量分析和监测网络状态并且识别各类安全威胁成为重要研究方向之一[6]
恶意流量作为网络威胁与攻击的重要载体,对其进行研究对于防范网络攻击具有重要意义。恶意流量识别作为一种有效的防护手段,是网络安全防御中非常重要的一环[7-8]。因此,在这个方面,研究人员做了大量的工作。其中,防火墙、入侵检测系统、入侵保护系统等网络防御技术已被广泛应用,但是这些传统网络防御技术通常依赖于先验特征和知识,虽然能够很好地抵御已知攻击,但是在面对手段多样、灵活性高、隐蔽性好的未知威胁时,它的防御能力就变得非常有限[8-10]。研究新型的面向未知网络威胁的感知与认知机制与方法成为网络安全防御领域中的重要任务。
网络安全方面,邬江兴院士团队创立了拟态防御与内生安全理论,基于动态异构冗余的系统架构,在不明先验知识和特征前提下,抑制广义不确定扰动对系统产生的影响[11-12]。近年来,内生安全理论及其动态异构冗余(Dynamic Heterogeneous Redundancy, DHR)架构在赋能信息物理系统和人工智能安全等方面都得到了有效发展和应用[13]。同时,各领域加大人工智能应用系统投入,因此国际社会也高度重视人工智能应用系统的安全问题[14]。但是,目前对人工智能应用系统安全研究侧重于算法层面内生安全个性问题,缺乏系统层面一体化解决思路,因此这也是人工智能应用系统无法摆托的安全窘境。DHR架构不仅能解决应用系统“基座”功能安全和网络安全等内生安全共性问题,而且能够解决AI算法存在内生安全共性问题。
在上述背景下,根据电力监控系统安全威胁特点,提出一种基于内生安全理论及其架构思想的未知威胁检测框架。该框架设计基于多分类器的异常检测模型,构建和组合多个异常检测感知器,并且依靠内生安全相对正确公理思想,通过多分类器表决方法,指导新一轮机器学习方法和过程(通过改进样本数量、分布等)。在多轮迭代和收敛之后,本文提出的未知威胁检测框架可以获取比单一算法更加显著和优越的泛化性能。需要强调,该方法需采用模型异构的机器学习模型,可获取较高的检测精度。因此,选取了支持向量机(Support Vector Machine, SVM)[15]、随机森林(Random Forest, RF)[16]、稀疏多元逻辑回归(Sparse Multinomial Logistic Regression Via Variable Splitting and Augmented Lagrangian,LORSAL)[17-18]构造个体学习器。基于不同初始训练集构造个体学习器,可以进一步提升机器学习模型的异构度。其次,多分类器进行输出裁决,通过对分类模型表现进行实时评估,根据训练器表现对训练样本数量、分布进行调整。最后,基于调整后的样本分布和模型进行下一轮学习器的优化,直到迭代收敛。

1 相关工作

网络未知攻击检测任务早在20世纪90年代就已经被提出,当时研究人员主要是采用基于规则的方法,需要人工制定匹配规则,检测准确率较低。近年来,随着硬件和计算能力的提升,机器学习包括深度学习得到了蓬勃的发展,研究人员开始基于机器学习算法展开未知攻击检测任务。由于网络流量行为多变,而传统方法难以提取到数据中的有效特征,仍存在准确率较低和误报率较高的问题,检测性能存在进一步提升空间[19-20]

随着机器学习研究的发展,越来越多的威胁检测使用机器学习模型识别网络威胁[21-22]。但是这种方法的可解释性较差。同时,深度网络模型参数求解需要大量的训练数据,实际场景应用受限。内生安全理论及DHR提供了一种基于架构的内生安全机制,可通过对输出向量的裁决判断,将针对执行体的未知攻击转化为系统层面可感知的威胁[11-12]。DHR架构依靠“相对正确公理”将目标对象病毒、漏洞后门转化为系统层面影响可感知的概率事件,因此,能够在模型架构一定且扰动范围已知情况下,将模型的广义不确定摄动(扰动)范围迭代收敛在期望阈值之内,以便实现架构内“初始熵不减”的广义鲁棒控制目标[23]图1提供了基于内生安全理论的DHR架构抽象模型。其核心是一个具有M个重构处理场景元素、等价功能为P的集合L,同时,任意一个处理场景单元(运动场景j=1,2,…,M)中可能存在与集合L的其他元素不同(即表现为差模性质)的设计缺陷或未知漏洞。

2 基于DHR的未知威胁检测框架

基于相关研究现状,本文基于内生安全理论及其DHR架构思想,提出一种面向电力监控系统流量的未知威胁检测方法。该框架如图2所示,包括数据预处理、特征提取、机器学习模型训练、多分类器表决等主要内容。

2.1 数据预处理与特征提取

网络流量数据采集和预处理是未知威胁感知最为关键的步骤,包括原始数据分析和数据标准化[24]

原始数据分析。采用scapy工具分析原始数据,同时提取基于流的特征(数据流持续时间、源端口、目的端口、协议类型、下游分组数据包数量、下游流量大小、上游数据包数量、上游流量大小)和提取基于包的特征(流量包的大小、相对于第一数据包的时间戳)。

同时,为了将数据处理成各类机器学习模型可以训练和测试的数据格式,需要对统计数据进行过滤、清洗、标准化操作,使得数据服从标准正态分布,如下式:

x*=x-uθ

式中,uθ分别是统计数据的均值和方差。此外,为增加机器学习模型之间异构度,将训练样本均匀分为10组,其次从每组按照一定比例(如70%)随机抽样,生成每个异常检测模型训练样本集。

考虑到原始数据集没有划分已知攻击和未知攻击,数据预处理步骤需按照不同的攻击机理划分已知和未知攻击,并且将已知攻击和良性流量合并,构成已知流量数据,进而用于后续模型训练。最后,将未知攻击添加到测试数据集,生成本文最后数据集。具体如图3所示。

本文使用了现有文献中常用的恶意流量检测特征[24-25],包括:流量和数据包数量、流量持续时间、流量包平均大小;某些种类的恶意流量包的大小会小于正常流量、上行数据包的平均时间间隔、下行数据包的平均时间间隔、单位时间数据包、单位时间传输数据大小、上行与下行流量比、下行与上行流量包之比;恶意流量上行和下行流量包数量显著高于正常流量、协议和端口不匹配数等。

2.2 机器学习模型训练与反馈学习

本文基于内生安全理论及DHR架构思想,设计一种基于流量数据的未知威胁检测框架。该框架主要依靠基于多分类器的异常检测模型(本文所用分类器及其分析具体见第3.2节参数设置部分),构建和组合多个异构的异常检测感知器,获取比单一算法更加显著和优越的分类性能。因此,多分类器模型训练属于最为核心的环节。

机器学习模型训练如图4所示。

具体步骤如下。

步骤1:多分类器系统初始化。该步骤主要目标是通过多分类器系统减少分类不确定程度,融合各个分类器模型优势,并以此获取流量数据的初始分类结果。原始流量数据及其提取特征输入多分类器系统,单个分类器输出各类别标签和概率。此外,根据多分类器输出,划分像素为可靠和不可靠样本,多分类器输出标签一致的定义为可靠样本,其余则划分为不可靠标签。可靠流量样本输出标签采用大数裁决方式进行:

C(Xr)=argmaxk={1,,K}Vx(k)

式中:Vx(k)=f=1FI(Cf(x)=k)C(Xr)表示可靠流量x的分类标签;Vxk表示样本x对于类别k得到的票数;I表示识别函数;Cfx表示分类器f的分类标签。

不可靠流量的输出标签则需要依靠分类确定度进行裁决,确定度计算如下:

S(x)=k=1K-1[p̑k(x)-p̑k+1(x)]1k

式中:S(x)表示x分类确定度,S(x)越高,分类确定度越高;p̑1(x),…,p̑K(x)表示从大到小排列的x属于各类别的概率;K表示类别总数。

不可靠流量的分类标签表示为

C(xun)=C(xf^) with f^=argmaxf={1,,F}Sf(x)

式中:C(xun)表示不可靠流量样本的分类结果;Sf(x)表示对于流量样本x,分类器f所得到的分类确定度;f^表示最优分类模型,即该分类模型可以获取最高的分类确定度。

步骤2:基于可靠和不可靠样本,采用第2.3节样本反馈学习策略,进行训练样本及其权重更新,获取更新训练样本集合。

步骤3:迭代分类。多分类器系统迭代更新样本集合和分类输出,直至满足收敛条件。

2.3 基于多模型表决的样本反馈学习

基于初始训练样本,训练各个分类器初始模型,通过多分类器表决,筛选各个分类器分类错误样本,使得初始分类模型对错误样本进行重点关注,重新对训练样本分布进行调整,基于调整后的样本分布训练新的机器学习模型,如此反复,直至迭代收敛,最终输出最后检测结果。本文提出了多分类器加性模型,通过线性组合最小化损失函数。

H(x)=t=1Tαtht(x)
lexp(H|D)=Ex~D[e-f(x)H(x)]

具体如算法1所示。

算法1 基于多模型表决的样本反馈学习算法

输入:训练集D={(x1,y1),(x2,y2),...,(xm,ym)}; 异构学习模型𝓁;训练迭代轮数T

输出:F(x)=sign(t=1Tαtht(x))

1. D1(x)=1m2. for t=1,2,,T do3. ht=𝓁(D,Dt);4. ξt=PxDt(ht(x)f(x));5. if ξt>0.5 then break6. αt=12ln(1-ξtξt);7. Dt+1(x)=Dt(x)Zt×exp(-αt), ht(x)=f(x)exp(αt), ht(x)f(x)                   =Dt(x)exp(-αtf(x)ht(x))Zt

初始化训练样本权重之后,基于分布Dt从数据D中训练分类器ht,并且估计ht的误差,确定分类器ht权重。最后,更新样本分布,其中Zt是规范化因子,以确保Dt+1是一个分布。

每一轮需要决定训练样本是否完成准确识别,因此需要多个分类器基于标签和概率进行准确裁决,训练样本正确性至少满足两个条件:1)多分类器标签一致;2)至少存在一个可靠分类模型或分类确定度大于阈值T,确定度计算如式(3)

所提方法为了对特定的数据分布进行学习,通过样本“重采样”方法实施,即在每一轮训练过程中,根据样本分布为对训练集重新采样,再采用重采样的样本集对机器学习模型进行训练。多轮迭代之后,所提方法能够构建鲁棒的异常感知模型。

3 实验

3.1 评价指标

实验采用如下指标进行异常检测精度评价。

混淆矩阵。可视化的误差矩阵,每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目。

总体精度(Overall Accuracy, OA)。基于混淆矩阵,计算正确分类样本在总体样本中所占百分比,表明威胁检测总体精度指标。

3.2 实验结果

实验平台和环境:采用浪潮NF5468M5机架式服务器,配置Win10操作系统,搭载2颗Intel Xeon 4214R 12核CPU、32 GB DDR4内存和8 GB NVIDIA Geforce RTX4060 GPU。代码编辑器为VSCode,软件依赖项主要为Python 3.9.18/Torch 2.0.1/Cuda 11.8/TorchVision 0.15.2/Numpy 1.24.1/Pandas 2.1.1。

参数设置及分析:实验中,采用NSL-KDD和CICIDS-2017两组常用公开数据集作为算法基础测试数据。考虑到原始数据集没有划分已知和未知攻击,因此,实验将原始数据划分为训练集和测试集。测试数据集中的所有未知攻击与训练数据集中的已知攻击具有完全不同的攻击机理。训练和测试样本类别信息,具体如表1所示。

基于DHR架构的多分类器反馈学习框架中分类器应该满足多样性、稳定性和异构性。本文采用3个分类器实现该学习框架:支持向量机SVM、随机森林分类器RF、稀疏多元逻辑回归分类器LORSAL。具体地,SVM通过在高维映射空间中求解各个类别之间分类超平面函数,实现不同类别的分类任务。因此,SVM通过核函数可处理高维空间线性和非线性问题,且对于噪声和离群点有一定的容忍能力[26]。RF属于经典的集成学习方法,通过集成多个决策树模型而成,用于解决分类和回归问题[27]。多元逻辑回归(Multinomial Logistic Regression, MLR)模型属于判别式分类器,通过对类别的后验概率密度进行极大似然估计和建模,解决多类别分类问题[28-29]。在MLR模型中,通过建立自变量和因变量的多元回归方程和类别条件概率,实现未标记样本的属性类别预测。因此,分类器具体参数设置:1)SVM。核函数使用高斯径向基函数,惩罚系数设定为500,带宽为1/nn为输入特征维度。2)RF。为了同时兼顾分类稳定性和减少计算代价,随机森林决策树数量设置为300,分裂节点属性个数为nn为输入特征维度。3)LORSAL。其分类器参数与文献[18]保持一致。

在所提方法中,模型迭代次数是非常重要的参数。迭代次数太少,分类精度难以满足实际应用需求,相反,迭代次数过多则浪费计算资源。因此,以实验采用的两组测试数据(NSL-KDD和CICIDS-2017)为例,分析模型精度收敛与分类迭代次数之间的关系如图5所示。根据图5可发现,分类迭代次数达到4次左右,分类精度趋于平稳。因此,为了同时兼顾分类精度和计算资源,迭代次数设置为5。

随机选择已知攻击数据中80%的网络流量作为最后训练集,其余20%用于测试。训练数据集包含良性流量和8种已知攻击。测试数据集包含多种未知攻击,且仅在测试阶段使用了未知攻击数据集。检测方法将测试数据集中的网络流分为10类:良性流量、8种已知攻击和未知攻击。

图6展示了NSL-KDD数据集实验结果,该方法以归一化混淆矩阵的形式展示未知攻击和已知攻击分类结果。其中,数字与流量类别的对应关系如下1:Benign(正常流量),2:IPsweep(IP扫描),3:Nepyune(Nepyune攻击),4:Nmap(Nmap扫描),5:Back(反向连接),6:Portsweep(端口扫描),7:Satan(Satan攻击),8:Smurf(Smurf攻击),9:Teardrop(Teardrop攻击),10:Unknown(未知类型)。混淆矩阵的行表示真实标签,列表示预测标签。可以发现,所提方法成功地识别了54%的未知攻击,Teardrop分类正确率达到100%,其余类别分类正确率均达到90%以上,与未知攻击混分程度最为严重的是良性流量,其中44%被识别为良性流量。因此,增加未知攻击与良性流量之间差异性特征的设计是日后研究的重要方向。

类似地,图7展示了CICIDS-2017数据集实验结果,并且以归一化混淆矩阵的形式展示未知攻击和已知攻击分类结果。其中,数字与流量类别的对应关系如下1:Benign(正常流量),2:FTP-patator(FTP暴力破解),3:SSH-patator(SSH暴力破解),4:Hulk(Hulk攻击),5:SlowHTTPtest(慢速HTTP测试),6:Bot(僵尸网络),7:Brute-force(暴力破解),8:Portscan(端口扫描),9:DDoS(分布式拒绝服务攻击),10:Unknown(未知类型)。可以发现,所提方法成功地识别了60%的未知攻击。Portscan分类正确率达到100%,DDos攻击分类正确率只达到83%。与未知攻击混分程度最为严重的是良性流量,其中26%被识别为良性流量。

此外,根据上述实验参数,对比所提未知威胁检测框架和单独使用框架中模型(即SVM、RF、LORSAL分类器)的实验结果,如表2表3所示。具体地,已知流量准确率表示训练模型在已知攻击测试数据集(20%已知流量数据,其余80%用于模型训练)中的测试精度。未知攻击准确率表示训练模型在未知攻击测试数据集中的测试精度(测试数据没有在训练过程中出现)。测试集准确率表示训练模型在所有测试数据集(包括已知和未知攻击测试数据)中的测试精度。

根据表2表3,所提方法在测试集上可以取得更高的检测精度。相较于单独使用SVM、RF、LORSAL分类器,提出的模型具有更加鲁棒的性能,因此具有更强的未知威胁检测和感知能力。同时,在已知的流量类型,所提方法的识别精度与单独采用SVM相当,且明显高于RF、LORSAL的识别精度。最后,通过上述实验结果可以发现所提方法在两组数据集都取得了最高的分类精度。在NSL-KDD中,相较于单独使用SVM、RF、LORSAL分类器,所提方法检测精度分别提升了约8%、10%、11%。在CICIDS-2017中,相较于单独使用SVM、RF、LORSAL分类器所提方法检测精度分别提升了约5%、5%、10%。

4 结束语

提出一种基于DHR架构思想的未知威胁检测方法,可用于电力监控系统异常流量精确感知。该方法通过动态、异构、冗余的异常感知和学习框架,集成多个分类器优势,提升未知威胁和攻击检测的准确率。其中,多分类器系统包含了集成学习、判别式等异构的学习模型,同时,本文通过训练样本随机采样和分发增加了模型异构度,以此提高异常感知的准确度。多分类器表决与反馈属于最为核心的技术环节,利用多分类器、多维度的信息输出,实时评估模型训练精度,并且迭代反馈和调整样本分布。所提方法可以从3个方面带来异常检测及态势感知的优势:1)从统计的视角来看,有可能存在多个假设在训练集上达到同等性能的情况,此时若采用单一学习模型可能因误选导致异常感知模型泛化性能不佳,所提方法则会减小这一风险;2)从计算的视角来看,学习模型容易陷入局部极小,通过所提方法多轮迭代,可降低陷入局部极小的风险;3)从表示的视角来看,所提方法可使得学习任务表示空间扩大,真实任务场景能够得到更好地近似。所提方法提出一种集成学习框架,后续可将深度学习模型及算法用于实施该学习框架,以此提高框架中模型异构度和威胁感知准确率。同时,该学习框架可迁移于其他应用场景,需要根据具体检测任务设计单个感知器分类模型和算法。

参考文献

[1]

姜琳,周亮,缪思薇,基于零信任架构的电力物联网安全接入方法[J].电力信息与通信技术202321(1):40-46.

[2]

原伟.面向网络空间安全的俄汉敏感新闻话题自动发现实证研究[J].信息工程大学学报202223(1):73-80.

[3]

吴昊,惠想,林炜棠,电力监控系统数据接入安全体系研究与应用[J].信息系统工程2022(12):71-74.

[4]

安江.信息安全防护技主在电力监控系统中的应用[J].数字技术与应用202240(7):218-220.

[5]

达钰鹏.基于体系作战思想理解网络态势感知系统[J].网络安全和信息化2022(10):119-121.

[6]

戴理朋,杨鑫,徐茹枝.联邦学习在电力数据分析中的应用及隐私保护研究[J].电力信息与通信技术202220(11):47-56.

[7]

杨坤,唐鼎,王利明.基于多头注意力的恶意加密流量检测方法[J].网络安全技术与应用2023(1):26-27.

[8]

ZHAO G DXU KXU L,et al. Detecting APT malware infections based on malicious DNS and traffic analysis[J]. IEEE Access20153:1132-1142.

[9]

牛建林,任志宇.基于改进实用拜占庭容错算法的认证信息共享技术[J]. 信息工程大学学报202122(5):571-576.

[10]

ZAHOORA URAJARAJAN MPAN Z,et al. Zero-day ransomware attack detection using deep contractive autoencoder and voting based ensemble classifier[J]. Applied Intelligence202252(12):13941-13960.

[11]

刘彩霞,季新生,邬江兴.一种基于MSISDN虚拟化的移动通信用户数据拟态防御机制[J].计算机学报201841(2):275-287.

[12]

邬江兴.工业控制网络广义功能安全问题与解决之道[J].信息安全研究20228(6):524-527. (下转第页)

AI Summary AI Mindmap
PDF (1621KB)

272

访问

0

被引

详细

导航
相关文章

AI思维导图

/