采用原型学习的类概念漂移网络数据检测与分类算法

陈坤 ,  李青 ,  褚瑞娟 ,  樊讯池 ,  王润泽

信息工程大学学报 ›› 2025, Vol. 26 ›› Issue (01) : 14 -20.

PDF (1829KB)
信息工程大学学报 ›› 2025, Vol. 26 ›› Issue (01) : 14 -20. DOI: 10.3969/j.issn.1671-0673.2025.01.003
信息与通信工程

采用原型学习的类概念漂移网络数据检测与分类算法

作者信息 +

Class Concept Drift Network Data Detection and Classification Algorithm Based on Prototype Learning

Author information +
文章历史 +
PDF (1872K)

摘要

受网络设备更新、通信协议升级等影响,网络数据的分布、类别和属性发生不可预知的漂移特性,导致基于机器学习的网络数据分类模型的分类精度下降。针对此问题,提出一种采用原型学习的类概念漂移网络数据检测与分类算法。该算法从时间序列的角度处理网络数据,利用带有注意力机制的网络提取数据的时空特征。借鉴原型学习思想,使用样本与原型之间的距离进行分类。当发生类概念漂移时,设定合适的阈值以区分新类,并使用其均值更新原型矩阵。实验结果表明,使用原型匹配分类不仅比传统的softmax分类器准确率高,且当数据发生类概念漂移时,所提算法能够有效检测漂移,并在漂移数据上能够表现出较好的分类性能。

Abstract

Affected by network equipment update and communication protocol upgrade, the distribution, category and attribute of network data have unpredictable drift characteristics, subsequently impairing the classification precision of machine learning-based network data classification models. To solve this problem, a class concept drift network data detection and classification algorithm based on prototype learning is proposed. The network data is addressed from the time series perspective, harnessing a network equipped with an attention mechanism to distill spatiotemporal features from the data. Drawing on the principles of prototype learning, the distances between samples and prototypes are utilized for classification purposes. In instances of class concept drift, a suitable threshold is established to identify novel classes, and the mean values are employed to refresh the prototype matrix. Experiment result shows that the utilization of prototype matching for classification not only yields higher accuracy than traditional softmax classifiers, but also can effectively detect the drift when the data has class concept drift, and has better classification performance on the drift data.

Graphical abstract

关键词

原型学习 / 概念漂移 / 新类检测 / 网络数据

Key words

prototype learning / concept drift / novel class detection / network data

引用本文

引用格式 ▾
陈坤,李青,褚瑞娟,樊讯池,王润泽. 采用原型学习的类概念漂移网络数据检测与分类算法[J]. 信息工程大学学报, 2025, 26(01): 14-20 DOI:10.3969/j.issn.1671-0673.2025.01.003

登录浏览全文

4963

注册一个新账户 忘记密码

随着物联网、大数据、数据链等技术在互联网领域的快速发展与广泛应用,网络数据的挖掘技术变得越来越重要。由于网络环境复杂交错、网络设备更新、通信协议升级等因素,网络数据的分布、类别和属性发生不可预知的漂移特性,这种漂移特性被统称为概念漂移[1-3]。网络数据的概念漂移导致基于原始数据构建的分类模型在应对新样本时适应性显著下降,进而影响分类精度的稳定性[4]。因此,针对网络流量的概念漂移问题,研究更为健壮的数据挖掘算法和模型,以确保分类器在不同数据集上的性能稳定性,已成为网络数据处理领域亟待解决的关键问题。
概念漂移通常指模型依赖的统计特性发生不可预知的变化。随着时间的推移,表现为推理数据(当前数据集分布)与训练阶段数据统计特性(历史数据集分布)不一致,从而导致模型性能下降[5]。由此可分成基于数据分布的概念漂移[6-7]和基于数据类别的概念漂移(简称为类概念漂移)。基于数据分布的概念漂移又称数据漂移,即输入数据的概率分布与其他时刻获取到新数据的概率分布不同,导致模型的性能降低。类概念漂移即数据中出现了新类别[8],在模型未更新知识的情况下将这部分数据划分为已知类别,造成准确率下降。本文重点研究的是类概念漂移。
常用的网络数据分类算法主要分为机器学习和深度学习两大类。基于机器学习的聚类算法主要利用模型得到数据的聚簇集合(可以进一步划分为更小的簇),每个集合保存簇中基本的统计参数(比如质心、簇分布或者半径),这些信息可被用于分类。基于数据流的半监督自适应新类检测与分类(SAND)算法[9]维护了基于聚类的分类器模型集合,每个模型都在不同的数据块上进行训练,将集成分类器决策边界之外的异常值视为未知类别数据。具有重复概念漂移和概念演化的数据流半监督分类(ESCR)算法[10]在SAND算法基础上改进了漂移检测方式,对聚簇刻画更加精细,同样也采用集成分类机制识别新类别数据。基于聚类的方法需要基于专家经验设计分类特征,能很好体现数据全局特征,但在处理时序数据时反而忽略了数据内部的关键信息和深层特征。同时,该类算法需要预先指定类簇的数量,且算法流程设计较为复杂,这些都深刻影响着算法的性能。神经网络通过其复杂的结构和强大的学习能力,能够有效地从大量的数据中学习到复杂的数据表示[11],使得深度学习模型在处理概念漂移时表现出独特的优势[12]。深度进化去噪自动编码器(DEVDAN)算法[13]通过计算整个神经网络的偏差和方差来判断当前模型输入是否发生了概念漂移,并添加或删除旧的隐藏单元来适应这种数据分布带来的概念漂移。多流过程的自主知识转移(ATL)算法[14]同时训练源域和目标域模型,使用自主高斯混合模型估计源域和目标域中的概率密度函数,以此作为参考来调整网络的宽度,从而适应概念漂移。现有的基于神经网络的算法通过改变模型结构适应数据分布的概念漂移,但目前仍存在计算复杂度相比固定网络结构高、有时类间距离小于类内距离、无法适应数据的类概念漂移等方面的诸多问题。
针对上述问题,提出一种用于类概念漂移网络数据的分类方法。首先,使用带有注意力机制的时空网络有效提取网络数据的时序特征,避免人工设计复杂的特征工程。其次,使用带有正则化原型损失(Prototype Loss, PL)的距离交叉熵损失(Distance Cross Entropy Loss, DCEL)函数训练模型。最后,通过网络训练为不同的类别分配原型,利用原型匹配代替softmax分类器。相较于现有的概念漂移分类算法,所提模型不仅对已知类别的数据有良好的分类精度,在处理类概念漂移时也具有较好的性能。

1 类概念漂移网络数据分类模型

1.1 问题描述

在数据挖掘中通常从概率角度定义类概念漂移,假设时间点t采集的数据Dt_x={X1,X2,,Xi,Xn}服从联合概率分布Pt(x,y),标签为ytCt={y1,y2,

,yj,yc}。如果在不同时间点采集数据D(t+Δ)_x,其真实标签为yt+ΔCt+Δ={y1,y2,,yj,yc+1},那么类概念漂移可定义为Pt(y)Pt+Δ(y)。基于贝叶斯定理,分类器可以被描述为:给定样本,使得后验概率最大的类别为该样本的预测类别,其定义为

P(yj|x)=P(yj)P(x|yj)P(x)

式中:P(yj)表示先验概率;P(x|yj)表示数据样本x对应类别yj的类条件概率;P(x)=j=1cP(yj)P(x|yj)表示用于归一化的决策因子,c表示类别数量。

P(x)保持不变,后验概率P(yj|x)发生变化,产生类概念漂移。可见类概念漂移的本质是采集的新数据产生了模型未见过的新类别数据。若在不重新训练的前提下,要使模型能够适应包含新类的数据,关键就在于获取数据特征的同时,使得旧类与新类的决策边界符合“类内聚、类间分”的特性。

1.2 模型介绍

与传统的手工设计数据特征相比,从原始数据中自动学习的特征在分类任务中表现更好。本文框架中使用带有注意力的时空网络提取数据的时空特征,特征提取器可表示为f(x;θ)。与传统分类框架使用的softmax作为分类器不同,训练结算为每个类别的特征学习多个原型向量,并使用原型匹配进行分类。原型向量可表示为cij,其中:i{1,2,,M}表示第i类特征;j{1,2,,N}表示第i类特征中第j个原型。假设每个类别具有相同数量N个原型,实际使用中N的值可以根据需要设置。在参数学习阶段,特征提取器和类别原型cij是根据数据联合训练的。在分类阶段,采用原型匹配方法对数据特征进行分类,根据欧氏距离找到最接近的原型,将原型的类别分配给当前的样本。当数据发生类概念漂移时,将置信度低的样本存储并计算其特征平均值作为新类别的原型,将原型向量加入训练好的原型矩阵,无需重新训练即可在所有类别的数据上进行预测。图1为基于原型学习的概念漂移网络数据分类模型。

1.3 特征提取

1.3.1 局部空间特征

根据深度学习领域著名学者LeCun等[15]的研究,只要符合以下特点的数据或信号均适合应用卷积神经网络:信号表现为一维或数组形式;信号具有很强的局部相关性;重要特征可能在任意位置出现,语音或文本等这类数据适合应用一维卷积神经网络。具有层次化结构和时序特性的网络数据显然符合以上这些特点。因此,采用一维卷积神经网络(One-Dimensional Convolutional Neural Network, 1DCNN)对网络数据隐含的局部空间特征进行提取。

1.3.2 长短时记忆网络

长短时记忆(Long Short-Term Memory, LSTM)网络是基于循环神经网络(Recurrent Neural Network, RNN)模型的改进,适用于处理时间序列相关的问题。LSTM模型通过独特的遗忘门、输入门和输出门等3个门控结构有效地解决了RNN中的梯度消失和梯度爆炸问题,使得网络能够更好地学习长期依赖关系。LSTM模型利用细胞状态ct来保持序列间的长期记忆,在每个时间步中,LSTM同步接受3个输入,即当前时刻的输入xt、前一时刻的细胞状态ct-1以及前一时刻的隐藏状态ht-1。LSTM网络结构如图2所示。

在网络数据分类应用场景中,当前时刻的输入还与过去时刻的输入有关。本文在处理网络数据过程中,将每条数据视为一个序列,通过LSTM提取一条样本内部的全局序列特征,获取样本的隐含信息。在分类预测中,通过有效提取网络数据的时间特征,保持长期记忆,解决传统神经网络的信息遗忘问题,有助于提高模型预测的精度。

1.3.3 自注意力机制

近年来,注意力机制在神经网络中得到了广泛的应用[16],其工作原理如图3所示。

其最初用于图像识别。该机制模仿人类观察物体的方式,可以从大量信息中提取关键特征,并赋予重要特征更大的权重,使其在最终输出中发挥更关键的作用。网络流量分类模型中的注意力机制可以增强输入数据的关键特征的影响,从而提高模型的分类效率。其计算公式为:

attentionx,q=i=1naixi;ai=softmaxsixi,q.

式中:q为LSTM隐藏层的状态;xi表示第i次输入数据;ai表示计算出的权重值。

1.4 原型学习

最早的原型学习方法为k近邻(k-Nearest Neighbor, k-NN),其最重要的问题是如何选择代表性的原型。根据原型的更新方法可以将原型学习方法分为两大类。

第1类是传统的原型学习方法,主要基于人工设计的特征,设计合适策略用来选择原型,包括随机选择、密度峰值选择、均匀采样等。第2类是在神经网络训练过程中试图以参数优化的方式学习原型,具体是定义关于原型的损失函数,通过优化损失函数来学习原型。将基于原型匹配的分类器与神经网络提取特征相结合,以实现高精度和鲁棒的模式分类。

假设训练数据x经网络映射到特征空间,将隐藏特征与所有类别原型进行比较,距离最近的原型的类别即隐藏特征所属类别。原型匹配分类通过距离定义类别的概率,即xclass argmaxi=1Kui(x)。可知,概率与距离呈现负相关,当特征与原型的距离越小时,分为对应类别的概率越大。ui(x)是当前类别i的判别函数,可以表示为

ui(x)=-minj=1Nf(x;θ)-cij22

1.5 损失函数

模型框架的训练参数主要分为两部分:特征提取器的参数θ;每个类的原型,记为C={cij|i=1,,M;j=1,,N}θC的参数是基于端到端的方式联合训练得到的,这加强了数据底层信息与两部分参数的耦合,框架训练时使用的损失函数主要分为距离交叉熵损失函数和正则化原型损失。

1.5.1 距离交叉熵损失

距离交叉熵损失主要区别于传统的交叉熵损失,最小化损失距离交叉熵损失函数的意味着减小样本与真实类别原型之间的距离,训练的模型能够正确地对数据进行分类。距离可以用来衡量样本与原型之间的相似度,即样本属于原型的概率与距离呈负相关,可以表示为

p(xcij|x)-f(x;θ)-cij22

进一步通过距离定义概率p(xcij|x),推导出输入x正确分类为y的概率为

p(y|x)=e-Td(f(x),cij)kMlNe-Td(f(x),ckl)

式中:d(f(x),cij)表示特征向量与类别原型之间的距离;T表示控制概率平衡分配的超参数,本文默认取1;M表示样本的总类别数;k表示每个类别包含的原型向量个数;ckl表示类别k的第l个原型。在本文中N=1,使用ck表示第k种类别原型。

距离交叉熵损失函数可以表示为

DCEL((x,y);θ,C)=-lnp(y|x)=lnk=1Ce-Td(f,cy)+Td(f,cy)

式中,cy表示特征f(x;θ)对应的正确类别的原型向量。通过最小化损失函数实现缩减样本与所属类别原型之间的距离。

1.5.2 正则化原型损失

通过优化分类损失函数,可以促使模型能够对数据正确分类,但直接最小化分类损失函数极易使得模型过拟合,因此引入原型损失函数作为正则化项,以此提高模型的泛化性。原型损失函数可以表示为

PL((x,y);θ,C)=f(x;θ)-cy22

总损失函数可以表示为

loss((x,y);θ,C)=DCEL((x,y);θ,C)+λPL((x,y);θ,C)

式中,λ代表原型损失的权重。第1项强调样本在特征空间中的类间隔损失,第2项描述当前类样本与类别原型的距离损失,使得同一类样本的特征更加紧凑,隐式地增加类之间的距离,同时有利于样本分类。总损失函数符合“类内聚、类间分”的分类模型要求,使模型更具鲁棒性和可靠性,具备解决模型识别新类的能力。

2 类概念漂移网络数据检测与分类算法

基于原型学习的类概念漂移网络数据检测与分类算法如图4所示。首先通过特征提取器对原始已知类训练集进行训练,将原始数据转换到“类内聚、类间分”的特征空间上,同时得到每个类别的原型向量,样本的标签即为距离最近的原型的标签。在测试阶段,当类别置信度小于阈值时,当前样本与某一类别原型的距离较小,视为已知类别,新类样本与每个类别的距离比较远且大于阈值的置信度低的样本视为新类别数据。将新类别数据特征的平均向量作为新类的原型加入到原型矩阵,即不用训练新类数据,即可对所有测试数据进行分类。

3 实验结果与分析

3.1 实验数据

选取经典开源的Moore数据集和CICIDS2017数据集。Moore数据集包含了丰富的网络应用类型,每条网络流采用249个属性特征进行表示。为了减少特征冗余和噪声、降低模型计算量以提高分类效率和准确率,采用文献[17]中所选的10个特征,且仅采用www、mail、bulk、database、services这5种类型作为已知类别进行实验,原因是这些类别的样本量均超过2 000,能够为实验提供足够的数据。CICIDS2017数据集通过人工采集包含了多种良性和攻击应用类型,最大程度地还原真实世界数据。采用PortSca、Web Attack两种攻击性的类型数据作为类别漂移数据。

3.2 参数设置和评估指标

选取网络数据分类研究中常用的准确率(accuracy)和召回率(recall)作为算法的评价指标。准确率代表所有类别的样本被预测正确的比率,反映推荐结果的准确性。召回率代表在所有正样本中,被预测出的正样本所占比率,反映推荐结果的全面性。具体可以表示为:

Raccuracy=NTP+NTNNTP+NTN+NFP+NFN
Rrecall=NTPNTP+NFN

3.3 模型参数调节

在第1.5.2节中采用损失函数的权重因子来平衡两部分损失,确保选择的参数能够带来最佳的实验效果。对不同参数条件下已知类的实验结果进行了对比,同时给出特征提取网络在softmax分类器下的准确性。设置模型训练的学习率为0.003,批次大小为128,周期为100。

表1中记录了模型根据不同的分类器方法和参数在已知5类数据上训练后得到的准确率。可以看到本文所提方法(DCEL+PL)与传统softmax分类器和交叉熵损失(CEL)训练的模型性能相当。而且通过距离交叉熵损失和原型损失的组合,使得设计的模型获得了更好的分类效果。当原型损失的权重因子为0.005时,模型获得最好的性能。

模型学习已知类别数据的二维特征图如图5所示。由图5(a)可知,仅使用距离交叉熵损失,能够得到线性可分的特征。从图5(b)~图5(d)可以看出,使用原型分类损失作为距离交叉熵损失的正则化项,在权重因子取λ=0.5λ=0.05λ=0.005时,数据在特征空间中确实可以“类内聚、类间分”。这证明基于距离交叉熵损失和原型损失的时空网络可以学习到更加鲁棒且泛化的表示。

3.4 类概念漂移的识别与分析

3.4.1 新类特征提取

当增加PortSca、Web Attack两种攻击性的类型数据时,提取含有新类测试数据的特征图,如图6所示。可以观察到新类数据的特征表示都是类内紧凑和类间可分离的。这证明了基于距离交叉熵损失和原型学习的时空网络具有很强的鲁棒性和泛化性,学习到的第6类数据特征能够与已知类别的数据特征区分。

3.4.2 检测新类样本

式(6)可知,样本的类别概率与距离呈负相关,与类别原型的距离越小,分为该类别的概率越大。以此作为设定阈值的依据,对新类数据进行判定。实验采用第3.3节训练好的模型,选取Moore数据的5个类型、每个类型200条作为已知数据,采用攻击类型Web Attack数据的200条样本作为新类,共计1 200条数据进行测试。

在距离阈值的选择过程中,获取训练过程中最后1次轮次(epoch)中每个批次生成的距离矩阵,分析所有样本与原型的最小距离,其中最小距离的最大值即为识别已知类别的最佳阈值区间。最后,通过缩小阈值的步长,选定最佳距离阈值。因此,在第3.3节训练好的模型上得到的最佳阈值为1.9,对应的已知类别的整体准确率为98.8%。进一步在含有新类数据的数据集上进行测试,得到的混淆矩阵如图7所示。

图7可以看出,基于距离交叉熵损失和原型损失训练的时空特征提取网络,当获得较为合适的阈值时,在保持对已知类别分类性能的同时,也能够对新类数据进行有效识别。

3.4.3 算法对比分析

为了验证本算法的有效性,分别在已知类别和加入新类别数据的情况下,选取SAND、ESCR、DEVDAN、ATL这4种算法与本文所提算法进行对比分析。实验结果如表2所示。

表2可以看出,基于机器学习的聚类方法SAND和ESCR,以及能够处理数据分布漂移的神经网络算法DEVDAN、ATL均在已知类别数据上有较好的准确率和召回率。这证明在封闭数据集上模型训练能够提取到数据有效特征的情况下,性能不会太差。但SAND和ESCR算法集成了多个聚簇进行分类,模型更新机制复杂,计算内存大,时间复杂度较高。DEVDAN、ATL算法能够灵活调整模型结构来获得更强的泛化能力,但这也影响模型提取数据特征的质量和收敛速度,致使模型损失了部分性能。在处理新类别的问题上,基于聚类的算法能够识别新类数据,但由于此类方法需要人工设计数据特征,数据更深层的信息被忽略,导致在新类数据的分类准确率不高。而本文所提算法学习到的数据特征满足“类内聚、类间分”特性,使得模型具有很强的鲁棒性和泛化能力,在适当阈值的条件下可不用重复训练模型,也能够有效地识别新类数据。

4 结束语

针对网络数据发生类概念漂移的问题,结合原型学习思想,提出一种基于原型学习的概念漂移网络数据检测与分类算法。该算法利用基于距离的交叉熵损失和正则化原型损失训练模型,使得基于注意力机制的时空网络提取到的数据特征具备“类内聚集、类间分离”的特性,最终模型具备较高的鲁棒性和泛化能力。使用合适的阈值筛选出置信度低的漂移数据,无需针对漂移数据重新训练,将其特征均值作为新类原型向量更新模型。实验表明,本文所提算法不仅在已知类别数据上有很好的准确率,无需进一步训练新类数据的同时,在新类数据上也具备较好的性能。

参考文献

[1]

SCHLIMMER J CGRANGER R H. Incremental learning from noisy data[J]. Machine Learning19861(3):317-354.

[2]

ZLIOBAITE I. Concept drift over geological times: predictive modeling baselines for analyzing the mammalian fossil record[J]. Data Mining and Knowledge Discovery201933(3):773-803.

[3]

PACHECO FEXPOSITO EGINESTE M, et al. Towards the deployment of machine learning solutions in network traffic classification: a systematic survey[J]. IEEE Communications Surveys Tutorials201921(2):1988-2014.

[4]

文益民,刘帅,缪裕青,概念漂移数据流半监督分类综述[J].软件学报202233(4):1287-1314.

[5]

KELLY M GHAND D JADAMS N M. The impact of changing populations on classifier performance[C]∥Proceedings of The Fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Diego, USA: ACM, 1999:367-371.

[6]

AGGARWAL C C. A survey of stream classification algorithms[M]∥AGGARWAL C C. Data classification: algorithms and applications. New York, USA: CRC, 2014:245-274.

[7]

GABER M MZASLAVSKY A BKRISHNAS S. A survey of classification methods in data streams[M]∥AGGARWAL C C. Data streams: models and algorithms. Boston, USA: Springer, 2007:39-59.

[8]

DITZLER GPOLIKAR R. Incremental learning of concept drift from streaming imbalanced data[J]. IEEE Transactions on Knowledge and Data Engineering201325(10):2283-2301.

[9]

HAQUE AKHAN LBARON M. SAND: semi-supervised adaptive novel class detection and classification over data stream[C]∥Proceedings of the AAAI Conference on Artificial Intelligence, 2016. DOI: 10.1609/aaai.v30i1.10283 .

[10]

ZHENG X LLI P PHU X G, et al. Semi-supervised classification on data streams with recurring concept drift and concept evolution[J]. Knowledge-Based Systems2021215:106749.

[11]

RYAN SCORIZZO RKIRINGA I, et al. Deep learning versus conventional learning in data streams with concept drifts[C]∥2019 18th IEEE International Conference on Machine Learning and Applications. Boca Raton, USA: IEEE, 2019:1306-1313.

[12]

YUAN L HLI HXIA B H, et al. Recent advances in concept drift adaptation methods for deep learning[C]∥Proceedings of The Thirty-First International Joint Conference on Artificial Intelligence. Vienna, Austria: International Joint Conferences on Artificial Intelligence Organization, 2022:5654-5661.

[13]

ASHFAHANI APRATAMA MLUGHOFER E, et al. DEVDAN: deep evolving denoising autoencoder[J]. Neurocomputing2020390:297-314.

[14]

PRATAMA MDE CARVALHO MXIE R, et al. ATL: autonomous knowledge transfer from many streaming processes[C]∥Proceedings of the 28th ACM International Conference on Information and Knowledge Management. New York, USA: ACM, 2019:269-278.

[15]

LECUN YBENGIO YHINTON G. Deep learning[J]. Nature2015521(7553):436-444.

[16]

朱张莉,饶元,吴渊,注意力机制在深度学习中的研究进展[J].中文信息学报201933(6):1-11.

[17]

李林林,张效义,张霞,基于K均值和k近邻的半监督流量分类算法[J].信息工程大学学报201516(2):234-239.

AI Summary AI Mindmap
PDF (1829KB)

625

访问

0

被引

详细

导航
相关文章

AI思维导图

/