基于PCA-RLR模型的低成本物联网入侵检测方法研究

刘子毅 ,  宋华珠

华中师范大学学报(自然科学版) ›› 2025, Vol. 59 ›› Issue (06) : 831 -842.

PDF (1660KB)
华中师范大学学报(自然科学版) ›› 2025, Vol. 59 ›› Issue (06) : 831 -842. DOI: 10.19603/j.cnki.1000-1190.2025.06.007
人工智能·产业应用

基于PCA-RLR模型的低成本物联网入侵检测方法研究

作者信息 +

Research on low-cost intrusion detection method for Internet of Things based on PCA dimensionality reduction

Author information +
文章历史 +
PDF (1699K)

摘要

随着智能家居与物联网设备的广泛普及,用户对潜在网络安全威胁识别需求日益增长,低成本的入侵检测研究成为物联网安全领域中广泛关注的研究热点.本文探索了一种基于机器学习的低成本物联网入侵检测方法,即融合多种正则化方法和基于主成分分析(PCA)降维的物联网流量入侵检测(PCA-RLR)模型,旨在显著提升网络安全防护的效能.研究通过优化并融合多种正则化方法以提高模型的鲁棒性,运用PCA方法进行高维数据特征精炼与维度缩降,从而构建一个有效识别正常流量与异常攻击的二分类器模型,以提供安全预警.实验结果表明,融合多种正则化方法与PCA的对数几率回归模型在物联网入侵检测任务中表现出优异的性能.其中,L2正则化增强了模型的稳定性和泛化能力;PCA显著减少了特征空间维度,在较低计算复杂性下仅造成微小性能损失;仿真实验还验证了自适应求解器在不同数据集特性上的有效性.实验结果表明,本研究提出的低成本物联网入侵检测模型,在测试集上实现了较高的检测准确率和较低的误报率.研究成果为网络入侵检测提供了一种新的低成本方法,具有在实际智能家居与物联网设备安全防护中广泛应用的潜力.

Abstract

With the widespread popularity of smart homes and IoT devices, users have an increasing need to identify potential network security threats. Low-cost intrusion detection research has become a research hotspot in the field of IoT security. In view of this, this paper is committed to exploring a low-cost IoT intrusion detection method based on machine learning, that is, an IoT traffic intrusion detection model (PCA-RLR model) that integrates multiple regularization methods and dimensionality reduction based on principal component analysis (PCA), aiming to significantly improve the effectiveness of network security protection. This paper improves the robustness of the model by optimizing and integrating multiple regularization methods, and uses PCA method to refine high-dimensional data features and reduce dimensions, thereby constructing a two-classifier model that can effectively identify normal traffic and abnormal attacks to provide security warning. Experimental results show that the logistic regression model integrating multiple regularization methods and PCA shows excellent performance in IoT intrusion detection tasks. Among them, L2 regularization enhances the stability and generalization ability of the model; PCA significantly reduces the feature space dimension, causing only a small performance loss under low computational complexity; the simulation experiment also verified the adaptive solver (Adaptive Solver) effectiveness on different data set characteristics. Experimental results show that the low-cost IoT intrusion detection model (PCA-RLR model) proposed in this article achieves high detection accuracy and low false alarm rate on the test set. This research provides a new low-cost method for network intrusion detection, which is expected to be widely used in actual smart home and Internet of Things device security protection.

Graphical abstract

关键词

物联网安全 / 入侵检测 / 低成本计算 / 主成分分析(PCA) / 正则化方法

Key words

IoT security / intrusion detection / low-cost computing / principal component analysis (PCA) / regularization methods

引用本文

引用格式 ▾
刘子毅,宋华珠. 基于PCA-RLR模型的低成本物联网入侵检测方法研究[J]. 华中师范大学学报(自然科学版), 2025, 59(06): 831-842 DOI:10.19603/j.cnki.1000-1190.2025.06.007

登录浏览全文

4963

注册一个新账户 忘记密码

物联网流量入侵检测是物联网入侵检测的一个重要组成部分.在物联网环境中,网络流量数据是反映设备和系统行为的关键信息,因此基于网络流量的入侵检测成为物联网安全防护的重要手段,可有效服务于物联网的边缘计算应用、智能家居等场景,是物联网安全领域中的研究热点.该入侵检测方法的核心聚焦于深度采集与分析物联网设备所生成的流量数据,通过实时监控网络流量的动态变化,结合相应的算法模型,能够迅速识别出异常流量模式,以此来识别和检测出潜在的恶意活动或异常行为.该入侵检测方法不仅有助于及时发现并阻止网络攻击,还能为物联网系统的稳定运行提供有力的保障.目前物联网流量入侵检测的方法主要分为如下两类1.
第一类是基于特征匹配的方法,也称为签名检测,其核心在于建立一个包含已知攻击特征(或签名)的数据库.Khraisat等2提出了一种表明可能发生了入侵的方法,即当网络流量或系统活动与这些预定义的特征相匹配时,检测系统就触发警报.该类方法的优势是检测率高、误报率低,劣势是无法检测新型攻击、特征库更新麻烦.在一些对安全性要求高,且已知攻击模式相对固定的场景中,基于特征匹配的方法仍然是一种有效且易于实施的选择.
第二类是异常检测的方法,即通过分析网络流量数据,识别出与已知正常行为模式不匹配的异常行为.这通常涉及机器学习、统计分析等技术来建立正常行为模型,并检测偏离该模型的行为.崔阿军3对基于循环神经网络特征选择、半监督深度学习物联网入侵检测、无线传感器网络自学习入侵检测、以及自适应学习的入侵检测等基于机器学习入侵检测的关键问题开展了研究,结果表明,自适应的网络入侵检测方法在入侵行为检测方面更有效.申煜铜4将机器学习技术和异常检测系统结合起来,提出了基于联邦学习的物联网设备异常检测算法和基于集成学习的对抗性防御算法.该类方法的优势是可有效检测新型攻击且自适应性强,劣势是模型建立复杂、数据集清理困难、误报率高.
近年来,学者们不断探索混合式检测方法.为了克服单一方法的局限性,研究者们探索将基于特征匹配的方法和异常检测的方法相结合,形成混合检测方法.王振东等5对这些检测方法进行了总结,这类方法能够充分利用两者的优点,提高检测的准确性和灵活性,但同时也带来了复杂度高、资源消耗大等高计算成本问题.这些问题在智能家居、物联网设备普及的边缘计算场景下显得尤为突出,这是因为物联网环境下的网络安全威胁呈现出日益复杂的态势,这不仅是因为物联网设备种类繁多,还因为物联网设备分布广泛,特别是边缘计算场景下,常规的入侵检测方法6在面对高度异构化、动态化的网络环境时表现出一定的局限性.这种复杂性增加了检测异常流量与攻击行为的难度,导致传统入侵检测模型在数据维度高、特征复杂的情况下容易出现性能下降等问题,包括基于深度学习的入侵检测方法7也存在此类问题.
为此,本研究构建了一个能够有效应对复杂物联网数据场景的低计算成本入侵检测模型.本模型的核心是基于对数几率回归的二分类器建构,并融合正则化方法与主成分分析(principal component analysis,PCA)进行数据增强.通过引入正则化方法8,模型在减少过拟合的同时,能够更好地适应高维数据集中的特征冗余问题;PCA降维9则在保持模型预测性能的前提下,有效降低特征维度,提升了模型的计算效率,使得模型更加适用于物联网边缘计算场景.
本研究的主要贡献如下.
1) 融合多种正则化方法消解高维数据空间中的模型过拟合问题.为应对高维特征空间中普遍存在的模型过拟合问题,本研究融合了多种正则化技术,包括L1正则化、L2正则化以及弹性网络.这些正则化策略的运用显著增强了模型对复杂多变数据的泛化能力,有效减少了高维数据空间中的模型过拟合的风险.
2) 基于PCA的低成本降维计算方法.为了优化计算效率和提升训练速度,引入了PCA方法对特征空间进行科学的降维处理.通过PCA,成功减少了特征的数量,降低了模型的计算复杂度,从而在确保检测精度的同时,显著提升了模型的训练速度和整体运行效率.
3) 自适应求解器(adaptive solver)机制的提出.通过引入自适应求解器机制,可依据数据的独特特性智能地选择最合适的求解器.在处理大规模物联网数据集时,这一机制确保了求解过程在准确性、效率以及收敛性方面达均衡,可有效提升数据预处理的效能.
4) 设计了多组对比实验验证本模型的有效性.

1 研究基础

1.1 基于异常检测的物联网流量入侵检测框架

随着智能家居与物联网设备的广泛部署,用户对于识别潜在网络安全威胁的需求持续攀升.在此背景下,异常检测方法应运而生,它通过分析网络流量数据,精准地辨识出与既定正常行为模式不符的异常活动.这一过程往往依赖机器学习、统计分析等先进技术,用以构建正常行为模型,并有效监测任何偏离此模型的行为模式.基于此,基于预测范式的异常检测方法逐渐演变为如下的主流架构10,主要包含原始数据输入模块、自适应求解器模块、训练模块和推理输出模块.据此,本文提出基于物联网流量入侵检测的工作流程图(图1).

在数据预处理阶段,首先对原始数据进行基础处理,例如统一量纲并标准化数值范围,以确保模型能够公平地评估各特征的影响力.此标准化过程对于防止某些特征因尺度差异而在模型训练中占主导地位至关重要.随后,将处理好的数据集划分为训练集、验证集和测试集,每个集合在模型开发中各自承担不同的作用.本文在此处的工作包括进一步对数据进行噪声过滤,加入自适应求解器机制,并处理数据集中存在的不平衡问题,以提升模型的鲁棒性和泛化能力.此外,还探讨了数据增强策略,特别是针对攻击场景的变化进行模拟,旨在扩大输入模式的多样性.这不仅提高了模型对不同输入模式的适应能力,还增强了对关键入侵事件的检测能力.为适应不同数据集的特性选择优化策略,本文提出了自适应求解器模块机制,可以利用包括lbfgs、newton-cg、liblinear、saga和sag在内的多种求解器,每种求解器均有其特定优势.例如,lbfgs在处理大量参数时表现高效,而liblinear适用于大型稀疏数据集.求解器的选择基于实时的误差评估进行动态自适应调整,以优化训练过程中的收敛性和精度.

在模型训练阶段,采用了各种技术来提取和分析数据的特征,目的是优化数据的嵌入表示,使得特征的重表征能够更加准确地捕捉到数据的本质属性.本文应用了主成分分析方法进行降维,在保留关键信息的同时提升计算效率,且减少过拟合的风险.本文方法包括根据解释方差与模型复杂度之间的权衡动态选择主成分的数量,确保在保留最相关特征的情况下剔除冗余数据.此外,采用特征投影方法来增强对入侵事件特征模式的表示,使正常数据与异常数据的聚类更加清晰.在此过程中,集成了正则化方法和梯度下降优化技术,以迭代最小化损失函数,并通过自适应学习率加速收敛.本文构建了一个对数几率回归模型用于预测入侵的可能性,从而根据模型对基准行为与异常模式的理解对输入进行有效分类.这种概率方法相比于深度神经网络模型可以在低成本的物联网环境下,捕捉数据中的细微变化,从而对潜在威胁进行更全面的评估.

在模型推理输出阶段,本研究通过已训练好的模型生成预测结果,并据此计算每个时间点与实际观测值之间的偏差,从而得到异常分数.该分数反映了特征变化相对于预期模式的偏离程度,是判断异常状态的关键指标.异常分数为物联网网络的实时监控提供了可量化的度量,通过基于阈值的分类方法,当分数超过设定限值时会触发进一步分析.在本文算法中,阈值根据训练数据中的异常分数分布进行动态调整,使模型能够适应物联网环境下不断变化的不同流量入侵模式.此外,本文还在实验中实现了后处理机制,通过整合时间上下文来平滑异常分数中的突发波动,从而减少潜在的误报.该框架为物联网流量入侵检测提供了系统化和自适应的方法,有效地平衡了检测精度与计算效率.通过数据预处理、降维处理和自适应分类的分层方法,增强了低成本物联网设备环境下,模型识别复杂且不断演变的入侵模式的能力.

1.2 分类算法的选择

如上节所述,在物联网流量入侵检测中,模型推理模块扮演着至关重要的角色.其核心在于构建一个高性能的二分类器模型,该模型需具备精准区分正常流量与异常攻击流量的能力,以有效应对物联网环境中复杂多变的数据场景和入侵检测挑战.此二分类器模型不仅要求能够准确识别出潜在的入侵行为,还需在处理海量、异构的物联网数据时展现出强大的适应性和鲁棒性.

在机器学习领域,分类算法是一种重要的监督学习技术11,用于识别输入数据所属的类别,常见的算法有决策树、随机森林、支持向量机、朴素贝叶斯分类器、K-近邻算法、对数几率回归、神经网络、梯度提升树、集成学习等,这些算法在各自的应用领域中都有出色的表现,但每种算法都有其独特的优点和适用场景(表1).

表1可见,在低成本、快计算的工程应用场景需求现实下,对数几率回归因计算效率高而更适应边缘计算的应用场景,但其存在处理非线性数据能力相对较弱的弱点,为此本文后续引入PCA来增强其在高维数据上的表现.

1.3 对数几率回归模型

回归分析是一种用于研究变量间关系的统计方法12,其核心思想是基于监督学习建立因变量(通常记作 Y)与一个或多个自变量(记作 X1X2, …, Xp)之间的关系模型.其目的是理解自变量的变化如何与因变量的变化相关联.它分为线性回归方法和非线性回归方法,分别适用于解决不同的场景问题.本文根据数据集中的数据特性,考虑到低成本、快计算的场景需求,为降低模型复杂度、节约计算资源,采用了线性回归方法.

线性回归模型中,假设 Y 和自变量 X1X2, …, Xp 之间的关系是线性的,其模型可以用如下公式表示:

Y= β0+ β1X1+ β2X2+ +βpXp+ ϵ, (1)

其中,训练目标是估计系数 β1β2, …, βp 的值,以使模型输出拟合度高,其残差函数可表示为最小化观测值 Y 与模型预测值之间的平方差.常见的线性回归方法有多元线性回归、多项式回归、对数几率回归、岭回归和套索回归等.

在入侵检测的场景下,考虑到对数几率回归模型是统计学和机器学习中的经典方法,具有坚实的理论基础.对数几率回归是一种统计建模方法,是广义线性模型(generalized linear models, GLM)的一种特殊形式.它主要用于二分类问题,通过拟合一个逻辑函数(或称为Sigmoid函数),将自变量和因变量之间的线性关系转换为概率.对数几率回归模型的输出是一个概率值,通常设定一个阈值,当模型输出的概率大于这个阈值时,将样本判定为正类,否则判定为负类.此外,对数几率回归也能处理多分类问题,这通常通过Softmax激活函数实现.它基于广义线性模型,通过Sigmoid函数将线性回归的输出映射到(0,1)的概率区间,从而实现对二分类问题的建模.这种模型在处理分类问题特别是二分类问题时,具有明确的数学表达式和清晰的解释性.同时,该方法兼顾了计算效率,具有易于实现和优化等优点,故本文采用了对数几率回归模型.其具体计算公式如下.

线性回归基于输入特征 X,使用公式(1)预测连续输出 Y.对数几率回归通过逻辑(Sigmoid)函数将线性回归的输出转换为概率,表示如下:

Pprob= 11+ e-β0+ β1X1+ β2X2+ +βpXp.       (2)

对数几率回归模型可以进一步解释为:

log p1-p= β0+ β1X1+ β2X2+ +βpXp,(3)

其中,log p1-p表示事件发生的对数几率.

另外,对数几率回归模型还可以与其他入侵检测技术相结合,如基于规则的检测、基于异常的检测等,以提高系统的整体性能和准确性.

2 PCA-RLR(regularized logistic regression with PCA)算法

2.1 PCA-RLR算法框架

物联网流量入侵通常具有高维性和噪声干扰,如何提高模型的泛化能力和计算效率成为亟待解决的难题.为了应对这些挑战,在传统机器学习方法中引入低成本入侵检测方法可以显著提升边缘设备的防护能力,从而整体提高网络安全防护的效能,更有效地检测和响应各种威胁.

通过对其他研究者研究结果的总结与实验研究,本文提出的PCA-RLR算法模型是一种融合正则化方法(见2.2节)和PCA-对数几率回归方法(见2.3节)的算法模型,在低成本物联网流量攻击检测数据集实验中,取得了最佳的检测效果,具体算法模型框架如图2所示.

首先,对输入数据进行标准化和正则化13处理.这一步的主要目的是消除各特征之间的量纲差异,确保每个特征的均值为零、方差为一,从而避免因不同特征的尺度差异导致偏置问题.标准化后的数据再进行主成分分析以实现降维.PCA通过计算协方差矩阵来捕捉数据的线性特征14.协方差矩阵是一个对称矩阵,其中包含了各特征之间的相关性信息,通过该矩阵可以进一步提取特征的主成分.

接着,算法会对协方差矩阵进行特征值分解,得到特征值和特征向量.特征值代表了各主成分对原数据方差的解释能力,而特征向量则用于确定这些主成分在原特征空间中的方向.选取前几个最大的特征值所对应的特征向量,这些特征向量即构成了最终的主成分,能够保留数据中最重要的信息,同时降低数据维度以简化计算负担.

完成PCA降维后,处理后的数据输入正则化对数几率回归模型进行分类.在对数几率回归模型中,数据通过线性组合来计算分类概率.为了防止模型过拟合,使用了正则化项,即算法基于数据特征自适应选择的L1(Lasso)或L2(Ridge)正则化方法15.正则化在目标函数中引入惩罚项,抑制模型过度拟合训练数据的可能,从而提升模型的泛化能力.

在逻辑回归模型的优化过程中,本模型主要采用梯度下降算法来最小化损失函数.梯度下降算法通过逐步调整模型的参数,使得损失函数逐渐收敛至最小值.本模型还提出了一种预训练的基于数据特征的自适应求解器,包括lbfgs、liblinear、newton-cg、newton-cholesky、sag和saga等求解器方法,这些方法各自具有不同的收敛速度和计算复杂性,模型可以根据数据的特点和需求选择最合适的算法,并通过误差评估来自适应调整.

本模型的最后一步是检测误差评估,即通过计算误差得分来评估模型性能.误差得分反映了模型在预测任务中的精度,并为进一步优化提供依据.在训练过程中,模型会根据误差评估结果进行更新和调整,以逐步提升其预测性能.

PCA-RLR算法通过对PCA降维与正则化对数几率回归的结合实现了降维与分类的有效融合.PCA在数据预处理阶段减少了特征数量并去除冗余信息,使后续的逻辑回归模型在处理较少特征的情况下仍能捕获数据的核心信息.通过引入正则化和误差评估机制,该算法框架能有效提升模型的稳定性和泛化能力,适用于高维度数据的分类任务,即本文所研究的低成本物联网流量攻击检测任务.

2.2 正则化方法

为消解高维数据空间中的模型过拟合问题,本文提出的PCA-RLR模型采用了正则化方法,包括 L1(Lasso)、L2(Ridge)以及弹性网络(ElasticNet)惩罚项等.正则化方法可以防止过拟合,通过简化模型结构,帮助识别重要特征,并减少对噪声和异常值的敏感性,增强模型的稳定性,进一步提高其泛化能力.其中,L1 惩罚通过将不重要的特征缩减为零来促进稀疏性;L2 惩罚则控制权重的整体大小;弹性网络结合了 L1 和 L2 惩罚,在稀疏性和模型稳定性之间实现平衡.不同正则化方法的优缺点对比如表2所示.

1) L1(Lasso)惩罚函数

L1 惩罚将系数的绝对值之和添加到损失函数中.加入 L1 惩罚项的线性回归目标函数为:

 Lloss=MSE+ λj=1pβj,                   (4)

其中,MSE 是均方误差,λ 是控制正则化强度.L1 惩罚鼓励系数的稀疏性,使得一些系数恰好为零,从而有效地进行特征选择.

2) L2(Ridge)惩罚函数

L2 惩罚将系数的平方和添加到损失函数中.加入 L2 惩罚项的线性回归目标函数为:

                 Lloss=MSE+ λj=1pβj2.                         (5)

L2 惩罚将系数缩小至接近零,但通常不会导致精确的稀疏性,因为所有系数都会成比例地缩小.

3) 弹性网络(ElasticNet)惩罚

弹性网络结合了 L1 和 L2 惩罚,提供了 Lasso(L1)和 Ridge(L2)正则化之间的折中方案.其目标函数为:

    Lloss=MSE+ λ1j=1pβj+  λ2j=1pβj2,         (6)

其中,λ1λ2 控制 L1 和 L2 正则化的强度.

2.3 PCA-对数几率回归方法

PCA-对数几率回归是一种将主成分分析降维技术与对数几率回归模型的优势相结合的高效方法,它特别适用于处理高维数据集和复杂的分类问题,旨在提升模型的泛化能力和预测精度.该方法首先利用PCA技术,通过对原始高维数据进行线性变换,选择那些包含最多数据变异性的主成分,从而实现数据的降维处理16.这一步骤不仅减少了数据的维度,还消除了原始数据中的冗余信息和噪声,使得后续的分析更加简洁高效.

PCA-对数几率回归的算法流程结合了主成分分析(PCA)和对数几率回归两个步骤,该流程的详细步骤如下.

1) PCA降维算法步骤

a) 标准化计算:对输入特征 X 进行标准化,使每个特征的均值为0,方差为1.

b) 协方差矩阵计算:计算特征 X 的协方差矩阵 P.

c) 求解特征值和特征向量:对协方差矩阵 P 进行特征值分解,得到特征值和特征向量.

d) 主成分选择:选择具有最大特征值的前 k 个特征向量作为主成分.

e) 数据投影:使用选定的主成分对原始特征 X 进行线性变换,将高维数据降维至低维表示.

通过该过程,PCA-对数几率回归能够有效减少数据维度,降低计算复杂度,同时保留数据中最重要的信息,从而提高分类任务的性能.

2) PCA降维后的对数几率回归算法步骤

a) 将降维后的数据集划分为训练集和测试集,在训练集上构建对数几率回归模型,包括确定模型的参数,如权重和偏置.

b) 利用训练集的数据进行训练,采用梯度下降优化函数来实现.

c) 在模型训练完成后,使用测试集对模型进行评估,计算分类准确率、召回率、F1分数等性能指标,以验证模型的泛化能力.

d) 将训练好的对数几率回归模型应用于新的数据,进行分类或概率预测.对于新的数据样本,首先将其投影到PCA降维后的主成分空间中,得到降维后的特征表示.然后,将这些特征输入到对数几率回归模型中,通过计算Sigmoid函数的输出值,得到样本属于某个类别的概率预测.

e) 根据设定的阈值,可以将概率预测转换为分类结果,从而实现对新数据的分类或概率预测.

3 实验

3.1 RT-IoT2022数据集描述

RT-IoT2022 数据集17是由加利福尼亚大学尔湾分校数据仓库于2024年提供的一个基于实时物联网基础设施的攻击流量数据集,旨在提供低算力物联网设备遇到的复杂的网络攻击场景.该数据集涵盖正常和对抗性网络行为,提供了12种不同攻击类型的标注,包含123 117个实例和83种特征,真实再现了现实场景.数据来源包括 ThingSpeak-LED、Wipro-Bulb 和 MQTT-Temp 等多种低算力物联网设备,同时包含了多种物联网攻击场景,如暴力破解 SSH 攻击、使用 Hping 和 Slowloris 进行的 DDoS 攻击以及 Nmap 模式.网络流量的双向特性通过 Zeek 网络监测工具和 Flowmeter 插件进行了精确捕捉.与物联网流量相关的其他电力、水利等常用数据集不同,RT-IoT2022 数据集为相关研究人员提供了低算力物联网设备的流量攻击原始数据,以推动实时物联网网络安全解决方案的发展.

RT-IoT2022 数据集包含与网络流量相关的特征,本文通过 Python 进行数据集的可视化和统计分析,详细介绍了数据集的影响及数据处理过程,这些内容将在下一节实验设置中详细介绍.

通过直接输出元数据和变量,可以得知该数据集共包含 123 117 个实例和 83 个特征,其中包括实数型和类别型特征.数据集中不存在缺失值.该数据集包含 9 种攻击模式和 3 种正常模式,数据集统计信息如表3所示.

3.2 数据集可视化

本文使用 corr() 方法计算各属性与攻击类型之间的相关系数,部分结果展示如表4所示.通过所获得的特征与攻击类型之间的相关系数,本文使用 pandas.scatter_matrix() 函数绘制了与攻击类型相关性最强的前四个属性之间的关系图.散点矩阵将每个数值属性与其他数值属性进行比较,并为每个数值属性绘制直方图.从图3 中可以看出,flow_pkts_per_sec 属性与攻击类型有非常高的关联性.

3.3 实验环境配置

为提高模型的准确性,本文根据物联网流量攻击检测的任务需求将数据集标注重新映射为正常和攻击模式,标记攻击模式为1,正常模式为0.经过数据预处理后,数据集中包含110 610个攻击模式和12 507个正常模式.

首先,由于数据集中包含大量的文本分类标签,实验中对包含文本信息的列(如 ‘proto’ 和 ‘service’)进行了单独预处理,并使用独热编码将其转换为数值特征.同时,用于原始数据集中不同特征的数据尺度或范围各不相同,因此需要对数据进行标准化,以确保不同特征具有相似的尺度或范围.标准化处理有助于在模型训练过程中提高稳定性,加快优化算法的收敛速度,并提升模型的准确性和性能.

接着,将整个数据集划分为训练集和测试集,将20%的数据集划分为测试集.这里采用分层随机划分方法,以确保训练集和测试集中的正常流量与攻击流量的比例保持一致.分层划分可以确保测试集的类别分布与整个数据集相似,从而更准确地评估模型性能.本文的模型在 Google Colab 上运行,使用 Python 3.10,随机种子设为36以确保实验的可重复性,最大迭代次数为2 000.在对数几率回归模型的条件下,尝试了不同的正则化技术(L1、L2、ElasticNet)并使用不同的求解器,以防止过拟合并提高模型的泛化能力,旨在提高PCA-RLR模型的性能和泛化能力.

3.4 评价指标选择

类似于其他异常检测模型,PCA-RLR模型的性能评价将使用精度(precision)、召回率(recall)以及 F1 分数作为主要指标.精度衡量的是模型预测为异常的样本中实际为异常的样本所占的比例;召回率则表示模型在所有真实异常样本中成功检测到的比例.F1 分数综合了精度和召回率,为模型提供了整体性能评估.在后文中,精度、召回率和 F1 分数分别用 P、RF1 表示.计算公式为:

      P= NTPNTP+NFP ,                               (7)
     R= NTPNTP+NFN ,                               (8)
    F1= 2×P×RP+R,                             (9)

其中,NTP(true positive)表示实际为正且正确分类为正的样本数量;NFP(false positive)表示实际为负但被错误分类为正的样本数量;NFN(false negative)代表实际为正但被错误分类为负的样本数量.

4 实验结果与分析

4.1 不同正则化方法对模型准确性的影响分析

本文对对数几率回归模型进行了不同正则化方法和特征降维处理,在不同的正则化方法和特征降维之后,独立变量的重要性有所不同.例如,L1 正则化倾向于将某些特征的系数减少为 0,从而实现特征选择.这可能使得某些特征对模型的贡献更为明显,而其他特征可能被模型忽略.

本文实验对比了各正则化方法和PCA-RLR模型并进行了效果分析,结果如表5所示,不同正则化技术的影响分析如下.

1) 无正则化

未使用正则化时,模型的准确率为 96.98%.无正则化的模型倾向于拟合训练数据,这在处理多特征复杂数据集时,可能导致过拟合,使得模型在未见数据上表现不佳.

2) L2 正则化

L2 正则化通过惩罚模型参数,能够有效防止过拟合.在本实验中,L2 正则化有效提升了模型的准确性,准确率接近PCA-RLR模型,这可能是由于其提高了模型的泛化能力,使得模型在未见数据上的表现更好.

3) L1 正则化

L1 正则化倾向于稀疏化权重向量,即通过将某些特征的系数减小为零来实现特征选择.在本实验中,L1 正则化导致了略微较低的准确率,这可能是因为在某些情况下,L1 正则化会删除一些重要特征,影响模型性能.

4) 弹性网络

弹性网络结合了 L1 和 L2 正则化的优点,平衡了稀疏性和模型稳定性.在本实验中,弹性网络的准确率与 L2 正则化相似,并且可能在特征选择上表现更好.

5) PCA-RLR模型

使用 PCA 进行大幅度特征降维后,模型的准确率略有下降.但是,PCA -RLR模型能有效降低特征空间的复杂度,并加快模型训练速度.PCA 降低了数据的维度,可能丢失了一些信息,导致模型性能略有下降.然而,随着后期主成分数量选择的增加,PCA-RLR 方法的准确率超过了 L2 正则化方法,获得了最佳准确率.

4.2 不同求解器对模型准确性的影响分析

在对数几率回归模型中,不同的求解器会影响模型的训练速度和分类效果.为了证明本文提出的PCA-RLR模型中自适应求解器模块的必要性,在 L2 正则化的条件下,使用 “lbfgs”“liblinear”“newton-cg”“newton-cholesky”“sag”“saga” 等不同求解器,在本数据集上测试并比较准确率,如表6所示.结果显示,不同的求解器准确率不同,实验中“newton-cg”获得了最佳准确率,而“sag”的准确率最低.

由此,本文在提出的PCA-RLR模型中增加了自适应求解器模块,依据不同数据集的数据特征,自适应地选择匹配的求解器,从而提升求解准确率.经仿真实验,“saga”求解器适用于大数据集,而“liblinear”适用于小规模数据集(因篇幅原因,此处不再赘述实验细节).

4.3 PCA方法应用对模型性能的影响分析

在 PCA 降维过程中,所选主成分的数量会直接影响模型的表现.选择较少的主成分可能导致模型无法有效地表示数据的复杂性,从而导致欠拟合.而选择更多的主成分可能会提升模型性能,但也可能引入更多噪声.

本文实验了不使用PCA方法和不同特征降维后的对数几率回归模型的表现.通过将高维数据转换为低维数据,PCA 旨在保留最重要的特征信息,并减少数据的维度.然而,这个降维过程可能会影响对数几率回归模型的性能,其具体表现如表7所示.

1) 选择的主成分数量较少时,由于仅使用少量主成分来表示数据,模型可能会丢失一些重要信息.这导致模型欠拟合,无法捕捉数据中的所有关键变化,测试集上的表现较差,准确率较低.

2) 选择的主成分数量较多时,模型能够保留更多数据中的重要特征,但仍然会丢失一些细节信息.尽管如此,模型的表现有所提升.

3) 选择的主成分调优至最佳数量时,模型的准确率达到最高,达到 98.42%.这是因为在这一点上,模型可以利用更多的特征进行预测.

4) 当不使用PCA方法时,模型准确率开始下降.这可能是由于引入了与任务无关的特征,导致模型过拟合.

因此,主成分数量的选择直接影响 PCA 降维后对数几率回归模型的性能.可以通过交叉验证等方法来确定最佳的主成分数量,平衡模型的性能与复杂度,以实现最佳的预测效果.

4.4 模型评价指标分析

本文优化的PCA-RLR模型,在评估分类模型的拟合效果时,主要关注分类性能指标,包括准确率、混淆矩阵、精确率、召回率和 F1-score 等.这些指标用于评估不同模型在测试集上的分类性能,可以更好地理解模型的拟合效果和分类能力.具体的评估结果如下.

1) 准确率.实验结果中,在不同的正则化策略下,PCA-RLR模型的准确率均很高,约为 0.984 2,表明模型在预测测试集上的表现较好,具体结果如图 4 所示.

2) 混淆矩阵.混淆矩阵显示了模型在正常类别和攻击类别上的预测情况,从不同模型的混淆矩阵可以看出,true positive 和 true negative 的数量相对较高,而 false positive 和 false negative 的数量相对较低,表明模型误报率较低.

3) 精确率、召回率、F1-score.这些更详细的评估指标通常用于衡量模型在各个类别上的表现.实验结果表明,在不同的正则化策略下,正常类别和攻击类别上的精确率、召回率和 F1-score 都很高.总体来看,PCA-RLR模型的准确率高于其他模型,达到 0.984 2.这可能是由于 PCA 降维后对特征的区分度提高,有助于模型的整体预测准确率提升.

通过这些评价指标,实验展示了不同正则化方法对模型性能的影响,PCA 技术与对数几率回归方法的结合表现出较好的稳定性和准确性,特别是在应对复杂高维物联网流量数据的攻击检测任务时.

4.5 实验结果小结

实验结果展示了PCA对数几率回归模型在入侵检测任务中的有效性.观察不同正则化技术下的模型表现差异,L2正则化展现出较强的抗过拟合能力.PCA降维技术在提升模型效率的同时,保持了较高的准确率.

各模型中特征的重要性存在差异,这也突显了正则化对特征选择的影响.此外,求解器的选择对模型的收敛性和性能也有显著影响,这说明根据数据集特征谨慎选择求解器至关重要.

这些模型在评价指标上表现一致或相似,可能是由于使用相同的特征集和相似的数据分布,以及在默认参数配置下模型的相似预测能力.为了进一步比较模型性能并探索潜在的提升空间,可以尝试调整模型超参数、进行特征工程优化,或引入其他分类算法,继续评估更多指标以及模型在不同数据集上的泛化能力.

在泛化能力方面,实验结果表明对数几率回归模型在广泛的分类任务中具有潜力,不仅限于特定的物联网数据集.模型的泛化能力在很大程度上依赖于用来训练和评估的数据集的多样性和代表性.通过迁移学习技术,将从一个领域或数据集中获取的知识应用到另一个领域,可以进一步促进模型的泛化.

5 结束语

本文提出并探讨了PCA-RLR模型在低成本物联网流量入侵检测任务中的应用,模型应用了不同的正则化技术,以提高模型的鲁棒性,并结合PCA进行特征降维,旨在构建一个有效的低计算成本物联网流量入侵分类器,用于区分正常流量和攻击流量.

本文实验验证了提出的PCA-RLR模型在物联网流量入侵检测任务中的有效性,并根据数据差异构建了自适应求解器模块.这些实验为机器学习在低算力低成本的物联网网络安全领域的应用提供了有价值的见解,并为在低成本物联网环境中开发有效的流量入侵检测系统提供了新的解决方案.

实验表明,对数几率回归模型在不同物联网数据集中的正常流量与攻击流量分类任务中表现出色18.正则化技术在提高模型稳定性和防止过拟合方面发挥了关键作用,PCA方法有效减少了特征空间的维度,同时保留了重要信息,提高了模型效率,并减少了多重共线性问题,模型根据降维和分类精度之间的平衡选择最佳主成分19,求解器的选择会影响模型的收敛性和性能,因此本文提出了自适应求解器机制根据数据集特征选择合适的求解器.

随着物联网设备的广泛部署,恶意流量检测的复杂性和规模将不断增加.为了应对这一挑战,深度学习技术的融合将是一个重要的发展方向.深度学习方法具有更强的特征提取能力和对复杂模式的捕捉能力,能够处理更高维度的特征空间和更复杂的数据分布.未来的研究可以探索深度学习与传统机器学习模型的结合,通过多模态特征融合进一步提高检测的精度和鲁棒性.此外,考虑到深度学习模型的检测具有更好的普适性,低成本物联网环境下轻量级深度学习模型的开发也将成为一个重要的研究方向,以确保在有限计算资源下实现高效的入侵检测系统.

参考文献

[1]

刘奇旭,肖聚鑫,谭耀康,.工业互联网流量分析技术综述[J].通信学报202445(8):221-237.

[2]

LIU Q XXIAO J XTAN Y Ket al. Overview of industrial internet traffic analysis technology [J]. Journal on Communications202445(8): 221-237. (Ch).

[3]

KHRAISAT AGONDAL IVAMPLEW J. Survey of intrusion detection systems: techniques, datasets and challenges [J]. Cybersecurity20192(1): 1-22.

[4]

崔阿军.基于机器学习的网络入侵检测方法研究[D]. 兰州: 兰州理工大学, 2022.

[5]

CUI A J. Research on network intrusion detection methods based on machine learning[D]. Lanzhou: Lanzhou University of Technology, 2022. (Ch).

[6]

申煜铜.基于机器学习的物联网设备入侵检测算法研究[D]. 南京: 南京邮电大学, 2023.

[7]

SHEN Y T. Research on machine learning based IoT device intrusion detection algorithms[D]. Nanjing: Nanjing University of Posts and Telecommunications, 2023. (Ch).

[8]

王振东,张林,李大海.基于机器学习的物联网入侵检测系统综述[J].计算机工程与应用202157(4):18-27.

[9]

WANG Z DZHANG LLI D H. Overview of IoT intrusion detection systems based on machine learning [J]. Computer Engineering and Applications202157(4): 18-27. (Ch).

[10]

LIAO H JLIN C HLIN Y Cet al. Intrusion detection system: a comprehensive review [J]. Journal of Network and Computer Applications201336(1): 16-24.

[11]

张磊.基于深度学习的物联网恶意流量识别技术研究[D]. 济南: 齐鲁工业大学, 2024.

[12]

ZHANG L. Research on deep learning based malicious traffic identification techniques in IoT[D]. Jinan: Qilu University of Technology, 2024. (Ch).

[13]

尚盼, 孔令臣.正则化回归模型的最优调节参数选择[J].数值计算与计算机应用202445(2):154-173.

[14]

SHANG PKONG L C. Optimal tuning parameter selection for regularized regression models[J]. Journal of Numerical Methods and Computer Applications202445(2): 154-173. (Ch).

[15]

胡晓红,缪祥华,袁梅宇.基于主成分分析和随机森林的DDoS攻击检测模型研究[J].化工自动化及仪表202249(2):215-218;231.

[16]

HU X HMIAO X HYUAN M Y. Research on DDoS attack detection model based on principal component analysis and random forest[J]. Control and Instruments in Chemical Industry202249(2): 215-218;231. (Ch).

[17]

GE DDONG ZCHENG Y Het al. An enhanced spatio-temporal constraints network for anomaly detection in multivariate time series[J/OL]. Knowledge-Based Systems2024283[2024-09-25].

[18]

GÉRON A. Hands-on machine learning with scikit-learn, keras, and tensorflow: concepts, tools, and techniques to build intelligent systems [M]. 2nd ed. Sebastopol: O’Reilly Media, 2019.

[19]

KLEINBAUM D GDIETZ KGAIL Met al. Logistic regression [M]. Berlin: Springer, 2022.

[20]

胡健.基于正则化回归的物联网海量多源异构数据处理方法[J].物联网技术202414(7):93-95.

[21]

HU J. Regularized regression based method for handling massive multi-source heterogeneous data in IoT[J]. Internet of Things Technologiesis202414(7): 93-95. (Ch).

[22]

李娴静.基于PCA-ICA方法的工业控制系统完整性攻击检测研究[D]. 杭州: 浙江大学, 2021.

[23]

LI X J. Research on Integrity attack detection in industrial control systems based on PCA-ICA method[D]. Hangzhou: Zhejiang University, 2021. (Ch).

[24]

陈翔,唐俊勇.基于贝叶斯与因果岭回归的物联网流量预测模型[J].四川大学学报(自然科学版)201855(5):965-970.

[25]

CHEN XTANG J Y. IoT traffic prediction model based on Bayesian and causal ridge regression[J]. Journal of Sichuan University (Natural Science Edition)201855(5): 965-970. (Ch).

[26]

MUSA A B. A comparison of 1-regularization, PCA, KPCA, and ICA for dimensionality reduction in logistic regression [J]. International Journal of Machine Learning and Cybernetics20145:861-873.

[27]

SHARMILA BNAGAPADMA R. RT-IoT 2022, UCI machine learning repository [EB/OL]. (2024-01-04) [2024-09-25].

[28]

SHARMILA BNAGAPADMA R. Quantized autoencoder (QAE) intrusion detection system for anomaly detection in resource-constrained IoT devices using RT-IoT2022 dataset [J]. Cybersecurity20236(4): 1-15.

[29]

吕海滨.面向物联网的入侵检测系统中数据处理技术研究[D]. 北京: 中国人民公安大学, 2024.

[30]

LYU H B. Research on data processing techniques in IoT intrusion detection systems [D]. Beijing: People's Public Security University of China, 2024. (Ch).

基金资助

国家自然科学基金项目(62276196)

AI Summary AI Mindmap
PDF (1660KB)

110

访问

0

被引

详细

导航
相关文章

AI思维导图

/