基于抗噪加权模糊粒度量的样本和特征双选择

李嘉豪 ,  折延宏 ,  贺晓丽 ,  钱婷 ,  郑文利

山西大学学报(自然科学版) ›› 2026, Vol. 49 ›› Issue (1) : 29 -41.

PDF (2303KB)
山西大学学报(自然科学版) ›› 2026, Vol. 49 ›› Issue (1) : 29 -41. DOI: 10.13451/j.sxu.ns.2025110
2025年中国粒计算与知识发现学术会议(CGCKD2025)论文选登

基于抗噪加权模糊粒度量的样本和特征双选择

作者信息 +

Bi-selection of Instances and Features Based on Denoising Weighted Fuzzy Granular Measure

Author information +
文章历史 +
PDF (2357K)

摘要

尽管现有基于相对模糊粗糙集的特征选择方法在相似关系计算中已尝试刻画样本的离群分布来增强鲁棒性,但仍未能有效抑制潜在噪声的干扰,且未能进一步压缩数据规模。鉴于此,本文提出基于抗噪加权模糊粒的双选择方法:首先设计基于抗噪离散因子的相对距离度量,实现依据局部样本密度分布的自适应调整。其次构建抗噪加权模糊粒,完成双选择框架下的模型粒化。最终设计基于该粒结构的双选择算法BS-RFRS,在最大化数据约简的同时提升分类性能。通过在12个基准数据集上的实验验证,该算法在分类准确率与有效性方面显著优于其他5种所比较的双选择算法,其中在医疗诊断数据集和工业控制数据集上取得非常显著的准确率提升,且有效性较传统双选择模型有所提高。在标签噪声影响下,BS-RFRS的分类准确率相比于BSNID (bi-selection approach based on neighborhood importance degree)模型和BSFRS (bi-selection method based on fuzzy rough sets)模型分别平均提升19.9%和42.7%。

Abstract

Existing feature selection methods based on relative fuzzy rough sets have attempted to characterize instance outlier distribution in similarity calculation to enhance robustness, but still fail to effectively suppress potential noise interference and cannot further compress data scale. To overcome this issue, this paper proposed a bi-selection method using denoise-weighted fuzzy granules (BS-RFRS). A relative distance measure with a denoise discretization factor for adaptive adjustment based on local instance density was designed. Denoise-weighted fuzzy granules were then constructed for model granulation within the bi-selection framework. Based on this granular structure, the paper proposed the BS-RFRS algorithm to maximize data reduction while improving classification performance. Experiments on 12 benchmark datasets demonstrated that BS-RFRS significantly outperforms five other bi-selection algorithms in classification accuracy and effectiveness. It achieves particularly notable accuracy gains on medical diagnosis and industrial control datasets, and shows improved effectiveness over traditional models. Under label noise, the classification accuracy of BS-RFRS is on average improved by 19.9% and 42.7% compared with the BSNID model and the (bi-selection method based on fuzzy rough sets) (BSFRS) model, respectively.

Graphical abstract

关键词

模糊粗糙集 / 样本分布密度 / 抗噪权重 / 相对距离度量 / 粒计算

Key words

fuzzy rough sets / instance distribution density / denoising weight / relative distance metric / granular computing

引用本文

引用格式 ▾
李嘉豪,折延宏,贺晓丽,钱婷,郑文利. 基于抗噪加权模糊粒度量的样本和特征双选择[J]. 山西大学学报(自然科学版), 2026, 49(1): 29-41 DOI:10.13451/j.sxu.ns.2025110

登录浏览全文

4963

注册一个新账户 忘记密码

0 引言

随着数据规模的不断变大,在数据处理以及数据挖掘1等领域都面临着前所未有的挑战。受限于有限的计算机硬件性能,人们也越来越需要发展数据约简技术2来对海量数据进行约简处理。数据约简技术不仅可以消除冗余数据,减少计算量和运行时间,也可以剔除影响算法最终效果的噪声以及低质量的样本和特征,从而提高准确率等性能指标。

样本选择3是有效的数据约简技术之一,其通过减少冗余样本以及噪声样本的方式来减少数据规模并提炼出原始数据集的关键信息。García等4使用了一种模因算法来选择样本并将群体智能算法和局部搜索算法相结合。Tsai等5提出了一种有效的遗传算法来进行样本选择,通过适应生物的进化方式最终得到适应值最高的个体。Zhang等6提出了一种基于邻域分布理论的样本选择算法,首次同时结合了数据空间的密度特征和决策信息来评估样本的邻域环境。此外,基于神经网络、模糊粗糙集等的样本选择方法也已被提出7-9

特征选择10作为数据约简中较为重要的技术之一,在解决维数灾难11、数据规模过大等问题上发挥了重要的作用。在Pawlak12首次提出知识粒的概念后,在粒计算13-16等领域对于特征选择技术的研究非常广泛,包括但不限于模糊粗糙集、邻域粗糙集、粒球计算等。为了解决经典粗糙集只能评估分类特征的不足,Hu等17提出了一种基于邻域粗糙集的前向特征搜索算法。此外,对于经典Shannon信息熵18的拓展,Hu等19还提出了一种新的邻域熵来衡量特征集在算法中的重要性以及相关性。与传统邻域粗糙集方法不同,An等20提出了基于相对模糊粗糙集模型的特征选择方法,在经典的模糊粗糙集的基础上考虑了样本分布的密集程度。Huang等21为解决分层语义的数据约简问题,提出了一种基于模糊依赖度的用于动态层次分类的特征选择方法。与此同时,基于粒计算进行特征选择的方法22-26也在不断涌现。以上提到的特征选择模型中,大多集中于相似关系及隶属度的计算,而未能有效处理噪声因素27对于分类结果的影响。为了更好地减小噪声对分类的影响,本文提出了一种新型的抗噪加权模糊粒模型,该模型能够在相似度度量时对噪声进行模型修正。

为了进一步进行数据约简,将样本选择和特征选择同时进行的双选择技术也受到不同领域学者的关注。在去除冗余样本的基础上进一步对特征集进行约简,可以更大程度上缩小数据规模。Ślęzak等28最先提出双向约简的概念,将样本选择和特征选择技术相结合。Zhang等29提出了一种基于模糊粗糙集模型的双选择方法BSFRS(bi-selection method based on fuzzy rough sets),定义了一种新的重要性程度函数作为评价指标来选择代表性样本和约简的属性集。同时,Zhang等30注意到在邻域粗糙集领域关于双选择方法的研究较少,于是提出了一种基于邻域粗糙集模型的双选择方法。Quan等31通过引入β参数,提出了基于β一致性粒化机制的模糊粗糙集双选择模型,来应对大规模数据的挑战。值得注意的是,Zhang等29提出了删除潜在噪声的处理方法,但此方法对于位于噪声边界的潜在噪声无法有效识别。针对这一局限,本文提出的抗噪加权模糊粒模型能够对潜在噪声进行有效修正,避免忽视靠近噪声边界的噪声影响。

基于上述分析,经典的模糊粗糙集双选择模型忽视了样本分布密集程度的影响,同时现有策略未能有效处理位于噪声边界的潜在噪声。因此,为克服上述局限,本文提出了基于抗噪加权的相对模糊粗糙集模型来构建一种新型的抗噪加权模糊粒,以便在双选择算法中可以考虑到样本分布的密集程度以及噪声因素的影响。基于此抗噪加权模糊粒,进一步提出一种新的双选择算法BS-RFRS。经过12个不同规模的数据集以及3项实验指标的数据实验,我们验证了BS-RFRS算法在分类准确率、有效性以及抗噪鲁棒性等方面具有显著的优势。

本文结构安排如下:第1节回顾模糊粗糙集的预备理论知识;第2节简要概述基于抗噪加权的相对模糊粗糙集模型以及对于抗噪加权模糊粒的构造;第3节详细阐述新提出的基于抗噪加权模糊粒的BS-RFRS算法;第4节在数值实验中展示了BS-RFRS算法的性能表现;第5节为本文的总结部分。

1 预备知识

1.1 模糊粗糙集

在模糊粗糙集14模型中,设U为一个非空论域且FU×U是在U×U上的模糊幂集。如果R  FU×U,则R被称为模糊关系,其中Rx,y度量了xy之间的模糊关系。关于模糊关系更加详细的定义见文献[14]。在本文中,任意两个样本xUyU的模糊关系Rx,y的计算定义为:

Rx,y=exp-Dx,yδ

其中Dx,y刻画了样本xy之间的“距离”。任意的两个样本xUyU,如果模糊关系满足Rx,y=Ry,x,则我们称其满足对称性。若模糊关系满足Rx,x=1,则称其满足自反性。任意的三个样本x,y,zU如果满足Rx,yTRx,y,Ry,z则称其为T-传递15的,其中T为三角范数。特别地,当T=min时,R为模糊等价关系。

在模糊粗糙集理论中,还用到了上下近似来衡量某一元素属于一个特定集合的可能性程度和确定性程度:

R̲Xxi=infxjUmax1-Rxi,xj,Xxj
R¯Xxi=supxjUminRxi,xj,Xxj,

其中R̲Xxi代表了xiR关系下,属于X的下近似的隶属度,其中下近似表达了xi属于X的确定性程度。R¯Xxi代表了xiR关系下,属于X的上近似的隶属度,其中上近似表达了xi属于X的可能性程度。

1.2 模糊信息系统以及模糊决策系统

U,A为一个模糊信息系统16,其中论域U= x1,x2,,xn,特征集A= a1,a2,,am。对于at A存在一个映射使得at:UVat,其中Vatat的定义域,由此模糊关系R{at}可以被称为在模糊幂集FU×U上的一个模糊集合。R{at}xi,xj用来描述xi,xj关于特征at的相似程度。

在单决策特征的情况下,通过加入决策特征DU,A中,其中AD=,我们可以得到一个模糊决策系统U,AD,其中A被称为条件特征集,D被称为决策特征。论域U可以通过D划分为相互非交的子集U/D=xiD:xiU,其中xiD={xjU:Dxi=Dxj}被称作xi所属的决策类。此外,关于决策类xiD的隶属函数为:

[xi]D(xj)=1,xj[xi]D0,xj[xi]D

由此,设有一个模糊决策系统U,AD,其中U= x1,x2,,xnBA,则对每个 xiU,若xjxiD,我们有:

RB̲xiDxj=infxkxiD1-RBxj,xk

xjxiD

RB¯xiDxj=supxkxiDRBxj,xk

2 抗噪加权的相对模糊粗糙集

2.1 基于标准差的相对距离

在如欧氏距离和切比雪夫距离等经典的距离度量中,并没有考虑到样本之间的密集程度。例如在图1中,设样本x与样本yz的距离相同。按照最近邻(Nearest Neighbor,NN)分类器的定义,x属于类别1的可能性和x属于类别2的可能性相同。但图中类别2的样本分布更加稀疏,类别1的样本分布更加紧密,直观上来看,x属于类别2的可能性应该更高。因此在进行距离的计算时需要考虑到样本的分布情况。为解决此类问题,引入相对距离20的概念。

定义120U,AD为一个模糊决策系统,其中U=x1,x2,,xnA=a1,a2,,am且特征集BA。将任意两个样本x,yU在特征集B度量下的相对距离记为DrBkx,y

DrBkx,y=DBx,y1+Sky

其中上标k为超参数,Sky为样本y距离最近的k个同类样本(包含其自身)之间的标准差。

根据图2所示,样本x与样本yz在特征集B度量下的距离相同。设超参数k=4,经过计算会得到S4y>S4z。由公式(6)可知,使用相对距离来度量时,DrB4x,y<DrB4x,z。故在NN分类器下可得出x应该属于类别2,符合直观结果。可见由于考虑了样本分布的离散程度,相对距离相较于普通的距离计算更具有适用性。

2.2 基于抗噪加权的相对距离

在定义1中所定义的相对距离度量虽然考虑了样本的分布离散程度,但忽略了潜在噪声的影响,这将导致其在噪声较多的数据环境中表现不佳。如图3所示,样本x与样本y1z1在特征集B=a1,a2度量下的距离相同,但样本y1由于离群程度较高,有可能为数据集中的噪声。图3实例中的简要模糊信息系统如表1所示。

假设待分类样本x与样本y1z1的距离同为d,经过标准差计算可得Sky1=0.061 2Skz1=0.040 8,即Sky1>Skz1。此时,根据定义1来计算相对距离会有DrBkx,y1<DrBkx,z1,在NN分类器下x依然会被判别为类别2。在样本y1为噪声的情况下,这显然是不正确的分类结果。为了解决此类问题,我们提出了抗噪加权距离来进行复杂环境的距离度量。

定义2U,AD为一个模糊决策系统,其中U=x1,x2,,xnA=a1,a2,,am且特征集BA。将任意两个样本x,yU在特征集B度量下的抗噪加权距离记为𝒟wBkx,y。计算公式如下:

𝒟wBkx,y=DBx,y1+ξky

其中ξky为抗噪离散因子。如图3所示,设距离样本y最近的k个同类样本为y1,y2,,yk(包含y自身,为方便后续公式表达记yy1),yc为这k个样本的中心点,对于atBatyc=p=1kat(yp)/k。基于上述条件,将抗噪离散因子ξky的计算公式定义为:

ξky=p=1kDyp,yc-D¯2k-1×ωky2

其中D¯k个样本y1,y2,,yk与中心点yc的距离平均值,ωkyy的离群权重,计算公式为:

ωk= Dy,ycminp=1kDyp,yc

由上式可知随着y的离群程度变大,权重ωky随之增加,导致ξky减小,最终引起抗噪加权距离DwBkx,y变远。如图3中所示,若y1的离群程度较大,使得DwBkx,y1>DwBkx,z1,为辅助理解,本文在此对图3所示情况进行数值实例的推导:根据公式(9)可以计算出ωky1=2.25ωkz1=1,进一步根据公式(8)可得ξky1=0.061 2/2.25=0.027 2,同理可得ξkz1=0.040 8,故ξky1<ξkz1。由于DBx,y1=DBx,z1=d,故由公式(7)可推得𝒟wBkx,y1>𝒟wBkx,z1。借此,NN分类器会将其判为类别1,符合直观判断。基于上述分析,抗噪加权距离在具有潜在噪声的环境下具有更强的适用性。

2.3 抗噪加权模糊粗糙集

定义3U,AD为一个模糊决策系统,其中U=x1,x2,,xnA=a1,a2,,am。对于任意样本xiU和样本集合XUxi对于X的抗噪加权模糊上下近似的隶属度计算如下:

Rw̲Xxi=infxjUmax1-Rwxi,xj,Xxj
Rw¯Xxi=supxjUminRwxi,xj,Xxj

其中Rwxi,xj为样本xixj的抗噪加权模糊关系,上标w为权重的语义。当BA,对于任意的两个样本xUyURwBx,y的计算定义为:

RwBx,y=exp-𝒟wBkx,yδ

由上式可知当 xjxiD

RwB̲xiDxj=infxkxiD1-RwBxj,xk

以及当 xjxiD

RwB¯xiDxj=supxkxiDRwBxj,xk

2.4 抗噪加权模糊粒

在接下来第3节介绍的双选择算法中,判断一个样本能否“覆盖”另一个样本是非常重要的。在这里通过构建抗噪加权模糊粒的方法来进行判断。

定义4U,AD为一个模糊决策系统,其中U=x1,x2,,xnA=a1,a2,,am,且特征集BA。对于任意样本xi,xjU,抗噪加权模糊粒xiBΥi定义为:

xiBΥixj=Υi,𝒟wBkxi,xj<Υi0,𝒟wBkxi,xjΥi

其中Υi=RwA̲xiDxiΥi为以下近似形式存在的覆盖边界。当xiBΥixj>0时,则有𝒟wBkxi,xj<Υi成立,由下近似计算公式(11)可知,这代表了样本xixj的抗噪加权距离小于xi与其最近异类样本xkxiD的抗噪加权距离。因此可以认为这种情况下粒xiBΥi可以覆盖样本xj

定义5U,AD为一个模糊决策系统,其中U=x1,x2,,xnA=a1,a2,,am,且特征集BA。对于任意样本xi,xjU,粒xiBΥi的覆盖集合CovxiBΥi定义为:

CovxiBΥi=xj:xiBΥixj>0

3 样本与特征双选择算法

3.1 抗噪加权样本选择

样本选择算法的核心目标是通过筛选具有代表性的样本子集实现对原始大规模样本集的有效表征。在模型训练过程中,噪声干扰的普遍存在性与离群样本的模糊性导致难以准确判定特定样本是否为噪声。鉴于此,相较于模糊粗糙集双选择模型29采用的噪声删除策略,抗噪加权样本选择通过引入抗噪加权模糊粒,对潜在离群点的距离计算进行离散校准,而非直接删除。为此,我们引入了模糊粗糙集双选择模型中的重要性程度29的定义并对其进行抗噪加权的自适应改造,改造后的定义6和定义7如下。

定义6U,AD为一个模糊决策系统,其中U=x1,x2,,xnA=a1,a2,,am。对于任意样本xiU构造的抗噪加权模糊粒xiAΥi,其重要性程度FxiAΥi定义为:

FxiAΥi=Υi CovxiAΥi

其中·为基数,抗噪加权模糊粒xiAΥi覆盖的样本个数CovxiBΥi越多,则该粒的覆盖能力越强。借此可引申到样本xi所具有的覆盖能力大小并以此判断样本的重要性。由公式(15)可知,对于样本重要性程度的考虑因素不仅有样本的覆盖能力CovxiAΥi,同时也考虑样本属于其自身决策类的确定性程度。这代表了如果出现两个样本的覆盖能力相同的情况,则Y较大的样本其重要性程度F较大。完成F的定义后,抗噪加权样本选择算法的具体过程可以分为以下几步:

首先以数据集中所有样本构建抗噪加权模糊粒xAΥ并计算其覆盖能力CovxAΥ。然后根据公式(15)计算出所有粒的重要性程度FxAΥ,挑选出重要性程度值最大的样本x0,即x0=argmaxxUFxAΥ,将样本x0加入到前向搜索集合U*中并将集合Covx0AΥ0中所包含的样本(包括x0自身)从原数据集U中删除。最后进行迭代判断,如果所有的样本都被挑选出或者被删除,则循环结束,输出前向搜索集合U*,否则继续挑选FxAΥ最大的样本并进行循环。算法伪代码如算法1所示。

为了在加速样本选择的同时避免因实时更新下近似而造成大量有效样本被剔除。在迭代步骤的7-12剔除样本时,沿用步骤1-5中计算的FxiAΥi

现在对算法1进行最大时间复杂度分析。算法1中步骤2-4的时间复杂度为OU2×A×k,步骤5-6的时间复杂度为OU×A,步骤7-12的时间复杂度为OU2×A。综合来看,算法1总共的最大时间复杂度为OU2×A×k

3.2 抗噪加权特征选择

经过算法1后,因为原来的样本集U经过选择后为样本集U*,模糊决策系统变为U*,AD。特征选择算法则是在此基础上对特征集A进行选择得到特征集A*,借此将整个数据集进一步压缩,减少模型训练时的计算量。在特征选择算法中我们依然需要用到先前提出的抗噪加权模糊粒xiBΥi,同时对重要性程度的计算进行改造,使其适用于抗噪加权特征选择任务。

定义7U*,AD为一个模糊决策系统,其中U*=x1,x2,,xnA=a1,a2,,am,且有任意特征集BAxiU*构造的粒xiBΥi的重要性程度LxiBΥi定义为:

LxiBΥi*=Υi*  CovxiAΥi*2CovxiBΥi*

值得注意的是公式(16)定义的LxiBΥi公式(15)定义的FxiAΥi不同,区别在于前者量化的是特征集B的选取影响。由于样本集由U变为了U*,因此对于任意样本xiU*,有Υi*=RwA̲xiD*xi。在特征选择算法中,我们不对单个粒的重要性程度进行比较,而是对U*整体进行考虑。因此我们将所有抗噪加权模糊粒在任意特征集B下的重要性程度之和记为ϕU*B,其计算公式如下:

ϕU*B=LxiBΥi*

其中根据文献[29]中的定理1,ϕU*满足单调性,即ϕU*B-at<ϕU*B。根据以上定义,在相同样本集的情况下,ϕU*B越大,代表所有抗噪加权模糊粒在特征集B下的重要性程度之和越大。因此可以用重要性程度之和ϕU*来衡量特征集重要与否。完成ϕU*的定义后,本文中抗噪加权的前向搜索特征选择算法具体过程可以分为以下几步:

初始化前向搜索特征集A*。首先计算出所有抗噪加权模糊粒在样本集U*下的重要性程度LxiAΥi*,然后根据公式(16)和(17)计算出ϕU*A。从未选择的特征中选择单个特征a0A-A*,其中a0=argmaxatA-A*ϕU*A*at,并更新A*A*a0。最后判断条件ϕU*A*<ϕU*A,如果满足则继续循环,不满足则输出A*

现在对算法2进行最大时间复杂度分析。算法2中步骤2—4的最大时间复杂度为OU*2×A×k,步骤6—9的最大时间复杂度为OU*2×A2。综上所述,算法2的最大时间复杂度为OU*2×A×A+k

经过算法2选择的特征集A*并不一定是最佳约简的特征集,最后我们通过包装器算法对特征集A*进行进一步约简为Aw,在此不对此包装器算法进行赘述。最后,本文所提出的双选择算法(BS-RFRS)过程如算法3所示。

4 数值实验

在此部分,我们使用了从UCI等来源的12个数据集进行数值实验来评价BS-RFRS算法的性能表现。这些数据集在表2简述。

4.1 评价指标

于此,我们采用了3个指标来对BS-RFRS算法进行性能评价,分别是分类准确率、约简率、有效性。

(1)分类准确率:在双选择中,样本选择和特征选择都会对模型的预测性能产生影响。样本选择通过消除冗余数据和噪声来更好地服务于特征选择,特征选择则是在约简样本集的基础上消除冗余特征。最终的准确率用来评估所选择约简特征集的质量。分类准确率计算公式如下:

racc=IRI

其中集合IR为分类正确的样本,I为全部样本。

(2)约简率:约简率反映了算法在数据压缩上的效率。高约简率可以减小数据规模和计算负担,但需要保证准确率不显著下降。约简率计算公式如下:

rred=1-U*U×AwA

(3)有效性:有效性反映了权衡考虑约简率和分类准确率两者,由约简率和准确率的乘积计算。计算公式如下:

reff=rred×racc

4.2 实验设计

(1)数据集预处理:首先,数据集中所有数据需要进行归一化处理,使得a'xi0,1,即对每个xiU通过下式归一化:

a'xi=axi-minjaxjmaxjaxj-minjaxj

在数据归一化处理之后,为了满足算法所需要的数据集模式,对每个数据集进行划分。实验中使用了十折交叉验证方法,每一折实验中,取出随机不同的10%的样本作为测试集,剩下90%的样本作为训练集。同时,在更进一步的抗噪对比实验中,我们分别随机将每个数据集的10%、30%、50%的数据标签异化,使其成为标签噪声数据。通过不同的噪声比例来对比方法之间的抗噪性能。

对于任意的两个样本xi,xjU的距离Dx,y采用切比雪夫距离进行计算:

Dx,y=maxatAatx-aty

(2)对比算法:为了检验BS-RFRS算法的性能表现,我们挑选了5个双选择算法进行对比。其中第一个算法为基于模糊粗糙集的双选择算法BSFRS29,第二个算法为基于邻域粗糙集的双选择算法BSNID(bi-selection approach based on neighborhood importance degree)30。为了有更多对比算法,我们用较为具有代表性的样本选择算法RIS9和NID30与三个特征选择算法RFRS20、FSI25以及NRBO26进行组合,形成三个双选择算法RIS-FSI、RIS-RFRS和NID-NRBO来进行对比。

(3)实验参数设置及环境:对于BS-RFRS算法,在抗噪加权距离DwBkxi,xj的计算中,需要找到xjk个同类近邻来进行抗噪离散因子ξk xj的计算。因此超参数k不同的设置可能对算法结果产生影响,在本次实验中,我们使参数k分别从1到10依次进行选取。实验中统一采用KNN分类器,其中K=3,即3NN分类方法。

我们使用Matlab R2021b进行数值实验。实验工作站硬件配置为 12th Gen Intel(R) Core(TM) i5-12500H 3.10 GHz,以及16.0 GB内存和windows11操作系统。所有实验重复20次。

4.3 实验结果

数值实验中的六个算法在全部的12个数据集上的实验结果将在表格中展示,其中包括分类准确率、约简率、有效性三个实验指标。实验结果将在如表3表5中展示。对于超参数k对算法性能表现所带来的影响将在图4中进行展示。混合不同比例标签噪声的抗噪性能对比实验结果在图5展示。

(1)分类准确率:从表3中可以看到BS-RFRS算法在分类准确率方面具有明显的优势。其中BS-RFRS算法在12个数据集中有10个数据集达到了最优,2个数据集中达到了次优。在小规模数据集中例如Wine、 WDBC(Wisconsin Diagnostic Breast Cancer)、 Sonar等为最优算法,同时在高维数据集Darwin中BS-RFRS算法也为最优算法。在大规模数据集中如CTG(Cardiotocography)、WDG2(Waveform Database Generator Version 2)、Thyroid以及Gamma中,达到了最佳的性能表现且在Robot和WDG1(Waveform Database Generator Version 1)数据集中表现为次优。由表3观察得,基于抗噪加权模糊粒构造的BS-RFRS算法在不同数据规模的数据集中皆表现优越。

(2)约简率:从表4中可以看到BS-RFRS算法在约简率方面表现较为平庸。在同样样本的情况下,由于相对距离的计算小于经典的切比雪夫距离,因此BS-RFRS算法所选择的样本数量偏多。不过,BS-RFRS算法在所有对比算法当中,约简率依然处于一个中等的性能表现。

(3)有效性:从表5中可以看到BS-RFRS算法在有效性方面具有明显的优势。其中BS-RFRS算法在12个数据集中有9个数据集达到了最优,2个数据集中达到了次优。根据有效性的定义,BS-RFRS算法在权衡分类准确率和约简率方面性能表现出色,可以很好地体现出BS-RFRS算法在双选择算法中的优势。

此外对于超参数k来说,其很大程度上影响了算法在不同数据集上的性能表现。因此在图4中展示以上实验在不同数据集上的最佳k值选取。观察图4可知在12个数据集中有10个在k>1时的性能表现最佳,这代表BS-RFRS中使用参数k值来判别噪声在大多数情况下可以提升算法表现。

更进一步地,我们对原始数据集实验中表现最优的三个算法BS-RFRS、BSNID、BSFRS进行抗噪对比实验。通过随机制造10%、30%、50%的标签噪声进行对比,对比结果如图5所示。在30%以及50%的噪声环境下,BS-RFRS的抗噪性能优势显著,BS-RFRS在三种噪声比例下的平均分类准确率为0.813 7,而BSNID和BSFRS分别为0.703 7和0.649 8。特别的,在50%的高标签噪声环境下BS-RFRS相对于BSNID和BSFRS分别提升了27.24%和40.17%。由此可见,在抗噪性能方面BS-RFRS有着明显优势。

图6图7分别展现了分类准确率和有效性的临界差异图,据图中显示,BS-RFRS在分类准确率和有效性的表现中处于领先地位。

5 结论

在本文中,我们通过对基于标准差的相对距离进行改进,并提出抗噪加权模糊粒的构造方法,最终提出了BS-RFRS算法。该算法能够在考虑样本分布离散程度及噪声影响的情况下完成双选择的任务。BS-RFRS算法在分类准确率以及有效性两个实验指标上有显著的优势,这代表着BS-RFRS算法不光有着优异的分类准确率表现,而且在约简率和分类准确率的权衡上也有着优异的效果。在抗噪性能对比实验中,BS-RFRS相较于传统双选择算法的分类准确性平均提升了42.7%,性能显著提升。

在未来,双选择算法具有应用于不同的特定工程领域的潜力。后续工作中,在如分层分类等领域继续探索双选择算法。更进一步,由于增量学习方法在整体时间复杂度上具有相对优势,且更符合工程中数据不断扩增的应用场景。未来可以在增量式角度改进基于相对模糊粗糙集模型的双选择算法,以此来满足实际工程中数据不断增长变化的要求。

参考文献

[1]

CHEN M S, HAN J W, YU P S. Data Mining: an Overview from a Database Perspective[J]. IEEE Trans Knowl Data Eng, 1996, 8(6): 866-883. DOI: 10.1109/69.553155 .

[2]

LELEWER D A, HIRSCHBERG D S. Data Compression[J]. ACM Comput Surv, 1987, 19(3): 261-296. DOI: 10.1145/45072.45074 .

[3]

OLVERA-LÓPEZ J A, CARRASCO-OCHOA J A, MARTÍNEZ-TRINIDAD J F, et al. A Review of Instance Selection Methods[J]. Artif Intell Rev, 2010, 34(2): 133-143. DOI: 10.1007/s10462-010-9165-y .

[4]

GARCÍA S, CANO J R, HERRERA F. A Memetic Algorithm for Evolutionary Prototype Selection: A Scaling up Approach[J]. Pattern Recognit, 2008, 41(8): 2693-2709. DOI: 10.1016/j.patcog.2008.02.006 .

[5]

TSAI C F, CHEN Z Y. Towards High Dimensional Instance Selection: an Evolutionary Approach[J]. Decis Support Syst, 2014, 61: 79-92. DOI: 10.1016/j.dss.2014.01.012 .

[6]

ZHANG X, YANG Q, QIAN T. Learning to Select Representative Instances Based on Neighborhood Distribution[J]. Neurocomputing, 2025, 654: 131320. DOI: 10.1016/j.neucom.2025.131320 .

[7]

BRIGHTON H, MELLISH C. Advances in Instance Selection for Instance-based Learning Algorithms[J]. Data Min Knowl Discov, 2002, 6(2): 153-172. DOI: 10.1023/A:1014043630878 .

[8]

ZHANG Q, ZHU Y, CORDEIRO F R, et al. PSSCL: a Progressive Sample Selection Framework with Contrastive Loss Designed for Noisy Labels[J]. Pattern Recognit, 2025, 161: 111284. DOI: 10.1016/j.patcog.2024.111284 .

[9]

ZHANG X, MEI C L, CHEN D G, et al. A Fuzzy Rough Set-based Feature Selection Method Using Representative Instances[J]. Knowl Based Syst, 2018, 151: 216-229. DOI: 10.1016/j.knosys.2018.03.031 .

[10]

VENKATESH B, ANURADHA J. A Review of Feature Selection and Its Methods[J]. Cybern Inf Technol, 2019, 19(1): 3-26. DOI: 10.2478/cait-2019-0001 .

[11]

ALTMAN N, KRZYWINSKI M. The Curse(s) of Dimensionality[J]. Nat Methods, 2018, 15(6): 399-400. DOI: 10.1038/s41592-018-0019-x .

[12]

PAWLAK Z. Rough Sets[J]. Int J Comput Inf Sci, 1982, 11(5): 341-356. DOI: 10.1007/BF01001956 .

[13]

ZADEH L A. Granular Computing and Rough Set Theory[M]//Rough Sets and Intelligent Systems Paradigms. Berlin, Heidelberg: Springer Berlin Heidelberg, 2007: 1-4. DOI: 10.1007/978-3-540-73451-2_1 .

[14]

DUBOIS D, PRADE H. Rough Fuzzy Sets and Fuzzy Rough Sets[J]. Int J Gen Syst, 1990, 17(2/3): 191-209. DOI: 10.1080/03081079008935107 .

[15]

陈德刚, 徐伟华, 李金海, . 粒计算基础教程[M]. 北京: 科学出版社, 2019.

[16]

CHEN D G, XU W H, LI J H, et al. Basic course of granular computing[M]. Beijing: Science Press, 2019.

[17]

陈德刚, 刘民, 吴澄, . 模糊信息系统的代数结构及其约简[J]. 清华大学学报(自然科学版), 2003, 43(9): 1233-1235. DOI: 10.16511/j.cnki.qhdxxb.2003.09.022 .

[18]

CHEN D G, LIU M, WU C, et al. Algebraic Structure and Reduction of Fuzzy Information Systems[J]. J Tsinghua Univ Sci Technol, 2003, 43(9): 1233-1235. DOI: 10.16511/j.cnki.qhdxxb.2003.09.022 .

[19]

HU Q H, YU D R, LIU J F, et al. Neighborhood Rough Set Based Heterogeneous Feature Subset Selection[J]. Inf Sci, 2008, 178(18): 3577-3594. DOI: 10.1016/j.ins.2008.05.024 .

[20]

SHANNON C E. A Mathematical Theory of Communication[J]. Bell Syst Tech J, 1948, 27(3): 379-423. DOI: 10.1002/j.1538-7305.1948.tb01338.x .

[21]

HU Q H, YU D R. Neighborhood Entropy[C]//2009 International Conference on Machine Learning and Cybernetics. New York: IEEE, 2009: 1776-1782. DOI: 10.1109/ICMLC.2009.5212245 .

[22]

AN S, ZHAO E H, WANG C Z, et al. Relative Fuzzy Rough Approximations for Feature Selection and Classification[J]. IEEE Trans Cybern, 2021, 53(4): 2200-2210. DOI: 10.1109/TCYB.2021.3112674 .

[23]

HUANG W L, SHE Y H, HE X L, et al. Fuzzy Rough Sets-based Incremental Feature Selection for Hierarchical Classification[J]. IEEE Trans Fuzzy Syst, 2023, 31(10): 3721-3733. DOI: 10.1109/TFUZZ.2023.3300913 .

[24]

ZHANG X Y, YAO Y Y. Tri-level Attribute Reduction in Rough Set Theory[J]. Expert Syst Appl, 2022, 190: 116187. DOI: 10.1016/j.eswa.2021.116187 .

[25]

HU M, TSANG E C C, GUO Y T, et al. Attribute Reduction Based on Overlap Degree and K-nearest-neighbor Rough Sets in Decision Information Systems[J]. Inf Sci, 2022, 584: 301-324. DOI: 10.1016/j.ins.2021.10.063 .

[26]

DAI J H, ZHU Z L, ZOU X T. Fuzzy Rough Attribute Reduction Based on Fuzzy Implication Granularity Information[J]. IEEE Trans Fuzzy Syst, 2024, 32(6): 3741-3752. DOI: 10.1109/TFUZZ.2024.3381993 .

[27]

WANG C Z, HUANG Y, DING W P, et al. Attribute Reduction with Fuzzy Rough Self-information Measures[J]. Inf Sci, 2021, 549: 68-86. DOI: 10.1016/j.ins.2020.11.021 .

[28]

SOWMYA R, PREMKUMAR M, JANGIR P. Newton-raphson-based Optimizer: A New Population-based Metaheuristic Algorithm for Continuous Optimization Problems[J]. Eng Appl Artif Intell, 2024, 128: 107532. DOI: 10.1016/j.engappai.2023.107532 .

[29]

FRÉNAY B, VERLEYSEN M. Classification in the Presence of Label Noise: A Survey[J]. IEEE Trans Neural Netw Learn Syst, 2014, 25(5): 845-869. DOI: 10.1109/TNNLS.2013.2292894 .

[30]

ŚLĘZAK D, JANUSZ A. Ensembles of Bireducts: Towards Robust Classification and Simple Representation[M]//Future Generation Information Technology. Berlin, Heidelberg: Springer Berlin Heidelberg, 2011: 64-77. DOI: 10.1007/978-3-642-27142-7_9 .

[31]

ZHANG X, MEI C L, LI J H, et al. Instance and Feature Selection Using Fuzzy Rough Sets: A Bi-selection Approach for Data Reduction[J]. IEEE Trans Fuzzy Syst, 2023, 31(6): 1981-1994. DOI: 10.1109/TFUZZ.2022.3216990 .

[32]

ZHANG X, HE Z Q, LI J H, et al. Bi-selection of Instances and Features Based on Neighborhood Importance Degree[J]. IEEE Trans Big Data, 2024, 10(4): 415-428. DOI: 10.1109/TBDATA.2023.3342643 .

[33]

QUAN J S, QIAO F C, YANG T, et al. A Biselection Method Based on Consistent Matrix for Large-scale Datasets[J]. IEEE Trans Fuzzy Syst, 2025, 33(6): 1992-2005. DOI: 10.1109/TFUZZ.2025.3543893 .

基金资助

国家自然科学基金(12471442)

陕西省自然科学基金(2023-JC-YB-027)

陕西省自然科学基金(2025JC-YBMS-034)

陕西省教育厅科学研究计划青年创新团队项目(23JP132)

AI Summary AI Mindmap
PDF (2303KB)

46

访问

0

被引

详细

导航
相关文章

AI思维导图

/