基于稀疏自表示及流形正则化的无监督特征选择

刘杰 ,  谭文静 ,  李占山

东北大学学报(自然科学版) ›› 2024, Vol. 45 ›› Issue (12) : 1706 -1716.

PDF (6670KB)
东北大学学报(自然科学版) ›› 2024, Vol. 45 ›› Issue (12) : 1706 -1716. DOI: 10.12068/j.issn.1005-3026.2024.12.005
信息与控制

基于稀疏自表示及流形正则化的无监督特征选择

作者信息 +

Unsupervised Feature Selection Based on Sparse Self-representation with Manifold Regularization

Author information +
文章历史 +
PDF (6829K)

摘要

基于自表示的无监督特征选择能够处理未标记数据且不受伪标签影响.为了令此类方法同时具有良好的鲁棒性、保留样本局部结构、能选出最具代表性的特征,提出了一种新的方法,并设计了一个对应的迭代优化算法来计算其目标函数.该方法先对样本异常值进行识别和处理,然后将传统的自表示模型与非凸稀疏约束和流形正则结合形成目标模型,再将预处理后的数据放入模型进行特征选择,最后使用所选特征进行聚类.将所提方法在9个真实数据集上与7种方法进行对比实验,实验结果表明,所提方法可以有效解决无监督特征选择问题.

Abstract

Self‑representation based unsupervised feature selection can handle unlabeled data without being affected by pseudo‑labeling. To ensure that such methods simultaneously achieve good robustness, preserve the local structure of samples, and select the most representative features, a new approach is proposed, and a corresponding iterative optimization algorithm is designed to compute its objective function. The method first identifies and processes outliers of samples, then combines the traditional self‑representation model with non‑convex sparse constraint and manifold regularization to form the target model, and puts the preprocessed data into the model for feature selection. Finally, the method uses the selected features for clustering. The proposed method is compared with seven methods on nine real data sets for experiments, and the experimental results show that the proposed method can effectively solve the unsupervised feature selection problem.

Graphical abstract

关键词

无监督特征选择 / 自表示 / 鲁棒 / 稀疏 / 流形正则化

Key words

unsupervised feature selection / self‑representation / robust / sparse / manifold regularization

引用本文

引用格式 ▾
刘杰,谭文静,李占山. 基于稀疏自表示及流形正则化的无监督特征选择[J]. 东北大学学报(自然科学版), 2024, 45(12): 1706-1716 DOI:10.12068/j.issn.1005-3026.2024.12.005

登录浏览全文

4963

注册一个新账户 忘记密码

在机器学习、数据挖掘等领域,特征选择有助于减少维数诅咒的影响,提高预测性能.根据数据是否被标记,特征选择方法分为有监督的、半监督的和无监督的1.数据标签在现实中通常不可用或成本较高,因此没有先验知识也表现较好的无监督特征选择(unsupervised feature selection,UFS)得到了广泛关注.
就选择策略而言,特征选择方法可分成3种类型:过滤式2-5、包裹式6和嵌入式7-9.嵌入式算法结合了前两种方法的优点,在一定程度上统一了特征选择和学习算法,可以获得更好的结果.GSR_SFS(graph self‑representation sparse feature selection)7将子空间学习与稀疏的特征级自表示(self‑representation,SR)方法相结合,使特征选择过程更稳定并获得更好的解释能力.SOCFS(structured optimal graph feature selection)8在进行特征选择和局部结构学习时自适应地确定相似性矩阵,并使用l2,1范数来实现稀疏性.在UFS领域的嵌入式方法中,有专注于数据全局结构的9,但大多数方法都会关注数据的局部几何结构,该结构在无监督情况下已被证明比全局结构更关键10.
根据使用的基本模型,UFS的嵌入式方法可以分为两类11.一类是基于回归的模型,其本质上是通过学习样本的伪标签将UFS转变为有监督的特征选择,如SCFS(subspace clustering unsupervised feature selection)12在一个集成的框架中应用子空间学习、聚类分析和稀疏学习,采用矩阵分解得到聚类标签矩阵,并利用回归模型优化系数矩阵选择最重要的特征.另一类是基于表示学习的模型,其核心思想是学习数据的低维表征,为特定的任务(如分类)保留最重要的信息,可以避免不准确的伪标签导致选择的特征不可靠11.
作为表示学习的一个特例,基于SR的UFS方法利用原始数据固有的自我表示特性,对高维无标签数据进行降维. RSR(regularized self‐representation)13是这类方法中的代表之一,它为了选择更具代表性的特征并提高算法的鲁棒性,对误差函数和稀疏项同时使用l2,1范数.近些年基于RSR提出了各种改进算法. NOVRSR(non‐convex regularized self‑representation)14相较于RSR使用了效果更好的l2,1-2范数15作为稀疏项,并验证了其有效性,但该方法没有考虑到样本原有的结构信息.基于NOVRSR,本文提出了一种新的方法SSRMR(sparse self‑representation with manifold regularization),并设计了对应的算法.
SSRMR同时利用了l2,1-2稀疏约束和数据的流形结构信息,在获得稀疏解的同时,更加充分利用数据的局部结构信息来提高准确率,选出最具有代表性的特征.此外,为了提升算法鲁棒性,所提方法对原始数据中的异常值进行了识别处理,以获得更好的结果.本文的主要工作:①提出了一个基于SR模型的UFS方法SSRMR.其使用l2,1-2范数进行稀疏约束,并使用流形正则化保留原始样本结构以提升准确率;②对原始数据中的异常值进行识别处理;③设计了对应的优化迭代算法计算目标函数.

1 相关工作

1.1 特征自表示

对象具有自相似性的特点,即SR属性,比如数据的每个特征都可以由其他特征表示13.设{f1,f2,,fd}是特征集合,并且假设特征fifj是相互依赖的且可以表示为其他特征的线性组合.在此基础上,SR模型的定义如下:

f1=w11f1+w21f2++wd1fd+ε1,f2=w12f1+w22f2++wd2fd+ε2,fd=w1df1+w2df2++wddfd+εd.

其中:wij是特征表示系数;εjRn是误差.

1.2 流形正则化

局部几何结构可以通过流形学习获得,它在无监督学习中起着至关重要的作用10.一般来说,基于某种相似度量的无向图可以代表数据流形结构,图的顶点代表实例,边的权重是成对样本之间的相似度.可以预见的是,特征选择后的相似样本也应该有相似的对应数据.在数学上,流形正则化的应用可以表示为

arg minWi,j=1nSijxiW-xjW22.

其中: W 为特征系数矩阵;Sijxixj之间的相似度,可以根据各种评价指标获得.常用的相似性指标有0~1加权、高斯核、余弦相似度.通过式(2)可以看出,如果高维空间中的实例xixj是相似的,xiW-xjW22作为嵌入样本xiWxjW之间的距离应该很小,那么相似度Sij的值就应该很大.这与期望的保留局部流形结构的策略是一致的.

1.3 无监督特征选择算法

谱特征选择SPEC(spectrum decomposition)4是基于图谱理论提出的一个统一的特征选择框架,可同时用于有监督和无监督特征选择,该框架首先根据数据的相似集构造其图表示,然后基于构建的图谱来评估特征;拉普拉斯分数LS(Laplacian score)2是SPEC的一个特例,它倾向于选择类中的特征;多聚类特征选择MCFS(multi‑cluster feature selection)5首先使用图拉普拉斯算子实现低维嵌入,然后使用Lasso回归模型找到最佳特征子集;无监督判别特征选择UDFS(unsupervised discriminative feature selection)3使用散度矩阵来维护数据结构,以选择最具判别力的特征子集. RSR13中的每个特征都表示为其相关特征的线性组合,其目标函数的误差项和稀疏正则项都是l2,1范数. SCFS12通过子空间学习得到相似度矩阵,再利用该矩阵和l2,1范数得到稀疏变换矩阵.子空间学习也是一种SR的机制,但相较于基于特征级SR的RSR,SCFS是基于样本级的重构,且SCFS在重构的低维空间中保持了聚类相似性. NOVRSR14与RSR使用了一样的特征级SR,但与RSR不同的是,其误差项通过F-范数约束,其特征表示矩阵的稀疏正则采用了非凸的l2,1-2范数.

2 SSRMR

2.1 异常值处理

为了使相似度矩阵更加准确,同时减少由粗差导致的结果偏差,基于拉依达准则,首先检查数据经过稳健标准化后的值是否超过3,根据此找到离群点.本文中,判断xij是某一变量的离群值的标准是

xij-avgX1.48×avgxi-avgX>3.

其中:avg(  )表示列平均值; X 为数据矩阵.分母的系数1.48确保了这种稳健的尺度收敛于正态分布下的标准差16.本文将满足上述条件的值视为缺失值,并用平均值代替,这样可以最大限度利用原始信息,同时减少异常值的影响,整体上增强了模型的鲁棒性.

2.2 目标模型

式(1)中的SR模型对应的优化问题为

minW12X-XWF2.

其中fi的表示参数对应于wi的值.因此,可以对 W 使用稀疏约束来提高特征选择效率.具体地说,如果fi不重要,那么其相应的权重值将减少到0或接近0,上述目标通常由稀疏正则实现.

l2,1-2范数相比于其他范数的优越性已经在以往的工作中15得到了证明,其数学定义为

2,1-2=2,1-F.

W2,1-2作为稀疏约束项,优化问题(4)可以化为

minW12X-XWF2+λ1W2,1-2.

其中,λ1>0是正则化参数.式(6)中的最小化问题可以评估与 W 参数相对应的特征的重要性.

考虑到样本局部结构对UFS结果的影响,本文决定使用流形正则.其通过线性代数变换后为

RL=12i,j=1nSijxiW-xjW22=
i=1nxiWxiWTDii-i,  j=1nxiWxjWTSij=
TrWTXTDXW-TrWTXTSXW=
TrWTXTLXW.

其中:SRn×n是基于余弦相似的相似性矩阵11D 是一个对角元素为Dii=j=1nSij的对角矩阵;L=D-S是拉普拉斯矩阵.将RL式(4)结合得到最终的优化目标模型,其中λ2>0,是调节参数.

minW12X-XWF2+λ1W2,1-2+λ2Tr(WTXTLXW).

2.3 优化算法

式(8)中的非凸目标函数很难直接求解,但代入式(5)后,可以将其转换为如下两个凸函数相减的模型:

minW12X-XWF2+λ1W2,1+λ2TrWTXTLXW-λ1WF .

这种凸函数相减函数(difference of convex functions,DC)可以通过收敛的凹凸过程17(concave‑convex procedure,CCCP)来求解,下面简单介绍其步骤.设fx为可导的DC函数,存在凸函数axbx使fx=ax-bx.目标函数为minxRn fx,其中fix0,i=1, ,m.设bx是可微的,CCCP本质上是求解这样的一组迭代子问题18x(t+1)argminx ax-b(x(t)),其中t为迭代次数.

参考上述求解过程,式(9)可被转换为如下一系列凸子问题:

W(t+1)=argminW(t)12X-XWtF2+λ1Wt2,1+
λ2Tr((XWt)TLXWt)-λ1Tr((Wt)TCt).

其中C=WF=WF-1W,W00,W=0 .根据式(10),需要解决的问题可简化为

minW12X-XWF2+λ1W2,1-λ1Tr(WTC)+λ2TrWTXTLXW.

式(11)中的优化问题是非光滑的,基于交替乘子法(alternating direction method of multipliers,ADMM)19的思想提出解决该问题的算法.首先,引入辅助变量V=W,将问题(11)转化为如下等式约束优化问题:

minW,V12X-XWF2+λ1V2,1-λ1Tr(WTC)+λ2TrWTXTLXW.
s.t.W-V=0.

构造式(12)的拉格朗日函数如下:

(W,V)=12X-XWF2+λ1V2,1+,W-V+λ32W-VF2+λ2Tr(WTXTLXW)-λ1Tr(WTC).

其中Rd×d是约束W-V=0的拉格朗日乘子,λ3>0是惩罚参数.根据ADMM的交替迭代原理,所提算法本质上由以下3组迭代组成:

W(h+1)=argminWW,V(h+1),
V(h+1)=argminVW(h+1),V,
(h+1)=(h)+λ3W(h+1)-V(h+1).

其中h是迭代索引.

2.3.1 更新W

将变量V视为常数,式(14a)去掉与W无关的常数项后可简化为以下问题:

minW12X-XWF2+,W-V+λ32W-VF2+λ2Tr(WTXTLXW)-λ1Tr(WTC).

利用式(15)中函数对 W 一阶求导的最优解条件,即

-XTX+XTXW-λ1C++λ3(W-V)+2λ2XTLXW=0.

B=XTX+λ1C-+λ3V,代入等式(16)得到

W=XTX+2λ2XTLX+λ3I-1B.

其中IRd×d是单位矩阵.

2.3.2 更新V

与更新W同理,只留下V的相关项后,式(14b)被简化为

minVλ1V2,1+,W-V+λ32W-VF2.

式(18)进行数学变换后可以得到如下等价问题:

minVλ1λ3V2,1+12V-W+λ3F2.

M=W+λ3,问题(19)可以转化为d个子问题:

minvii=1d12vi-mi22+λ1λ3vi2.

基于已有工作15可知,问题(20)的最优解为

vi=1-λ1λ3mi2mi,if   λ1<λ3mi2;0,otherwise.

2.3.3 算 法

WV每次迭代使用上述更新规则,所提算法如下.

算法1 SSRMR算法

输入:原始数据X,拉普拉斯矩阵L,调节参数λ1>0,  λ2>0, λ3>0

输出:特征表示矩阵最优解W*

1.初始化 W0=0,  V0=0,  0=0 and t=0

2.根据式(3)识别处理 X 中的异常值;

3.While 不满足迭代停止条件do

4. 根据式(17)更新W(t+1)

5. 根据式(21)更新V(t+1)

6. 根据式(14c)更新(t+1)

7. t=t+1;

8.End while

9.返回W*.

2.4 计算复杂度分析

设样本数为n,每个实例的特征数为d,迭代次数为t.所提出的优化方法有3个子问题,即更新W,更新V和更新.求解W主要的计算成本是求解式(17)中的d×d矩阵的逆,复杂度为Od 3).求解V等价于求解式(20)中的d个子问题,每个子问题的复杂度为On),因此在每次迭代中求解V的复杂度是Ond).很明显每次迭代求解的复杂度为Od 2).因此所提算法的计算复杂度可粗略认为是Otd 3).

3 实 验

3.1 实验数据集

为证明SSRMR相较于一些现有算法的优越性,本文选择在9个公开可用的数据集上进行实验验证,表1展示了这些数据集的样本大小、特征维度和实际分类数.

3.2 对比算法

为了验证所提出算法的有效性,将其与基线方法和其他7种算法进行了比较.基线方法直接使用所有数据,不进行选择特征.其他对比算法为:LS2,SPEC4,MCFS5,UDFS3,RSR13,SCFS12,NOVRSR14.

3.3 实验设置

涉及到k最近邻算法的,根据先前的经验13k设为5.各算法中涉及到的正则项系数调整范围为10-3,10-2,10-1,1,10,102,103.特征维度取值范围为20,40,60,,200.为评估所选特征的质量,最后把不同算法选择后的特征应用到K-means聚类算法中,K-means结果受初始化影响,因此将20次实验输出的平均值作为最终结果.

实验运行的环境是Windows 11上的Python 3.9.12,计算机CPU为Intel Core i5-12400F,内存16 GB.

3.4 实验结果与分析

聚类性能通过准确率(accuracy,ACC)和归一化互信息(normal mutual information,NMI)进行评估.

图1图2显示了NOVRSR和本文所提方法SSRMR在各个数据集上的聚类结果,X坐标轴是所选特征数量,Y坐标轴是聚类结果(ACC和NMI).另外,为了排除参数的影响,图中所有结果对应的相关参数都设置为1.

设实例数为n.当n<100时,预处理的作用不大;100<n<1 600时,预处理的贡献更为显著,但效果随着所选特征数量的增加而减少;在n>1 600的情况下,随着所选特征的增加,预处理始终发挥着重要作用,这是由于高维数据中所选特征的百分比相对较低,因此尚未达到预处理效果开始下降的阶段.此外,在Isolet数据集上,预处理的结果不佳,但如果将参数设置为与最优解相对应的参数(λ1=10,λ2=0.1,λ3=1),如图3所示,预处理后可以得到更好的结果.总体而言,数据经过预处理后的结果更好,证明对异常数据的处理步骤是有效的.

图1图2中可以发现,SSRMR所选特征进行聚类的结果总体优于NOVRSR.在小样本数据集上选择少量特征时,两种方法的结果差异很大,NOVRSR因为能利用的数据信息有限而表现不佳,SSRMR考虑了数据的局部结构信息,获得了更好的结果,这表明通过流形正则化来保持样本间的局部结构是有助于特征选择的.

表2表3展示了在不同数据集上所有算法在其最优参数下的聚类结果的平均值和标准差.其中最佳的结果用粗体标记,次佳的结果用下划线标记,括号里是所选特征的数量.通过分析表2表3,可以得出以下结论:① SSRMR总体上优于NOVRSR.验证了保存样本间的局部结构是有助于特征选择的; ② 在大多数数据集中,SSRMR相较对比方法表现更好,证明了其有效性.在某些情况下,SSRMR的结果不是最佳的,但也和最佳结果接近.此外,SSRMR在某些情况下有显著的改善,例如在nci9上,其ACC和NMI分别比次佳的结果高6%左右,在warpPIE10P上的NMI比次佳的结果高11%; ③ 基线方法和UFS方法的比较说明了特征选择的有效性.基线方法总体表现并不差,但它需要所有原始特征,当数据的维度很高时使用此法并不是一个明智的选择.相比之下,UFS方法只需要很少的特征就可以获得类似甚至更好的结果.

表4给出了SSRMR和另外两种UFS方法(SCFS,NOVRSR)在9个数据集上的运行时间.所提算法在部分数据集上表现较好.其中,SSRMR在TOX171数据集上花费了较多时间,是受到了参数的影响,在该数据集上实际执行的迭代次数较高.相反,在nci9花费的时间非常少,是因为实际进行的迭代次数少.

3.5 参数影响分析

固定λ3=1,讨论参数λ1λ2以及所选特征数量K对特征选择性能的影响.

图4~图7中可以发现,在大多数情况下,随着所选特征数量K的增加,聚类表现会更好,但在达到峰值后开始下降.这种现象是因为太少的特征不能很好地代表原始特征空间,而选择太多的特征会有冗余或不相关的特征影响结果.

显然,λ1λ2的不同取值会产生不同的结果.当λ1小于或等于1时结果更好.当λ1太大时,会导致其调节的项(即特征自表示项)出现过拟合,影响最终结果.但总体而言,SSRMR在各数据集中对参数λ2更敏感.这表明,由λ2调节的项(用于保存数据的局部结构)发挥了有价值的作用.在DBworld,lymphoma和nci9中,由于它们的样本量小,可用的数据结构信息有限,其结果随着 λ2的增大整体有小幅度提升.但是,对于样本数较多的数据集,随着λ2取值变大,ACC会出现明显的下降,这是因为λ2过大导致的过拟合使模型性能降低.由上述分析可知,对于大样本的数据集,需要更加注意λ2的取值.TOX171数据集是一个例外,首先,因为其特征数较少,λ1取较大值时结果会更好;其次,TOX171受λ1的影响明显大于λ2,这是因为TOX171除了特征数少,分类数也少,这使得模型中每个特征对表示参数的变化会更敏感,因此受控制特征自表示项的λ1的影响更大.相比而言,特征数同样不多的Isolet因为分类较多,数据局部结构信息的保持起到了更大的作用,因此在此数据集上λ1对结果的影响并不明显大于λ2.

4 结 语

本文提出了一种新的基于SR模型的UFS方法.考虑到所选特征的稀疏性,使用非凸范数作为稀疏正则项.此外,为了充分利用数据的局部结构,利用了基于样本之间余弦相似性的流形正则性约束.在模型鲁棒性增强方面,采取了对原始数据进行预处理的方法来减少粗差干扰.因为目标函数很难直接求解,本文还设计了定制的迭代算法来寻找最优解.在9个数据集上将所提方法与基线方法及其他7种特征选择方法进行了比较.实验结果表明,SSRMR在各类数据集上的表现都优于其他算法.

本文的研究也有一定局限性,使用的SR模型要求每个特征都可以用其他特征的线性组合来表示,这对真实世界的数据的适用性有限,在后续研究中将寻求具有更广泛适用性的方法模型.此外,本文使用的数据都是非张量数据,为了保持最原始的多维数据结构信息,面向张量的特征选择更有优势.最后,张量数据所需的计算资源通常较大,如何使用较低的计算成本实现也是进一步研究的方向.

参考文献

[1]

Solorio‑Fernández SAriel JMartínez‑Trinidad J.A review of unsupervised feature selection methods[J].The Artificial Intelligence Review202053(2):907-948.

[2]

He X FCai DNiyogi P.Laplacian score for feature selection[C]// Proceedings of the 18th International Conference on Neural Information Processing Systems.Vancouver,2005:507-514.

[3]

Yang YShen H TMa Z Get al .L 21‑norm regularized discriminative feature selection for unsupervised learning[C]// Proceedings of the Twenty‑Second International Joint Conference on Artificial Intelligence-Volume Two.Menlo Park:AAAI Press,2011:1589-1594.

[4]

Zhao ZLiu H.Spectral feature selection for supervised and unsupervised learning[C]// Proceedings of the 24th International Conference on Machine Learning.Corvalis,2007:1151-1157.

[5]

Cai DZhang CHe X F.Unsupervised feature selection for multi‑cluster data[C]// Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Washington DC,2010:333-342.

[6]

李占山,刘兆赓,俞寅,.量子化信息素蚁群优化特征选择算法[J].东北大学学报(自然科学版)202041(1):17-22.

[7]

Li Zhan‑shaanLiu Zhao‑gengYu Yinet al.A quantized pheromone ant colony optimization algorithm for feature selection[J].Journal of Northeastern University(Natural Science)202041(1):17-22.

[8]

Hu R YZhu X FCheng D Bet al.Graph self‑representation method for unsupervised feature selection[J].Neurocomputing2017220:130-137.

[9]

Nie F PZhu WLi X L.Unsupervised feature selection with structured graph optimization[C]//Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence.Phoenix,2016:1302-1308.

[10]

Lim HKim D.Pairwise dependence‑based unsupervised feature selection[J].Pattern Recognition2021111:107663.

[11]

Liu X WWang LZhang Jet al.Global and local structure preservation for feature selection[J].IEEE Transactions on Neural Networks and Learning Systems201325(6):1083-1095.

[12]

Li W YChen H MLi T Ret al.Unsupervised feature selection via self‑paced learning and low‑redundant regularization[J].Knowledge‑Based Systems2022240:108150.

[13]

Parsa MZare HGhatee M.Unsupervised feature selection based on adaptive similarity learning and subspace clustering[J].Engineering Applications of Artificial Intelligence202095:103855.

[14]

Zhu P FZuo W MZhang Let al.Unsupervised feature selection by regularized self‑representation[J].Pattern Recognition201548(2):438-446.

[15]

Miao J YPing YChen Z Set al.Unsupervised feature selection by non‑convex regularized self‑representation[J].Expert Systems with Applications2021173:114643.

[16]

Shi YMiao J YWang Z Yet al.Feature selection with l 2,1 - 2 regularization[J].IEEE Transactions on Neural Networks and Learning Systems201829(10):4967-4982.

[17]

Bottmer LCroux CWilms I.Sparse regression for large data sets with outliers[J].European Journal of Operational Research2022297(2):782-794.

[18]

Yuille A LRangarajan A.The concave‑convex procedure[J].Neural Computation200315(4):915-936.

[19]

Sriperumbudur BLanckriet G.On the convergence of the concave-convex procedure[C]// Proceedings of the 22nd International Conference on Neural Information Processing Systems.Vancouver,2009:1759-1767.

[20]

Boyd SParikh NChu Eet al.Distributed optimization and statistical learning via the alternating direction method of multipliers[J].Foundations and Trends® in Machine Learning20113(1):1-122.

基金资助

国家自然科学基金资助项目(62276060)

吉林省发展和改革委员会资助项目(2019C053-9)

AI Summary AI Mindmap
PDF (6670KB)

229

访问

0

被引

详细

导航
相关文章

AI思维导图

/