一种面向不平衡数据集的过采样算法

张文辉, 罗鸿豪

桂林电子科技大学学报 ›› 2023, Vol. 43 ›› Issue (05) : 363 -370.

PDF
桂林电子科技大学学报 ›› 2023, Vol. 43 ›› Issue (05) : 363 -370. DOI: 10.16725/j.cnki.cn45-1351/tn.2023.05.001

一种面向不平衡数据集的过采样算法

作者信息 +

Author information +
文章历史 +
PDF

摘要

传统过采样算法通过合成少数类样本来改善不平衡问题,但未考虑产生噪点与样本分布不均匀等问题,针对该类问题,提出了一种基于聚类与对改进SMOTE的过采样算法SK-SMOTE。该算法在聚类前,先合成一部分少数样本,以此提高少数类样本数量,同时根据合成的少数类样本的邻居样本的类别和距离赋予权重,通过权重总和是否大于设定的值来决定该样本是否可以被保留。在提高少数类样本数量后,再使用KMeans算法进行聚类,然后保留少数样本较多的簇。在簇内进行过采样,相对稀疏的簇将合成更多的少数类样本。选取UCI和KEEL数据库中的不平衡数据集,将SVM、RF、KNN作为分类算法,并选用几种经典的SMOTE算法与SK-SMOTE进行多组对比实验。实验结果表明,SK-SMOTE算法可有效平衡不平衡数据集,且在不平衡比例较高的数据集上取得了比传统过采样算法更好的结果。

关键词

SMOTE算法 / 不平衡数据 / 评分机制 / K-Means算法 / 过采样

Key words

引用本文

引用格式 ▾
张文辉, 罗鸿豪 一种面向不平衡数据集的过采样算法[J]. 桂林电子科技大学学报, 2023, 43(05): 363-370 DOI:10.16725/j.cnki.cn45-1351/tn.2023.05.001

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

28

访问

0

被引

详细

导航
相关文章

AI思维导图

/