基于特征转换和少数类聚类的微生物数据扩增算法

温柳英, 郑天浩

郑州大学学报(工学版) ›› 2025, Vol. 46 ›› Issue (06) : 23 -31.

PDF
郑州大学学报(工学版) ›› 2025, Vol. 46 ›› Issue (06) : 23 -31. DOI: 10.13705/j.issn.1671-6833.2025.06.006

基于特征转换和少数类聚类的微生物数据扩增算法

作者信息 +

Author information +
文章历史 +
PDF

摘要

微生物数据的高维、高零值率特性及少数类样本稀缺导致的类别不平衡,显著降低了分类器的少数类识别能力,而现有扩增算法对高不平衡比(IR)敏感且难以有效合成样本。针对此问题,提出了一种基于特征转换和少数类聚类的微生物数据扩增算法(FTMC)。首先,该算法在特征转换阶段采用主成分分析算法对高维数据进行降维,以缓解数据强稀疏性问题;其次,在少数类聚类阶段,使用K-means算法捕捉少数类的局部特征,获得多个聚类;再次,在聚类筛选阶段,基于每个聚类的密度和难度,结合IR和权重比来计算其权重值,并以此筛选出核心聚类子集,用于后续样本生成;最后,在样本扩增过滤阶段,利用线性插值算法,对筛选后的每个核心聚类进行样本扩增,并使用局部异常因子算法过滤异常点,确保扩增样本的质量。在12个微生物数据集上进行实验,并在3个分类器下对比8个同类型采样算法的性能,结果表明:FTMC生成的样本更具多样性,在Recall指标上平均提高了26.42%,证明该算法能正确识别更多的阳性样本。

关键词

微生物数据 / 高维 / 稀疏 / 类别不平衡 / 聚类 / 数据扩增

Key words

引用本文

引用格式 ▾
温柳英, 郑天浩. 基于特征转换和少数类聚类的微生物数据扩增算法[J]. 郑州大学学报(工学版), 2025, 46(06): 23-31 DOI:10.13705/j.issn.1671-6833.2025.06.006

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

1

访问

0

被引

详细

导航
相关文章

AI思维导图

/