高维数据聚类数量可视化确定模式

何选森, 何帆, 樊跃平, 陈洪军

沈阳航空航天大学学报 ›› 2024, Vol. 41 ›› Issue (03) : 71 -84.

PDF
沈阳航空航天大学学报 ›› 2024, Vol. 41 ›› Issue (03) : 71 -84.

高维数据聚类数量可视化确定模式

作者信息 +

Author information +
文章历史 +
PDF

摘要

为了解决经典K-均值聚类算法要求用户事先知道待处理数据的聚类数量及聚类结果对算法的初始化很敏感的问题,提出一种对K-均值聚类算法的改进措施并可视化地确定聚类数量的综合方案。首先,对数据进行标准化,使其服从正态分布,利用主分量分析(principal component analysis,PCA)抽取数据中最重要的特征以实现高维数据的降维;然后,采用最远质心选择和最小-最大距离规则对K-均值聚类算法的初始化进行修正,避免出现空聚类并确保数据的可分离性;在此基础上,采用统计经验法则估计聚类数量的可能范围,通过搜索在此范围内平方误差和(sum-of-squared-error, SSE)曲线的肘部估计最佳的聚类数量;最后,通过计算比较各个聚类的轮廓系数以评价算法的聚类质量,从而最终确定数据集固有的聚类数量。仿真结果表明,该方案不仅能可视化地确定数据集潜在的聚类数量,而且为大数据时代的高维数据分析提供了一种有效的方法。

关键词

K-均值聚类算法 / 主分量分析 / 最远质心选择 / 最小-最大距离规则 / 统计经验法则 / 肘部法 / 轮廓分析

Key words

引用本文

引用格式 ▾
何选森, 何帆, 樊跃平, 陈洪军 高维数据聚类数量可视化确定模式[J]. 沈阳航空航天大学学报, 2024, 41(03): 71-84 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

7

访问

0

被引

详细

导航
相关文章

AI思维导图

/