一种采用伪随机分区的自适应并行密度聚类算法

曾鸿斌, 钱雪忠, 宋威

小型微型计算机系统 ›› 2025, Vol. 46 ›› Issue (06) : 1349 -1357.

PDF
小型微型计算机系统 ›› 2025, Vol. 46 ›› Issue (06) : 1349 -1357. DOI: 10.20009/j.cnki.21-1106/TP.2024-0154

一种采用伪随机分区的自适应并行密度聚类算法

    曾鸿斌, 钱雪忠, 宋威
作者信息 +

Author information +
文章历史 +
PDF

摘要

针对大数据环境下并行密度聚类算法存在数据分区效率低下、负载不均衡、局部聚类合并不准确以及并行化效率较低等问题,本文提出了一种基于伪随机分区策略构建单元子图的并行密度聚类算法.该算法采用伪随机分区策略快速进行数据分区,并使用Spark在每个分区中构建单元子图实现局部聚类.同时,本文还提出了一种新的局部簇合并策略,提高了合并的准确率.此外,针对传统DBSCAN算法需要手动确定参数的问题,本文使用了一种改进的自适应参数方法,通过使用高斯核函数和最小化积分均方误差(MISE)方法确定eps和minpts的值.经实验证明,该算法在人工数据集和大规模真实数据集上都展现出了出色的并行性能和高准确率.

关键词

DBSCAN / 伪随机分区 / Spark / 自适应参数 / 聚类合并

Key words

引用本文

引用格式 ▾
一种采用伪随机分区的自适应并行密度聚类算法[J]. 小型微型计算机系统, 2025, 46(06): 1349-1357 DOI:10.20009/j.cnki.21-1106/TP.2024-0154

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

49

访问

0

被引

详细

导航
相关文章

AI思维导图

/