基于改进K-means的局部离群点检测方法

周玉, 夏浩, 岳学震, 王培崇

工程科学与技术 ›› 2024, Vol. 56 ›› Issue (04) : 66 -77.

PDF
工程科学与技术 ›› 2024, Vol. 56 ›› Issue (04) : 66 -77.

基于改进K-means的局部离群点检测方法

作者信息 +

Author information +
文章历史 +
PDF

摘要

离群点检测任务是指检测与正常数据在特征属性上存在显著差异的异常数据。大多数基于聚类的离群点检测方法主要从全局角度对数据集中的离群点进行检测,而对局部离群点的检测性能较弱。基于此,本文通过引入快速搜索和发现密度峰值方法改进K-means聚类算法,提出了一种名为KLOD(local outlier detection based on improved K-means and least-squares methods)的局部离群点检测方法,以实现对局部离群点的精确检测。首先,利用快速搜索和发现密度峰值方法计算数据点的局部密度和相对距离,并将二者相乘得到γ值。其次,将γ值降序排序,利用肘部法则选择γ值最大的k个数据点作为K-means聚类算法的初始聚类中心。然后,通过K-means聚类算法将数据集聚类成k个簇,计算数据点在每个维度上的目标函数值并进行升序排列。接着,确定数据点的每个维度的离散程度并选择适当的拟合函数和拟合点,通过最小二乘法对升序排列的每个簇的每1维目标函数值进行函数拟合并求导,以获取变化率。最后,结合信息熵,将每个数据点的每个维度目标函数值乘以相应的变化率进行加权,得到最终的异常得分,并将异常值得分较高的top-n个数据点视为离群点。通过人工数据集和UCI数据集,对KLOD、LOF和KNN方法在准确度上进行仿真实验对比。结果表明KLOD方法相较于KNN和LOF方法具有更高的准确度。本文提出的KLOD方法能够有效改善K-means聚类算法的聚类效果,并且在局部离群点检测方面具有较好的精度和性能。

关键词

离群点检测 / K均值聚类 / 最小二乘法 / 密度峰值 / 目标函数值

Key words

引用本文

引用格式 ▾
周玉, 夏浩, 岳学震, 王培崇. 基于改进K-means的局部离群点检测方法[J]. 工程科学与技术, 2024, 56(04): 66-77 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

6

访问

0

被引

详细

导航
相关文章

AI思维导图

/