基于随机森林算法的大数据异常检测模型设计
Design of big data anomaly detection model based on random forest algorithm
针对大数据异常检测过程易受边缘数据的干扰,导致大数据异常检测准确率较差的问题,提出了一种基于随机森林算法的大数据异常检测模型。首先,利用改进k-means算法对大数据实行聚类处理,采用主成分分析法提取大数据特征;然后,构建基于随机森林分类器的大数据异常检测模型,将提取的特征输入到模型中,构建决策树,并通过动态更新决策树的权重值提高分类器的分类精度;最后,输出分类结果,完成大数据的异常检测。实验结果表明,本文模型的检测时间约为25 s,大数据异常检测准确率平均值为91%,误报率为4.5%。
大数据聚类 / 特征提取 / 主成分分析法 / 随机森林分类器 / 决策树 / 更新权重
big data clustering / feature extraction / principal component analysis / random forest classifier / decision tree / update weights
/
〈 |
|
〉 |