PDF
摘要
针对传统数据流频繁项集计算中效率低、内存消耗大等问题,本文采用并行计算的思想设计了一种基于MapReduce的数据流频繁项集挖掘算法,首先,对进行数据分块压缩和传输,其次,将数据频繁项的计算分布在负载均衡的数据节点,可以有效保证数据的执行效率.最后通过一次调度处理合并各个节点产生的频繁项集并进行合并.理论分析和实验对比结果均表明,该算法对于并行处理数据流频繁项集的统计问题是有效可行的.
关键词
MapReduce
/
频繁项集
/
数据流
/
并行计算
/
数据挖掘
Key words
基于MapReduce的数据流频繁项集挖掘算法[J].
华中师范大学学报(自然科学版), 2017, 51(04): 429-434 DOI:10.19603/j.cnki.1000-1190.2017.04.003