PDF
摘要
针对数据挖掘中流数据分类精度不高,数据压缩率低的问题,提出一种基于粒度分析与转存式GEP的流数据分类压缩并行算法,实现流数据的快速并行分类压缩。首先使用粒度分析技术对流数据的属性求得极小粒度集,根据划分规则得到近似粒度空间,然后根据不同类型流数据建立不同的G EP分类器模型,最后采用动态转存记录集形式,将数据送至GEP压缩模型实施压缩。再将串行算法扩展到M PI+OpenM P混合编程模型后得到其并行算法,采用UCI数据、通讯账单验证算法的性能。实验结果表明,分类压缩效果耗时较理想,压缩比效果明显,其中在校学生通讯账单耗时在96 s左右,压缩比达到1/3。
关键词
分类压缩
/
粒度分析
/
GEP
/
并行算法
Key words
基于GEP的流数据分类压缩并行算法研究[J].
广西师范大学学报(自然科学版), 2013, 31(03): 87-93 DOI:10.16088/j.issn.1001-6600.2013.03.016