闭合高效用项集的枚举空间并行挖掘算法

李成严; 孙安祺; 刘松霖

doi:10.15938/j.jhust.2025.06.004

哈尔滨理工大学学报 ›› 2025, Vol. 30 ›› Issue (6) : 29 -42. DOI: 10.15938/j.jhust.2025.06.004

闭合高效用项集的枚举空间并行挖掘算法

李成严, 孙安祺, 刘松霖

作者信息 +

Author information +

文章历史 +

PDF

摘要

针对大数据环境下高效用项集挖掘的结果冗余和时间开销问题，提出一种闭合高效用项集并行挖掘算法(closed high utility itemsets mining on spark, SpCHUIM)。将在闭项集中定义的后缀集合等概念应用于高效用项集挖掘，可精简结果并减少内存占用，结合高效用项集闭包性质，简化加权效用计算；采用前缀划分策略减少交集操作，降低时间成本。算法在构建项集超集的过程中，使用深度优先搜索方式构造枚举空间以保证所生成项集的完备性；在Spark框架下实现并行算法，完成大数据环境下的闭合项集挖掘；在mushroom等数据集上进行挖掘实验。与其他文献对比，算法运行效率提升了50%。在稠密数据集上进行前缀划分策略的消融实验，结果表明：在移除前缀划分策略后，算法运行时间延长30%。