闭合高效用项集的枚举空间并行挖掘算法

李成严, 孙安祺, 刘松霖

哈尔滨理工大学学报 ›› 2025, Vol. 30 ›› Issue (6) : 29 -42.

PDF
哈尔滨理工大学学报 ›› 2025, Vol. 30 ›› Issue (6) : 29 -42. DOI: 10.15938/j.jhust.2025.06.004

闭合高效用项集的枚举空间并行挖掘算法

    李成严, 孙安祺, 刘松霖
作者信息 +

Author information +
文章历史 +
PDF

摘要

针对大数据环境下高效用项集挖掘的结果冗余和时间开销问题,提出一种闭合高效用项集并行挖掘算法(closed high utility itemsets mining on spark, SpCHUIM)。将在闭项集中定义的后缀集合等概念应用于高效用项集挖掘,可精简结果并减少内存占用,结合高效用项集闭包性质,简化加权效用计算;采用前缀划分策略减少交集操作,降低时间成本。算法在构建项集超集的过程中,使用深度优先搜索方式构造枚举空间以保证所生成项集的完备性;在Spark框架下实现并行算法,完成大数据环境下的闭合项集挖掘;在mushroom等数据集上进行挖掘实验。与其他文献对比,算法运行效率提升了50%。在稠密数据集上进行前缀划分策略的消融实验,结果表明:在移除前缀划分策略后,算法运行时间延长30%。

关键词

高效用项集 / 大数据 / 闭合项集 / 并行计算 / 数据挖掘

Key words

引用本文

引用格式 ▾
闭合高效用项集的枚举空间并行挖掘算法[J]. 哈尔滨理工大学学报, 2025, 30(6): 29-42 DOI:10.15938/j.jhust.2025.06.004

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

0

访问

0

被引

详细

导航
相关文章

AI思维导图

/