针对大数据环境下高效用项集挖掘的结果冗余和时间开销问题,提出一种闭合高效用项集并行挖掘算法(closed high utility itemsets mining on spark, SpCHUIM)。将在闭项集中定义的后缀集合等概念应用于高效用项集挖掘,可精简结果并减少内存占用,结合高效用项集闭包性质,简化加权效用计算;采用前缀划分策略减少交集操作,降低时间成本。算法在构建项集超集的过程中,使用深度优先搜索方式构造枚举空间以保证所生成项集的完备性;在Spark框架下实现并行算法,完成大数据环境下的闭合项集挖掘;在mushroom等数据集上进行挖掘实验。与其他文献对比,算法运行效率提升了50%。在稠密数据集上进行前缀划分策略的消融实验,结果表明:在移除前缀划分策略后,算法运行时间延长30%。