针对多维度数据流的特性和复杂性,为充分利用并行计算资源,保证算法的可扩展性,提出Hadoop环境下多维数据流频繁模式并行挖掘算法。设计基于HDFS(Hadoop Distributed File System)和MapReduce的Hadoop数据流处理平台,提出基于特征投影和拟合的Hp Fit Stream聚类算法,利用其中的多项式拟合算法完成异常数据流处理,并通过特征投影完成处理后数据流的降维以降低计算成本。采用PFPon Can Tree算法实现在Hadoop环境下多维数据流的频繁模式并行挖掘。实验结果表明,所提方法能在有效降低计算复杂度的同时,提升算法的可扩展性以及负载均衡能力。