基于数据湖的企业运营数据并行处理方法

王前

doi:10.16009/j.cnki.cn13-1295/tq.2025.11.040

信息记录材料 ›› 2025, Vol. 26 ›› Issue (11) : 141 -143. DOI: 10.16009/j.cnki.cn13-1295/tq.2025.11.040

基于数据湖的企业运营数据并行处理方法

王前

作者信息 +

Author information +

文章历史 +

PDF

摘要

鉴于传统方法在保障企业运营数据的存储与处理效果方面存在的局限性，本文提出了一种基于数据湖的企业运营数据并行处理方法，构建了一个包含数据接入层、数据存储层、数据转换层和交互应用层的企业运营数据湖架构，并建立了数据血缘关系，以增强数据湖的治理能力。在该数据湖架构下，利用Spark并行计算和分布式文件系统(HDFS)的分布式存储功能，实现了企业运营数据的并行处理。实验结果表明：所提出的方法在数据丢失率、内存利用率和中央处理器(CPU)占用率等关键指标上均表现出优良的性能，能够为企业决策提供有力支持。