基于Hadoop的SQL查询引擎性能研究

吴黎兵, 邱鑫, 叶璐瑶, 王晓栋, 聂雷

华中师范大学学报(自然科学版) ›› 2016, Vol. 50 ›› Issue (02) : 174 -182.

PDF
华中师范大学学报(自然科学版) ›› 2016, Vol. 50 ›› Issue (02) : 174 -182. DOI: 10.19603/j.cnki.1000-1190.2016.02.003

基于Hadoop的SQL查询引擎性能研究

    吴黎兵, 邱鑫, 叶璐瑶, 王晓栋, 聂雷
作者信息 +

Author information +
文章历史 +
PDF

摘要

Apache Hadoop处理超大规模数据集有非常出色的表现,相比较于传统的数据仓库和关系型数据库有不少优势.为了让原有业务能够充分利用Hadoop的优势,SQL-on-Hadoop系统越来越受到工业界和学术界的关注.基于Hadoop的SQL查询引擎种类繁多,各有优势,其运算引擎主要包括三种:1传统的Map/Reduce引擎;2新兴的Spark引擎;3基于shared-nothing架构的MPP引擎.本文选取了其中最有代表性的三种SQL查询引擎—Hive、Spark SQL、Impala,并使用了一种类TPC-H的测试基准对它们的决策支持能力进行测试及评估.从实验结果来看,Impala和Spark SQL相对于传统的Hive都有较大的提高,其中Impala的部分查询比Hive快了10倍以上,并且Impala在完成查询所占用的集群资源也是最少的.然而若从稳定性、易用性、兼容性和性能等多个方面进行对比,并不存在各方面均最优的查询引擎,因此在构建基于Hadoop的数据仓库系统时,推荐采用Hive+Impala或者Hive+Spark SQL的混合架构.

关键词

大数据 / SQL-on-Hadoop / 数据仓库 / Spark SQL / Impala / Hive

Key words

引用本文

引用格式 ▾
基于Hadoop的SQL查询引擎性能研究[J]. 华中师范大学学报(自然科学版), 2016, 50(02): 174-182 DOI:10.19603/j.cnki.1000-1190.2016.02.003

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

99

访问

0

被引

详细

导航
相关文章

AI思维导图

/