PDF
摘要
存储计算分离方案已成为一种提高大规模数据处理性能及效率的系统架构,但其存储层的访问效率低、网络开销大、对小文件不友好,存在着极大的性能瓶颈.基于MergeTree的数据库ClickHouse在数据存储过程中会产生很多小文件. ClickHouse和S3存算分离方案中文件粒度固定的SSD (solid state driver)缓存区不仅和内存数据不匹配,还会造成缓存区空间浪费.提出了一种面向存算分离架构的缓存管理方案HG-Buffer (hybrid granularity buffer),旨在优化ClickHouse和S3的存储计算分离方案以及对象存储的小文件问题,以提高缓存空间的利用率,从而提高系统访问效率. HG-Buffer通过将SSD作为计算层和存储层之间的缓存层,并将SSD缓冲区组织成两个粒度的缓冲区来实现:对象缓冲区和块缓冲区。对象缓存粒度是对象存储中的数据粒度;而块缓存粒度是系统访问数据的数据粒度,其中块缓存粒度是对象缓存粒度的子集. HG-Buffer通过统计数据热度信息,自适应地选择数据存储的位置,以提高SSD空间的利用率,从而提高系统性能.在ClickHouse和S3上进行的实验评估证明了HG-Buffer的有效性和稳健性.
关键词
Key words
面向存算分离架构的混合粒度缓存策略[J].
华东师范大学学报(自然科学版), 2023, 0(5): 26-39 DOI: