6亿数据秒级查询,ClickHouse太快了!

您所在的位置:网站首页 几亿条数据怎么优化查询 6亿数据秒级查询,ClickHouse太快了!

6亿数据秒级查询,ClickHouse太快了!

2024-06-29 09:07| 来源: 网络整理| 查看: 265

ClickHouse 在数据分析技术领域早已声名远扬,最近由于项目需求使用到了 ClickHouse 做分析数据库,于是用测试环境做了一个单表 6 亿数据量的性能测试。

图片来自 Pexels

本文记录一下测试结果,有做超大数据量分析技术选型需求的朋友可以参考下。

服务器信息

如下:

CPU:Intel Xeon Gold 6240 @ 8x 2.594GHz内存:32G系统:CentOS 7.6Linux 内核版本:3.10.0磁盘类型:机械硬盘文件系统:ext4

Clickhouse 信息

如下:

部署方式:单机部署版本:20.8.11.17

测试情况

测试数据和测试方法来自 Clickshouse 官方的 Star Schema Benchmark:

代码语言:javascript复制https://clickhouse.tech/docs/en/getting-started/example-datasets/star-schema/

按照官方指导造出了测试数据之后,先看一下数据量和空间占用情况。

①数据量和空间占用

如下图:

可以看到 Clickhouse 的压缩率很高,压缩率都在 50 以上,基本可以达到 70 左右。

数据体积的减小可以非常有效的减少磁盘空间占用、提高 I/O 性能,这对整体查询性能的提升非常有效。

supplier、customer、part、lineorder 为一个简单的「供应商-客户-订单-地区」的星型模型。

lineorder_flat 为根据这个星型模型数据关系合并的大宽表,所有分析都直接在这张大宽表中执行,减少不必要的表关联,符合我们实际工作中的分析建表逻辑。

以下性能测试的所有分析 SQL 都在这张大宽表中运行,未进行表关联查询。

查询性能测试详情

①Query 1.1

代码语言:javascript复制SELECT sum(LO_EXTENDEDPRICE * LO_DISCOUNT) AS revenue FROM lineorder_flat WHERE (toYear(LO_ORDERDATE) = 1993) AND ((LO_DISCOUNT >= 1) AND (LO_DISCOUNT = 4) AND (LO_DISCOUNT = 26) AND (LO_QUANTITY = 'MFGR#2221') AND (P_BRAND = 1992) AND (year = 1992) AND (year


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3