6亿数据秒级查询,ClickHouse太快了! |
您所在的位置:网站首页 › 几亿条数据怎么优化查询 › 6亿数据秒级查询,ClickHouse太快了! |
ClickHouse 在数据分析技术领域早已声名远扬,最近由于项目需求使用到了 ClickHouse 做分析数据库,于是用测试环境做了一个单表 6 亿数据量的性能测试。 ![]() 图片来自 Pexels 本文记录一下测试结果,有做超大数据量分析技术选型需求的朋友可以参考下。 服务器信息 如下: CPU:Intel Xeon Gold 6240 @ 8x 2.594GHz内存:32G系统:CentOS 7.6Linux 内核版本:3.10.0磁盘类型:机械硬盘文件系统:ext4Clickhouse 信息 如下: 部署方式:单机部署版本:20.8.11.17测试情况 测试数据和测试方法来自 Clickshouse 官方的 Star Schema Benchmark: 代码语言:javascript复制https://clickhouse.tech/docs/en/getting-started/example-datasets/star-schema/按照官方指导造出了测试数据之后,先看一下数据量和空间占用情况。 ①数据量和空间占用 如下图: ![]() 可以看到 Clickhouse 的压缩率很高,压缩率都在 50 以上,基本可以达到 70 左右。 数据体积的减小可以非常有效的减少磁盘空间占用、提高 I/O 性能,这对整体查询性能的提升非常有效。 supplier、customer、part、lineorder 为一个简单的「供应商-客户-订单-地区」的星型模型。 lineorder_flat 为根据这个星型模型数据关系合并的大宽表,所有分析都直接在这张大宽表中执行,减少不必要的表关联,符合我们实际工作中的分析建表逻辑。 以下性能测试的所有分析 SQL 都在这张大宽表中运行,未进行表关联查询。 查询性能测试详情 ①Query 1.1 代码语言:javascript复制SELECT sum(LO_EXTENDEDPRICE * LO_DISCOUNT) AS revenue FROM lineorder_flat WHERE (toYear(LO_ORDERDATE) = 1993) AND ((LO_DISCOUNT >= 1) AND (LO_DISCOUNT = 4) AND (LO_DISCOUNT = 26) AND (LO_QUANTITY = 'MFGR#2221') AND (P_BRAND = 1992) AND (year = 1992) AND (year |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |