谁需要雪花?Dremio的直接数据湖分析变得更快和更强大

您所在的位置:网站首页 dremio开源和收费 谁需要雪花?Dremio的直接数据湖分析变得更快和更强大

谁需要雪花?Dremio的直接数据湖分析变得更快和更强大

2023-08-20 21:34| 来源: 网络整理| 查看: 265

独角兽云数据分析初创公司Dremio其目标是提供直接在数据湖上运行的分析过程,并表示其最新的基于开源的软件版本,增加了速度和更强大的功能,是淘汰数据仓库和消除数据仓库税的一步。

它所谓的Dart计划使由Apache Arrow驱动的Dremio内存软件运行得更快,为客户节省更多时间和金钱。其理念是,让基于sql的分析例程直接在存储在Amazon S3和Azure data Lake中的数据上运行,意味着我们不需要在运行分析流程之前通过提取、转换和加载(ETL)流程来加载数据仓库。数据仓库,如雪花和Yellowbrick的数据,有大量的功能和内置的速度。Dremio必须提供这两种功能,这样客户就不需要将数据仓库的ETL准备作为运行首选分析过程和获得快速查询响应的必要部分。

Dremio创始人Tomer Shiran。

Dremio创始人兼首席产品官Tomer Shiran表示:“从第一天起,在云数据湖上实现真正的交互式查询性能就是我们的使命,但我们一直在寻求突破边界,帮助我们的客户更快地移动……我们不仅大幅提高速度,创造效率,我们还通过消除数据仓库税,在不权衡成本和性能的情况下降低了企业的成本。”

Dremio表示,S3和Azure Data Lake中的信息可以以开源文件和表格式存储和管理,比如Apache Parquet和Apache Iceberg,并可以通过Apache Spark(用于批处理)、Dremio (SQL)和Apache Kafka(流)等解耦和弹性计算引擎进行访问。

Apache Iceberg提供数据仓库功能,如事务一致性、回滚和时间旅行。它还允许多个应用程序以事务一致的方式一起处理相同的数据。

Dremio支持项目尼斯湖水怪,它为数据湖提供了类似git的体验,并构建在Iceberg和Delta lake等表格格式之上,让用户可以利用分支来试验或准备数据,而不会影响数据的实时视图。Nessie支持单个事务跨越多个用户和引擎的操作,包括Spark、Dremio、Kafka和Hive。它使得从一致的时间点查询数据以及跨不同时间点查询数据成为可能。

特性列表 Dremio副总统Thirumalesh Reddy。

Dremio的工程和安全副总裁Thirumalesh Reddy补充了他的观点:“有两个主要的方面可以优化,以最大限度地提高查询性能:更快地处理数据,和更少地处理数据。”Dremio的最新软件版本兼具这两种功能。它的特点据说包括:

更好的查询规划:Dremio收集关于底层数据的深度统计信息,以帮助其查询优化器为任何给定的查询选择最佳执行路径。 查询计划缓存:当许多用户在仪表板中导航时,同时对SQL引擎发出类似的查询时,这很有用。 改进的、性能更高的编译器,支持更大、更复杂的SQL语句,同时减少了资源需求。 更广泛的SQL覆盖范围包括额外的窗口和聚合函数、分组集、交集、except/minor等等。 更快的基于Arrow的查询引擎:Arrow组件Gandiva是一个基于llvm的工具包,它通过生成代码来计算使用现代cpu的流水线和SIMD功能的SQL表达式,从而支持直接在内存中的Arrow缓冲区上进行向量化执行。Gandiva已经扩展到几乎所有SQL函数、操作符和强制类型转换。 更少的数据读取IO: Dremio通过增强扫描过滤器下推(现在支持多列下推入源读取,跨连接推入过滤器的能力,等等),减少了从云对象存储中读取的数据量。 无限的表大小和无限数量的分区和文件,以及几乎即时可用的新数据和数据集,因为它们在湖上持久存在。 透明查询加速数据结构(称为数据反射)的自动化管理。

据称,这些功能帮助Dremio的软件处理更少的数据,处理速度也比以前更快。查看Dremio架构指南在这里.

评论

块和文件Dremio表示,它希望实现数据民主化,而不需要供应商锁定云数据仓库。换句话说,未使用数据仓库或未锁定数据仓库的新手用户可以使用Dremio的软件以更低的成本获得数据仓库功能。他们可以避免Dremio所说的数据仓库税。

Dremio是否真的可以淘汰数据仓库是另一回事,但这是一个很好的营销策略。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3