【手把手带你玩转HetuEngine】（二）HetuEngine应用场景与案例

您所在的位置：网站首页 › hetuengine怎么读 › 【手把手带你玩转HetuEngine】（二）HetuEngine应用场景与案例

【手把手带你玩转HetuEngine】（二）HetuEngine应用场景与案例

2024-07-05 08:58| 来源: 网络整理| 查看: 265

前言

前面已经介绍了HetuEngine是什么，本篇文章将带你了解HetuEngine常见的应用场景，与业务场景相结合，判断HetuEngine是否适应于业务场景。

HetuEngine常见应用场景交互式查询场景

现状和挑战：

查询慢：数据从入湖、Hive批加工，再搬迁到DWS进行交互式分析，整个链条数据消费时延长，对“反欺诈”、“实时风控”等高效应用存在不满足的情况；效率低：数据从Hadoop迁移到DWS是一个耗时的工作；成本高：两套集群、数据多次备份，构建成本相对较高；

HetuEngine交互式查询方案：

Hive加工完成后，HetuEngine就地实现交互式查询，数据“0”搬迁；资源基于YARN进行统一调度，夜间更多资源分配给跑批任务，白天适当多分配给交互式查询任务，资源利用率高、成本更低；支持多租户，多部门业务任务并行处理。多数据源统一SQL查询场景

现状和挑战：

跨源数据分析复杂：为满足不同的分析需求，当前不同的数据分散在Hive、HBase、ElasticSearch、ClickHouse等不同存储系统中；各自存储系统接口不同，跨源的数据分析复杂；缺乏统一数据视图：数据分散到多库中，缺少统一的数据全景视图，不利于上层应用开发。

HetuEngine多源异构方案：

跨源数据协同：HetuEngine支持HDFS、HBase、 ElasticSearch、ClickHouse等异构数据源的关联查询；统一SQL接口：异构跨源分析，采用统一SQL接口，降低应用开发复杂度，加速业务落地；全局元数据：统一集群数据视图，提升数据查找效率；湖仓协同查询场景

现状和挑战：

跨源数据分析复杂：现网已有数仓DWS，数据湖与数仓割裂，各自接口不同，跨源的数据分析复杂；缺乏统一数据视图：数据分散到多库中，缺少统一的数据全景视图，不利于上层应用开发。

HetuEngine湖仓一体方案：

跨源数据协同：HetuEngine支持DWS与数据湖内Hive、HBase、 ElasticSearch、ClickHouse等异构数据源的关联查询，实现湖-仓的一体化分析，数据免搬迁；统一SQL接口：湖-仓关联分析采用统一SQL接口，降低应用开发复杂度，加速业务落地；全局元数据：统一集群数据视图，提升数据查找效率；跨域协同数据分析场景

现状和挑战：

跨地域数据分析复杂：需要搬运数据，受限于网络条件等因素，工程复杂，数据分析时效性差；受限法规无法搬运数据：部分场景因两地法规不同，不允许搬运数据，导致跨地域数据分析难以实施。

HetuEngine跨域协同方案：

跨地域数据协同分析：HetuEngine支持跨多个地域的数据协同分析，数据免搬迁；统一SQL接口：跨域分析采用统一SQL接口，降低应用开发复杂度，加速业务落地；全局元数据：统一多个数据湖的数据视图，提升数据查找效率； HetuEngine案例金融数据湖探索

业务挑战：

数据湖积累了全量数据，使用SAS、BI等分析工具对接Hive/Spark，难以高效分析湖内数据，数据难以快速变现（平均5分钟~2小时返回）全量湖内数据与数仓数据无法关联分析，数据湖难以利用数仓加工后的主题数据基于Hive的BI分析业务并发能力不足（小于10）

解决方案：

HetuEngine通过本地化计算、执行动态过滤、执行计划缓存、多维度算子下推、ORC Cache等多种智能自适应优化技术，提供秒级交互式查询能力 HetuEngine提供数据湖数据关联DWS分析，湖内数据加工可以直接利用DWS加工过的主题数据 HetuEngine提供ResourceGroup并发控制、user acl缓存机制、内核参数优化，提高并发能力兼容Hive语法和UDF，支持无缝应用迁移、

客户价值：

SAS建模分析、自助BI分析，查询性能提升5倍（Spark->HetuEngine）高效关联分析，重复利用已加工的数据仓库数据，提升湖内数据分析时效性从分钟级提升至秒级，统一SQL接口，开发效率提升2倍 BI业务并发TPS可达到45.2，阶梯式并发最大可达到200，平均时延8秒无缝应用迁移，支持灵活数据探索的同时，节省90%业务改造成本跨域协同案例

HetuEngine实现跨地市的协同计算，一个SQL就可访问全部数据源，直接做数据分析。业务痛点：跨域分析需人工摆渡：数据需搬迁本地，操作复杂，平均响应时长30分钟以上跨源数据访问难度大：组件多、语言多，关联分析应用层业务逻辑复杂，上线需数周

使用HetuEngine后的效果：

跨地市数据秒级协同分析：“数据免搬”，将亿级数据跨源分析从1443秒优化到32秒，效率提升近50倍统一SQL，简化用数：全局SQL接口查询分析，业务上线效率提升10倍（周->天） HetuEngine特性介绍高性能交互式分析动态过滤

基于运行时推断出来的信息进行数据动态裁剪，降低不必要的数据读取，有效减少IO与网络传输，提升性能 PB级数据秒级响应 MPP架构，算力资源、存储资源横向扩展，从容实现PB级海量数据高并发秒级响应单租户并发1000 三层分布式架构，有效破解传统MPP并发瓶颈。单租户并发达1000+ 智能预计算

基于智能分析SQL执行历史记录，自动实现对热查询计算结果的预先计算、自动刷新，实现业务无感知的预计算加速 Data Skipping 通过结合文件索引信息，在scan过程中快速筛选文件，实现对Hudi格式数据访问IO降低90%，性能提升4 倍智能化分析引擎自动路由

自动将SQL任务请求进行动态路由，交给最恰当的计算实例来执行，达成系统高可用、资源利用率和并发容量最大化自动调配

自动调配超大SQL实时计算规模，自适应细粒度平滑调度，提升任务执行成功率，有效防御偶发性大任务对系统的瞬间压力冲击自动学习根据用户使用习惯，自动提取SQL语句、资源占用、耗时等多维特征，采用机器学习训练挖掘任务间潜在内在联系，基于预测收益最大化原则自动生成热缓存（物化视图）详细定义自动诊断

自动完成SQL任务、用户行为等多维度指标统计，结合语法、语义特征快速定位出质量欠佳的SQL语句和用户信息，提前预示业务风险，运维效率提升5倍自动加速

自动创建和维护物化视图实现智能预计算，实现对高价值业务访问请求的自动识别与加速，同时有效降低整体负载压力，优化系统稳定性和并发统一SQL 动态感知动态感知任务运行时的数据源元数据，避免事先收集元数据，保证实时有效性；动态感知访问权限策略变化、数据源信息更新，保证数据安全性统一模型

提供数据源可视化注册能力，实现统一的数据源命名空间、统一的元数据模型，及在此基础之上的统一的权限、访问、管理模型，同时保持开放性、可扩展性多源异构关联分析

一条SQL打破内部数据墙，业务上线效率提升10倍，跨域协同性能提升50倍。支持跨源跨域统一SQL访问，支持结构化与半结构化数据源之间的关联分析，使能数据湖内、湖间、湖仓一站式SQL融合分析

计算下推跨源、跨域计算下推，综合多种优化规则自动完成SQL改写与子任务下推，实现近似本地数据访问性能体验，支持remote UDF下推、文件级scan下推，网络传输数据量降低90% 高级UDF语法提供SQL语法在线新建UDF，支持定义local UDF（HetuEngine解释执行）、remote UDF（远程数据源解释执行），重用数据源UDF，满足统一SQL引擎的关键业务需求云原生分布式组网