什么是E

您所在的位置:网站首页 apache提供的是什么服务 什么是E

什么是E

2023-08-22 02:02| 来源: 网络整理| 查看: 265

开源大数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。

产品介绍

开源大数据开发平台EMR构建于云服务器ECS上,基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云其他的云数据存储系统和数据库系统(例如,阿里云OSS和RDS等)进行数据传输。

开源大数据开发平台EMR的SmartData和JindoData是EMR Jindo引擎的主要存储部分,为开源大数据开发平台EMR各个计算引擎提供统一的存储优化、缓存优化、计算缓存加速优化和多个存储功能扩展。说明 关于Apache Hadoop的更多介绍,请参见Apache Hadoop官网。关于Apache Spark的更多介绍,请参见Apache Spark官网。关于Apache Hive的更多介绍,请参见Apache Hive官网。关于Apache HBase的更多介绍,请参见Apache HBase官网。关于SmartData和JindoData的更多介绍,请参见SmartData和JindoData概述。E-MapReduce的用途

以往在使用Hadoop和Spark等分布式处理系统时,您通常需要执行如下步骤。

EMR使用流程

在上述使用流程中,真正跟用户的应用逻辑相关的是步骤8~10,而步骤1~7都是前期准备工作,但这些前期准备工作都非常冗长繁琐。E-MapReduce提供了集群管理工具的集成解决方案,例如,主机选型、环境部署、集群搭建、集群配置、集群运行、作业配置、作业运行、集群管理和性能监控等。通过E-MapReduce,您可以从繁琐的集群构建相关的采购、准备和运维等工作中解放出来,只关心自己应用程序的处理逻辑即可。

此外,E-MapReduce还为您提供了灵活的搭配组合方式,您可以根据自己的业务特点选择不同的集群服务。例如,如果您的需求是对数据进行日常统计和简单的批量运算,则可以只选择在E-MapReduce中运行Hadoop服务;如果您有流式计算和实时计算的需求,则可以在Hadoop服务基础上再加入Spark服务。

E-MapReduce的组成

E-MapReduce的核心是集群。E-MapReduce集群是由一个或多个阿里云ECS实例组成的Hadoop、Flink、Druid、ZooKeeper集群。以Hadoop为例,每个ECS 实例上通常都运行了一些daemon进程(例如,NameNode、DataNode、ResouceManager和NodeManager),这些daemon进程共同组成了Hadoop集群。

例如,下图是一个包含Master节点、Core节点和Task节点的Hadoop集群和Gateway集群。

EMR部署架构Master节点,部署了Hadoop的主节点服务,包括HDFS NameNode、HDFS JournalNode、ZooKeeper、YARN ResourceManager和HBase HMaster等服务,可以根据集群的使用场景,选择高可用集群或非高可用集群。测试环境可以选择非高可用集群,生产环境建议选择高可用集群。高可用集群可以选择2个或3个Master节点,当选择2个Master节点时,HDFS JournalNode和ZooKeeper会部署在Core的emr-worker-1节点。生产环境建议创建高可用集群时选择3个Master节点。Core节点,部署了HDFS DataNode和YARN Nodemanager,用于HDFS数据的存储和YARN的计算,不可以弹性伸缩。Task节点,部署了YARN NodeManager,用于YARN计算,可以通过弹性伸缩的方式灵活扩容或缩容。Gateway集群,部署了Hadoop的客户端文件,您可以通过Gateway提交作业,避免直接登录集群产生的安全和客户端环境隔离问题。您需要先创建Hadoop集群,然后创建Gateway集群关联至Hadoop集群。与自建Hadoop集群对比

开源大数据开发平台EMR与自建Hadoop集群的优势对比如下表所示。

对比项阿里云EMR自建Hadoop集群成本支持按量和包年包月付费方式,集群资源支持灵活调整,数据分层存储,资源使用率高。无额外软件License费用。需提前预估资源,且资源相对固定,资源使用率低。采用Hadoop发行版,需额外支付License费用。性能较开源版本性能大幅提升。采用开源社区版本,性能需自行优化。易用性分钟级别启动Hadoop集群,敏捷响应业务需求。采购服务器,部署Hadoop生态组件,周期长达数周。弹性可根据作业临时启动和销毁集群。集群资源可根据时间周期或集群负载动态自动调整。基于JindoFS计算存储分离架构,轻松分别扩展计算和存储资源。计算和存储耦合,资源相对固定,无法弹性调整资源。安全支持企业级多租户资源管理,支持对表、列、行级别的权限控制和日志审计,支持数据加密。多租户管理能力需自行配置,能力不完善,无法满足企业级需求。可靠大规模、企业级环境的检验,随开源版本升级,并经过专业的兼容性验证测试,提供优于社区版本的使用体验。需自行更新和升级开源版本,验证各组件版本兼容性,自行修复社区bug。服务专业和资深大数据专家技术服务团队提供售后支持。社区版本无服务支持,Hadoop发行版,需额外支付License和服务费用。支持形态阿里云EMR提供on ECS和on ACK两种方式,以满足不同用户的需求。对于正在使用EMR on ECS的用户,可以将Spark和Presto任务运行在ACK集群上,与其他应用共享一个ACK集群,可以实现计算资源跨可用区共享。对于已经将大数据任务(例如,Spark和Presto等)执行在ACK集群上的用户,EMR on ACK提供了自动部署和管理集群的能力。EMR on ACK与EMR Shuffle Service相结合,可以显著提升Spark任务的性能。ECS_ACK形态描述EMR on ECSEMR负责将开源Hadoop生态的组件安装部署在ECS上,并启动相应的服务。您可以在EMR控制台完成对集群ECS及服务的运维操作。

您需要将其大数据任务提交至EMR集群。

EMR on ACK您需要先完成ACK集群的安装部署。当ACK集群准备就绪后,EMR将基于ACK的资源安装部署大数据服务组件,并在容器内运行。说明 关于EMR on ACK的更多介绍,请参见EMR on ACK概述。


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3