分布式计算的概念及框架

2024-04-26 05:06| 来源: 网络整理| 查看: 265

Hello各位old铁，卑微小张在线分享技术观念，以下是今日份读解。

关于分布式计算、并行计算的理解

一提到分布式计算就不得不区分一下它与并行计算的相关概念。

……之前一直被问到并行计算和分布式计算有什么区别，当时脑子里就在想What……

这不是一个东西？一直分布式并行计算叫着。之后有过相关的学习以及查阅资料，发现二者确实存在一定的联系，但其实还真不是一个东西。

并行计算，相对于串行计算而言，一般可分为时间并行和空间并行。时间并行可以看做是流水线操作，类似CPU执行的流水线，而空间并行则是目前大多数研究的问题，例如一台机器拥有多个处理器，在多个CPU上执行计算，例如MPI技术，通常可分为数据并行和任务并行。

分布式计算，则是相对单机计算而言的，利用多台机器，通过网络连接和消息传递协调完成计算。把需要进行大量计算的工程数据分区成小块，由多台计算机分别计算，再上传运算结果后，将结果统一合并得出最终结果。

总而言之现在人们更比较关心的是二者之间的重叠部分，例如：Hadoop。Spark等等。

关于分布式计算框架

Hadoop是分布式计算框架的基础，其中的HDFS提供文件存储，Yarn进行资源管理。在这上面可以运行MapReduce、Spark、Tez等计算框架。

MapReduce:是一种离线计算框架，将一个算法抽象成Map和Reduce两个阶段进行处理，非常适合数据密集型计算。

Spark:Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

Storm:MapReduce也不适合进行流式计算、实时分析，比如广告点击计算等。Storm是一个免费开源、分布式、高容错的实时计算系统。Storm令持续不断的流计算变得容易，弥补了Hadoop批处理所不能满足的实时要求。Storm经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。

Tez: 是基于Hadoop Yarn之上的DAG（有向无环图，Directed Acyclic Graph）计算框架。它把Ｍap/Reduce过程拆分成若干个子过程，同时可以把多个Ｍap/Reduce任务组合成一个较大的DAG任务，减少了Ｍap/Reduce之间的文件存储。同时合理组合其子过程，也可以减少任务的运行时间。

【本文地址】

分布式计算的概念及框架

分布式计算的概念及框架

今日新闻

推荐新闻