并行计算

您所在的位置:网站首页 并行计算体系结构 并行计算

并行计算

2024-06-21 13:20| 来源: 网络整理| 查看: 265

1 并行计算机系统结构

大型并行机系统一般可分为6类机器:单指令多数据流SIMD(single instruction multiple data);并行向量处理机PVP(parallel vector processor);对称多处理机SMP(symmetric multiprocessor);大规模并行处理机MPP(massively parallel processor);工作站机群COW(cluster of workstations)和分布共享存储多处理机DSM(distributed shared memory);SIMD计算机多为专用,其余的五种均属于多指令多数据流计算机。

分为3大类:

共享存储多处理机系统、分布存储多处理机系统、机群系统

PVP

这样的系统中包含了少量的高性能专门设计定制的向量处理器VP,每个至少具有1Gflops的处理能力,系统中使用专门设计的高带宽的交叉开关网络将VP连向共享存储模块,存储器可以兆字节每秒的速度向处理器传送数据这样的机器通常不使用高速缓存而使用大量向量寄存器和指令缓冲器。

SMP

SMP(symmetric multiprocessor, 对称多处理机),这种并行计算机结构,多个处理器共享存储器,这种结构在现今的并行服务器中几乎普遍采用。 

SMP系统使用商品微处理器(具有片上和外置高速缓存),它们经由高速总线(或交叉开关)连向共享存储器。主要应用于商务,数据库、数据仓库、在线事务处理系统等。重要的是对称,每个处理器等同访问共享存储器、I/O设备和操作系统服务。正是对称,才能拓展并行性,也正是共享存储,限制系统中的处理器不能太多(一般少于64个),同时总线和交叉开关互连一旦做成也难于拓展。

特性:

对称性,系统任何处理机均可访问任何存储单元和I/O设备;单地址空间,单地址空间有很多好处,如因为只有一个OS和DB副本驻留在共享存储器中,所以OS可以按照负载情况在多处理机上调度进程从而易达到动态负载平衡,同理由于只有一个数据库副本,用户不必担心数据的分配和再分配;高速缓存及其一致性,多级高速缓存可支持数据的局部性,一致性可由硬件来增强;低通信延迟,处理器之间的通信可用简单的读/写指令来完成(而多计算机系统中处理器间的通信要用多条指令才能完成发送/接受操作);

大多数商用的SMP系统都是基于总线连接的,占用了并行计算机很大的市场,但SMP存在以下的缺点:

欠可靠,总线、存储器或OS失效会造成系统崩溃可观的延迟,虽然SMP比MPP通信延迟要小,但相对处理器速度而言仍相当的可观,一般通行延迟为数百个处理器周期,长者可达数千个指令周期。慢速增加的带宽,存储器传输带宽的增长速度跟不上处理器速度和存储器容量增长的步伐;不可扩放性,总线是不可扩放的,这就限制了最大处理器数量一般不能超过10,为了增大系统的规模,可改用交叉开关连接或改用CC-NUMA或机群结构; MPP

MPP (Massively Parallel Processing),意为大规模并行处理系统,这样的系统是由许多松耦合处理单元组成的,要注意的是这里指的是处理单元而不是处理器。每个单元内的CPU都有自己私有的资源,如总线、内存、硬盘等。在每个单元内都有操作系统和管理数据库的实例复本。这种结构最大的特点在于不共享资源。

MPP一般指超大型(very large scale)计算机系统,它具有如下特性:

处理节点采用商品微处理器系统中有物理上的分布式存储器采用高通信带宽和低延迟的互联网络能扩放至成百上千乃至上万个处理器它是一种异步的MIMD机器,程序系由多个进程组成,每个都有其私有地址空间,进程采用消息传递。MPP主要应用于科学计算、工程模拟、和信号处理等以计算为主的领域 DSM

分布式共享存储器多处理机,高速缓存目录DIR用于支持分布高速缓存的一致性,DSM和SMP的主要差别是,DSM在物理上有分布在各个节点中的局存,从而形成了共享存储器。对用户而言,系统硬件和软件提供了一个单地址的编程空间。DSM相对于SMP的优越性在于编程容易。

COW

工作站机群,在有些情况下,机群往往是低成本的变形的MPP。COW的重要界线和特征是:

COW的每个节点都是一个完整的工作站,这样的节点有时叫做“无头工作站”,一个节点也可以是一台PC或SMP各节点通过一种低成本的商品网络互连各节点内总是有本地磁盘,而MPP节点内却没有节点内的网络接口是松散偶合到I/O总线的,而MPP的网络接口是连到处理节点的存储总线上的,因而可谓是紧耦合式的一个完整的操作系统驻留在每个节点中,而MPP中只有一个微核,COW的操作系统是工作站UNIX,加上一个附加的软件层,以支持单一系统映像、并行度、通信和负载平衡等。

现今,MPP和COW之间的界线越来越模糊,机群相对于MPP有性价比高的优势,所以在发展可扩放并行计算机方面呼声很高。

2 并行计算机的访存模型           UMA(uniform memory access) 均匀存储访问模型

主要特点有:

物理存储器被所有处理器均匀共享所有处理器访问任何存储单元取相同每台处理器可带有私有高速缓存外围设备也可以一定形式共享

这种系统由于高度共享资源而称为紧耦合系统,当所有的处理器都能等同地访问所有I/O设备、能同样地运行执行程序时称为对称多处理机;如果只有一台或一组处理器,它能执行操作系统并能操纵I/O,而其余的处理器无I/O能力,只在主处理器的监控之下执行用户代码,这时称为非对称处理机。

APRAM模型中的指令类型

全局读: 将全局存储单元中内容读入局存中局部操作: 局存中的数据执行操作全局写: 将局存中的内容写入全局中同步:同步是计算中的一个逻辑节点,在该点各处理器均需等待别的处理器到达后才能继续执行其局部程序

            NUMA(nonuniform memory access)非均匀存储模型

主要特点:

被共享的存储器在物理上是分布在所有的处理器中的,所以本地存储器的集合就组成了全局地址空间;处理器访问存储器的时间是不一样的:访问本地存储器LM或群内共享存储器CSM较快,但外地的存储器或全局共享存储器GSM较慢每台处理器可带私有高速缓存,且外设也可以某种形式共享         COMA(Cache-Only memory access)  全高速缓存存储模型

主要特点:

各处理器节点中没有存储层次结构,全部高速缓存组成了全局地址空间利用分布的高速缓存目录进行远程高速缓存的访问COMA中的高速缓存容量一般都大于2级高速缓存容量使用COMA时,数据开始时可任意分配,因为在运行时它最终会被迁移到要用到它的地方          CC-NUMA(coherent-cache nonuniform menory access) 高速缓存一致性非均匀存储访问

它实际上是将一些SMP机器作为一个单节点而彼此连接起来所形成的一个较大的系统,主要特点是:

大多数商用CC-NUMA多处理机系统都使用基于目录的高速缓存一致性协议;它在保留SMP结构易于编程的优点的同时,也改善了常规SMP的可扩展性问题CC-NUMA是一个分布共享存储的DSM多处理机系统最明显的优点是程序员无需明确地在节点上分配数据,系统的硬件和软件开始时自动在各节点分配数据,运行期间,高速缓存一致性硬件会自动地将数据移至要用到它的地方。总之,CC-NUMA所发明的一些技术在开拓数据局部性和增强系统的可扩放性方面很有效。 NORMA(No-Remote Memory Access)非远程存储模型

在一个分布存储的计算机系统中,如果所有的存储器都是私有的、仅能由其处理器访问就称为NORMA。  每个节点都是由处理器、本地存储器、I/O外设组成的自治计算机。

主要特点是:

所有存储器均是私有的绝大多数NUMA都不支持远程存储器的访问在DSM中,DORMA就消失了

3 并行算法设计基础 并行算法定义和分类

算法是对解决问题的描述,它是一系列步骤的有序并且有限的集合。

并行算法是一些可同时执行的进程的集合,这些进程相互协调和相互作用从而达到给定问题的求解。

数值计算指基于代数关系运算的一类诸如矩阵运算、多项式求值、求解线性方程组等数值计算问题。求解数值计算问题的算法称为数值算法。

非数值计算指基于比较关系运算的诸如排序、选择、搜索、匹配等符号处理问题。求解非数值计算问题的算法称为非数值算法。

同步算法指算法的诸进程的执行必须相互等待的一类并行算法,诸进程的相互协调。

异步算法指算法的诸进程的执行不必相互等待的一类并行算法。

分布算法指通信链路连接的多个节点,协同完成问题求解的一类并行算法。

如此,在局域网环境下进行的计算为分布计算,工作站机群环境下进行的计算为网络计算,基于internet的计算称为元计算。

确定算法指算法的每一步都能明确地指明下一步应该行进的一种算法。

随机算法指算法的每一步随机地从指定范围内选取若干参数,由其来确定算法的下一步走向的一种算法。

并行算法指标

运行时间:运行是时间就是算法运行在给定模型上求解问题所需的时间(主要是输入规模n的函数),通常包含计算时间和通行时间,分别用计算时间步和选路时间步作单位。

处理器数p(n):它是求解问题所用的处理器数目,通常p(n)=n的(1-x)次方,其中0



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3