英伟达GPU架构演进2010 |
您所在的位置:网站首页 › 英伟达所有架构 › 英伟达GPU架构演进2010 |
一、NVIDIA GPU架构发展从2010到2022 英伟达的GPU架构演进从2010年到2022的12年间,进行了8次大的微架构更新,架构代号均以科学家人名来命名; 下面是我搜集的相关资料进行了参数对比; 8代架构对比二、Fermi(费米)微架构 Fermi架构的GPU 下图中可以看到,Fermi架构的GPU最大可支持16 个 SMs,每个 SM 带 32 个 Cuda Cores,一共 512 个 Cuda Cores. 这些数量不是固定的,和具体的架构和型号相关。 整个 GPU 有多个 GPC(图形处理集群),单个GPC包含一个光栅引擎(Raster Engine),四个 SM(流式多处理器),GPC 可以被认为是一个独立的 GPU。所有从 Fermi 开始的 NVIDIA GPU,都有 GPC。 三、Kepler到Maxwell Kepler和Maxwell架构 开普勒与上一代的SM整体结构基本一致的,只是在SM你增加了更多的运算单元,其他部分变动不大。 Maxwell相比于Kepler的CUDA核心数减少,但是每个SMM单元拥有更多的逻辑控制电路,便于精准控制。 三代对比四、Pascal(帕斯卡)微架构 Pascal架构的GPU Pascal架构会有不同的核⼼,为GP100、GP102两种⼤核⼼: GP100:3840个CUDA核⼼,60组SM单元、GP102:3584个CUDA核⼼,28组SM单元;单个 SM 只有 64 个 FP32 Cuda Cores,相比 Maxwell 的 128 和 Kepler 的 192,这个数量要少很多,并且 64 个 Cuda Cores 分为了两个区块。 CUDA内核总数从Maxwell时代的每组SM单元128个减少到了每组64个,又重新增加了DP双精度运算单元。 制程⼯艺升级到了16nm,性能⼤幅提升,功耗持平。 五、Volta(伏特)微架构 Volta架构的GPU 和 Pascal 类似,直接拆了 4 个区块,每个区块多配了一个 L0 指令缓存: 单个区块还多个两个名为 Tensor Core 的单元。 原有的 CUDA Core 被拆成了 FP32 Cuda Core 和 INT32 Cuda Core,这意味着可以同时执行 FP32 和 INT32 的操作 Tensor 核心是专为执行张量或矩阵运算而设计的专用执行单元,而这些运算正是深度学习所采用的核心计算函数,它能够大幅加速处于深度学习神经网络训练和推理运算核心的矩阵计算。每个 TensorCore 只做如下操作:D=A*B+C 六、Turing(图灵)微架构 图灵架构的GPU 2018 年 NVIDIA 发布了 Turing 架构,整体和 Volta变化不大。 比较重要是的增加了一个 RT Core,全名是 Ray Tracing Core。光线追踪核心,主要面向于游戏或者仿真用的比如2080TI光追游戏应用。 Turing 里的 Tensor Core 增加了对 INT8/INT4/Binary 的支持。但是去掉了FP64的支持。 七、Ampere(安培)微架构 Ampere架构的GPU 2020 年 NVIDIA 发布了 Ampere 架构,又细分 GA100, GA102, GA104,。 除了 Volta 中的 FP16 以及在 Turing 中的 INT8/INT4/Binary,这个版本新加入了 TF32, BF16, FP64 的支持。 二代Tensor Core、多实例GPU (MIG)、第三代NVIDIA NVLink、结构化稀疏等新技术。 八、Hopper(赫柏)微架构 Hopper架构的GPU 集成超过 800 亿个晶体管(台积电 4nm 工艺) Transformer Engine 第二代 MIG:多实例 GPU(Multi-Instance GPU) NVIDIA 机密计算(Confidential Computing) 第四代 NVLink 全新 DPX 指令 今天主要分享了英伟达GPU架构演进的内容,更多GPU的技术白皮书三连私聊获取! |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |