芯片TOPS的真实性

您所在的位置:网站首页 矢量标量是什么意思啊怎么读 芯片TOPS的真实性

芯片TOPS的真实性

2024-06-10 05:10| 来源: 网络整理| 查看: 265

宣传的TOPS往往都是运算单元的理论值,而非整个硬件系统的真实值。

真实值更多取决于内部的SRAM、外部DRAM、指令集和模型优化程度。最糟糕的情况下,真实值是理论值的1/10算力甚至更低,一般也就50%的使用率。

理论值取决于运算精度、MAC的数量和运行频率。可大致简化为INT8精度下的MAC数量在FP16精度下等于减少了一半。FP32再减少一半,依次类推。

假设有512个MAC运算单元,运行频率为1GHz,

INT8的数据结构和精度,算力为512 x 2 x 1 GHz = 1000 Billion Operations/Second = 1 TOPS

FP16精度那么就是0.5TOPS,

FP32精度就是0.25TOPS。

英伟达的Tesla V100有640个Tensor核,每核有64个MAC运算单元,运行频率大约1.480GHz,那么INT8下算力为640 * 64 * 2 * 1.480 GHz=121TOPS。

# 深度学习计算设备存在两个瓶颈,一个是处理器计算能力,另一个是计算带宽。

动态的来看,不考虑使用的算法,内存和算力无法很好的匹配

分析哪一个限制了计算性能可以使用 Roofline 模型-计算性能(纵轴)和算法的运算强度(横轴)。

例如

ResNet-50需要MAC大约为每秒70亿次运算,英伟达TeslaT4运行ResNet-50每秒可处理3920张224*224的图像,3920 images/second x 7 BillionOperations/image = 27,440 Billion Operations/second = 27.4 TrillionOperations/Second = 27.4 TOPS。而英伟达Tesla T4的理论算力是130TOPS。实际只有27.4TOPS。

决定算力真实值最主要因素是内存( SRAM和DRAM)带宽,

为何大部分人工智能算法公司都想定制或自制计算平台。

算法的性能与硬件设计往往脱离不开。要提高利用率就需要软硬件一体设计。

## 

TOPS: Tera-Operations/second

标量视为零阶张量,矢量视为一阶张量,那么矩阵就是二阶张量。

参考

https://zhuanlan.zhihu.com/p/343191353



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3