芯片TOPS的真实性 |
您所在的位置:网站首页 › 矢量标量是什么意思啊怎么读 › 芯片TOPS的真实性 |
宣传的TOPS往往都是运算单元的理论值,而非整个硬件系统的真实值。
真实值更多取决于内部的SRAM、外部DRAM、指令集和模型优化程度。最糟糕的情况下,真实值是理论值的1/10算力甚至更低,一般也就50%的使用率。 理论值取决于运算精度、MAC的数量和运行频率。可大致简化为INT8精度下的MAC数量在FP16精度下等于减少了一半。FP32再减少一半,依次类推。 假设有512个MAC运算单元,运行频率为1GHz, INT8的数据结构和精度,算力为512 x 2 x 1 GHz = 1000 Billion Operations/Second = 1 TOPS FP16精度那么就是0.5TOPS, FP32精度就是0.25TOPS。 英伟达的Tesla V100有640个Tensor核,每核有64个MAC运算单元,运行频率大约1.480GHz,那么INT8下算力为640 * 64 * 2 * 1.480 GHz=121TOPS。 # 深度学习计算设备存在两个瓶颈,一个是处理器计算能力,另一个是计算带宽。动态的来看,不考虑使用的算法,内存和算力无法很好的匹配 分析哪一个限制了计算性能可以使用 Roofline 模型-计算性能(纵轴)和算法的运算强度(横轴)。 例如 ResNet-50需要MAC大约为每秒70亿次运算,英伟达TeslaT4运行ResNet-50每秒可处理3920张224*224的图像,3920 images/second x 7 BillionOperations/image = 27,440 Billion Operations/second = 27.4 TrillionOperations/Second = 27.4 TOPS。而英伟达Tesla T4的理论算力是130TOPS。实际只有27.4TOPS。 决定算力真实值最主要因素是内存( SRAM和DRAM)带宽, 为何大部分人工智能算法公司都想定制或自制计算平台。算法的性能与硬件设计往往脱离不开。要提高利用率就需要软硬件一体设计。 ## TOPS: Tera-Operations/second 标量视为零阶张量,矢量视为一阶张量,那么矩阵就是二阶张量。 参考 https://zhuanlan.zhihu.com/p/343191353 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |