英伟达显卡有这么多型号,运行深度学习哪一个型号性价比最高?是算力越大越好么?

您所在的位置:网站首页 显卡型号含义图 英伟达显卡有这么多型号,运行深度学习哪一个型号性价比最高?是算力越大越好么?

英伟达显卡有这么多型号,运行深度学习哪一个型号性价比最高?是算力越大越好么?

2023-04-04 16:02| 来源: 网络整理| 查看: 265

正好在做相关产品。如果单看账面参数可能会被NVIDIA精准的刀法给搞懵了。请看以下各型号GPU参数汇总,注意下面半精部分部分GPU型号官方没有直接给出,这里根据TensorCore单元数量进行一个估算得出。

型号显存单精(FP32)半精(FP16)TITAN Xp12GB12.15 T12.15 T1080 Ti11GB11.34 T11.34 T2080Ti11GB13.45 T53.8 TV10016/32GB15.7 T125 T306012GB12.74 T约24TA400016GB19.17 T约38T3080Ti12GB34.10 T约70TA500024GB27.77T约117T309024GB35.58 T约71TA4048GB37.42 T149.7 TA10040/80GB19.5 T312 T

举几组例子来说明。3090和A40,2080Ti和A4000,A100自成一组

第一组:3090和A40,咋一看怎么都是A40牛逼,单精、半精还有显存都超过了3090。但是实测会发现并不是那么回事,正好相反,跑多数算法3090都比A40快,功率也是3090的大(350w)。为什么呢?

先看A40的显存参数:

再看3090的显存参数:

是不是发现了,A40的显存大了但是性能被阉割了,A40是GDDR6 695GB/s的显存带宽,而3090是GDDR6X 936.2GB/s的显存带宽,导致虽然A40计算性能高,但是被3090显存的带宽优势拉平了,并且大多数做深度学习对显存带宽的要求比较高,使得最终3090占据了更多优势。当然对显存有强需求除外。

第二组:再看2080Ti和A4000,咋看之下也是A4000更好,实测其实差不多甚至2080Ti性能更强,当然A4000的显著优势是显存比2080Ti大了5GB。

先看2080Ti的显存参数:

再看A4000的显存参数:

又是2080Ti的显存带宽占优势。看上去可能是老黄的一贯伎俩,显存大就阉割带宽(手动狗头)

第三组:A100。A100是一个特殊的存在,账面数据单精只有19.5T,如果说只有A4000的算力那就大错特错了,准确说不完全对。实际上A100的GA100核心,TensorCore是完整的,拥有156T的TF32和312T的FP16。而GA102核心(3090、3080ti、A40、A5000都是基于此核心)是35T的TF32和150T的FP16,因此3090、3080ti、A40、A5000的TensorCore计算性能比A100大减。而TensorCore有什么影响呢?以CUDA Core的算力来看A100的单精性能比较鸡肋,但是TensorCore能为卷积和矩阵乘法提供FP32的计算能力,因此A100实测深度学习典型算法的性能会甩其他卡一大截。

从两个典型的深度学习算法来看,ResNet系列的网络包含激活较多,除了本身算力,显存的带宽也对性能有较大影响,所以不能光看上边的账面算力。Vision Transformer网络中的矩阵乘法多,这部分时间占总计算时间的比重大,本身账面算力大小占主要因素。

AutoDL 有一个汇总测试,对比不同GPU型号跑ResNet和ViT的性能实测数据,请自行查看。

以上数据参考网址:

NVIDIA A40 PCIe SpecsNVIDIA GeForce RTX 3090 SpecsNVIDIA RTX A4000 SpecsNVIDIA GeForce RTX 2080 Ti SpecsNVIDIA A100 SXM4 40 GB SpecsAutoDL性能实测

其他补充:

本身NV在GA100和GA102核心上的设计是紧贴需求的,因为GA102核心本来就是用于图形渲染的。图形渲染只能调用CUDACore,所以CUDACore数量死命地堆。但是因为DLSS的出现,使得渲染低分辨率图像,然后通过超分或者GAN提升成为加速手段,这样整体算力占用就是CUDACore为主,TensorCore为辅。在深度学习计算里面,正好反过来。TensorCore的矩阵乘法几乎承担了80%以上的算力。CUDACore一般只用来算激活函数、Norm、和向量加法(残差连接)。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3