GPU V100 性能测试报告

您所在的位置:网站首页 显卡带宽一般是多少 GPU V100 性能测试报告

GPU V100 性能测试报告

#GPU V100 性能测试报告| 来源: 网络整理| 查看: 265

通用计算性能测试

CUDA Driver Version / Runtime Version12.0 / 12.0CUDA Capability Major/Minor version number7.0Total amount of global memory32501 MBytes (34079637504 bytes)(108) Multiprocessors, (064) CUDA Cores/MP5120 CUDA CoresGPU Max Clock rate1380 MHz (1.38 GHz)Memory Clock rate877 MhzMemory Bus Width4096-bitL2 Cache Size6291456 bytesMaximum Texture Dimension Size (x,y,z)1D=(131072), 2D=(131072, 65536), 3D=(16384, 16384, 16384)Maximum Layered 1D Texture Size, (num) layers1D=(32768), 2048 layersMaximum Layered 2D Texture Size, (num) layers2D=(32768, 32768), 2048 layersTotal amount of constant memory65536 bytesTotal amount of shared memory per block49152 bytesTotal number of registers available per block65536Warp size32Maximum number of threads per multiprocessor2048Maximum number of threads per block1024Max dimension size of a thread block (x,y,z)(1024, 1024, 64)Max dimension size of a grid size (x,y,z)(2147483647, 65535, 65535)Maximum memory pitch2147483647 bytesTexture alignment512 bytesConcurrent copy and kernel executionYes with 7 copy engine(s)Run time limit on kernelsNoIntegrated GPU sharing Host MemoryNoSupport host page-locked memory mappingYesAlignment requirement for SurfacesYesDevice has ECC supportDisabledDevice supports Unified Addressing (UVA)YesDevice supports Managed MemoryYesDevice supports Compute PreemptionYesSupports Cooperative Kernel LaunchYesSupports MultiDevice Co-op Kernel LaunchYesDevice PCI Domain ID / Bus ID / location ID0 / 65 / 0

1. 环境配置:显卡规格:V100 32GB PCIe *2、CUDA 版本:12.0、NVIDIA 驱动版本:525.125.06

2. 测试工具:

NVIDIA 官方提供的命令行工具 device Query

3. 测试目的:

验证 CUDA 工具包是否可以正确安装和配置、检查 CUDA 可以访问的 GPU 设备的数量、计 算能力、核心数量、内存带宽等硬件规格信息,以及它们是否能正常工作,确保系统硬件配置的稳定性。

4. 测试结果

如上表所示。

5. 测试结论:

当前环境,NVIDIA 驱动、CUDA 工具包均已正常安装和配置,系统硬件配置稳定

GPU 显存带宽测试

1. 环境配置:

显卡规格:V100 32GB PCIe *2、CUDA 版本:12.0、NVIDIA 驱动版本:525.125.06

2. 测试工具:

NVIDIA 官方提供的命令行工具 bandwidthTest

3. 测试目的:

测试主机到 GPU 设备、GPU 设备到主机、以及设备到设备之间的数据传输速度,可用于评估 GPU 设备与主机之间的带宽,以及用于优化 GPU 计算应用程序的数据传输性能

4. 测试结果:

测试 GPU 主机到设备、设备到主机、设备到设备的带宽峰值值如上表所示,一般以 GB/s 为单位,该值越高则说明设备和主机之间的数据传输速度越快,系统整体带宽性能越好。其 中设备到设备的速度测试实际测试内容为当前 GPU 的显存性能。

5. 测试结论:

数据传输的大小 32000000 Bytes V100 GPU 主机到设备,设备到主机,设备与设备的显 存带宽均略低于理论封值,即主机到设备、设备到主机的理论峰值影响条件太多没有具体的 峰值、设备到设备数据传输速度相较于理论峰值低 19%。(实际带宽会受到多种因素的影响,比如说系统架构和配置、数据传输类型、驱动程序和其他软件等,所以实际带宽都会低于理论峰值)

三、GPU 之间的 P2P 带宽和延迟测试

1. 环境配置:

显卡规格:V100 32GB PCIe *2、CUDA 版本:12.0、NVIDIA 驱动版本:525.125.06

2. 测试工具:

NVIDIA 官方提供的命令行工具 p2pBandwidthLatencyTest

3. 测试目的:评估两个 GPU 之间的连接性能,包括带宽和延迟,从而评估 GPU 之间的数据传输性能。在多 GPU 并行计算中,GPU 之间的高速数据传输是保证计算性能的重要因素,因此评估 GPU之间连接性能是非常重要的。

4. 测试结果:

(1)P2P Connectivity Matrix:

D\D01011111

(2)Unidirectional P2P=Disabled Bandwidth Matrix (GB/s):

D\D010770.8410.06110.12773.13

(3)Unidirectional P2P=Enabled Bandwidth (P2P Writes) Matrix (GB/s):

D\D010771.997.0919.90773.51

(4)Bidirectional P2P=Disabled Bandwidth Matrix (GB/s):

D\D010710.0710.40110.46776.01

(5)Bidirectional P2P=Enabled Bandwidth Matrix (GB/s):

D\D010711.049.9019.89772.18

(6)P2P=Disabled Latency Matrix (us):

GPU0102.1063.95116.271.93CPU0103.549.5217.772.45

(7)P2P=Enabled Latency (P2P Writes) Matrix (us):

GPU0101.982.1212.121.93CPU0103.442.9212.312.58

p2pBandwidthLatencyTest 测试结果主要包括两个指标:带宽和延迟。带宽是指两个 GPU之间传输数据的速度,一般用 GB/s 作为单位。p2pBandwidthLatencyTest 测试结果中,带宽值越高表示两个 GPU 之间传输数据的速度越快,性能越好。一般来说,如果两个 GPU 连接到同一个 PCIe 根节点,则带宽会比连接到不同 PCIe 根节点的 GPU 之间的带宽要快。延迟是指两个 GPU 数据传输所需要的时间,一般用 us 作为单位。p2pBandwidthLatencyTest 测试结果中,延迟值越低表示数据传输所需要的时间越短,性能越好。一般来说,如果两个 GPU连接到同一个 PCIe 根节点,则延迟会比连接到不同 PCIe 根节点的 GPU 之间的延迟要低。

5. 测试结论:V100 各卡间通信正常,延迟最大值最小值与官方数据相差在 1%以内。(测试结果受到多种因素的影响,例如 GPU 类型、PCIe 版本、PCIe 带宽限制、数据大小等,测试结果仅供参考)

四、浮点计算性能测试

1.环境配置:

显卡规格:V100 32GB PCIe *2、CUDA 版本:12.0、NVIDIA 驱动版本:525.125.06 、 pyTorch

2.测试工具:

通过 PyTorch 提供的 Benchmark 进行测试

3. 测试目的:

浮点运算实际性能

4.测试结果:

机器当前使用用户无法手动调整 GPU 频率

理论性能(TFLOPS)实测性能(TFLOPS)FP16 Tensor Core11281.90177233701357Tensor Float 321413.205888549962348FP64 Tensor Core76.757058160771615

5.测试结论:

半精度、单精度、双精度的测试结果与官方理论值都有一些的差距,16 位实测结果低于理论性能 26.87%,32 位 64 位测试十分接近理论峰值,差值分别为 5.67%,3.47%(测试结果受到多种因素的影响)

五、Transformer+WMT’14

1.环境配置:

显卡规格:V100 32GB PCIe *2、CUDA 版本:12.0、NVIDIA 驱动版本:525.125.06 、

pyTorch、cuFFT

2.测试工具:

pyTorch1.13.1、sockeye3.1.34

3.测试目的:

测试长时间运行时的性能稳定性,以及整体性能。

4.测试结果:

显卡数量平均更新/sec平均 500update 运行时间(秒)10.0908550920.17442867

该程序主要使用 pytorch 的 Transformer 模型,数据集使用 WMT‘14 英语翻译为德语数据并进行 byte-pair encoding,测试训练耗时耗时。数据处理参数,训练参数在每次训练中均不改变。

数据预处理参数word-min-count2pad-vocab-to-multiple-of8max-seq-len95num-samples-per-shard10000000训练参数num-layers6transformer-model-size1024transformer-attention-heads16transformer-feed-forward-num-hidden4096batch-typemax-wordbatch-size5000update-interval20checkpoint-interval500max-updates15000optimizer-betas0.9:0.98initial-learning-rate0.06325learning-rate-scheduler-typeinv-sqrt-decaylearning-rate-warmup4000seed1

5.测试结论该机器在模型训练过程中,运行稳定并且训练速度较好,在本模型中卡间通讯速度并未掣肘整体运行时间。(需要注意的是,显卡的性能并不是独立存在的,而是与其他系统组件一起决定的,所以 PCIe 的连接类型、系统硬件配置的不同等都会有所影响,测试结果仅供参考)

六、NVLink 测试

1.环境配置:

显卡规格:V100 32GB PCIe *2、CUDA 版本:12.0、NVIDIA 驱动版本:525.125.06 、 pyTorch

2.测试工具: NVSMI

3.测试目的:

测试 NVLink 使用状况,性能

4.测试结果:

GPU0GPU1NIC0CPU AffinityNUMA AffinityCPU0XPIXPIX0-15,32-470GPU1PIXXPIX0-15,32-470NIC0PIXPIXX

PIX= Connection traversing at most a single PCIe bridge

5.测试结论显卡间未使用 NVLink 传输

七、IB 测试

1.环境配置:

显卡规格:V100 32GB PCIe *2、CUDA 版本:12.0、NVIDIA 驱动版本:525.125.06 、 pyTorch

2.测试工具:

IB 网络基准性能测试工具

3.测试目的:

测试 IB 使用状况,性能

4.测试结果:

无 IB 网络

5.测试结论

单机器无法测试 IB 速度

八、其他

nohup 有时会随着 session 的关闭而关闭,并且会在训练中导致错误,切换为 tmux 问题 解决。

session 在无程序运行状态会很快断开。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3