CUDA编程 float计算速度更快以及解决float精度问题方法

您所在的位置:网站首页 float计算精度 CUDA编程 float计算速度更快以及解决float精度问题方法

CUDA编程 float计算速度更快以及解决float精度问题方法

2024-06-27 12:42| 来源: 网络整理| 查看: 265

在使用CUDA并行编程设计radon变换函数时,由于我的GPU计算能力仅有3.5,没办法使用双精度double的原子操作,于是用float代替全部的double,结果发现计算速度提高了一倍(如果用double的话,在release下是450ms,使用float,仅需要225ms),感觉可能GPU计算float的速度比double要快(个人感觉,还没被验证)

如果使用官方提供的利用atomicCAS来设计atomicAdd函数的话,在计算量非常大的时候,会遇到奇怪的问题,返回错误码719。我搜遍了网络都没找到答案,无奈最后将全部double改成float型,使用CUDA自带的float的atomicAdd,问题得到解决——感觉应该是自己设计的double型atomicAdd,在计算量大的时候用光了GPU的全部资源

但是随之而来的问题是精度的问题,解决的方法是在CPU上计算时尽量用double,一些乘数的因子也尽量用double表示,而在GPU上的数据用float表示,少量的中间变量也可以用double处理

CUDA优化

以下参考自原文链接

尽量少使用低吞吐量的算术指令;在不影响最后结果的情况下使用低精度类型,使用内部计算接口而不是自己实现;使用单精度float而不是双精度double;尽量减少流程控制指令,即减少条件分支。比如(1)控制条件仅取决于(threadIdx / warpSize);(2)使用#pragma unroll展开循环。__fdividef(x,y)是比除法运算符更快的单精度浮点除法 大部分情况下,rsqrtf()效率比1.0 / sqrtf()高。使用三角函数时,尽量使用单精度,且x值域较小为宜;尽量使用位运算代替整数除法和模运算;半精度计算,使用half2代替half调用接口时,尽量保持参数类型一致,否则会有类型转换的消耗;比如函数参数是int类型,输入是char类型或者short类型,需要先将类型转化为int类型。


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3