CUDA编程 float计算速度更快以及解决float精度问题方法

您所在的位置：网站首页 › float计算精度 › CUDA编程 float计算速度更快以及解决float精度问题方法

CUDA编程 float计算速度更快以及解决float精度问题方法

2024-06-27 12:42| 来源: 网络整理| 查看: 265

在使用CUDA并行编程设计radon变换函数时，由于我的GPU计算能力仅有3.5，没办法使用双精度double的原子操作，于是用float代替全部的double，结果发现计算速度提高了一倍（如果用double的话，在release下是450ms，使用float，仅需要225ms），感觉可能GPU计算float的速度比double要快（个人感觉，还没被验证）

如果使用官方提供的利用atomicCAS来设计atomicAdd函数的话，在计算量非常大的时候，会遇到奇怪的问题，返回错误码719。我搜遍了网络都没找到答案，无奈最后将全部double改成float型，使用CUDA自带的float的atomicAdd，问题得到解决——感觉应该是自己设计的double型atomicAdd，在计算量大的时候用光了GPU的全部资源

但是随之而来的问题是精度的问题，解决的方法是在CPU上计算时尽量用double，一些乘数的因子也尽量用double表示，而在GPU上的数据用float表示，少量的中间变量也可以用double处理

CUDA优化

以下参考自原文链接

尽量少使用低吞吐量的算术指令;在不影响最后结果的情况下使用低精度类型，使用内部计算接口而不是自己实现；使用单精度float而不是双精度double；尽量减少流程控制指令，即减少条件分支。比如（1）控制条件仅取决于（threadIdx / warpSize）；（2）使用#pragma unroll展开循环。__fdividef（x，y）是比除法运算符更快的单精度浮点除法大部分情况下，rsqrtf()效率比1.0 / sqrtf()高。使用三角函数时，尽量使用单精度，且x值域较小为宜；尽量使用位运算代替整数除法和模运算；半精度计算，使用half2代替half调用接口时，尽量保持参数类型一致，否则会有类型转换的消耗；比如函数参数是int类型，输入是char类型或者short类型，需要先将类型转化为int类型。

【本文地址】

CUDA编程 float计算速度更快以及解决float精度问题方法

CUDA编程 float计算速度更快以及解决float精度问题方法

今日新闻

推荐新闻