复现论文代码的时候老是遇到需要安装各种不同版本的cuda的问题

您所在的位置:网站首页 复现论文代码太难了 复现论文代码的时候老是遇到需要安装各种不同版本的cuda的问题

复现论文代码的时候老是遇到需要安装各种不同版本的cuda的问题

2024-07-07 08:23| 来源: 网络整理| 查看: 265

nvcc -V 与nvidia-smi查看得到的cuda版本问题

复现论文代码的时候老是遇到需要安装各种不同版本的cuda的问题,由于我水平又不够,每次都很困惑。 比如这次,README里面明确指定了要安装了cuda11.6,但是我们实验室的显卡用nvidia-smi查看后显示最高只支持cuda11.4,那么我该怎么办呢? 经过在网上一番查找,又发现网友说只要显卡驱动满足就可以。我又用nvidia-smi看了下显卡驱动,如下 在这里插入图片描述

显卡驱动 470.233.02

根据网友的说法,参考:https://www.zhihu.com/question/622711856

这个显卡驱动是能够满足cuda11.6的,但我还是很困惑,到底是根据什么看,到底能不能用11.6。

但是这个 CUDA Version 11.4又是什么意思?

根据:zhuanlan.zhihu.com/p/490153818 这位答主的说法,这个是说明当前驱动最高支持cuda11.4,所以我不能装cuda11.6?? 那上面那个显卡驱动又是啥? 要是可以安装cuda11.6,装上能正常运行吗? 要如何在我的虚拟环境中安装cuda11.6?

救命,到现在还是解决不了

参考下面两位的博客 1:https://blog.csdn.net/qq_44961869/article/details/115954258 2:https://blog.csdn.net/weixin_45944960/article/details/130000445 试图安装cuda11.6,结果报错: 经过查询,原来是我默认安装路径没有搞对,因为实验室的服务器我没有sudo权限,所以不能安装在默认位置,参考: https://blog.csdn.net/2301_79152843/article/details/133817444 后,成功安装,如下: 在这里插入图片描述 接下来要配置环境变量,参考: https://blog.csdn.net/qq_44961869/article/details/115954258 在这里遇到一个大坑,花费了我一个中午的时间,饭都还没吃,呜呜呜,这个坑就是nvcc -V和stat cuda显示的cuda版本不一样,在网上找了好多博客都没有解决,最后看到一个博主说这种情况是环境没弄好,具体就是./bashrc文件里面的CUDA_PATH什么的不能设置为具体的版本,要设置为软连接的cuda,我说得也不太清楚,遇到此问题的朋友参考这篇博客: https://blog.csdn.net/qq_41917697/article/details/114437924

救命,到这里的时候不知道我之前不小心进行了哪个操作,导致nvcc不见了

郁闷死,花了好几个小时研究这个问题。 结果从头开始, 没办法,我太菜了,555~ 下面记录一下我的整个过程

1. 下载cuda安装包

路径:https://developer.nvidia.com/cuda-toolkit-archive 参考博客:https://blog.csdn.net/weixin_45944960/article/details/130000445 在这里插入图片描述 这里我把这个文件下载到我的:home/用户名/usr/local文件夹下面,如图: 在这里插入图片描述 然后运行 sh cudaxxxxx.run(就是你下载的那个文件名),由于我不是管理员账号,所以不要sudo,这里要安装在自己账号的路径下面,不然安装不了。

2. 当安装了多个版本cuda时,切换cuda

参考的博客:https://blog.csdn.net/qq_41917697/article/details/114437924 关键点就是:

记得改软连接,即stat cuda命令查询得到的就是软连接在环境配置文件里面(即~./bashrc文件)记得把CUDA_PATH之类的改为cuda的,不要具体的版本号,这样的话它每次会跟随软链接的变化而变化。

我的如图: 在这里插入图片描述 注意: P A T H 什么的最好放在后面,这样系统会先找你定义好的路径,找不到再找 P A T H 之前绑定的。因为很多博客这里也有另一种更改方式:如: P A T H = PATH什么的最好放在后面,这样系统会先找你定义好的路径,找不到再找PATH之前绑定的。 因为很多博客这里也有另一种更改方式: 如:PATH= PATH什么的最好放在后面,这样系统会先找你定义好的路径,找不到再找PATH之前绑定的。因为很多博客这里也有另一种更改方式:如:PATH=PATH:/home/dengdan/usr/local/cuda/bin

3. 检查nvcc -V, stat cuda版本是不是一样

在这里插入图片描述 终于一致了,我真的是喜极而泣,555~

4. 切换一下cuda版本,看看能不能正常工作

具体做法就是:

删除原来的软链接 rm -rf cuda 在这里插入图片描述 如图,删除后没有cuda了。

新建新的软链接 ln -s 想要的cuda版本路径 创建的cuda路径 在这里插入图片描述 如图,建立后,又有cudal1,图中浅蓝色为cuda,表示是软链接(看网友说的,我不敢保证一定是这个意思)

检查nvcc -V 是否切换成功 在这里插入图片描述 可见,已经成功由之前的11.6切换到了新建的11.3

检查stat cuda是否切换成功 在这里插入图片描述

至此,这个问题就算是解决了。


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3