Ubuntu18.04搭建深度学习环境(RTX3090+cuda+anconda3+Pytorch)

您所在的位置:网站首页 start没有定义 Ubuntu18.04搭建深度学习环境(RTX3090+cuda+anconda3+Pytorch)

Ubuntu18.04搭建深度学习环境(RTX3090+cuda+anconda3+Pytorch)

2023-04-08 23:30| 来源: 网络整理| 查看: 265

1.显卡驱动安装1.1 查看显卡驱动lspci | grep -i nvidia

可以看到,查看到的显卡型号名称是一个十六进制数字代码。接下来将得到的十六进制数字代码,带入网址中查询具体显卡型号: http://pci-ids.ucw.cz/mods/PC/10de?action=help?help=pci

得到最终的显卡型号:

1.2 显卡驱动下载

官网:NVIDIA

选择你的硬软件信息,搜索驱动程序。比如我是Ubuntu18.04系统、显卡是RTX 3090,选择好后开始搜索。

点击“开始搜索”后,页面下方会显示“驱动程序搜索结果”,选择第一个驱动版本为530.41的驱动,获取下载。

1.3 安装驱动1.3.1 安装相关工具

确定你的安装环境是否有相关工具,若是没有可安装下面方法安装。

sudo apt-get install gcc sudo apt-get install vim sudo apt install lightdm sudo apt install make1.3.2 禁用Ubuntu自带驱动 编辑配置文件:sudo vim /etc/modprobe.d/blacklist.conf 跳至最后一行添加:

blacklist nouveau options nouveau modeset=0

完成后执行:sudo update-initramfs -u 重启电脑后打开命令行执行:lsmod | grep nouveau

如果没有信息输出,那么禁用nouveau驱动成功

1.3.3 关闭桌面模式 按“Ctrl+Alt+F1”进入命令行(或者使用命令:sudo telinit 3),输入用户名和密码登录 , 禁用X-Window图形界面服务:sudo service lightdm stop 或 sudo /etc/init.d/lightdm stop 报错:Failed to stop lightdm.service:Unit lightdm.service not loaded. 解决办法:sudo apt-get install lightdm,并在弹出界面选择lightdm,然后执行sudo service lightdm stop1.3.4 卸载自带驱动sudo apt-get remove --purge nvidia* sudo apt-get --purge remove xserver-xorg-video-nouveau1.3.5 执行安装命令# 给驱动run文件赋予执行权限: sudo chmod a+x NVIDIA-Linux-x86_64-530.41.03.run # 安装驱动 sudo ./NVIDIA-Linux-x86_64-530.41.03.run -no-x-check -no-nouveau-check -no-opengl-files

参数说明:

-no-x-check:安装时关闭X服务-no-nouveau-check:安装时禁用nouveau-no-opengl-files:仅安装驱动,不安装OpenGL等文件

情况说明:

1.The distribution-provided pre-install script failed! Are you sure you want to continue? “Yes” 2.Would you like to register the kernel module souces with DKMS? This will allow DKMS to automatically build a new module, if you install a different kernel later? “No” 3.Nvidia’s 32-bit compatibility libraries? “No” 4.Would you like to run the nvidia-xconfigutility to automatically update your x configuration so that the NVIDIA x driver will be used when you restart x? Any pre-existing x confile will be backed up. “Yes”,此项选No也可以

安装完成后打开X图形界面服务:sudo service lightdm start 或 sudo /etc/init.d/lightdm start

验证:输入nvidia-smi查看驱动信息

1.3.6 卸载显卡驱动进入驱动文件目录(runfile安装):sudo ./NVIDIA-Linux-x86_64-470.74.run --uninstall清除NVIDIA和配置文件(ppa源安装):sudo apt-get purge --remove nvidia*1.3.7切换显卡sudo lshw -c display # 查看当前使用的nvidia驱动程序 sudo sudo apt install nvidia-prime # 安装nvidia-prime sudo prime-select query # 查看当前显卡 sudo prime-select intel # 设置Intel显卡 sudo prime-select nvidia # 设置NVIDIA显卡1.4.踩坑1.4.1 安装驱动后重启无法进入系统

重启驱动后无法进入图形界面,可以进入命令界面,查看lightdm状态,发现

查看桌面管理器是否是lightdm:cat /etc/X11/default-display-manager

查看lightdm状态:systemctl status lightdm

切换lightdm和gdm

sudo service lightdm stopsudo dpkg-reconfigure gdm3sudo service gdm start

解决办法

cd /etc/X11 mv xorg.conf xorg.conf.bak reboot

也可参考:https://blog.csdn.net/m0_67402914/article/details/126597754

如果尝试多种方法都无法解决,就重装系统,这个是终极大法,重装后再安装,可能一遍就成功了,我的就是

1.4.2 Error: An NVIDIA kernel 'nvidia-drm' appears to already be loaded in your kernel.

解决办法

1. 获得超级用户权限 sudo -i 2. 进入无窗口界面 sudo systemctl isolate multi-user.target 卸载系统的nvidia驱动 sudo modprobe -r nvidia-drm sudo modprobe -r nvidia_modeset 3. 重装 NVIDIA 驱动 sh ./NVIDIA-Linux-x86_64-XX.sh 4. 进入图形界面 sudo systemctl start graphical.target 5. 重新启动 sudo reboot1.4.3 开机之后,没有图形界面,也无法使用命令窗口界面。

参考:https://blog.csdn.net/m0_67402914/article/details/126597754

1.4.4【NVIDIA】显卡报错:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver

原因:系统内核升级了,导致新版本内核和原来显卡驱动不匹配

解决办法:

查看nvidia版本号

bash ll /usr/src/

2. 安装dkms

bash sudo apt-get install dkms

3. 执行

bash sudo dkms install -m nvidia -v 520.56.06

2. 安装CUDA2.1 下载对应版本的CUDA

通过命令nvidia-smi查看cuda版本,然后安装对应版本的CUDA Toolkit,理论上不高于cuda版本的都可以,这里本机的cuda版本是11.8,因此选择11.8版本的安装

链接:https://developer.nvidia.com/cuda-toolkit-archive

根据自身系统选择合适的安装包

将页面获取的命令输入命令行,下载、安装cuda

wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.run2.2 安装CUDA

安装:

sudo sh cuda_12.1.0_530.30.02_linux.run

输入accept:

这里我们需要注意,CUDA在这里会默认帮我们安装驱动,由于我们已经安装好 NVIDIA驱动,第一行需要取消安装(我们不建议使用 CUDA 默认安装驱动,可能会出现一系列问题)

点击空格,取消安装驱动,然后选择install

完成安装:

安装之后,我们进入 usr/local 目录,可以看到已经有了 cuda 和 cuda-11.8 两个文件夹,已经通过软链接的方式将 cuda11.8 配置为默认使用 cuda 了

2.3 配置环境

打开环境变量配置文件

vim ~/.bashrc

在文件最下面加三行,保存

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.8/lib64 export PATH=$PATH:/usr/local/cuda-11.8/bin export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-11.8

激活配置文件

source ~/.bashrc

测试CUDA是否安装成功

nvcc -V

正确输出即代表 CUDA 安装配置完成

3. 安装cuDNN

下载链接:https://developer.nvidia.com/rdp/cudnn-download

下载tar.xz文件,下载文件需要账号,可以自己注册一个或者去网上找别人分享的账号

解压缩:

tar -xvf cudnn-linux-x86_64-8.8.1.3_cuda11-archive.tar.xz

进入加压后的目录:

复制文件

sudo cp include/cudnn.h /usr/local/cuda/include/ sudo cp lib/libcudnn* /usr/local/cuda/lib64/ sudo chmod a+r /usr/local/cuda/include/cudnn.h sudo chmod a+r /usr/local/cuda/lib64/libcudnn*

注意一下:cudnn8.0以上会将版本信息更新到cudnn_version.h文件中,也需要将这个文件复制,否则验证的时候会没有反应

sudo cp include/cudnn_version.h /usr/local/cuda/include/

验证是否安装成功:

cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2

出现如下信息即成功

4.安装Anaconda4.1 下载安装包

进入 Anaconda 官网选择对应 Linux 平台下载安装包:Anaconda

若是查找历史版本,则可以访问下方链接:

https://repo.anaconda.com/archive/ https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/4.2 安装sudo bash Anaconda3-2023.03-Linux-x86_64.sh4.2.1按回车键4.2.2 许可协议

许可协议其实蛮长的,会有多页。如果没看到让你输入的地方,并且末行显示--More--,可以按Z键翻页,或者按Q跳到最后,输入yes,并按回车键

4.2.3 修改安装路径

Anaconda的安装位置默认会在执行用户的home目录下的anaconda3目录中,如果是要给服务器的全部用户安装的话,建议改成公共的位置(如果安装时没有添加-u,目录如果存在会报错)。下面我是给改成安装在/usr/anaconda3下了。

4.2.4 初始化

询问是否初始化conda的环境,直接输入yes

安装完成。

安装完成后,若是我们发现依然无法识别 conda 命令,那是因为环境变量文件配置了,但没有激活,执行以下命令激活环境变量配置文件

source ~/.bashrc4.2.5 配置环境变量

因为anaconda3安装在/usr/anaconda3目录下,不同的用户需要配置一下环境变量,才能正常使用

修改.bashrc文件:

vim ~/.bashrc

在最后一行添上:

export PATH=/usr/anaconda3/bin:$PATH

让命令生效:

source ~/.bashrc

或者执行下方命令(根据实际情况修改bin之前的目录):

/usr/anaconda3/bin/conda init bash5. 安装pytorch

下载路径:Pytorch

根据命令下载安装程序

安装成功后,进入python环境,输入

import torch print(torch.cuda.is_available()) print(torch.__version__) print(torch.version.cuda) print(torch.backends.cudnn.version())

输出结果:



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3