Ubuntu18.04搭建深度学习环境(RTX3090+cuda+anconda3+Pytorch) |
您所在的位置:网站首页 › start没有定义 › Ubuntu18.04搭建深度学习环境(RTX3090+cuda+anconda3+Pytorch) |
1.显卡驱动安装1.1 查看显卡驱动lspci | grep -i nvidia 可以看到,查看到的显卡型号名称是一个十六进制数字代码。接下来将得到的十六进制数字代码,带入网址中查询具体显卡型号: http://pci-ids.ucw.cz/mods/PC/10de?action=help?help=pci 得到最终的显卡型号: 官网:NVIDIA 选择你的硬软件信息,搜索驱动程序。比如我是Ubuntu18.04系统、显卡是RTX 3090,选择好后开始搜索。 点击“开始搜索”后,页面下方会显示“驱动程序搜索结果”,选择第一个驱动版本为530.41的驱动,获取下载。 确定你的安装环境是否有相关工具,若是没有可安装下面方法安装。 sudo apt-get install gcc sudo apt-get install vim sudo apt install lightdm sudo apt install make1.3.2 禁用Ubuntu自带驱动 编辑配置文件:sudo vim /etc/modprobe.d/blacklist.conf 跳至最后一行添加:blacklist nouveau options nouveau modeset=0 完成后执行:sudo update-initramfs -u 重启电脑后打开命令行执行:lsmod | grep nouveau如果没有信息输出,那么禁用nouveau驱动成功 1.3.3 关闭桌面模式 按“Ctrl+Alt+F1”进入命令行(或者使用命令:sudo telinit 3),输入用户名和密码登录 , 禁用X-Window图形界面服务:sudo service lightdm stop 或 sudo /etc/init.d/lightdm stop 报错:Failed to stop lightdm.service:Unit lightdm.service not loaded. 解决办法:sudo apt-get install lightdm,并在弹出界面选择lightdm,然后执行sudo service lightdm stop1.3.4 卸载自带驱动sudo apt-get remove --purge nvidia* sudo apt-get --purge remove xserver-xorg-video-nouveau1.3.5 执行安装命令# 给驱动run文件赋予执行权限: sudo chmod a+x NVIDIA-Linux-x86_64-530.41.03.run # 安装驱动 sudo ./NVIDIA-Linux-x86_64-530.41.03.run -no-x-check -no-nouveau-check -no-opengl-files参数说明: -no-x-check:安装时关闭X服务-no-nouveau-check:安装时禁用nouveau-no-opengl-files:仅安装驱动,不安装OpenGL等文件情况说明: 1.The distribution-provided pre-install script failed! Are you sure you want to continue? “Yes” 2.Would you like to register the kernel module souces with DKMS? This will allow DKMS to automatically build a new module, if you install a different kernel later? “No” 3.Nvidia’s 32-bit compatibility libraries? “No” 4.Would you like to run the nvidia-xconfigutility to automatically update your x configuration so that the NVIDIA x driver will be used when you restart x? Any pre-existing x confile will be backed up. “Yes”,此项选No也可以安装完成后打开X图形界面服务:sudo service lightdm start 或 sudo /etc/init.d/lightdm start 验证:输入nvidia-smi查看驱动信息 重启驱动后无法进入图形界面,可以进入命令界面,查看lightdm状态,发现 查看桌面管理器是否是lightdm:cat /etc/X11/default-display-manager 查看lightdm状态:systemctl status lightdm 切换lightdm和gdm sudo service lightdm stopsudo dpkg-reconfigure gdm3sudo service gdm start解决办法 cd /etc/X11 mv xorg.conf xorg.conf.bak reboot也可参考:https://blog.csdn.net/m0_67402914/article/details/126597754 如果尝试多种方法都无法解决,就重装系统,这个是终极大法,重装后再安装,可能一遍就成功了,我的就是 1.4.2 Error: An NVIDIA kernel 'nvidia-drm' appears to already be loaded in your kernel.解决办法 1. 获得超级用户权限 sudo -i 2. 进入无窗口界面 sudo systemctl isolate multi-user.target 卸载系统的nvidia驱动 sudo modprobe -r nvidia-drm sudo modprobe -r nvidia_modeset 3. 重装 NVIDIA 驱动 sh ./NVIDIA-Linux-x86_64-XX.sh 4. 进入图形界面 sudo systemctl start graphical.target 5. 重新启动 sudo reboot1.4.3 开机之后,没有图形界面,也无法使用命令窗口界面。参考:https://blog.csdn.net/m0_67402914/article/details/126597754 1.4.4【NVIDIA】显卡报错:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver原因:系统内核升级了,导致新版本内核和原来显卡驱动不匹配 解决办法: 查看nvidia版本号bash ll /usr/src/ 2. 安装dkms bash sudo apt-get install dkms 3. 执行 bash sudo dkms install -m nvidia -v 520.56.06 2. 安装CUDA2.1 下载对应版本的CUDA通过命令nvidia-smi查看cuda版本,然后安装对应版本的CUDA Toolkit,理论上不高于cuda版本的都可以,这里本机的cuda版本是11.8,因此选择11.8版本的安装 链接:https://developer.nvidia.com/cuda-toolkit-archive 根据自身系统选择合适的安装包 将页面获取的命令输入命令行,下载、安装cuda wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.run安装: sudo sh cuda_12.1.0_530.30.02_linux.run输入accept: 这里我们需要注意,CUDA在这里会默认帮我们安装驱动,由于我们已经安装好 NVIDIA驱动,第一行需要取消安装(我们不建议使用 CUDA 默认安装驱动,可能会出现一系列问题) 点击空格,取消安装驱动,然后选择install 完成安装: 安装之后,我们进入 usr/local 目录,可以看到已经有了 cuda 和 cuda-11.8 两个文件夹,已经通过软链接的方式将 cuda11.8 配置为默认使用 cuda 了 2.3 配置环境打开环境变量配置文件 vim ~/.bashrc在文件最下面加三行,保存 export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.8/lib64 export PATH=$PATH:/usr/local/cuda-11.8/bin export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-11.8激活配置文件 source ~/.bashrc测试CUDA是否安装成功 nvcc -V正确输出即代表 CUDA 安装配置完成 下载链接:https://developer.nvidia.com/rdp/cudnn-download 下载tar.xz文件,下载文件需要账号,可以自己注册一个或者去网上找别人分享的账号 解压缩: tar -xvf cudnn-linux-x86_64-8.8.1.3_cuda11-archive.tar.xz进入加压后的目录: 复制文件 sudo cp include/cudnn.h /usr/local/cuda/include/ sudo cp lib/libcudnn* /usr/local/cuda/lib64/ sudo chmod a+r /usr/local/cuda/include/cudnn.h sudo chmod a+r /usr/local/cuda/lib64/libcudnn*注意一下:cudnn8.0以上会将版本信息更新到cudnn_version.h文件中,也需要将这个文件复制,否则验证的时候会没有反应 sudo cp include/cudnn_version.h /usr/local/cuda/include/验证是否安装成功: cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2出现如下信息即成功 进入 Anaconda 官网选择对应 Linux 平台下载安装包:Anaconda 若是查找历史版本,则可以访问下方链接: https://repo.anaconda.com/archive/ https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/4.2 安装sudo bash Anaconda3-2023.03-Linux-x86_64.sh4.2.1按回车键许可协议其实蛮长的,会有多页。如果没看到让你输入的地方,并且末行显示--More--,可以按Z键翻页,或者按Q跳到最后,输入yes,并按回车键 Anaconda的安装位置默认会在执行用户的home目录下的anaconda3目录中,如果是要给服务器的全部用户安装的话,建议改成公共的位置(如果安装时没有添加-u,目录如果存在会报错)。下面我是给改成安装在/usr/anaconda3下了。 询问是否初始化conda的环境,直接输入yes 安装完成。 安装完成后,若是我们发现依然无法识别 conda 命令,那是因为环境变量文件配置了,但没有激活,执行以下命令激活环境变量配置文件 source ~/.bashrc4.2.5 配置环境变量因为anaconda3安装在/usr/anaconda3目录下,不同的用户需要配置一下环境变量,才能正常使用 修改.bashrc文件: vim ~/.bashrc在最后一行添上: export PATH=/usr/anaconda3/bin:$PATH让命令生效: source ~/.bashrc或者执行下方命令(根据实际情况修改bin之前的目录): /usr/anaconda3/bin/conda init bash5. 安装pytorch下载路径:Pytorch 根据命令下载安装程序 安装成功后,进入python环境,输入 import torch print(torch.cuda.is_available()) print(torch.__version__) print(torch.version.cuda) print(torch.backends.cudnn.version())输出结果: |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |