分享

Ubuntu16.04下nvidia驱动+cuda+cudnn+nccl安装

 LibraryPKU 2021-04-08

前言

如果出现装了驱动进不了桌面的情况(下面有解决方法),然后重装了两遍nvidia驱动还进不去,重装Ubuntu是最省时间的做法!
以下的安装流程从网上各个博客进行收集来的,试了一遍可以完全安装成功!因此记录下来以供不时之需。
我安装的版本是:

nvidia_driver = 384.145
cuda = 9.0
cudnn = 7.0.5
nccl = 2.3.7

安装nvidia驱动(如果已经安装了带有-openglfiles的驱动,按照后面的步骤先卸载)

禁用nouveau

配置文件

/etc/modprobe.d/blacklist.conf

添加

blacklist nouveau
options nouveau modeset=0
//禁用第三方驱动
sudo update-initramfs -u 
reboot 

重启后

lsmod | grep nouveau 
//没有输出即可
//如果还有输出
cd /lib/modules/xxxxxxxx/kernel/drivers/gpu/drm/nouveau
sudo rm -rf nouveau.ko
sudo rm -rf nouveau.ko.org
//删除这两个文件
sudo update-initramfs -u
reboot 
//然后再进行检测

禁用X服务

sudo /etc/init.d/lightdm stop

安装nvidia驱动

sudo ./NVIDIA-Linux-x86_64-375.20.run –no-opengl-files
–no-opengl-files //只安装驱动文件,不安装OpenGL文件。这个参数最重要
–no-x-check //安装驱动时不检查X服务
–no-nouveau-check //安装驱动时不检查nouveau 
//后面两个参数可不加。

在安装驱动的时候,有一句问你”Would you like to run the nvidia-xconfig utility to automatically update your X configuration file…”什么的,选择 No。

验证

reboot 
nvidia-smi

安装cuda

  • 使用run文件安装,选择不安装驱动,其他选默认即可
  • 弹出xorg.conf的时候选择NO
//添加环境变量
sudo gedit ~/.bashrc
//下面两行填到文件末尾
export PATH=/usr/local/cuda-8.0/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64:$LD_LIBRARY_PATH
//验证安装成功

nvcc -V

如果有问题需要卸载cuda和已经安装好的nvidia驱动,按下面卸载

sudo /usr/local/cuda-9.0/bin/uninstall_cuda_9.0.pl
sudo /usr/bin/nvidia-uninstall

安装CUDNN

//解压文件
cp cudnn-9.0-linux-x64-v7.solitairetheme8 cudnn-9.0-linux-x64-v7.tgz
tar -xvf cudnn-9.0-linux-x64-v7.tgz


//切换到刚刚解压出来的文件夹路径

 cd cuda  

//复制include里的头文件

sudo cp include/cudnn.h /usr/local/cuda/include/   

//复制lib64下的lib文件到cuda安装路径下的lib64

sudo cp lib64/*  /usr/local/cuda/lib64/

//设置权限

sudo chmod a+r /usr/local/cuda/include/cudnn.h

sudo chmod a+r /usr/local/cuda/lib64/libcudnn*

//======更新软连接======

cd /usr/local/cuda/lib64/

sudo rm -rf libcudnn.so libcudnn.so.7   #删除原有动态文件,版本号注意变化,可在cudnn的lib64文件夹中查看

sudo ln -s libcudnn.so.7.0.5 libcudnn.so.7  #生成软衔接(注意这里要和自己下载的cudnn版本对应,可以在/usr/local/cuda/lib64下查看自己libcudnn的版本)

 sudo ln -s libcudnn.so.7 libcudnn.so #生成软链接

 sudo ldconfig -v #立刻生效

安装NCCL

1. 下载NCCL:
(**选择local版本**)
https://developer./nccl

2. //使用dpkg安装
sudo dpkg -i nccl-repo-<version>.deb
3. 更新apt库
sudo apt-get update
4. 使用apt安装NCCL库
sudo apt install libnccl2 libnccl-dev

无法进入桌面的原因

  1. 驱动修改了xorg的配置

执行

cd /usr/share/X11/xorg.conf.d/
sudo mv nvidia-drm-outputclass.conf nvidia-drm-outputclass.conf.bak
  1. 安装nvidia驱动中opengl-files的原因

使用下面NVIDIA驱动卸载方法卸载nvidia驱动,进行nvidia驱动的重新安装

nvidia驱动卸载

sudo apt-get remove --purge nvidia*
//有时候这样会卸载不了,使用安装的run文件进行卸载
sudo ./nvidia-xxxx.run --uninstall 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多