作者: Sam (甄峰) sam_code@hotmail.com
在Ubuntu20.04下安装深度学习训练环境记录。
0. 硬件环境:
主板为技嘉B85M-D3v-A. 显卡为Nvidia GeForce RTX2070.
准备使用Ubuntu20.04。
1. 安装:
1.1:背景介绍:
A.首先需要安装Nvidia GetForce RTX2070显卡驱动。
B. 需要安装Cuda Toolkit.
C. 需要安装cudnn.(训练加速工具)
其中要注意:
A. Nvidia driver和Cuda toolkit之间有匹配关系,版本选择上要注意。
B. Cuda Toolkit和cudnn有匹配关系。版本选择要注意。
C. 深度学习框架,通常会需要匹配Cuda Toolkit和cudnn版本。
Nvidia Driver和Cuda Toolkit的匹配关系请查看:
https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
driver版本过低,则无法支持高版本cuda.
1.2:安装driver:
1.2.1:首先确认是否存在Nvidia 显卡:
#lspci |grep NVIDIA
如果有NVIDIA设备,则会显示,例如,机器上安装有RTX2070,则显示如下:
01:00.0 VGA compatible controller: NVIDIA Corporation TU106
[GeForce RTX 2070 Rev. A] (rev a1)
01:00.1 Audio device: NVIDIA Corporation TU106 High Definition
Audio Controller (rev a1)
01:00.2 USB controller: NVIDIA Corporation TU106 USB 3.1 Host
Controller (rev a1)
01:00.3 Serial bus controller [0c80]: NVIDIA Corporation TU106
USB Type-C UCSI Controller (rev a1)
1.2.2:安装Nvidia driver:
可以利用Ubuntu的 Software and Update 来安装驱动。
验证:
nvidia-smi
可以看到Driver Version : 470.
此处的CUDA Version:11.4. 并非表明已经安装cuda. 只是表示此版本Nvidia
Driver最高支持的Cuda Toolkit版本号。
1.3: 安装Cuda Toolkit:
1.3.1:Cuda Toolkit与 Nvidia Driver的对应关系:
Nvidia不同的硬件,可以匹配的driver版本不同,一些比较老driver版本,也只能支持比较老的Cuda
Toolkit版本。其对应关系可见:
https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
可以看到,Sam安装的470.86 driver,最高支持Cuda Toolkit
11.4.
当然,nvidia-smi中显示的cuda version:即为此版本driver支持的最高Cuda
Toolkit版本。
1.3.2:安装:
https://developer.nvidia.com/cuda-toolkit-archive
按实际情况选择对应版本:
按说明:
wget ....
sudo
sh cuda_11.2.0_460.27.04_linux.run
安装成功过后。需要把bin目录加入PATH,
把libray目录加入LD_LIBRARY_PATH.
#sudo vi ~/.profile
添加:
export PATH=$PATH:/usr/local/cuda-11.2/bin
export
LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.2/lib64
#bash -login
则profile起效了。
1.4:安装cudnn:
cudnn和cuda toolkit有对应关系。
https://developer.nvidia.com/rdp/cudnn-archive
选择对应的版本下载。
把头文件和库文件copy到对应位置:
#sudo cp include/cudnn*.h /usr/local/cuda-11.2/include/
#sudo cp lib64/* /usr/local/cuda-11.2/lib64/