安装cuda是每个AI从业人员必经之路。网上关于cuda、显卡驱动已经相关命令很多都解释不清楚,于是本文梳理一下,既方便自己记忆,也方便小白学习。
CUDA
首先,CUDA版本,一般指cuda-toolkit,即cuda开发工具包,我们一般安装上层软件如pytorch等,都需要对应的toolkit版本就是指的CUDA版本。本机的CUDA版本,该怎么查询呢?
nvcc -V
这个命令,查到的就是本机正在用的cuda开发工具包的版本。注意,"nvidia-smi"查到的未必是最准确的本机cuda版本,后面我会给解释。
经过老黄团队的不懈努力,现在的cuda安装变得异常简单,有手就行。以cuda 11.3安装为例子,只需要简单搜索即可:
我们很容易得到这个:
wget https://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run
sudo sh cuda_11.3.0_465.19.01_linux.run
当然,还有一个很方便的途径来获得下载链接:
https://developer.nvidia.com/cuda-toolkit-archive
注意:通过这个方法一键安装cuda时,会有一个选项可以选择是否安装对应的显卡驱动。如果你本地有多个CUDA的时候,这个显卡驱动慎选。
安装完驱动以后,才可以使用"nvidia-smi",这个命令查询的是本机显卡驱动所对应的cuda版本,未必是现在用的cuda工具包的版本。于是,经常出现"nvidia-smi"和"nvcc -V"版本不一致的情况。
知识点:
1, 一台机器可以有多个CUDA版本,多个CUDA版本可以通过软连接进行管理;
2,一台机器通常只能安装一个显卡驱动;
3,对于严格要求显卡驱动版本的项目(涉及底层编译),需要重新安装对应的显卡驱动以支持对应cuda版本;
4,对于不严格要求显卡驱动版本的项目,我们简单修改CUDA软连接即可切换CUDA版本,这个情况下"nvidia-smi"和"nvcc -V"版本不一致也不会影响项目的运行。
现在写一下具体操作:
所有的cuda默认安装路径是:“/usr/local/”
我们定一个软链接目标地址:“/usr/local/cuda”,将我们需要切换的cuda版本链接到这个目标地址即可。
我们需要在~/.bashrc(有的是"~/.zshrc")加入对应的软链接目标地址:
export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
注意:这里不要加入版本号(如PATH=/usr/local/cuda-11.3/bin:$PATH),不然不好做多版本CUDA管理。
我们source一下,就能激活这两句命令:(zsh用户自动切换成zshrc)
source ~/.bashrc
完成这一步,就可以:
nvcc -V
可以看到准确的cuda开发工具包的版本了,我们pytorch等的安装参照这个版本对应即可。
如何切换CUDA版本呢?
cd /usr/local/
sudo rm cuda
sudo ln -s cuda-11.8 cuda
ll #查看是否切换成功
# cuda -> cuda-11.8
然后看一下nvcc -V,你就会发现,CUDA版本已经切换。不过,你用"nvidia-smi"时,会发现cuda version还是没变。
如何改变"nvidia-smi"中显示的cuda version呢? 答:重新显卡安装驱动。这里实在要注意的是:显卡驱动会影响本机显示器的显示,如果是带图形界面的linux需要先关闭图形界面。
关闭图形界面:
sudo service lightdm stop
卸载当前版本的显卡驱动:《卸载nvidia显卡驱动》
结论:我们在做多CUDA版本管理时,需要将多个CUDA版本安装到"/usr/local/"下,通过软链接切换。在涉及显卡驱动的更换时,我们需要将多个对应的显卡驱动安装文件,放到本地,随时准备安装这个版本的驱动。
如何获得对应CUDA版本的显卡驱动?答:直接运行CUDA runfile(即上文提到的cuda_11.3.0_465.19.01_linux.run),我们可以看到对应的nvidia驱动版本,然后到网上search对应的NVIDIA-Linux-x86_64-xxxx.run
运行即可。当然,这一步也需要研究一下本机显卡的是否支持这个版本的驱动。
操作过程如下:
sudo chmod a+x NVIDIA-Linux-x86_64-465.19.01.run # 变成可执行文件
sudo ./NVIDIA-Linux-x86_64-465.19.01.run --no-opengl-files # 执行安装
有一种说法(ChatGPT也这么说):
新版本的驱动会兼容老版本的CUDA。所以理论上我们安装一个最新的nvidia driver,就可以通过软链接来切换CUDA使用。我目前用这种方法,没出现太大的问题,仅供参考~
本文全部由本人整理,转发请询得同意,有问题欢迎留言交流~