1.Ubuntu24.04在手动分区时,没有efi选项,需要点击分区界面左下角,选择efi的位置,然后会自动创建/boot/efi分区,改到2GB大小即可。
2.更新Nvidia驱动后,重启电脑wifi消失,参考二选一:
ubuntu安装英伟达显卡驱动后wifi消失解决方法
Ubuntu 22.04 “软件与更新”装了NVIDIA驱动,WiFi等设备不见了
3.各个位置分配大小,硬盘为1T
分区 | 大小MB |
---|---|
efi | 2048 |
swap | 32768 |
/ | 102400 |
var | 51200 |
usr | 102400 |
boot | 2048 |
home | left |
4.关于CUDA版本,从官网看ubuntu24.04只能装≥12.5.0的版本,但是要求nvidia-driver大于等于555.42,所以CUDA官网给出的都不能装,最后通过命令行sudo apt-get install nvidia-cuda-toolkit
安装。发现他给我装的是12.0。
那么问题又来了,pytorch官网没有CUDA12.0的版本,然后我又卸载了。根据我的nvidia-driver的推荐,我准备安装12.4.1版本。虽然官网给的版本没有24.04,但是我按照22.04的教程也装成功了。关于版本对应,可以参考CUDA和Nvidia Driver对照表
5.装CUDA12.4的时候遇到的报错:nsight-systems-2023.4.4 : Depends: libtinfo5 but it is not installable。解决:
sudo apt update
wget http://security.ubuntu.com/ubuntu/pool/universe/n/ncurses/libtinfo5_6.3-2ubuntu0.1_amd64.deb
sudo apt install ./libtinfo5_6.3-2ubuntu0.1_amd64.deb
终于装好CUDA12.4,需要提醒的是,使用runfile进行安装就会报错。
装好后nvcc没有东西,需要设置环境变量:
export PATH="/usr/local/cuda/bin:$PATH"
export LD_LIBRARY_PATH="/usr/local/cuda/lib64:$LD_LIBRARY_PATH"
source 一下再nvcc -V 就能看到输出了
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2024 NVIDIA Corporation
Built on Thu_Mar_28_02:18:24_PDT_2024
Cuda compilation tools, release 12.4, V12.4.131
Build cuda_12.4.r12.4/compiler.34097967_0
参考Ubuntu24.04配置cuda、cudnn
很奇怪,安装CuDNN对应的版本是CUDA24.04跳转
好像CUDNN装22.04 和 24.04的都可以,我装的是24.04。
6.偷来的检测是否安装成功验证成功代码
import torch
print(torch.__version__)
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print("CUDA 可用:", torch.cuda.is_available())
print("cuDNN 已启用:", torch.backends.cudnn.enabled)
print(torch.__version__)
x = torch.rand(5, 3)
y = torch.rand(5, 3)
z = x + y
print(z)
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print(device)
print("CUDA available:", torch.cuda.is_available())
print("cuDNN enabled:", torch.backends.cudnn.enabled)
print(torch.version.cuda)
print(torch.backends.cudnn.version())
7.由于torch版本较新2.5.0,对应的python版本也要使用最新版,参考对照表,我的python=3.11
8.torch无法调用CUDA
>>> torch.cuda.is_available()
/home/hhh/.conda/envs/yolo11/lib/python3.11/site-packages/torch/cuda/__init__.py:129: UserWarning: CUDA initialization: CUDA unknown error - this may be due to an incorrectly set up environment, e.g. changing env variable CUDA_VISIBLE_DEVICES after program start. Setting the available devices to be zero. (Triggered internally at ../c10/cuda/CUDAFunctions.cpp:108.)return torch._C._cuda_getDeviceCount() > 0
False
解决:
sudo apt-get install nvidia-modprobe
9.ROS2 jazzy 安装和测试参考官方文档
ros2 run demo_nodes_cpp talker
ros2 run demo_nodes_py listener
10.测试TensorRT10.7是否安装成功
https://github.com/NVIDIA/TensorRT/tree/main/samples/sampleOnnxMNIST