Dell R730 2U服务器实践3:安装英伟达上代专业AI训练Nvidia P4计算卡

Dell R730是一款非常流行的服务器,2U的机箱可以放入两张显卡,这次先用一张英伟达上代专业级AI训练卡:P4卡做实验,本文记录安装过程。


简洁步骤:

  1. 打开机箱
  2. 将P4显卡插在4号槽位
  3. 关闭机箱
  4. 安装驱动

详细步骤:

对于新手来说,步步为坑,有很多小细节需要注意。

了解硬件情况

首先了解到,R730号称可以装两块显卡
打开机箱,发现pci扩展槽上有4567四个插槽。
其中4号槽位是PCI-E3×16 ,其它三个槽位是PCI-E3×8 ,因此决定将P4插在4号槽。 另外要注意的是4号槽对应CPU2 ,因此单CPU是不能用这个插槽的。

我的这台机器4号槽位还有个插槽保护部件插在上面,怎么拿下来也是尝试了一小会儿。

第一次装显卡,插卡的免螺丝固定部分,有个塑料件,安装前需要先用手扳上来,实在难住了我,多次尝试才找到发力点,话说Dell的免螺丝设计还是挺不错的。插好P4后,再把那个塑料固定件按下去固定显卡。

装好之后,在ESXi下,找PCI设备,将P4卡设置为直通。

这样p4卡的硬件部分就安装完成了!

安装系统ESXi+Ubuntu22.0

原系统是raid0,改成了raid1。

重新安装ESXi,然后再创建Ubuntu虚拟机,装Ubuntu22.0版本,确认将P4卡在ESXi里设为设为直通。

注意,设为直通后,就要设置“保留内存”选项,也就是设置了多少内存就要保留多少内存,否则虚拟机报错无法启动。参见:Dell R730 2U服务器实践2:VMWare ESXi安装-CSDN博客

P4驱动安装

安装驱动比较顺手了,先

从官网下载驱动再手动安装。

用nvidia-smi验证驱动是否安装好了,碰到了问题:

报错:couldn't communicate with the NVIDIA

使用从官网下驱动,手动安装的方式,结果安装后运行nvidia-smi报错:不能与nvidia驱动通信。

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

换一种方法,

使用 ubuntu-drivers 安装驱动

执行:

sudo ubuntu-drivers devices # 查看可以装的驱动

sudo ubuntu-drivers autoinstall  # 安装驱动

结果还是显示无法与nvidia驱动通信....

使用dkms安装驱动

网上建议用dkms安装驱动,执行:

sudo apt install dkms

sudo dkms install -m nvidia -v 525.147.05

这样由dkms安装驱动,非常简单方便。我记得这里的驱动需要从前面sudo ubuntu-drivers devices显示的驱动里面选。

安装驱动的时候提示重启之后需要密码验证。(我没看见验证啊)

问题没有解决。

apt install安装驱动

先看有哪些驱动

sudo nvidia-drivers device

vendor   : NVIDIA Corporation
model    : GP104GL [Tesla P4]
driver   : nvidia-driver-390 - distro non-free
driver   : nvidia-driver-450-server - distro non-free
driver   : nvidia-driver-470 - distro non-free recommended
driver   : nvidia-driver-470-server - distro non-free
driver   : nvidia-driver-418-server - distro non-free
driver   : xserver-xorg-video-nouveau - distro free builtin

然后使用apt安装:sudo apt install nvidia-driver-470-server

apt 安装也还是不行。

skywalk@ub22:~$ sudo modprobe nvidia
modprobe: ERROR: could not insert 'nvidia': Operation not permitted

ubuntu 已经说了推荐nvidia-driver-470,再来一次:

sudo apt install nvidia-driver-470

照旧。

其实上面四种安装驱动的方法都是可行的,但是为什么会报错呢? 原来是因为有个地方没有设置对!

设置 关闭 UEFI 安全引导

看到这篇文章里ESXI8.0下直通NVIDIA Tesla P4显卡给Ubuntu22.04系统中Docker容器里的Jellyfin使用 - 哔哩哔哩 (bilibili.com)讲到“是否为此虚拟机启用 UEFI 安全引导” 这里要关掉。

关掉试试,再执行nvidia-smi,哇,成功拉!

安装pytorch和飞桨paddlepaddle

到各自的官网,通过官网指引进行pip或conda安装,AI训练环境搞定!

总结

使用ESXi虚拟机在Ubuntu安装P4计算卡有几个注意的细节:

1 ESXi里虚拟机ubuntu的内存设置里需要勾选“保留内存”

2 在ESXi里设置P4计算卡为“直通”

3 ESXi里虚拟机ubuntu的启动设置里关闭“是否为此虚拟机启用 UEFI 安全引导”

其它地方就跟我们平时使用一样了。

前一篇:Dell R730 2U服务器实践2:VMWare ESXi安装-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/714006.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络工程师学习笔记——VRP配置命令大全

VRP是Versatile Routing Platform的简称,它是华为公司数据通信产品的通用网络操作系统。它以IP业务为核心,采用组件化的体系结构,在实现丰富功能特性的同时,还提供了基于应用的可裁剪和可扩展的功能,使得路由器和交换机…

计算机网络物理层知识点总结

本篇博客是基于谢希仁编写的《计算机网络》和王道考研视频总结出来的知识点,本篇总结的主要知识点是第二章的物理层。上一章的传送门:计算机网络体系结构-CSDN博客 通信基础 物理层概念 物理层解决如何在连接各种计算机的传输媒体上传输数据比特流&am…

【Kubernetes】k8s中容器之间、pod之间如何进行网络通信?

目录 PodKubernetes 网络模型同一Pod上的容器之间进行通信同一Node上的不同Pod之间进行通信不同Node上的Pod之间进行通信Service参考 Pod 首先来回顾一下Pod: Pod 是用于构建应用程序的最小可部署对象。单个 Pod 代表集群中正在运行的工作负载,并封装一…

C++初阶篇----类与对象上卷

目录 引言1.面向过程和面向对象初步认识2.类的引入3.类的定义3.1声明与定义全部放在类体中3.2声明与定义分离 4.类的访问限定符及封装4.1访问限定符4.2封装 5.类的作用域6.类的实例化类是对对象进行描述一个类(一个类型变量)可以实例化出多个对象 7.类对…

Day12-【Java SE进阶】JDK8新特性:Lambda表达式、方法引用、常见算法、正则表达式、异常

一、JDK8新特性 1.Lambda表达式 Lambda表达式是JDK 8开始新增的一种语法形式;作用:用于简化名内部类的代码写法。 注意:Lambda表达式并不是说能简化全部匿名内部类的写法,只能简化函数式接口的匿名内部类。 有且仅有一个抽象方法的接口。注意:将来我们见到的大部…

分布式事务简介

分布式事务简介,通过组内分享学习到的知识,并进行讨论。 主要内容 分布式事务简介 分布式事务是指跨越多个数据库或服务的一系列操作,这些数据库或服务可能分布在网络的不同节点上,它们共同组成一个完整的逻辑工作单元&#xf…

GEE必须会教程—蒸散发数据时间序列分析与下载

今天带来的有关蒸散发数据的下载代码,蒸散发数据在气象气候,农业干旱监测等领域应用广泛,那么在GEE上如何方便快捷获取蒸散发数据呢?今天跟着小编分享代码,快来学习吧!! A.定义研究区域 //定义…

【前端素材】推荐优质数据统计后台管理系统网页Cleopatra.平台模板(附源码)

一、需求分析 在线后台管理系统是指供管理员或运营人员使用的Web应用程序,用于管理和监控网站、应用程序或系统的运行和数据。它通常包括一系列工具和功能,用于管理用户、内容、权限、数据等。下面是关于在线后台管理系统的详细分析: 1、功…

ssh简介以及 windows 安装ssh教程

SSH(Secure Shell)是一种网络协议,用于计算机之间的加密登录和其他安全网络服务。通过 SSH,用户可以安全地访问远程计算机,执行命令、传输文件等操作。SSH 使用公钥加密技术,确保数据传输的安全性。本文将从…

TypeScript 哲学 - 2、Narrowing

四种类型守卫 1、truthiness narrowing 2、 3、 4、 control flow analysis

C语言:结构体(自定义类型)知识点(包括结构体内存对齐的热门知识点)

和黛玉学编程呀,大家一起努力呀............. 结构体类型的声明 回顾一下 struct tag { member-list; }variable-list; 创建和初始化 我们知道,在C语言中,对于一些数据是必须初始化的,但是结构体怎么创建并且初始化呢&#xff1…

【计算机网络】TCP 如何实现可靠传输

TCP通过三次握手建立连接,四次挥手释放连接,确保连接建立和连接释放的可靠。 序列号、检验和、确认应答信号、重发机制、连接管理、窗口控制、流量控制、拥塞控制 标准回答 可靠传输就是通过TCP连接传送的数据是没有差错、不会丢失、不重复并且按序到达的…

springboot+vue+mysql项目使用的常用注解

实体类常用注解 Data Data 是一个 Lombok 提供的注解&#xff0c;使用 Data 注解可以简化代码&#xff0c;使代码更加简洁易读。 作用&#xff1a;自动为类生成常用的方法&#xff0c;包括 getter、setter、equals、hashCode 和 toString 等需要加Lombok的依赖 <depende…

rk3568-一种基于wifi的网络环境搭建方案

前言&#xff1a; PC--Ubuntu--开发板 三者之间的网络互相ping通很重要&#xff0c;尤其是ubuntu和开发板互ping成功最关键&#xff0c;关系到nfs&#xff0c;tftp等常用的开发手段。现在大多数开发板都带有wifi芯片&#xff0c;现在提供一种方案可以三个设备无线地搭建网络环境…

Open3D0.14.1编译、安装、demo使用教程

写在前面 本文内容 Open3D在0.15版之前&#xff0c;没有提供编译好的包&#xff0c;要使用C版本必须自己编译&#xff0c;本文是Open3D0.14.1在Windows下和Linux(Ubuntu1804)下的编译、使用教程&#xff1b; Open3D其他版本的编译和使用相关教程见 各个版本的Open3D、PCL的编译…

STL常见容器(map/multimap容器)---C++

STL常见容器目录&#xff1a; 8.map/ multimap容器8.1 map基本概念8.2 map构造和赋值8.3 map大小和交换8.4 map插入和删除8.5 map查找和统计8.6 map容器排序8.6.1 内置类型排序8.6.2 自定义类型排序8.6.3 自定义和内置类型混合排序 8.map/ multimap容器 两者基本一致&#xff…

用node写后端环境运行时报错Port 3000 is already in use

解决方法:关闭之前运行的3000端口,操作如下 1.WindowR输入cmd确定,打开命令面板 2.查看本机端口详情 netstat -ano|findstr "3000" 3.清除3000端口 taskkill -pid 41640 -f 最后再重新npm start即可,这里要看你自己项目中package.joson的启动命令是什…

Flink:动态表 / 时态表 / 版本表 / 普通表 概念区别澄清

博主历时三年精心创作的《大数据平台架构与原型实现&#xff1a;数据中台建设实战》一书现已由知名IT图书品牌电子工业出版社博文视点出版发行&#xff0c;点击《重磅推荐&#xff1a;建大数据平台太难了&#xff01;给我发个工程原型吧&#xff01;》了解图书详情&#xff0c;…

Python+PySide6实现一个选择文件并做处理的GUI办公小工具(完整代码)

目录 专栏导读背景安装注意事项完整代码结尾专栏导读 🌸 欢迎来到Python办公自动化专栏—Python处理办公问题,解放您的双手 🏳️‍🌈 博客主页:请点击——> 一晌小贪欢的博客主页求关注 👍 该系列文章专栏:请点击——>Python办公自动化专栏求订阅 🕷 此外还…

天翼云登录参数JavaSrcipt逆向

天翼云登录参数 password 、comParam_curTime、comParam_seqCode、comParam_signature JavaSrcipt逆向 目标网站 https://m.ctyun.cn/wap/main/auth/login?redirect/my 目标参数 要逆向的有 password、comParam_curTime、comParam_seqCode、comParam_signature 四个参数 …