解决vllm推理框架内在开启多显卡时报错问题

前言

vLLM在开启多显卡并行模式下,-tp 2 或者 --tensor-parallel-size 2,运行报错提示如下:

The above exception was the direct cause of the following exception:Traceback (most recent call last): File "/usr/lib/python3.8/runpy.py", line 194, in _run_module_as_main return _run_code(code, main_globals, None, File "/usr/lib/python3.8/runpy.py", line 87, in _run_code exec(code, run_globals) File "/usr/local/lib/python3.8/dist-packages/vllm/entrypoints/openai/api_server.py", line 236, in <module> engine = AsyncLLMEngine.from_engine_args(engine_args) File "/usr/local/lib/python3.8/dist-packages/vllm/engine/async_llm_engine.py", line 628, in from_engine_args engine = cls(parallel_config.worker_use_ray, File "/usr/local/lib/python3.8/dist-packages/vllm/engine/async_llm_engine.py", line 321, in init self.engine = self._init_engine(*args, **kwargs) File "/usr/local/lib/python3.8/dist-packages/vllm/engine/async_llm_engine.py", line 369, in _init_engine return engine_class(*args, **kwargs) File "/usr/local/lib/python3.8/dist-packages/vllm/engine/llm_engine.py", line 126, in init self._init_workers_ray(placement_group) File "/usr/local/lib/python3.8/dist-packages/vllm/engine/llm_engine.py", line 304, in _init_workers_ray self._run_workers("init_model", File "/usr/local/lib/python3.8/dist-packages/vllm/engine/llm_engine.py", line 1041, in _run_workers driver_worker_output = getattr(self.driver_worker, File "/usr/local/lib/python3.8/dist-packages/vllm/worker/worker.py", line 94, in init_model init_distributed_environment(self.parallel_config, self.rank, File "/usr/local/lib/python3.8/dist-packages/vllm/worker/worker.py", line 275, in init_distributed_environment cupy_utils.init_process_group( File "/usr/local/lib/python3.8/dist-packages/vllm/model_executor/parallel_utils/cupy_utils.py", line 79, in init_process_group raise ImportError( ImportError: NCCLBackend is not available. Please install cupy. 

一般报错的原因情况有三种

  • 未安装cuda-toolkit
  • cuda和cupy的版本不匹配
  • 为设置 cuda的环境变量 LD_LIBRARY_PATH

安装cuda-toolkit

ubuntu20.04系统,只要是桌面版,都有nouveau驱动,这是一个第三方搞的驱动,开源,很久前很火,但现在英伟达都有很完善的驱动方法,我们不用nouveau,马上卸载禁用!

不做的话,后面cuda环境有变数,概率出现不支持设备情况!

先打开terminal命令窗!输入指令,卸载已有的旧驱动!

dpkg -l | grep -i nvidia
sudo apt-get purge nvidia* libnvidia* -y
sudo apt autoremove && sudo reboot

继续!输入指令,彻底禁用nouveau驱动!
打开blacklist.conf文件

​sudo vi /etc/modprobe.d/blacklist.conf

添加blacklist nouveau,后:wq保存

blacklist nouveau

接着执行以下命令

echo options nouveau modeset=0 | sudo tee -a /etc/modprobe.d/nouveau-kms.conf

然后更新内核!+重启!

sudo update-initramfs -u && sudo reboo

重启后,看是否成功,命令窗输入下面指令,无回复内容,则成功!

lsmod | grep nouveau

接下来,安装显卡驱动!

驱动跟cuda是不同的东西!cuda是一个并行计算平台和编程模型,cuda要用显卡资源来计算,就要通过驱动来链接GPU!

每个cuda版本都有一个相匹配的显卡驱动,cuda安装程序已经把显卡驱动都打包在一起了!

建议一起安装!避免出现版本冲突问题!

到这里下载即可!不要下最新的!很多工具都没适配,会报错!

官网地址:https://developer.nvidia.com/cuda-toolkit-archive
选择你要下载的cuda toolkit版本 以12.1.0为例。vllm
在这里插入图片描述
在这里插入图片描述
复制粘贴 Base Installer中的命令

wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.run
sudo sh cuda_12.1.0_530.30.02_linux.run

上面的窗口输入到窗口,会自动下载!要等一会,耐心等待!

到了这个界面,输入accept,回车确认安装!
在这里插入图片描述

来到配置页面,按下图确认!安装!

要等2分钟!成功会有提示!

最后执行命令,配置系统变量

export LD_LIBRARY_PATH=/usr/local/cuda-12.3/lib64:$LD_LIBRARY_PATH
  • /usr/local/cuda-12.3/lib64 要和你实际cuda路径相符

打印变量命令

echo $LD_LIBRARY_PATH

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/772578.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

多线程中线程间如何通信

除了使用synchronized来对代码块和方法进行同步外&#xff0c;jdk1.5之后还有一种Lock同步锁的方式进行同步&#xff1a;使用lock.lock()来进行加锁&#xff0c;使用lock.unlock()方法来释放锁&#xff0c;既然可以使用lock来代替synchronized&#xff0c;那么如何进行处理sync…

【echart】数据可视化

什么是数据可视化&#xff1f; 数据可视化主要目的:借助于图形化手段&#xff0c;清晰有效地传达与沟通信息。 数据可视化可以把数据从冰冷的数字转换成图形&#xff0c;揭示蕴含在数据中的规律和道理。 如何绘制&#xff1f; echarts 图表的绘制&#xff0c;大体分为三步:…

智能合约测试例子

// SPDX-License-Identifier: MIT pragma solidity >0.4.11 <0.9.0; contract CrowdFunding {// 定义的新类型包含两个属性。struct Funder {address addr;uint amount;}struct Campaign {address payable beneficiary;uint fundingGoal;uint numFunders;uint amount;ma…

数据湖与湖仓一体是如何演变而来的?详谈大数据存储架构的变迁

在大数据存储架构的发展历程中&#xff0c;可以划分为三个显著的演进阶段。首先&#xff0c;随着Hadoop和Hive等初期项目的出现&#xff0c;数据仓库&#xff08;Data Warehouse&#xff09;的概念得以确立&#xff1b;随着数据仓库的不断演化&#xff0c;同时有了云与对象存储…

Unity DOTS中的baking(四)blob assets

Unity DOTS中的baking&#xff08;四&#xff09;blob assets blob assets表示不可变的二进制数据&#xff0c;在运行时也不会发生更改。由于blob assets是只读的&#xff0c;这意味着可以安全地并行访问它们。此外&#xff0c;blob assets仅限于使用非托管类型&#xff0c;这意…

一-容量管理是什么?

容量管理的定义 随着企业对外服务的内容和用户不断增长&#xff0c;企业会不断增加对硬件和云基础设施的投入&#xff0c;用于满足业务发展的需要。但是很多业务和技术架构师很可能没有关心或思考过采购这些IT资源的必要性&#xff0c;或者应采购多少IT资源才算合理。当前很多…

C++引用学习day2

思维导图 定义一个矩形类&#xff08;Rectangle&#xff09;&#xff0c;包含私有成员&#xff1a;长(length)、宽&#xff08;width&#xff09;, 定义成员函数&#xff1a; 设置长度&#xff1a;void set_l(int l) 设置宽度&#xff1a;void set_w(int w) 获取长度&#…

STL和泛型编程

STL和泛型编程 一.STL六大部件"前开后闭"区间 二.容器(1)顺序容器1.array源码剖析 2.vector源码剖析vector的迭代器 3.list源码剖析迭代器的设计规则关于重载操作符关于重载->和*操作符 4.forward_list源码剖析 5.deque源码剖析底层数据结构操作实现deque的设计de…

设置定时闹钟,语音播报

widget.h #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include<QTime>//时间类 #include<QtTextToSpeech>//文本转语音类 QT_BEGIN_NAMESPACE namespace Ui { class Widget; } QT_END_NAMESPACEclass Widget : public QWidget {Q_OBJECTpublic:W…

不再混淆!一文搞懂ECMAScript和JavaScript的真正差异

深入解析ECMAScript和JavaScript的区别 1. 引言2. ECMAScript和JavaScript的定义3. ECMAScript和JavaScript的关系4. ECMAScript的发展历史5. JavaScript的实现和应用6. ECMAScript和JavaScript的区别7. 总结8. 参考资料 1. 引言 大家好&#xff0c;这里是程序猿代码之路。本文…

【Vue】实现的底层原理

底层原理 在 Vue 中实现数据对象和UI模板之间绑定关系&#xff0c;从而实现数据变化自动更新UI的核心机制&#xff0c;主要依赖于响应式系统。Vue的响应式系统基于JavaScript的对象属性访问器&#xff08;getter和setter&#xff09;和依赖收集的概念来实现。下面是这一机制的…

【MATLAB源码-第13期】基于matlab的4ASK的误码率BER和误符号率SER理论和实际对比仿真。

操作环境&#xff1a; MATLAB 2022a 1、算法描述 "4ASK" 是一种数字调制技术&#xff0c;代表4级振幅移移键控&#xff08;4-Level Amplitude Shift Keying&#xff09;调制。它是一种数字通信中常用的调制方式之一&#xff0c;用于将数字信号转换为模拟信号以便传…

分享全栈开发医疗小程序 -带源码课件(课件无解压密码),自行速度保存

课程介绍 分享全栈开发医疗小程序 -带源码课件&#xff08;课件无解压密码&#xff09;&#xff0c;自行速度保存&#xff01;看到好多坛友都在求SpringBoot2.X Vue UniAPP&#xff0c;全栈开发医疗小程序 - 带源码课件&#xff0c;我看了一下&#xff0c;要么链接过期&…

GPT2从放弃到入门(四)

引言 体验地址&#xff1a;https://huggingface.co/spaces/greyfoss/gpt2-chatbot 上篇文章我们通过Gradio作为前端轻松地连接到训练好的Chatbot&#xff0c;本文介绍如何分享你创建好的模型给你的朋友。 当你训练好的模型推送到Huggingface Hub上后&#xff0c;其实还可以进一…

Linux 挂载磁盘

第一种方式&#xff08;不分区&#xff09; 磁盘不分区&#xff0c;直接挂载到某个目录。 查看磁盘列表 fdisk -l [root]# fdisk -lDisk /dev/vdb: 214.7 GB, 214748364800 bytes, 419430400 sectors Units sectors of 1 * 512 512 bytes Sector size (logical/physical): …

Codeforces Round 934 (Div. 2) ---- D. Non-Palindromic Substring --- 题解

目录 D. Non-Palindromic Substring &#xff1a; 题目描述&#xff1a; 思路解析&#xff1a; 下面给出两种代码的代码实现&#xff1a; 代码一&#xff1a;线段树实现hash判断回文字符串 代码二&#xff1a;manacher判断回文字符串 D. Non-Palindromic Substring &#…

大数据Hadoop生态圈体系视频课程

课程介绍 熟悉大数据概念&#xff0c;明确大数据职位都有哪些&#xff1b;熟悉Hadoop生态系统都有哪些组件&#xff1b;学习Hadoop生态环境架构&#xff0c;了解分布式集群优势&#xff1b;动手操作Hbase的例子&#xff0c;成功部署伪分布式集群&#xff1b;动手Hadoop安装和配…

codeforces div4 Double Strings

#include<iostream> #include<algorithm> #include<cstring> #include<map> using namespace std; int T, n; string s[900005]; map<string, int>mm;//存放每一个字符串是否出现过 int main() {cin >> T;while (T--){mm.clear();//每次清…

服务端测试开发必备技能:Mock测试

什么是mock测试 Mock 测试就是在测试活动中&#xff0c;对于某些不容易构造或者不容易获取的数据/场景&#xff0c;用一个Mock对象来创建以便测试的测试方法。 Mock测试常见场景 无法控制第三方系统接口的返回&#xff0c;返回的数据不满足要求依赖的接口还未开发完成&#…

linux 离线安装 dotnet tool

1. 在官网下载对应的nuget包,比如: dotnet-dump NuGet Gallery | dotnet-dump 3.1.57502 注意文件名称: dotnet-dump.3.1.57502.nupkg 我犯了一个错误,下载比较慢,然后通过迅雷来下载,结果没有后缀名称. 2. 然后拷贝到linux上,比如: 拷贝到dp文件夹下, 在dp文件夹上级执行命…