vLLM部署推理及相关重要参数

vLLM部署推理及相关重要参数

news/2025/7/8 18:46:38/文章来源:https://blog.csdn.net/yjh_SE007/article/details/135392914

部署示例代码

from vllm import LLM, SamplingParamsprompts = ["Hello, my name is","The president of the United States is","The capital of France is","The future of AI is",
]
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)llm = LLM(model="qwen/Qwen-7B-Chat", revision="v1.1.8", trust_remote_code=True)outputs = llm.generate(prompts, sampling_params)for output in outputs:prompt = output.promptgenerated_text = output.outputs[0].textprint(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

SamplingParams()重要传参

temperature：Temperature 参数是文本生成模型中用于控制生成文本的随机性和创造性的一个重要的超参数。Temperature参数通常设置为 0.1 到 1.0 之间。
top_k:模型预测的前k个最可能的下一个词。
max_tokens:模型生成的最大长度。
stop:生成模型停止生成的符号。

LLM()中重要传参

model:LLM模型路径。
tensor_parallel_size:并行处理的大小。
gpu_memory_utilization:默认为0.9， cpu_swap_space默认4个G。若gpu_memory_utilization参数过小(分配的内存大小低于模型使用内存)或者过大(接近1.0)时，代码会崩溃。
request_rate:请求速率

参考文献

https://github.com/vllm-project/vllm
https://docs.vllm.ai/en/latest/index.html

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/596337.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

技术学习|CDA level I 描述性统计分析（数据的描述性统计分析）

技术学习|CDA level I 描述性统计分析（数据的描述性统计分析）

技术学习|CDA level I 描述性统计分析（数据的描述性统计分析） 数据的描述性统计分析常从数据的集中趋势、离散程度和分布形态3个方面进行。一、集中趋势集中趋势是指数据向其中心值靠拢的趋势。测量数据的集中趋势，主要是寻找其中心值。…

阅读更多...

python延迟绑定是什么？

python延迟绑定是什么？

延迟绑定是什么？ Python中的延迟绑定是指在嵌套函数中，内部函数在被调用时才会绑定外部函数的变量，而不是在定义内部函数时就绑定。这种绑定方式可以导致一些出乎意料的行为，因为变量的值是在函数调用时决定的，而不是…

阅读更多...

修改选择框el-select样式,显示及下拉样式

修改选择框el-select样式,显示及下拉样式

修改选择框el-select样式,显示及下拉样式 .el-input__inner {background: rgba(25, 126, 195, 0.2);border: none;color: #fff; }.el-select-dropdown {background: rgba(19, 73, 104, 0.79);border: 2px solid #48e3ff;border-radius: 0; }.el-popper .popper__arrow {display…

阅读更多...

了解JavaScript中的语句

了解JavaScript中的语句

前言前面我们学习了JavaScript中的变量、操作符等，本篇内容讲解JavaScript中的语句，只有了解了语句的使用，才能正式开发出一个完整的功能。一、if语句 if语句是实际开发中使用最多的语句之一，具体语法如下 if(条件) 语句1 el…

阅读更多...

VUE局部组件

VUE局部组件

实现局部组件的注册功能，样例如下代码如下 <html><head><meta charset"utf-8"><title></title></head><body><div id"app"><hello-word></hello-word><hello-tom></he…

阅读更多...

通信及信号处理领域期刊影响因子、分区及期刊推荐-2024版

通信及信号处理领域期刊影响因子、分区及期刊推荐-2024版

期刊名IF(202401)中科院分区(20231227)备注IEEE Journal on Selected Areas in Communications16.4计算机科学1区Top通信顶刊IEEE Transactions on Signal Processing5.4工程技术2区Top信号处理顶刊IEEE Transactions on Information Theory2.5计算机科学3区信息论顶刊IEEE Tra…

阅读更多...

多个微信的朋友圈如何高效管理？

多个微信的朋友圈如何高效管理？

大家都知道，在当今社交媒体盛行的时代，微信朋友圈已成为了我们交流和分享生活的重要平台。但是，对于那些同时管理多个微信号的人来说，如何高效省时地管理这些账号的朋友圈就成了一项挑战。今天我将分享一个神奇的微信管理工具&a…

阅读更多...

vue项目获取 iframe 中的DOM元素

vue项目获取 iframe 中的DOM元素

注意，由于跨域的安全限制，只能访问同源的 iframe 内容。如果 iframe 的源与父组件的源不同，那么在访问其内容时可能会遇到跨域错误。 <template><div><iframe ref"myIframe" src"https://example.com" lo…

阅读更多...

内存的基础知识-第四十天

内存的基础知识-第四十天

目录什么是内存？内存的作用常用的数量单位指令的工作原理思考三种装入方式绝对装入可重定位装入（静态重定位） 动态运行时装入（动态重定位） 写程序到程序运行编译和链接链接的三种方式本节思维导…

阅读更多...

达梦数据：数字化时代，国产数据库第一股终于到来？

达梦数据：数字化时代，国产数据库第一股终于到来？

又是新的一年开始。回首一年前的此时，在大家千呼万唤地期待中，数据基础制度体系的纲领性文件正式发布。时隔一年之后，数据资源入表如约而至。2024年1月1日《企业数据资源相关会计处理暂行规定》正式施行，各行各业海量数据巨大的…

阅读更多...

Fiddler工具 — 6.Fiddler页面布局之工具栏

Fiddler工具 — 6.Fiddler页面布局之工具栏

Fiddler工具栏就是平时比较常用功能的一个快捷方式。下面一一说明： 1、第一组工具： WinConfig：可以在里面配置一些windows系统的应用程序，配置在里面的应用的请求Fiddler都可以抓到，Fiddler5新增功能。换句话说&…

阅读更多...

入门Python笔记详细介绍

入门Python笔记详细介绍

以下是 Python 入门的详细介绍： 1.安装 Python：首先，你需要从 Python 官方网站（https://www.python.org/）下载适用于你的操作系统的 Python 版本，并按照安装向导进行安装。 2.编写第一个 Python 程序&…

阅读更多...

C语言—第4次作业—分支结构专练

C语言—第4次作业—分支结构专练

题目 1: 计算平均分并判断等级问题描述：编写一个程序，读取用户输入的三个数（例如考试成绩），计算平均分，并根据平均分给出等级（90以上为A，80到89为B，70到79为C&#xff…

阅读更多...

caj转换成pdf有哪些方法？

caj转换成pdf有哪些方法？

caj转换成pdf有哪些方法？PDF是一个被广泛支持的文件格式，这种格式基本上在所有的操作系统和设备上都是支持使用的，也能够将PDF文件打开和查看的，相比于caj文件，它就只能通过一下特定的软件或者是插件才能够将caj打开或…

阅读更多...

潮玩宇宙大逃杀游戏搭建

潮玩宇宙大逃杀游戏搭建

潮玩宇宙是当下较火的社交互动平台，它不仅涵盖了各种潮玩商品，还拥有各种游戏玩法，尤其是大逃杀游戏非常火爆！本文将介绍大逃杀游戏的开发和发展前景。大逃杀游戏大逃杀游戏是当下的一种新型游戏模式，旨在为玩家提供…

阅读更多...

mysql高可用方案之MHA

mysql高可用方案之MHA

mysql集群高可用方案： 单主：keepalived、MHA、MMM 多主：MySQL cluster 、PXC MHA的工作原理 MHA node 运行在每台MySQL服务器上，MHA Manager会定时探测集群中的master节点，当master出现故障时，它可以自…

阅读更多...

odoo17 | 计算字段和更改事件

odoo17 | 计算字段和更改事件

前言模型之间的关系是任何Odoo模块的关键组成部分。它们是任何业务案例建模所必需的。然而，我们可能希望给定模型中的字段之间存在链接。有时一个字段的值是由其他字段的值决定的，而有时我们希望帮助用户进行数据输入。这些案例得到了计算字段和onch…

阅读更多...

JavaScript 基础四函数使用、传参、返回值、作用域、匿名函数

JavaScript 基础四函数使用、传参、返回值、作用域、匿名函数

JavaScript 基础四函数 1.1 函数1.2 函数使用函数名命名规范函数的调用 1.3 函数传参（1）声明语法（2）调用有参函数（3）形参和实参（4）参数默认值 1.4 函数返回值（1&#xf…

阅读更多...

双鲸项目业务逻辑梳理

双鲸项目业务逻辑梳理

双鲸项目业务逻辑梳理一、与华润WMS接口对接 1.ic：库存管理模块采购入库单上增加推送WMS按钮，如果组织编码为108且仓库自定义档案上的自定义项1为Y，则推送WMS，否则提示“本单据不满足推送WMS条件”；推送完后更新采…

阅读更多...

HTML如何设置多图片上传，并限制格式类型

HTML如何设置多图片上传，并限制格式类型

在HTML如何设置多图片上传，并限制格式类型为jpg和png格式。 <input type"file" name"fileInput" id"fileInput"> 上面这行代码，只支持单个文件上传，且不支持文件类型过滤，在实际开发过程中&…

阅读更多...

最新文章