使用 lmdeploy 部署 internlm/internlm2_5-7b-chat

使用 lmdeploy 部署 internlm/internlm2_5-7b-chat

  • 0. 引言
  • 1. lmdeploy 性能
  • 2. lmdeploy 支持的模型
  • 3. 快速开始

0. 引言

LMDeploy 由 MMDeploy 和 MMRazor 团队联合开发,是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。 这个强大的工具箱提供以下核心功能:

高效的推理:LMDeploy 开发了 Persistent Batch(即 Continuous Batch),Blocked K/V Cache,动态拆分和融合,张量并行,高效的计算 kernel等重要特性。推理性能是 vLLM 的 1.8 倍

可靠的量化:LMDeploy 支持权重量化和 k/v 量化。4bit 模型推理效率是 FP16 下的 2.4 倍。量化模型的可靠性已通过 OpenCompass 评测得到充分验证。

便捷的服务:通过请求分发服务,LMDeploy 支持多模型在多机、多卡上的推理服务。

有状态推理:通过缓存多轮对话过程中 attention 的 k/v,记住对话历史,从而避免重复处理历史会话。显著提升长文本多轮对话场景中的效率。

卓越的兼容性: LMDeploy 支持 KV Cache 量化, AWQ 和 Automatic Prefix Caching 同时使用。

1. lmdeploy 性能

LMDeploy TurboMind 引擎拥有卓越的推理能力,在各种规模的模型上,每秒处理的请求数是 vLLM 的 1.36 ~ 1.85 倍。在静态推理能力方面,TurboMind 4bit 模型推理速度(out token/s)远高于 FP16/BF16 推理。在小 batch 时,提高到 2.4 倍。

在这里插入图片描述

2. lmdeploy 支持的模型

2024年7月13日时点

LLMsVLMs
- Llama (7B - 65B)- LLaVA(1.5,1.6) (7B-34B)
- Llama2 (7B - 70B)- InternLM-XComposer2 (7B, 4khd-7B)
- Llama3 (8B, 70B)- QWen-VL (7B)
- InternLM (7B - 20B)- DeepSeek-VL (7B)
- InternLM2 (7B - 20B)- InternVL-Chat (v1.1-v1.5)
- InternLM2.5 (7B)- MiniGeminiLlama (7B)
- QWen (1.8B - 72B)- CogVLM-Chat (17B)
- QWen1.5 (0.5B - 110B)- CogVLM2-Chat (19B)
- QWen1.5 - MoE (0.5B - 72B)- MiniCPM-Llama3-V-2_5
- QWen2 (0.5B - 72B)- Phi-3-vision (4.2B)
- Baichuan (7B)- GLM-4V (9B)
- Baichuan2 (7B-13B)
- Code Llama (7B - 34B)
- ChatGLM2 (6B)
- GLM4 (9B)
- Falcon (7B - 180B)
- YI (6B-34B)
- Mistral (7B)
- DeepSeek-MoE (16B)
- DeepSeek-V2 (16B, 236B)
- Mixtral (8x7B, 8x22B)
- Gemma (2B - 7B)
- Dbrx (132B)
- StarCoder2 (3B - 15B)
- Phi-3-mini (3.8B)

3. 快速开始

使用 pip ( python 3.8+) 安装 LMDeploy,

pip install lmdeploy

部署 openai 兼容 api 格式的模型服务,

lmdeploy serve api_server internlm/internlm2_5-7b-chat --server-port 8000 --model-name internlm2

使用 Chatbox 设置访问,

在这里插入图片描述
问一个问题试一试,

在这里插入图片描述

reference: https://github.com/InternLM/lmdeploy

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/45696.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

力扣1021.删除最外层的括号

力扣1021.删除最外层的括号 遍历所有字符 当)时 栈顶元素出栈当(时 入栈当栈为空时 说明恰好扫描了一个原语这个原语的首尾字符不应该放入答案因此调整if判断顺序使首尾不放进去即可 class Solution {public:string removeOuterParentheses(string s)…

webRtc架构与目录结构

整体架构 目录结构 webrtc Modules目录

Redis实践经验

优雅的Key结构 Key实践约定: 遵循基本格式:[业务名称]:[数据名]:id例:login:user:10长度步超过44字节(版本不同,上限不同)不包含特殊字符 优点: 可读性强避免key冲突方便管理节省内存&#x…

Ubuntu 编译和运行ZLMediaKit

摘要 本文描述了如何在Ubuntu上构建ZLMediaKIt项目源码,以及如何体验其WebRTC推流和播放功能。 实验环境 操作系统版本:Ubuntu 22.04.3 LTS gcc版本:11.4.0 g版本:11.4.0 依赖库安装 #让ZLMediaKit媒体服务器具备WebRTC流转发…

Git 在commit后,撤销commit

1. 撤销已经add,但是没有commit的问题 git reset HEAD 2. 撤销已经commit,但是没有push到远端的文件(仅撤销commit 保留add操作) 撤销上一次的提交 git reset --soft HEAD^windows 系统使用提示 more,需要多加一个…

使用 Unstructured.io 和 Elasticsearch 向量数据库搜索复杂文档

作者:来自 Elastic Amy Ghate, Rishikesh Radhakrishnan, Hemant Malik 使用非结构化和 Elasticsearch 向量数据库为 RAG 应用程序提取和搜索复杂的专有文档 在使信息可搜索之前解析文档是构建实际 RAG 应用程序的重要步骤。Unstructured.io 和 Elasticsearch 在此…

mybatis动态传入参数 pgsql 日期 Interval ,day,minute

mybatis动态传入参数 pgsql 日期 Interval 在navicat中,标准写法 SELECT * FROM test WHERE time > (NOW() - INTERVAL 5 day)在mybatis中,错误写法 SELECT * FROM test WHERE time > (NOW() - INTERVAL#{numbers,jdbcTypeINTEGER} day)报错内…

Docker Compose 启动容器例子

Docker Compose 启动容器例子 Docker Compose 文件 (docker-compose.yml) version: 3.8services:web:image: nginx:latestports:- "8080:80"volumes:- ./html:/usr/share/nginx/htmlnetworks:- webnetdb:image: mysql:latestenvironment:MYSQL_ROOT_PASSWORD: exam…

谷歌浏览器插件开发笔记0.1.033

谷歌浏览器插件开发笔记0.1.000 示例文件manifest.jsonpopup.htmloptions.jsoptions.htmlcontent.jsbackground.js 网页按钮快捷键插件api使用基础参考链接 示例文件 共计有6个常用的文件 manifest.json background字段:随着浏览器的打开而打开,随着浏…

CSS【详解】层叠 z-index (含 z-index 的层叠规则,不同样式的层叠效果)

仅对已定位的元素( position:relative,position:absolute,position:fixed )有效,默认值为0,可以为负值。 z-index 的层叠规则 z-index 值从小到大层叠 兄弟元素 z-index 值相同时,后面的元素在…

【GameFramework框架】7-2、GameFramework框架是否“过度设计”?

推荐阅读 CSDN主页GitHub开源地址Unity3D插件分享简书地址QQ群:398291828大家好,我是佛系工程师☆恬静的小魔龙☆,不定时更新Unity开发技巧,觉得有用记得一键三连哦。 一、前言 【GameFramework框架】系列教程目录: https://blog.csdn.net/q764424567/article/details/1…

Leetcode(经典题)day1

删除有序数组中的重复项|| 80. 删除有序数组中的重复项 II - 力扣(LeetCode) 和之前的删除有序数组中的重复项|相似,这里是要求最多出现两次,所以多加一个变量来记录出现次数即可,整体上还是使用双指针,…

智能小车——底层配置

需要一点点思考底层的相关配置都需要完成怎么样的配置,并进一步添加相关的状态机和控制算法。 FreeRTOS迁移 可以直接CubeMX生成,也可以手动把FreeRTOS的源码拖到工程中,然后再稍微配置一下,这个之前学正点原子的FreeRTOS的时候…

python | setup.py里有什么?

setup.py里有什么? 文章目录 setup.py里有什么?C/C扩展总结gcc/g的编译参数:Windows Visual StudioCmakesetup.py C/C扩展模块 为什么需要分发打包?Distutils一个简单的例子通用的 Python 术语 使用 Setuptools 构建和分发软件包源…

华为OD机试题-字符串重新排列

题目描述 https://www.cnblogs.com/smile-programmer/p/17322920.html 字符串重新排列 给定一个字符串s,s包括以空格分隔的若干个单词,请对s进行如下处理后输出: 1、单词内部调整:对每个单词字母重新按字典序排序 2、单词间顺序调…

C#单独摘出日期的某天

如果你想要在 C# 中获取日期中的“天”的部分,你可以通过将日期转换为字符串,解析字符串,或者使用 DateTime 结构的 Day 属性来实现。 using System;class Program {static void Main(){// 获取当前日期DateTime today DateTime.Today;// 使…

Sqlmap中文使用手册 - Request模块参数使用

目录 1. Request模块的帮助文档2. 各个参数的介绍2.1 --methodMETHOD2.2 --dataDATA2.3 指定参数分割符2.4 -cookie相关2.5 -agent相关2.6 --hostHOST2.7 --refererREFERER2.8 --headersHEADERS2.9 --auth-type / --auth-cred2.10 --auth-fileAUTH2.11 --ignore-codeIG2.12 --p…

基于Flask+Apache+WSGI等模块配置Deep Learning应用功能网站(Ubuntu 22.04服务器)

首先预设你已经在本地搭建好了网站,只需要放到服务器上,然后配置Apache / Nginx等反向代理软件,即可用服务器ip地址/域名进行访问。 因为操作不规范/坑太多,而反反复复配了至少10遍。接下来的教程主要是总结规范流程,…

PYTHON自学笔记(二)查漏补缺

迭代 字符串处理 函数 参数 必须参数(必须有序) 调用函数与生命函数的参数个数必须一样,否则报错 关键字参数(无需有序) 在调用函数的时候可以直接传参,方便测试 def printIfo(name, **var):print(…

Stable Diffusion 入门案例教程

Stable Diffusion 是一种基于 diffusion-based 的生成模型,可以生成高质量的图像和视频。下面是一个 Stable Diffusion 入门案例教程,旨在帮助您快速入门 Stable Diffusion。 安装 Stable Diffusion 首先,您需要安装 Stable Diffusion。可以…