书生作业：LMDeploy

自己随便说几句。

关于模型部署，很有趣的一件事就是，它一路随着深度学习训练一起发展，尽管例如tensorrt等工具的出现，不断试图降低部署门槛，但是实际上，每一次AI的升级，似乎让这个细分领域没有因为工具易用性的提高而萎缩，反而量化，蒸馏，各个细分领域开支散叶。你说未来的模型部署是什么样呢？

作业链接：Tutorial/lmdeploy/homework.md at camp2 · InternLM/Tutorial · GitHub

LLDeploy项目链接： GitHub - InternLM/lmdeploy: LMDeploy is a toolkit for compressing, deploying, and serving LLMs.

项目纵览

看一下repo的更新日志可以看到：

支持的模型种类很多，提到的就包括：

Qwen-7B， Qwen1.5-MOE and dbrx.Baichuan2-7B， Qwen 1.5, Gemma, Mistral, Mixtral, Deepseek-MOE， LLama 1--3

支持的量化方法也很多： AWQ 4bit GQA, W4A16 inference for sm_75 multi-model

性能优化的方式也很多： flash-attention2， dynamic NTK-RoPE scaling， dynamic logN scaling，Paged Attention, faster attention kernels without sequence length limitation, 2x faster KV8 kernels, Split-K decoding (Flash Decoding)

online int8/int4 KV cache quantization； Support VLM offline inference pipeline and serving；

Support DeepSeek-VL offline inference pipeline and serving.

部署的硬件支持也很多： multi-machine, multi-card inference
真的够卷。据说MMDeploy基本不维护了，这个转型也是迅雷不及掩耳。

安装

可以直接通过pip安装，也可以通过源码安装，源码安装的流程明显更复杂。

参考： lmdeploy/docs/en/build.md at main · InternLM/lmdeploy · GitHub

conda activate lmdeploy
pip install lmdeploy[all]==0.3.0

离线demo的调用也很直接

import lmdeploy
pipe = lmdeploy.pipeline("internlm/internlm-chat-7b")
response = pipe(["Hi, pls intro yourself", "Shanghai is"])
print(response)

或者通过：

lmdeploy chat /root/internlm2-chat-1_8b

进阶作业：

以API Server方式启动 lmdeploy，开启 W4A16量化，调整KV Cache的占用比例为0.4，分别使用命令行客户端与Gradio网页客户端与模型对话。

基于下列指令，我们可以启动serve

lmdeploy serve api_server internlm2-chat-1_8b --model-format hf\
--quant-policy 0\
--server-name 0.0.0.0\
--server-port 23333\
--tp 1

然后，我们可以尝试性能优化

程序默认cache-max-entry-count = 0.8

原始参数下，显存占用为 7800MB，改成 0.4后，显存占用为6000MB。可以推测，KV cache的降低将减小模型的显存占用。

lmdeploy chat /root/internlm2-chat-1_8b --cache-max-entry-count 0.4

接下来，针对awq功能，我们进行量化优化。awq的更多细节可以参考：EfficientAI Lab：大模型AWQ量化-CSDN博客

time lmdeploy lite auto_awq \/root/internlm2-chat-1_8b \--calib-dataset 'ptb' \--calib-samples 128 \--calib-seqlen 1024 \--w-bits 4 \--w-group-size 128 \--work-dir /root/internlm2-chat-1_8b-4bit

可以在目录中找到新生成的文件，并运行

lmdeploy chat /root/internlm2-chat-1_8b-4bit --model-format awq

值得注意的是，目前该方法只支持图灵架构及之后的设备，也就是20系列之后的显卡。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/10465.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

书生作业：LMDeploy

项目纵览

安装

相关文章

C++面向对象

图片格式不对怎么转换？推荐几个图片转换的高效处理方法

如何让组织充满活力？你需要做好这七步

salesforce inactive user 和 deactived user 的区别

算法题① —— 数组专栏

基于单片机的直流电机检测与控制系统

WAAP全站防护理念，发现和保护敏感数据

巩固学习4

A计算机上的程序与B计算机上部署的vmware上的虚拟机的程序通讯如何配置？

(十二)JSP教程——exception对象

【负载均衡式在线OJ项目day6】源文件路由功能及文件版题库构建

【贪心算法】最小生成树Kruskal算法Python实现

acer笔记本怎样进行系统还原？教你两招！

深入探讨布隆过滤器算法：高效的数据查找与去重工具

MongoDB聚合运算符：$toLong

提高静态住宅代理稳定性妙招

docker compose kafka集群部署

JS代码随想录（一）：数组

3 PWM控制

boost asio同步编程（附源码api）