准备环境
拉取环境
/root/share/install_conda_env_internlm_base.sh lmdeploy
激活环境
conda activate lmdeploy
安装依赖库
# 解决 ModuleNotFoundError: No module named 'packaging' 问题
pip install packaging
# 使用 flash_attn 的预编译包解决安装过慢问题
pip install /root/share/wheels/flash_attn-2.4.2+cu118torch2.0cxx11abiTRUE-cp310-cp310-linux_x86_64.whlpip install 'lmdeploy[all]==v0.2.4'
复制模型
cp -r /root/share/model_repos/internlm2-chat-20b/ /root/model/
INT4 权重量化
lmdeploy lite auto_awq \"/root/model/internlm2-chat-20b/" \--calib-dataset 'ptb' \--calib-samples 128 \--calib-seqlen 2048 \--w-bits 4 \--w-group-size 128 \--work-dir ./quant_output
使用控制台和模型对话
lmdeploy chat turbomind ./quant_output --model-format awq