部署环境
系统:CentOS-7
CPU: 14C28T
显卡:Tesla P40 24G
驱动: 515
CUDA: 11.7
cuDNN: 8.9.2.26
下载模型
https://huggingface.co/lmsys/vicuna-13b-v1.5
一个一个下载,26文件下载比较耗时
创建运行环境
conda create --name fastchat python=3.10
conda activate fastchat
安装
克隆项目
https://github.com/lm-sys/FastChat/releases/tag/v0.2.22cd FastChat-0.2.22
更新安装依赖
pip install --upgrade pip # enable PEP 660 support
pip install -e . -i https://pypi.tuna.tsinghua.edu.cn/simple
运行
python -m fastchat.serve.cli --model-path /models/vicuna-13b-v1.5 --load-8bit
我下载模型放在/models/vicuna-13b-v1.5,可以自己定义目录
登录加载完成就可以体验了
结果
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 515.65.01 Driver Version: 515.65.01 CUDA Version: 11.7 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 Tesla P40 Off | 00000000:03:00.0 Off | 0 |
| N/A 42C P0 56W / 250W | 13955MiB / 23040MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
1.内存消耗,8bit需要14G显存
2.Tesla P40性能还是不行,一个你好要回答15秒
3.后期准备找个性能更好的显卡试试