大模型部署背景
参数用FP16半精度也就是2字节,7B的模型就大约占14G
2.LMDeploy简介
量化降低显存需求量,提高推理速度
大语言模型推理是典型的访问密集型,因为是decoder only的架构,需要token by token的生成,因此需要频繁读取之前生成过的token。
这个量化只是在存储时做的, 在推理时还要反量化回FP16.
w4a16意思是参数4bit量化,激活时是16bit
不用等一个batch的请求全部执行完才退出。
3.动手实践-安装、部署、量化