部署LMDeploy并对话
配置LMDeploy运行环境
安装好环境,并成功激活
使用transformer运行大模型
使用LMDeploy模型量化(lite)
KV8量化和W4A16量化。KV8量化是指将逐 Token(Decoding)生成过程中的上下文 K 和 V 中间结果进行 INT8 量化(计算时再反量化),以降低生成过程中的显存占用。W4A16 量化,将 FP16 的模型权重量化为 INT4,Kernel 计算时,访存量直接降为 FP16 模型的 1/4,大幅降低了访存成本。Weight Only 是指仅量化权重,数值计算依然采用 FP16(需要将 INT4 权重反量化)。
使用KV8量化
设置--cache-max-entry-count
参数,控制KV缓存占用剩余显存的最大比例
上下进行对比,第一个设置为0.8,第二个设置为0.5,发现有明显的显存占用降低
使用W4A16量化
进行量化工作,保存新的HF模型。
KV Cache比例再次调为0.4,进行对话
可以发现推理生成的速度很快