1、开发机创建conda环境:
2、安装第三方库:
3、新建pipeline_transformer.py文件,并运行:
4、运行结果:
5、执行模型:
6、与大模型进行对话:
7、默认占有的显存:
8、--cache-max-entry-count参数设置为0.5后占用的显存:
9、--cache-max-entry-count参数设置为0.01后占用的显存:
10、使用W4A16量化:
11、将kvcache降低为0.01,显存变为:
12、启动api服务:
13、网页客户端连接api服务器:
14、python代码集成大模型:
【拓展部分】
1、安装llava依赖库:
2、速度测试transformer:
速度测试lmdeploy: