ollama部署QwQ32B
-
QwQ32B硬件要求
魔改2080ti 的 22G 显存差不多够用
ollama中的是Q4_K_M量化模型
硬件配置 模型推理 模型高效微调 模型全量微调 显存占用 最低配置 显存占用 最低配置 显存占用 最低配置 FP_16 64G RTX3090*4(94G) 92G RTX3090*4(94G) 350G A100*6(480G) Q_4_K_M 23G RTX3090(24G) 31G RTX3090*2(48G) - -
使用命令安装 ollama
-
官网安装命令
curl -fsSL https://ollama.com/install.sh | sh
-
启动 ollama
ollama server
后台启动 ollama 并将 日志写入当前文件夹的 ollama.log 文件夹下
nohup ollama serve > ollama.log 2>&1 &
使用安装包下载 ollama
-
ollama github主页的安装包
https://github.com/ollama/ollama/releases
点击下载(因网络原因建议点击下载)或者使用 wegt 下载对应 系统版本的 ollama 安装包,下面使用 wget 来演示,我使用的 GPU主机是 ubuntu 的,所以使用
ollama-linux-arm64.tgz
,右键复制下载链接,使用 wget 下载wget https://github.com/ollama/ollama/releases/download/v0.6.0/ollama-linux-arm64.tgz
mkdir ./ollama tar -zxvf ollama-linux-amd64.tgz -C ./ollama
chmod +x ollama
-
将 bin 目录添加到系统环境变量
vim ~/.bashrc
添加以下
export PATH=$PATH:/root/lanyun-tmp/ollama/bin
保存并退出后,输入如下命令来使环境变量生效:
source ~/.bashrc
-
更换 ollama 模型下载的存放地址
vim ~/.bashrc
添加如下
export OLLAMA_MODELS=/root/lanyun-tmp/models
保存并退出后,输入如下命令来使环境变量生效:
source ~/.bashrc
测试下
echo $OLLAMA_MODELS
部署 qwq32b
-
ollama 中的 qwq32b 是自己量化的,量化显存占用大概在 22G 左右
-
下载 qwq32b
ollama run qwq
等待下载完成
下载完成后即进入对话
可以看到大概占用了 22G显存左右