1. 参考博客:1. 只要8G显卡!本地运行最强Llama 3.1大模型!:https://zhuanlan.zhihu.com/p/711409433 2. 只要8G显卡!本地运行最强Llama 3.1大模型!:https://xueshu.fun/4999/ 3. 使用Ollama实现本地部署大模型: https://openatomworkshop.csdn.net/6645adbeb12a9d168eb6c7d4.html 4. Llama3 – 8B/70B 大模型!相关的工具和模型下载:https://blog.csdn.net/u010066597/article/details/138481313 5. AI初识--LLM、ollama、llama都是些个啥?:https://blog.csdn.net/weixin_66196770/article/details/139536570 6. Llama3.1 8B模型下载地址:https://huggingface.co/shenzhi-wang/Llama3.1-8B-Chinese-Chat7. 【LLM中不同GGUF格式存储和表示模型参数的用途和硬件要求】:https://blog.csdn.net/Darlingqiang/article/details/140083695 8. ollama 安装第三方平台模型( GGUF篇 ):https://www.douyin.com/note/7371357396461030683 9. 从零到一使用 Ollama、Dify 和 Docker 构建 Llama 3.1 模型服务:https://zhuanlan.zhihu.com/p/7114160482. ollama 安装方式:1. docker 安装:1. 拉取 ollama 镜像:
方式1. docker pull ollama/ollama:0.3.3 // 使用 CPU 或者 Nvidia GPU 来推理模型方式2. docker pull ollama/ollama:rocm: // 使用 AMD GPU 来推理模型
2. 启动 ollama 实例:
方式1:docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama:0.3.3 // 默认 CPU 模式运行方式2:docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama:0.3.3 // Nvidia GPU 模式运行方式3:docker run -d --device /dev/kfd --device /dev/dri -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama:rocm // AMD 显卡运行
2. .exe 方式安装:从 https://ollama.com/download/windows 下载 OllamaSetup.exe,然后傻瓜式一路 next 安装3. 安装 ollama 客户端:参考博客:https://blog.csdn.net/qq_29519041/article/details/138614278( Docker下Open WebUI,Ollama的安装实践 )
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
4. ollama 模型下载网站:4.1. Hugging Face:https://huggingface.co/5. ollama 常用命令:ollama 简介:Ollama是一个开源的 LLM(大型语言模型)服务工具,用于简化在本地运行大语言模型,降低使用大语言模型的门槛,使得大模型的开发者、研究人员和爱好者能够在本地环境快速实验、管理和部署最新大语言模型,包括如Llama 3、Phi 3、Mistral、Gemma等开源的大型语言模型。ollama 命令使用起来和 docker 很像。
1. ollama pull qwen:0.5b-chat // 使用 ollama 下载 “通义千问” 的 qwen:0.5b-chat 模型2. ollama run qwen:0.5b-chat // 使用 ollama 运行 “通义千问” 的 qwen:0.5b-chat 模型( 成功以后就可以输入问题聊天了 )3. ollama --version // 查看 ollama 版本号4. ollama list // 查询模型列表
6. ollama 导入离线下载的 gguf 模型:1. 下载 xxx.gguf2. 新建 config.txt,内容如下:
FROM "./xxx.gguf"TEMPLATE """{{- if .System }}
<|im_start|>system {{ .System }}<|im_end|>
{{- end }}
<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
"""SYSTEM """"""PARAMETER stop <|im_start|>
PARAMETER stop <|im_end|>
3. ollama create xxx -f ./config.txt4. ollama list 会发现能列出 xxx了5. ollama run xxx 然后开始对话6. ollama rm xxx 移除模型