简介
Ollama https://github.com/ollama/ollama/ 是一个基于 Go 语言 的 本地大语言模型运行框架
,专注于本地化运行大型语言模型(LLM)的开源工具。
类 Docker 产品(支持 list,pull,push,run 等命令),更好玩的是它保留了 Docker 的操作习惯, 让Docker使用者很容易上手。
在管理模型的同时,它还提供了一些 Api 接口,让能够像调用 OpenAI 提供的接口那样进行交互。
特点
-
一键部署模型:单条命令完成模型下载、加载和交互。
-
多模型并行支持:同时运行多个模型实例,互不干扰。
-
跨平台兼容:支持Windows、macOS、Linux(包括ARM架构如树莓派)。
-
RAG集成:可结合本地文档库实现检索增强生成(Retrieval-Augmented Generation)。
下载安装
Ollama 支持多个平台,在官网 https://ollama.com选择适合的 安装包。
安装完成后 输入下面的命令, 来启动 Ollama 服务。
ollama serve
注意:可以将 ollama 配置成环境变量,可以在任意位置使用该命令。
服务启动后,Ollama 将监听默认端口 11434,可以通过访问 localhost:11434,查看是否正常运行:
AI 模型管理
ollama 安装之后,其同时还是一个命令,与模型交互就是通过命令来进行的。
-
ollama list
:显示模型列表。 -
ollama show
:显示模型的信息 -
ollama pull
:拉取模型 -
ollama push
:推送模型 -
ollama cp
:拷贝一个模型 -
ollama rm
:删除一个模型 -
ollama run
:运行一个模型
官方提供了一个模型仓库: https://ollama.com/library, 你可以搜索你想要的模型。
官方建议:应该至少有 8 GB 可用 RAM 来运行 7 B 型号,16 GB 来运行 13 B 型号,32 GB 来运行 33 B 型号。
在这里我选择下载目前最火的开源 deepseek-r1 模型来做演示。模型地址为:https://ollama.com/library/deepseek-r1 ,因我的电脑有 32G,所以选择了 14b 的模型来调试。
ollama run deepseek-r1:14b
该 run 命令 相docker的 run一样,如果本地没有该模型,则会先下载模型再运行。
模型运行之后,会默认进入到交互状态。
UI界面 调用大模型
在终端中使用,肯定是 不如 像 ChatGPT 页面 进行交互的 体验 好,也不能保留之前的聊天记录。
针对这个情况,我们可以 安装 类似 chatgpt 一样的交互界面的客户端。ChatBox 个人感觉挺好用的。