AutoDL部署视觉大模型llama3.2-vision，从视频中寻找特定目标

注： windows11系统。示例为此项目：https://github.com/win4r/VideoFinder-Llama3.2-vision-Ollama

在当今的人工智能领域，深度学习模型的计算需求日益增长，特别是在处理复杂的视觉任务时，强大的算力往往是实现高效应用的关键。如果您的算力有限，租用云服务器无疑是一个高性价比的选择。在众多服务平台中，AutoDL AI算力云https://www.autodl.com/home凭借其卓越的性价比和强大的算力资源，成为了许多开发者和企业的首选。本文将以部署 Ollama 的视觉大模型 llama3.2-vision 为例，详细介绍如何在 AutoDL 平台上进行模型的部署。我们将利用 llama3.2-vision 的图像分析功能，展示如何从视频中寻找特定目标，从而帮助读者快速上手并高效实现目标检测任务。

**为便于测试我已将项目源代码、Linux下的Ollama安装文件已分享：链接：https://pan.baidu.com/s/1Wfv15jS3hBVEnQ4tHamLSA?pwd=r8vs **

1、租用服务

2、配置环境

点击JupyterLab->启动页->进入终端
初始化base环境
终端输入conda init, 关闭此终端，重新开启新的终端，初始化生效。
|

3、上传项目压缩文件

上传前可以将压缩文件名改一下，我这里改为VideoFinder.zip，当然你上传后在文件上右键亦可重命名。
在这里插入图片描述

4、解压项目

# 解压
unzip VideoFinder.zip

将解压后的文件夹我也重命名为VideoFinder。

5、创建项目运行环境

# 创建虚拟环境
conda create -n VideoFinder 
# 激活虚拟环境
conda activate VideoFinder
# 进入项目目录
cd VideoFinder
# 安装项目依赖
pip install -r requirements.txt

6、安装ollama

参考https://github.com/ollama/ollama 依照官网给出的安装命令,安装非常慢！非常慢！非常慢！可以采用后面的方法。

curl -fsSL https://ollama.com/install.sh | sh
ollama run llama3.2-vision

可以将Linux下的安装文件下载到本地后上传到AutoDL 上，再进行安装。

准备工作

下载并上传文件
- 从官方网站下载 Ollama 的 Linux 安装文件（ollama-linux-amd64.tgz）。
- 上传该文件到 autodl-tmp 文件夹（可以通过直接拖拽或使用其他上传方式）。

安装和配置步骤

解压和安装 Ollama

# 进入上传文件的目录
cd ~/autodl-tmp# 解压文件到 /usr 目录
sudo tar -C /usr -xzf ollama-linux-amd64.tgz# 确保 Ollama 可执行
sudo chmod +x /usr/bin/ollama

配置环境变量

使用以下命令修改 /etc/profile 文件以设置 Ollama 的相关环境变量：

# 在文件末尾添加以下两行
echo 'export OLLAMA_HOST="0.0.0.0:6006"' | sudo tee -a /etc/profile
echo 'export OLLAMA_MODELS="/root/autodl-tmp/models"' | sudo tee -a /etc/profile# 使以上配置生效
source /etc/profile# 验证配置是否生效
echo $OLLAMA_HOST   # 如果输出 "0.0.0.0:6006" 则配置成功。

启动 Ollama 服务

# 启动 Ollama 服务并让它在后台运行
nohup ollama serve &# 检查 Ollama 是否正在运行
ps aux | grep '[o]llama'

在这里插入图片描述

7、运行视觉大模型llama3.2-vision

在启动ollama服务后，运行以下指令

# 启动llama3.2-vision， 如果第一次运行会拉取模型  11B近8个G，90B的有55个G，如果你想跑90B的要租更牛B的服务器了。
ollama run llama3.2-vision

在这里插入图片描述

8、运行程序

1、将欲要分析的视频上传至项目目录下，在终端运行程序, 视频名称和要找的目标在程序入口处修改。

视频地址：https://cdn.pixabay.com/video/2020/02/13/32287-391434445_large.mp4

python app.py

在这里插入图片描述

2、以网页形式运行

python main.py

程序启动，在本地http://0.0.0.0:8000上运行。

在这里插入图片描述

在本地访问服务器上的服务，使用“2.配置环境”图中的“自定义服务”，安装隧道工具。
在这里插入图片描述
网页中访问

在本文中，我们探讨了在 AutoDL 平台上成功部署 Ollama 的视觉大模型 llama3.2-vision 的全过程。在实际部署过程中，我们详细解析了模型的调用方式，介绍了如何有效地进行图像预处理，并探讨了如何解读和解析分析结果。得益于 llama3.2-vision 的强大能力，我们能够实现快速而精准的目标识别和视频内容分析。这种技术的应用不仅为智能监控和安防领域带来了巨大的便利，还为其他相关场景提供了可靠的解决方案。