GPU算力池管理工具Determined AI部署与使用教程(2024.03)

1. 概念

1.1 什么是Determined?

Determined AI 是一个全功能的深度学习平台,兼容 PyTorch 和 TensorFlow。它主要负责以下几个方面:

  • 分布式训练:Determined AI 可以将训练工作负载分布在多个 GPU(可能在多台计算机上)上,而无需更改代码。无论是在一台计算机上利用2个 GPU 还是在多台计算机上利用16个 GPU,都只需更改配置即可。
  • 超参数调优:Determined AI 提供了自动超参数搜索功能,可以帮助你找到最优的模型参数。
  • 资源管理:Determined AI 可以有效地管理和调度计算资源,以降低云 GPU 的成本。
  • 实验跟踪:Determined AI 可以跟踪和记录实验的过程,方便你分析结果和复现实验。

Determined AI 的主要组件之一是命令行接口(CLI),它提供了一种高效的方式来管理和控制系统的各个方面。例如,你可以使用 CLI 来创建、列出和管理实验,以及访问重要的实验指标和日志。CLI 还可以帮助你管理作业队列,监控正在进行的任务的进度,甚至根据需要优先处理或取消作业。

此外,Determined AI 还支持自由形式的任务,如命令和 Shell。命令和 Shell 使开发人员可以在不必编写符合试验 API 的代码的情况下,使用 Determined 集群和其 GPU。

1.2 Determined集群中的Master和Agent分别表示什么意思?

在 Determined 集群中,Master 和 Agent 有特定的角色和功能。

  • Master:Master 是 Determined 集群的核心,它负责管理和调度所有的任务。Master 接收来自用户(通过网页、CLI 等方式)的请求,并将这些请求发送到 Agent 进行处理。Master 的行为可以通过设置配置变量来控制,这可以通过使用配置文件、环境变量或命令行选项来完成。
  • Agent:Agent 是执行任务的节点,它们在 Master 的调度下运行任务。每个 Agent 都有一个唯一的 ID(默认为当前机器的主机名),并且在一个集群中必须是唯一的。Agent 节点通常是配备 GPU 的服务器,用于运行计算密集型的深度学习任务。

总的来说,Master 负责管理和调度任务,而 Agent 负责执行这些任务。

2. 部署与配置

2.1 在本地部署

在部署 Master 与 Agent 节点的服务器上需要先安装好 Docker,安装教程(Ubuntu 系统下):Install Docker Engine on Ubuntu。

安装 nvidia-container-toolkit(Master 和存储节点不需要 GPU,也无需安装 Nvidia 相关的内容),否则部署使用 GPU 的集群会出现报错 Internal Server Error ("could not select device driver "nvidia" with capabilities: [[gpu utility]]")

distribution=$(. /etc/os-release;echo $ID$VERSION_ID)curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.listsudo apt-get updatesudo apt-get install -y --no-install-recommends nvidia-container-toolkitsudo service docker restart

安装 Determined 库并在本地启动集群,对于本地开发或小型集群(例如 GPU 工作站),您可能希望同时安装 Master 和 Agent 位于同一节点上,因此可以使用 cluster-up

pip install determined  # 可能会有某些包之间存在版本冲突需要解决# If your machine has GPUs:
det deploy local cluster-up# If your machine does not have GPUs:
det deploy local cluster-up --no-gpu

如果 det 命令识别不到可能是没有配置环境变量:

sudo vim /etc/environment
在 PATH='xxx' 后面添加 ':/home/<用户名>/.local/bin'
即: 'xxx:/home/<用户名>/.local/bin'source /etc/environment  # 应用更新

要停止 Determined 集群,请在当前运行 Determined 集群的计算机上,运行:

det deploy local cluster-down

在许多情况下,Determined 集群将由多个节点组成。在这种情况下,您将需要分别启动 Master 和 Agents。启动和停止独立 Master:

det deploy local master-up  # 启动
det deploy local master-down  # 停止

若要在计算机上部署独立的 Agent,请运行以下命令之一,<master_hostname> 为 Master 的主机名:

# If the machine has GPUs:
det deploy local agent-up <master_hostname># If the machine doesn't have GPUs:
det deploy local agent-up --no-gpu <master_hostname># Stop Agent
det deploy local agent-down

与用户相关的指令:

det user list  # 列出所有的用户,包括他们的用户名、管理员状态、活动状态等
det user get <username>  # 显示某用户的详细信息,包括他们是否已经登录

访问 http://localhost:8080/,用户名为 determined,密码留空,即可登录。

2.2 配置参考

查看当前 Master 配置信息:

det master config

我们可以自定义 Master 的配置,在需要部署 Master 的服务器上创建 Master 配置文件 master-config.yaml,具体配置教程见:Master Configuration Reference,参考内容如下:

__internal:audit_logging_enabled: falseexternal_sessions:jwt_key: ''login_uri: ''logout_uri: ''proxied_servers: null
cache:cache_dir: /var/cache/determined
checkpoint_storage:host_path: /home/ubuntu/.local/share/determinedpropagation: nullsave_experiment_best: 0save_trial_best: 1save_trial_latest: 1storage_path: nulltype: shared_fs
cluster_name: ''
config_file: ''
db:host: determined-dbmigrations: file:///usr/share/determined/master/static/migrationsname: determinedpassword: '********'port: '5432'ssl_mode: disablessl_root_cert: ''user: postgres
enable_cors: false
feature_switches: []
integrations:pachyderm:address: ''
launch_error: true
log:color: truelevel: info
logging:type: default
notebook_timeout: null
observability:enable_prometheus: false
port: 8080
reserved_ports: null
resource_manager:client_ca: ''default_aux_resource_pool: default  # 默认辅助资源池default_compute_resource_pool: defaut  # 默认计算资源池no_default_resource_pools: falserequire_authentication: falsescheduler:allow_heterogeneous_fits: falsefitting_policy: besttype: fair_sharetype: agent
resource_pools:  # 设置资源池
- agent_reattach_enabled: falseagent_reconnect_wait: 25sdescription: ''kubernetes_namespace: ''max_aux_containers_per_agent: 100pool_name: defaultprovider: nulltask_container_defaults: null
- agent_reattach_enabled: falseagent_reconnect_wait: 25sdescription: ''kubernetes_namespace: ''max_aux_containers_per_agent: 100pool_name: RTX3090provider: nulltask_container_defaults: null
root: /usr/share/determined/master
security:authz:_strict_ntsc_enabled: falsefallback: basicrbac_ui_enabled: nullstrict_job_queue_control: falsetype: basicworkspace_creator_assign_role:enabled: truerole_id: 2default_task:gid: 0group: rootid: 0uid: 0user: rootuser_id: 0ssh:rsa_key_size: 1024tls:cert: ''key: ''
task_container_defaults:add_capabilities: nullbind_mounts: nullcpu_pod_spec: nulldevices: nulldrop_capabilities: nullgpu_pod_spec: nullkubernetes: nulllog_policies: nullnetwork_mode: bridgepbs: {}shm_size_bytes: 4294967296slurm: {}work_dir: null
telemetry:cluster_id: ''enabled: trueotel_enabled: falseotel_endpoint: localhost:4317segment_master_key: '********'segment_webui_key: '********'
tensorboard_timeout: 300
webhooks:base_url: ''signing_key: fc9942f4d575

然后即可使用配置文件启动集群:

det deploy local cluster-up --master-config-path ./master-config.yaml

在需要部署 Agent 的服务器上创建 Agent 配置文件 agent-config.yaml,具体配置教程见:Agent Configuration Reference,参考内容如下:

# 必填,用于确定 Master 节点的主机名或 IP 地址
master_host: <ip_of_your_master_node>
# Master 节点的端口。
master_port: 8080# 此 Agent 的 ID,默认为当前计算机的主机名,ID 在集群中必须是唯一的
agent_id: RTX3090_0
# 指定分配到哪个资源池
resource_pool: RTX3090# Agent 容器的 HTTP/HTTPS 代理地址
http_proxy: <ip_of_proxy>
https_proxy: <ip_of_proxy>

这里主要配置3个内容:

  • Master 节点主机名和端口号,用于识别 Master 节点。
  • agent_idresource_pool,分别对应本机 ID 和资源池,根据显卡型号命名即可,注意资源池需要已在 Master 配置文件中定义过。
  • 科学上网代理。

完成后,所有 Agent 节点使用如下命令启动(最后的 0.29.0 为 Determined AI 的版本号,根据自己安装的版本修改即可):

docker run --gpus all -v /var/run/docker.sock:/var/run/docker.sock -v "$PWD"/agent-config.yaml:/etc/determined/agent.yaml determinedai/determined-agent:0.29.0

2.3 命令行、Notebook、Shell的使用方法

Determined 主要有两种使用方式:Web 和 CLI。其中 Web 可以直接通过 <Master节点IP>:8080 进行访问:

在这里插入图片描述

但是不推荐使用 Web 方式,因为网页端创建任务无法自定义存储路径和加载的 Docker 镜像,灵活度十分受限。因此接下来详细介绍 CLI 的用法。

首先在终端机安装好 Determined,然后在环境变量中配置 Master 节点 IP:

vim ~/.bashrc# 添加以下内容,保存并退出
export DET_MASTER=<Master节点的IP>source ~/.bashrc

接下来可以使用 Determined CLI 创建任务,首先在终端机需要登录,在 Admin 用户(用户名为 admin,密码留空)中可以管理其他用户,假设已经给终端机创建好账号即可登录:

det user login

然后写一个开启任务的 Yaml 配置文件,这里给出一个参考:

description: test_task
resources:resource_pool: RTX3090slots: 1
# 将物理机上host_path路径下的文件挂载到用户当前使用的容器的container_path路径下
bind_mounts:- host_path: /home/ubuntu/container_path: /run/determined/workdir/asanosaki/
environment:  # Docker容器的环境配置,包括使用的镜像和环境变量image: determinedai/environments:cuda-11.8-pytorch-2.0-gpu-0.29.1environment_variables:- http_proxy=<ip_of_proxy>- https_proxy=<ip_of_proxy>

Determined 官方给出了很多个版本的 CUDA 和框架的组合,可以自行选择所需要的镜像,Determined AI Docker 镜像列表:Docker Hub DeterminedAI。

完成后,可以选择开启 Jupyter Notebook 或者终端,这取决于使用者的习惯:

# Notebook
det notebook start --config-file config.yaml# CMD
det cmd run --config-file config.yaml# Shell
det shell start --config-file config.yaml

对应的停止任务指令如下:

# Notebook
det notebook kill <ID># CMD
det cmd kill <ID># Shell
det shell kill <ID>

任务的 <ID> 可通过 det task list 查看所有任务信息获得,写前8位即可。

2.4 创建实验

先下载官方的项目示例代码:mnist_pytorch.tgz。

将其解压到当前目录:

tar zxvf mnist_pytorch.tgz -C ./
cd mnist_pytorch

可以看到该目录下有单卡运行实验以及多卡并行运行实验的实验配置文件 const.yamldistributed.yaml,此处给出 distributed.yaml 配置参考内容如下:

name: mnist_pytorch_distributed
hyperparameters:learning_rate: 1.0n_filters1: 32n_filters2: 64dropout1: 0.25dropout2: 0.5
searcher:name: singlemetric: validation_lossmax_length:epochs: 1smaller_is_better: true
entrypoint: python3 -m determined.launch.torch_distributed python3 train.py
description: test_task
resources:resource_pool: RTX3090slots_per_trial: 2
bind_mounts:- host_path: /home/ubuntu/container_path: /run/determined/workdir/asanosaki/
environment:image: determinedai/environments:cuda-11.8-pytorch-2.0-gpu-0.29.1environment_variables:- http_proxy=<ip_of_proxy>- https_proxy=<ip_of_proxy>

接下来即可通过配置文件创建任务(最后一个 . 表示上传当前目录中的所有文件,作为模型的上下文目录。Determined 将模型上下文目录内容复制到试验容器工作目录):

det experiment create distributed.yaml .

2.5 通过VSCode SSH连接

首先确保 VSCode 已经安装 Remote - SSH 扩展,当用户开启了 Shell 后,可以在终端机上执行以下命令获取 Shell 的 SSH 登录命令:

det shell show_ssh_command <SHELL UUID>

复制 SSH 命令,在 VS Code 的 Remote Explorer 页面下即可添加连接。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/764595.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

鸿蒙预览报错 Only files in a module can be previewed

HarmonyOS第一课下载的源码无法运行&#xff0c;也无法预览&#xff0c;报错如题。 解决&#xff1a; 1、在预览页如“index.ets”文件下预览。 2、如果在通知栏看到如图提示&#xff0c;可看出是ohos/hvigor-ohos-plugin插件版本的问题&#xff0c;可点击蓝色解决方案同步并导…

python 函数(解包**、互相调用、作用域、函数的封装、内置函数:eval()、zip()、文件处理open())

函数解包 """ 1、函数的注释&#xff1a;参数和返回值 在注释里可以自动添加显示&#xff0c;只需手动加说明。2、函数的解包【拆包】&#xff1a;函数的参数要传递数据有多个值的时候&#xff0c;中间步骤拿到数据 保存在元组或者列表 或者字典里。 - 传递参数…

活用 C语言之union的精妙之用

一、union的基本定义 Union的中文叫法又被称为共用体、联合或者联合体。它的定义方式与结构体相同,但意义却与结构体完全不同。下面是union的定义格式: union 共用体名 {成员列表}共用体变量名;它与结构体的定义方式相同,但区别在于共用体中的成员的起始地址都是相同的,…

【理解机器学习算法】之Clustering算法(DBSCAN)

DBSCAN&#xff08;基于密度的空间聚类应用噪声&#xff09;是数据挖掘和机器学习中一个流行的聚类算法。与K-Means这样的划分方法不同&#xff0c;DBSCAN特别擅长于识别数据集中各种形状和大小的聚类&#xff0c;包括存在噪声和离群点的情况。 以下是DBSCAN工作原理的概述&am…

KubeSphere的基本使用操作

KubeSphere的基本使用操作 基本使用用户角色创建企业空间创建项目 创建应用创建密钥创建MySQL密钥创建WordPress密钥 创建存储卷创建MySQL存储卷创建Wordpress存储卷 添加组件服务类型添加MySQL组件添加WordPress组件 访问Wordpress 基本使用 用户角色 KubeSphere 中的权限控制…

FloodFill算法——岛屿数量

文章目录 题目解析算法解析代码解析 题目解析 岛屿数量 题目依旧是熟悉的配方&#xff0c;熟悉的味道&#xff0c;还是那个0还是那个1还是那个二维矩阵&#xff0c;这时候BFS和DFS闻着味就来了&#xff0c;我们来看一下这个题目&#xff0c;这个题目也很容易理解如下图有一个…

【每日一问】IOS手机上Charles证书过期怎么办?

1、如何查看证书是否过期? 设置>通用>VPN与设备管理 2、在Charles中重置证书 步骤1&#xff1a;重置证书 Help>SSL Proxying>Reset Charles Root Certificate… 步骤2&#xff1a;在浏览器中&#xff0c;下载证书 首先&#xff0c;手机连上代理&#xff0c;然…

qt+ffmpeg 实现音视频播放(三)之视频播放

一、视频播放流程 &#xff08;PS&#xff1a;视频的播放流程跟音频的及其相似&#xff01;&#xff01;&#xff09; 1、打开视频文件 通过 avformat_open_input() 打开媒体文件并分配和初始化 AVFormatContext 结构体。 函数原型如下&#xff1a; int avformat_open_inpu…

Java项目:71 ssm基于ssm+vue的外卖点餐系统+vue

作者主页&#xff1a;舒克日记 简介&#xff1a;Java领域优质创作者、Java项目、学习资料、技术互助 文中获取源码 项目介绍 系统功能 系统分为前台订餐和后台管理&#xff1a; 1.前台订餐 用户注册、用户登录、我的购物车、我的订单、商品列表 2.后台管理 商品管理&#xf…

QT tableWidget横向纵向设置

横向控件 要设置QTabWidget选项卡的字体方向&#xff0c;可以使用QTabWidget的setTabPosition()方法。通过传递Qt枚举值QTabWidget.east或QTabWidget.west作为参数&#xff0c;可以设置选项卡的字体方向为从左到右或从右到左。 myTabWidget QTabWidget() myTabWidget.setTabP…

Grass手机注册使用教程,利用闲置手机WiFi带宽赚钱

文章目录 Grass是什么&#xff1f; 项目介绍Grasss手机使用步骤第一步&#xff1a;下载狐猴浏览器第二步&#xff1a;注册账户&#xff08;已注册直接跳过&#xff09;第三步&#xff1a;安装Grass Chrome插件1、推荐离线安装2、在线安装 第四步&#xff1a;登录第五步&#xf…

MySQL 更新执行的过程

优质博文&#xff1a;IT-BLOG-CN Select语句的执行过程会经过连接器、分析器、优化器、执行器、存储引擎&#xff0c;同样的 Update语句也会同样走一遍 Select语句的执行过程。 但是和 Select最大不同的是&#xff0c;Update语句会涉及到两个日志的操作redo log&#xff08;重做…

欧科云链OKLink:坎昆升级后,Layer2项目是否更具竞争力?

在坎昆升级激活之际&#xff0c;OKLink 上线以太坊坎昆升级 Dencun 专题页 &#x1f449; 从专业链上数据分析角度&#xff0c;带来一场充实且即时的 Layer2 数据盛宴。 在近日由 137Labs 发起&#xff0c;Cointime 主持的 Layer2 生态专场讨论中&#xff0c;OKLink 产品…

InnoDB 缓存

本文主要聊InnoDB内存结构, 先来看下官网Mysql 8.0 InnoDB架构图 MySQL :: MySQL 8.0 Reference Manual :: 17.4 InnoDB Architecture 如上图所示,InnoDB内存主要包含Buffer Pool, Change Buffer, Log Buffer, Adaptive Hash Index Buffer Pool 其实 buffer pool 就是内存中的…

练习实践-进程回收01-找到并清理僵尸进程

参考来源&#xff1a; https://blog.csdn.net/qq_36528114/article/details/71076110 https://blog.51cto.com/u_12083623/2363384 极客时间-性能优化实战-CPU性能篇 进程回收中的孤儿和僵尸进程的特点 演示环境&#xff1a; 操作系统&#xff1a;Ubuntu18.04 查询工具&#x…

Golang案例开发之gopacket抓包三次握手四次分手(3)

文章目录 前言一、理论知识三次握手四次分手二、代码实践1.模拟客户端和服务器端2.三次握手代码3.四次分手代码验证代码完整代码总结前言 TCP通讯的三次握手和四次分手,有很多文章都在介绍了,当我们了解了gopacket这个工具的时候,我们当然是用代码实践一下,我们的理论。本…

Java 基础学习(二十)Maven、XML与WebServer

1 Maven 1.1 什么是Maven 1.1.1 Maven概述 Maven是一种流行的构建工具&#xff0c;用于管理Java项目的构建&#xff0c;依赖管理和项目信息管理。它使用XML文件来定义项目结构和构建步骤&#xff0c;并使用插件来执行各种构建任务。Maven可以自动下载项目依赖项并管理它们的…

PMSM 永磁同步电机滑膜控制 SVPWM矢量控制 matlab simulink 仿真

仿真搭建平台&#xff1a; (1)该模型采用matlab/simulink 2016b版本搭建&#xff0c;使用matlab 2016b及以上版本打开最佳; (2)该模型已经提前转换了各个常用版本&#xff08;最低为matlab2012b&#xff09;&#xff0c;防止出现提示版本过高的情况。 模型截图&#xff1a; 算…

1、goreplay流量回放

目的 在实际项目中&#xff0c;会有大量的回归测试工作&#xff0c;通常会使用自动化代码的手段来实现回归&#xff0c;但是对于一个庞大的系统来说&#xff0c;通过自动化脚本的方式来实现回归测试&#xff0c;又显得很费时费力。并且如果有定期将线上数据同步到测试环境的需求…

【mysql 127错误】mysql启动报错mysqld.service: Failed with result ‘exit-code‘.

无网环境&#xff0c;mysql 安装 出现如下错误 [rootmysql tools]# systemctl status mysqld.service ● mysqld.service - MySQL ServerLoaded: loaded (/usr/lib/systemd/system/mysqld.service; enabled; vendor preset: disabled)Active: failed (Result: exit-code) since…