Azure 机器学习:使用 Azure 机器学习 CLI、SDK 和 REST API 训练模型

目录

    • 环境准备
      • 克隆示例存储库
    • 示例案例
    • 在云中训练
      • 1.连接到工作区
        • Python
        • Azure CLI
        • REST API
      • 2. 创建用于训练的计算资源
      • 4. 提交训练作业
        • Python
        • Azure CLI
        • REST API
    • 注册已训练的模型
        • Python
        • Azure CLI
        • REST API

Azure 机器学习提供了多种提交 ML 训练作业的方法。 在本文中,你将了解如何使用 Azure 机器学习 CLI、SDK 和 REST API 训练模型

关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的资深架构师,项目管理专业人士,上亿营收AI产品研发负责人。

file

环境准备

  • Azure 订阅。 如果没有 Azure 订阅,请在开始操作前先创建一个免费帐户。 试用免费版或付费版 Azure 机器学习。
  • Azure 机器学习工作区。 如果没有,可以使用创建资源以开始使用一文中的步骤。

若要使用 SDK 信息,请安装适用于 Python 的 Azure 机器学习 SDK v2。

若要使用 CLI 信息,请安装适用于机器学习的 Azure CLI 和扩展。

若要使用 REST API 信息,需要以下项:

  • 工作区中的服务主体。 管理 REST 请求使用服务主体身份验证。

  • 服务主体身份验证令牌。 请按照检索服务主体身份验证令牌中的步骤检索此令牌。

  • curl 实用工具。 在适用于 Linux 的 Windows 子系统或任何 UNIX 分发版中均已提供了 [curl]程序。

克隆示例存储库

本文中的代码片段基于 Azure 机器学习示例 GitHub 存储库中的示例。 若要将存储库克隆到开发环境,请使用以下命令:

git clone --depth 1 https://github.com/Azure/azureml-examples

示例案例

本文中的示例使用鸢尾花数据集来训练 MLFlow 模型。

在云中训练

在云中训练时,必须连接到 Azure 机器学习工作区并选择将用于运行训练作业的计算资源。

1.连接到工作区

使用Python时,若要连接到工作区,需要提供标识符参数 - 订阅、资源组和工作区名称。 你将在 azure.ai.ml 命名空间的 MLClient 中使用这些详细信息来获取所需 Azure 机器学习工作区的句柄。 若要进行身份验证,请使用[默认 Azure 身份验证]。 请查看此示例,了解有关如何配置凭据和连接到工作区的更多详细信息。

Python
# Python代码
#import required libraries
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential#Enter details of your Azure Machine Learning workspace
subscription_id = '<SUBSCRIPTION_ID>'
resource_group = '<RESOURCE_GROUP>'
workspace = '<AZUREML_WORKSPACE_NAME>'#connect to the workspace
ml_client = MLClient(DefaultAzureCredential(), subscription_id, resource_group, workspace)
Azure CLI

使用 Azure CLI 时,需要提供标识符参数 - 订阅、资源组和工作区名称。 尽管可以为每个命令指定这些参数,但你也可以设置将用于所有命令的默认值。 使用以下命令设置默认值。 将 <subscription ID><Azure Machine Learning workspace name><resource group> 替换为配置的值:

# Azure CLI
az account set --subscription <subscription ID>
az configure --defaults workspace=<Azure Machine Learning workspace name> group=<resource group>
REST API

本文中的 REST API 示例使用 $SUBSCRIPTION_ID$RESOURCE_GROUP$LOCATION$WORKSPACE 占位符。 将占位符替换为自己的值,如下所示:

  • $SUBSCRIPTION_ID:Azure 订阅 ID。
  • $RESOURCE_GROUP:包含你的工作区的 Azure 资源组。
  • $LOCATION:工作区所在的 Azure 区域。
  • $WORKSPACE:Azure 机器学习工作区的名称。
  • $COMPUTE_NAME:Azure 机器学习计算群集的名称。

管理 REST 请求一个服务主体身份验证令牌。 可使用以下命令检索令牌。 令牌存储在 $TOKEN 环境变量中:

TOKEN=$(az account get-access-token --query accessToken -o tsv)

服务提供商使用 api-version 参数来确保兼容性。 api-version 参数因服务而异。 将 API 版本设置为变量以适应将来的版本:

API_VERSION="2022-05-01"

使用 REST API 进行训练时,必须将数据和训练脚本上传到工作区可以访问的存储帐户。 以下示例获取你的工作区的存储信息,并将其保存到变量中,以便稍后使用:

# Get values for storage account
response=$(curl --location --request GET "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/resourceGroups/$RESOURCE_GROUP/providers/Microsoft.MachineLearningServices/workspaces/$WORKSPACE/datastores?api-version=$API_VERSION&isDefault=true" \
--header "Authorization: Bearer $TOKEN")
AZUREML_DEFAULT_DATASTORE=$(echo $response | jq -r '.value[0].name')
AZUREML_DEFAULT_CONTAINER=$(echo $response | jq -r '.value[0].properties.containerName')
export AZURE_STORAGE_ACCOUNT=$(echo $response | jq -r '.value[0].properties.accountName')

2. 创建用于训练的计算资源

Azure 机器学习计算群集是一种完全托管的计算资源,可用于运行训练作业。 在以下示例中,创建了名为 cpu-compute 的计算群集。

# Python
from azure.ai.ml.entities import AmlCompute# specify aml compute name.
cpu_compute_target = "cpu-cluster"try:ml_client.compute.get(cpu_compute_target)
except Exception:print("Creating a new cpu compute target...")compute = AmlCompute(name=cpu_compute_target, size="STANDARD_D2_V2", min_instances=0, max_instances=4)ml_client.compute.begin_create_or_update(compute).result()
# Azure CLI
az ml compute create -n cpu-cluster --type amlcompute --min-instances 0 --max-instances 4
# REST API
curl -X PUT \"https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/resourceGroups/$RESOURCE_GROUP/providers/Microsoft.MachineLearningServices/workspaces/$WORKSPACE/computes/$COMPUTE_NAME?api-version=$API_VERSION" \-H "Authorization:Bearer $TOKEN" \-H "Content-Type: application/json" \-d '{"location": "'$LOCATION'","properties": {"computeType": "AmlCompute","properties": {"vmSize": "Standard_D2_V2","vmPriority": "Dedicated","scaleSettings": {"maxNodeCount": 4,"minNodeCount": 0,"nodeIdleTimeBeforeScaleDown": "PT30M"}}}
}'

4. 提交训练作业

Python

若要运行此脚本,你将使用 ./sdk/python/jobs/single-step/lightgbm/iris/src/ 下用于执行 main.py Python 脚本的 command。 该命令通过将其作为 job 提交到 Azure 机器学习来运行。
若要使用无服务器计算,请删除此代码中的 compute="cpu-cluster"

# Python
from azure.ai.ml import command, Input# define the command
command_job = command(code="./src",command="python main.py --iris-csv ${{inputs.iris_csv}} --learning-rate ${{inputs.learning_rate}} --boosting ${{inputs.boosting}}",environment="AzureML-lightgbm-3.2-ubuntu18.04-py37-cpu@latest",inputs={"iris_csv": Input(type="uri_file",path="https://azuremlexamples.blob.core.windows.net/datasets/iris.csv",),"learning_rate": 0.9,"boosting": "gbdt",},compute="cpu-cluster",
)
# submit the command
returned_job = ml_client.jobs.create_or_update(command_job)
# get a URL for the status of the job
returned_job.studio_url

在上述示例中,你配置了以下内容:

  • code - 用于运行命令的代码所在的路径
  • command - 需要运行的命令
  • environment - 运行训练脚本所需的环境。 在此示例中,我们使用 Azure 机器学习所提供的名为 AzureML-lightgbm-3.2-ubuntu18.04-py37-cpu 的精选或现成环境。 通过使用 @latest 指令来使用此环境的最新版本。 你还可以通过指定基本 docker 映像并为其指定 conda yaml 来使用自定义环境。
  • inputs - 命令的输入字典,采用名称值对的形式。 键是作业上下文中的输入名称,值是输入值。 在 command 中使用 ${{inputs.<input_name>}} 表达式引用输入。 若要将文件或文件夹用作输入,可以使用 Input 类。 有关详细信息,请参阅 SDK 和 CLI v2 表达式。

提交作业时,会向 Azure 机器学习工作室中的作业状态返回一个 URL。 使用工作室 UI 查看工作进度。 你还可以使用 returned_job.status 检查作业的当前状态。

Azure CLI

此示例中使用的 az ml job create 命令需要 YAML 作业定义文件。 此示例中使用的文件内容如下:

备注

若要使用无服务器计算,请删除此代码中的 compute: azureml:cpu-cluster"

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
code: src
command: >-python main.py --iris-csv ${{inputs.iris_csv}}--C ${{inputs.C}}--kernel ${{inputs.kernel}}--coef0 ${{inputs.coef0}}
inputs:iris_csv: type: uri_filepath: wasbs://datasets@azuremlexamples.blob.core.windows.net/iris.csvC: 0.8kernel: "rbf"coef0: 0.1
environment: azureml:AzureML-sklearn-0.24-ubuntu18.04-py37-cpu@latest
compute: azureml:cpu-cluster
display_name: sklearn-iris-example
experiment_name: sklearn-iris-example
description: Train a scikit-learn SVM on the Iris dataset.

上面配置了:

  • code - 用于运行命令的代码所在的路径
  • command - 需要运行的命令
  • inputs - 命令的输入字典,采用名称值对的形式。 键是作业上下文中的输入名称,值是输入值。 在 command 中使用 ${{inputs.<input_name>}} 表达式引用输入。 有关详细信息,请参阅 SDK 和 CLI v2 表达式。
  • environment - 运行训练脚本所需的环境。 在此示例中,我们使用 Azure 机器学习所提供的名为 AzureML-sklearn-0.24-ubuntu18.04-py37-cpu 的精选或现成环境。 通过使用 @latest 指令来使用此环境的最新版本。 你还可以通过指定基本 docker 映像并为其指定 conda yaml 来使用自定义环境。 若要提交作业,请使用以下命令。 训练作业的运行 ID(名称)存储在 $run_id 变量中:
run_id=$(az ml job create -f jobs/single-step/scikit-learn/iris/job.yml --query name -o tsv)

你可以使用存储的运行 ID 返回有关作业的信息。 --web 参数打开 Azure 机器学习工作室 Web UI,你可在其中深入了解作业的详细信息:

az ml job show -n $run_id --web

提交作业时,必须将训练脚本和数据上传到 Azure 机器学习工作区可访问的云存储位置。

  1. 使用以下 Azure CLI 命令上传训练脚本。 该命令指定包含训练所需文件的目录,而不是指定单个文件。 若要改用 REST 来上传数据,请参阅放置 Blob 参考:

    az storage blob upload-batch -d $AZUREML_DEFAULT_CONTAINER/testjob -s cli/jobs/single-step/scikit-learn/iris/src/ --account-name $AZURE_STORAGE_ACCOUNT
    
  2. 创建对训练数据的版本化参考。 在此示例中,数据已在云中,位于 https://azuremlexamples.blob.core.windows.net/datasets/iris.csv。 有关引用数据的详细信息,请参阅 Azure 机器学习中的数据:

    DATA_VERSION=$RANDOM
    curl --location --request PUT "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/resourceGroups/$RESOURCE_GROUP/providers/Microsoft.MachineLearningServices/workspaces/$WORKSPACE/data/iris-data/versions/$DATA_VERSION?api-version=$API_VERSION" \
    --header "Authorization: Bearer $TOKEN" \
    --header "Content-Type: application/json" \
    --data-raw "{\"properties\": {\"description\": \"Iris dataset\",\"dataType\": \"uri_file\",\"dataUri\": \"https://azuremlexamples.blob.core.windows.net/datasets/iris.csv\"}
    }"
    
  3. 注册对训练脚本的版本化参考,用于作业。 在此示例中,脚本位置是你在步骤 1 中将数据上传到的默认存储帐户和容器。 将返回带版本训练代码的 ID 并将其存储在 $TRAIN_CODE 变量中:

    TRAIN_CODE=$(curl --location --request PUT "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/resourceGroups/$RESOURCE_GROUP/providers/Microsoft.MachineLearningServices/workspaces/$WORKSPACE/codes/train-lightgbm/versions/1?api-version=$API_VERSION" \
    --header "Authorization: Bearer $TOKEN" \
    --header "Content-Type: application/json" \
    --data-raw "{\"properties\": {\"description\": \"Train code\",\"codeUri\": \"https://$AZURE_STORAGE_ACCOUNT.blob.core.windows.net/$AZUREML_DEFAULT_CONTAINER/testjob\"}
    }" | jq -r '.id')
    
  4. 创建群集将用于运行训练脚本的环境。 在此示例中,我们使用 Azure 机器学习所提供的名为 AzureML-lightgbm-3.2-ubuntu18.04-py37-cpu 的精选或现成环境。 以下命令检索环境版本列表,其中最新版本位于集合顶部。 jq 用于检索最新 ([0]) 版本的 ID,然后将其存储到 $ENVIRONMENT 变量中。

    ENVIRONMENT=$(curl --location --request GET "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/resourceGroups/$RESOURCE_GROUP/providers/Microsoft.MachineLearningServices/workspaces/$WORKSPACE/environments/AzureML-lightgbm-3.2-ubuntu18.04-py37-cpu/versions?api-version=$API_VERSION" --header "Authorization: Bearer $TOKEN" | jq -r .value[0].id)
    
  5. 最后,提交作业。 以下示例介绍如何提交作业,以及如何参考训练代码 ID、环境 ID、输入数据的 URL 和计算群集的 ID。 作业输出位置将存储在 $JOB_OUTPUT 变量中:

REST API
```
run_id=$(uuidgen)
curl --location --request PUT "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/resourceGroups/$RESOURCE_GROUP/providers/Microsoft.MachineLearningServices/workspaces/$WORKSPACE/jobs/$run_id?api-version=$API_VERSION" \
--header "Authorization: Bearer $TOKEN" \
--header "Content-Type: application/json" \
--data-raw "{\"properties\": {\"jobType\": \"Command\",\"codeId\": \"$TRAIN_CODE\",\"command\": \"python main.py --iris-csv \$AZURE_ML_INPUT_iris\",\"environmentId\": \"$ENVIRONMENT\",\"inputs\": {\"iris\": {\"jobInputType\": \"uri_file\",\"uri\": \"https://azuremlexamples.blob.core.windows.net/datasets/iris.csv\"}},\"experimentName\": \"lightgbm-iris\",\"computeId\": \"/subscriptions/$SUBSCRIPTION_ID/resourceGroups/$RESOURCE_GROUP/providers/Microsoft.MachineLearningServices/workspaces/$WORKSPACE/computes/$COMPUTE_NAME\"}
}"
```

注册已训练的模型

以下示例介绍如何在 Azure 机器学习工作区中注册模型。

Python
from azure.ai.ml.entities import Model
from azure.ai.ml.constants import AssetTypesrun_model = Model(path="azureml://jobs/{}/outputs/artifacts/paths/model/".format(returned_job.name),name="run-model-example",description="Model created from run.",type=AssetTypes.MLFLOW_MODEL
)ml_client.models.create_or_update(run_model)
Azure CLI
az ml model create -n sklearn-iris-example -v 1 -p runs:/$run_id/model --type mlflow_model
REST API
curl --location --request PUT "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/resourceGroups/$RESOURCE_GROUP/providers/Microsoft.MachineLearningServices/workspaces/$WORKSPACE/models/sklearn/versions/1?api-version=$API_VERSION" \
--header "Authorization: Bearer $TOKEN" \
--header "Content-Type: application/json" \
--data-raw "{\"properties\": {\"modelType\": \"mlflow_model\",\"modelUri\":\"runs:/$run_id/model\"}
}"

关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的资深架构师,项目管理专业人士,上亿营收AI产品研发负责人。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/146897.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算法萌新闯力扣:存在重复元素II

力扣题&#xff1a;存在重复元素II 开篇 这道题是217.存在重复元素的升级版&#xff0c;难度稍微提高。通过这道题&#xff0c;能加强对哈希表和滑动窗口的运用。 题目链接:219.存在重复元素II 题目描述 代码思路 1.利用哈希表&#xff0c;来保存数组元素及其索引位置 2.遍…

​软考-高级-系统架构设计师教程(清华第2版)【第16章 嵌入式系统架构设计理论与实践(P555~613)-思维导图】​

软考-高级-系统架构设计师教程&#xff08;清华第2版&#xff09;【第16章 嵌入式系统架构设计理论与实践&#xff08;P555~613&#xff09;-思维导图】 课本里章节里所有蓝色字体的思维导图

将ArduinoIDE库文件移动到其他磁盘的方法

本文主要介绍更改软件包位置Arduino IDE &#xff08;含2.0以上版本&#xff09;的方法。 Arduino IDE 默认将软件包安装到 C 盘&#xff0c;如果你使用的开发板较多&#xff0c;产生的库文件很大&#xff0c;会导致 C 盘可用空间不足&#xff0c;博主只用了ESP开发板&#xf…

【Mysql】复合查询详解+实战操作(多表查询、自链接、子查询等)

&#x1f308;欢迎来到Python专栏 &#x1f64b;&#x1f3fe;‍♀️作者介绍&#xff1a;前PLA队员 目前是一名普通本科大三的软件工程专业学生 &#x1f30f;IP坐标&#xff1a;湖北武汉 &#x1f349; 目前技术栈&#xff1a;C/C、Linux系统编程、计算机网络、数据结构、Mys…

Nginx实现负载均衡

Nginx实现负载均衡 负载均衡的作用 1、解决单点故障&#xff0c;让web服务器构成一个集群 2、将请求平均下发给后端的web服务器 负载均衡的软硬件介绍 负载均衡软件&#xff1a; # nginx 四层负载均衡&#xff1a;stream&#xff08;nginx 1.9版本以后有stream模块&#x…

STM32硬件调试器不一定准确,proteus不一定准确

我在做实验的过程中&#xff0c;发现里面的那个变量ii一直都不变搞了很久没有发现问题&#xff0c; 然后怀疑是不是软件出了问题&#xff0c;然后直接只用单片机的一个灯泡来检测是否正常&#xff0c;发现&#xff1a;单片机里面正常&#xff0c;但是硬件调试的时候&#xff0…

LaTeX 数学公式常见问题及解决方案

本文汇总了博主在使用 LaTeX 写文档过程中遇到的所有数学公式常见问题及对应的 LaTeX 解决方案 持续更新... 目录 1. 连等式2. 公式重新开始编号2.1 图片/表格重新编号 1. 连等式 在数学公式推导过程中常常会遇到如 Figure 1 所示的连等式&#xff0c;一般需要保证等号或者不等…

sqli-labs(Less-3)

1. 通过构造id1’ 和id1’) 和id1’)–确定存在注入 可知原始url为 id(‘1’) 2.使用order by 语句猜字段数 http://127.0.0.1/sqlilabs/Less-3/?id1) order by 4 -- http://127.0.0.1/sqlilabs/Less-3/?id1) order by 3 --3. 使用联合查询union select http://127.0.0.1…

CTF-PWN-tips

文章目录 overflowscanfgetreadstrcpystrcat Find string in gdbgdbgdb peda Binary ServiceFind specific function offset in libc手工自动 Find /bin/sh or sh in library手动自动 Leak stack addressFork problem in gdbSecret of a mysterious section - .tlsPredictable …

036、目标检测-锚框

之——对边缘框的简化 目录 之——对边缘框的简化 杂谈 正文 1.锚框操作 2.IoU交并比 3.锚框标号 4.非极大值抑制 5.实现 拓展 杂谈 边缘框这样一个指定roi区域的操作对卷积神经网络实际上是很不友好的&#xff0c;这可能会对网络感受野提出一些特定的要求&#xff0…

【脑与认知科学】【n-back游戏】

请参考课堂内容&#xff0c;设计一种测试工作记忆的实验方法&#xff0c;并选择三位同学作为被试测试工作记忆。请画出实验流程图&#xff0c;叙述实验测试目标&#xff0c;并分析实验结果。 举例&#xff1a;一般我们选择n_back来测试对数字或字母的记忆&#xff0c;选择色块实…

[深度学习]卷积神经网络的概念,入门构建(代码实例)

# 不再任何人,任何组织的身上倾注任何的感情,或许这就是能活得更开心的办法 0.写在前面: 卷积神经网络的部分在之前就已经有所接触,这里重新更全面地总结一下关于深度学习中卷积神经网络的部分.并且在这里对如何构建代码,一些新的思想和网络做出一点点补充,同时会持续更新一些…

传递函数的推导和理解

传递函数的推导和理解 假设有一个线性系统&#xff0c;在一般情况下&#xff0c;它的激励 x ( t ) x(t) x(t)与响应 y ( t ) y(t) y(t)所满足的的关系&#xff0c;可用下列微分方程来表示&#xff1a; a n y ( n ) a n − 1 y ( n − 1 ) a n − 2 y ( n − 2 ) ⋯ a 1 y…

k8s上Pod生命周期、重启策略、容器探测简介

目录 一.Pod的创建过程 二.Pod的终止过程 三.Pod的重启策略&#xff08;restartPolicy&#xff09; 1.Always 2.OnFailture 3.Never 4.示例 四.Pod生命周期内的5种状态&#xff08;相位&#xff09; 1.Pending 2.Running 3.Succeeded 4.Failed 5.Unknown 五.初始…

SpringCache

1、基本信息 Spring缓存方案&#xff1a;JDK内置的缓存(ConcurrentHashMap)、第三方缓存组件(Caffeine)、分布式的缓存实现(Memcahed、Redis)。 ConcurrentHashMap是JUC之中提供最为重要的技术实现。SpringCache之中为了便于缓存结构的管理&#xff0c;在“org.s…

flutter TabBar指示器

第一层tabView import package:jade/configs/PathConfig.dart; import package:jade/customWidget/MyCustomIndicator.dart; importpackage:jade/homePage/promotion/promotionPost/MyPromotionListMainDesc.dart; import package:jade/homePage/promotion/promotionPost/MyPr…

C++入门(1)—命名空间、缺省参数

目录 一、什么是C 1、C关键字(C98) 2、C兼容C 二、C程序预处理指令 三、命名空间 1、命名冲突 第一种&#xff1a; 第二种&#xff1a; 2、域作用限定符 3、实现命名空间 4、命名空间冲突 5、访问命名空间 6、命名空间“std” 四、输入输出 1、定义 2、自动识…

生活总是自己的,请尽情打扮,尽情可爱,,

同色系拼接羽绒服了解一下 穿上时尚感一下子就突显出来了 90白鸭绒填充&#xff0c;不仅时尚还保暖 设计感满满的羽绒服不考虑一下吗?

腾讯云服务器租用价格,腾讯云服务器价格流量怎么算?

首先&#xff0c;让我们来看看腾讯云服务器租用价格。根据您的需求不同&#xff0c;腾讯云提供了多种不同的配置选项&#xff0c;从轻量级应用服务器到高性能的GPU服务器&#xff0c;都可以满足您的需求。以下是一些常见的腾讯云服务器租用价格&#xff1a; 一、腾讯云服务器租…

Mysql-复合查询

实际开发中往往数据来自不同的表&#xff0c;所以需要多表查询。 1.笛卡尔积 通俗来讲就是两个表的每一列都组合一遍&#xff0c;也就是穷举法。 穷举出来的数据表会有大量重复数据&#xff0c;而我们只需要加上一些限定条件就可以完成有效数据的筛选。 select EMP.ename, EM…