Azure - 自动化机器学习AutoML Azure使用详解

目录

  • 一、AutoML是如何工作的?
  • 二、何时考虑AutoML?
  • 三、AutoML助力训练与集成过程
  • 四、实战案例
  • 五、总结

自动化机器学习,简称为AutoML,旨在将机器学习模型的开发中繁琐且重复的任务自动化。这使得数据科学家、分析师以及开发人员能够构建高度可扩展、高效和高性能的ML模型,且不牺牲模型的质量。Azure 机器学习的AutoML功能是基于Microsoft Research团队的前沿技术而开发的。

关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的资深架构师,项目管理专业人士,上亿营收AI产品研发负责人。

file

一、AutoML是如何工作的?

在训练阶段,Azure 机器学习启动多个并行管道,分别尝试不同的算法和参数组合。这个服务会不断尝试多种与特征选择相匹配的ML算法,并为每一次迭代产生一个经过评分的模型。当模型的评分更接近优化目标时,该模型便会被认为更“适合”于数据。当满足预定的终止条件时,训练过程便会结束。

要在Azure机器学习中设计并执行一个AutoML训练实验,您可以按照以下步骤进行:

file

  1. 明确您要解决的ML问题类型:如分类、预测、回归、计算机视觉或NLP。

  2. 决定是选择基于代码的体验还是基于Web的无代码体验:

    • 对于偏好代码的用户,可以利用Azure 机器学习 SDKv2 或 Azure 机器学习 CLIv2。例如,有一个教程指导如何使用AutoML与Python来训练物体检测模型。
    • 对于倾向于少量代码或无代码的用户,可以在Azure 机器学习工作室 (https://ml.azure.com) 通过Web界面来操作。例如,有一个教程介绍如何在Azure机器学习中使用AutoML构建分类模型。
  3. 指明训练数据的来源:Azure 机器学习支持多种数据输入方式。

  4. 配置AutoML的参数,包括决定模型迭代的次数、超参数设定、高级的数据预处理/特征生成策略以及用于评估模型优劣的指标。

  5. 提交您的训练任务。

  6. 分析训练结果。

二、何时考虑AutoML?

当您希望通过Azure机器学习来训练和优化模型,特定于多种目标指标时,AutoML是一个理想的选择。它能够规范化机器学习的开发流程,使不同背景的用户都能够有效地解决各种机器学习问题。

AutoML对于以下目的具有明显优势:

  • 为非编程背景的人员提供机器学习解决方案。
  • 节约开发和训练时间。
  • 整合数据科学的最佳实践。
  • 提供多种解决方案以适应不同场景。
  1. 分类:分类是一种监督学习方法,其中模型根据训练数据进行预测,以确定新数据的类别。Azure机器学习提供了专为此类任务设计的特征工程,例如深度神经网络文本特征化工具。分类的目的是基于已有的数据经验,预测新数据的归属类别。例如,手写识别、对象分类等。
    file
  2. 回归:与分类相似,回归也是监督学习中的一种常见方法。但不同于分类的是,回归旨在预测一个连续的输出值,而不是类别标签。例如,根据特定的车辆特性预测汽车价格。
    file
  3. 时序预测:预测未来趋势和模式是各种业务领域中的关键组件。使用AutoML,您可以获得高质量的时序预测。
    file
  4. 计算机视觉:AutoML为计算机视觉任务提供支持,从简单的图像分类到复杂的对象检测和分割都可以应对。您可以利用Azure机器学习的强大功能,如大规模操作、模型部署和集成。
    file
  5. 自然语言处理(NLP):AutoML在NLP任务中同样展现出卓越的能力。无论是文本分类还是命名实体识别,通过Azure机器学习的Python SDK,您都可以轻松地实现NLP模型的自动化训练。
    file
    总之,无论您是ML专家、开发人员,还是来自其他背景的用户,AutoML都可以为您提供有效、高效的机器学习解决方案。

三、AutoML助力训练与集成过程

训练数据
借助自动化机器学习(AutoML),您可以提交训练数据以构建模型,并指定执行的模型验证方式。在训练过程中,AutoML 通过使用验证数据和相应的算法来优化超参数,寻找与训练数据最匹配的模型配置。但由于在优化过程中反复使用相同的验证数据,可能导致模型对此数据产生偏见。为确保最终选择的模型未受此偏见影响,AutoML 允许使用独立的测试数据集进行评估。

特征工程

指的是根据数据领域的知识创造能增强机器学习算法性能的特征。Azure 机器学习提供了一系列缩放和规范化的方法简化这一过程,统称为特征化。在自动机器学习实验中,系统会默认进行特征化,但您也可以根据自己的数据进行调整。此外,还支持其他特征工程技术,如编码和转换。在Azure机器学习工作室或Python SDK中,都可以选择启用或自定义特征化。

集成模型
在自动化机器学习中也得到了支持。系综学习结合多个模型的优点,通常能获得更好的结果。AutoML 利用投票和堆叠的方法来结合模型。此外,Caruana算法用于决定系综中的模型组合,从而确保系综的性能是最优的。

ONNX格式
Azure 机器学习还允许使用AutoML来创建Python模型并将其转换为ONNX格式,这使得模型能在不同的平台和设备上执行。ONNX还提供了C#运行时,所以您可以直接在C#应用程序中使用生成的模型,这避免了网络延迟等潜在问题。

四、实战案例

实战案例可以参考官方案例:https://learn.microsoft.com/zh-cn/azure/machine-learning/tutorial-first-experiment-automated-ml?view=azureml-api-2

列出核心过程:

  1. 先决条件
  2. 创建工作区
  3. 创建自动化机器学习作业
  4. 创建数据集并将其加载为数据资产
  5. 配置作业
  6. 浏览模型
  7. 模型说明
  8. 部署最佳模型
  9. 清理资源
  10. 后续步骤

部分过程图:
file
file
file
file
file
file

五、总结

自动化机器学习也称为自动化 ML 或 AutoML,是将机器学习模型开发过程中耗时的反复性任务自动化的过程。 数据科学家、分析师和开发人员可以使用它来生成高度可缩放、高效且高产能的 ML 模型,同时保证模型的质量。

关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的资深架构师,项目管理专业人士,上亿营收AI产品研发负责人。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/124532.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ThinkPad电脑HDMI接口失灵如何解决?

ThinkPad电脑HDMI接口失灵如何解决? 如果平时正常使用的外接显示器,某天突然无法使用了,重新插拔依然无信号的话,可以打开系统的设备管理器(快捷键winx),首先看一下监视器的识别情况&#xff0c…

Istio 实战

文章目录 Istio流量管理分享会【1】什么是istio?【2】istio 可以干什么?【3】业务中的痛点?【4】istio 高级流量管理5.1 istio 组件介绍与原理5.2 sidercar何时注入?如何控制是否注入?5.3 查看sidecar 容器插入的容器中的iptablesDestination RuleVirtual ServiceGateways…

Camtasia Mac 2023版怎么给视频加字幕

在视频制作过程中,字幕和马赛克是两项非常常用的编辑功能,添加字幕可以提高观众的观看体验,添加马赛克可以保护视频创作者不想公开的画面内容。Camtasia作为一款知名的视频制作软件,在具备基本的录制和视频编辑功能的同时&#xf…

win10安装spark

一、进入spark下载页面 连接 Downloads | Apache Spark 二、解压下载后的.tgz文件 直接解压即可 三、运行 运行bin目录下的 spark-shell.cmd 提示 Did not find winutils.exe: java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME and hadoop.hom…

二蛋赠书六期:《Linux管理入门经典(第8版)》

前言 大家好!我是二蛋,一个热爱技术、乐于分享的工程师。在过去的几年里,我一直通过各种渠道与大家分享技术知识和经验。我深知,每一位技术人员都对自己的技能提升和职业发展有着热切的期待。因此,我非常感激大家一直…

[量化投资-学习笔记002]Python+TDengine从零开始搭建量化分析平台-MA均线的多种实现方式

MA 均线时最基本的技术指标,也是最简单,最不常用的(通常使用EMA、SMA)。 以下用两种不同的计算方法和两种不同的画图方法进行展示和说明。 MA 均线指标公式 MA (N)(C1 C2 C3 …C N )/N目录 方式一1.SQL 直接查询均值2.使用 pyp…

RHCE---shell脚本编程sed

文章目录 前言一、pandas是什么?二、使用步骤 1.引入库2.读入数据总结 前言 Liunx中筛选文本时常用的命令,常常会被提及文本三剑客,前文我们学习了文本三剑客中的grep 命令,除了grep命令我们也常用到sed命令,sed命令有…

window系统修改rabbitmq 默认端口

安装完rabbitmq之后,默认的client端口是5672, 控制台访问端口是15672,rabbitmq管理工具启动之后在浏览器中输入地址: ​ ​http://localhost:15672/​​​ 就可以访问后台​ ​​​, 默认管理员账号:guest 密码&#x…

【0基础学Java第四课】-- 逻辑控制

4. 逻辑控制 4.1 顺序结构4.2 分支结构4.2.1 if语句判断一个数字是奇数还是偶数判断一个数字是正数,负数,还是零判断一个年份是否为闰年 4.2.2 switch 语句 4.3 while循环打印 1 - 10 的数字计算 1 - 100 的和计算 5 的阶乘计算1!2&#xff0…

Openssl数据安全传输平台014:OCCI环境搭建和使用:Centos8-Oracle19c代码跑通 + Window代码没跑通(不影响本项目)

文章目录 0 代码仓库1 启动Centos oracle数据库2 Winsows安装配置OCCI库2.1 下载文件2.2 VS 配置2.2.1 VC包含目录2.2.2 VC库目录2.2.3 连接器-附加依赖项2.2.4 代码测试-Oracle11g2.2.4.1 准备2.2.4.2 代码测试 3 Centos安装配置occi库3.0 强调3.1 下载instantclient库文件压缩…

ubuntu 安装串口工具和添加虚拟串口

目录 一、串口工具安装 二、使用Windows本身虚拟的串口 (一)添加串口 1、保证虚拟机是关闭状态,打开“虚拟机设置”,点击“添加”。 2、选中“串行端口”,点击“完成”。 3、选中刚添加的串口,下拉选…

python快速入门

语法结构 基本输出 使用print函数来完成基本输出 print("I am xl")注释 单行注释使用# 多行注释 多行注释""" 多行注释 """缩进 python和其他语言最大的区别就是用缩进来区分子代码区域而不是大括号 续行 使用\符号来完成续行…

宠物用品小程序

近年来,越来越多的人选择将宠物视为家庭的一员,为宠物购买各种用品成为了一项重要的消费活动。因此,宠物用品小程序应运而生,为消费者提供了一个便捷的购买平台,同时也为宠物带来了更加幸福的生活。 登录乔拓云平台进入…

京东平台数据分析(京东销量):2023年9月京东吸尘器行业品牌销售排行榜

鲸参谋监测的京东平台9月份吸尘器市场销售数据已出炉! 根据鲸参谋电商数据分析平台的相关数据显示,今年9月,京东吸尘器的销量为19万,环比下滑约12%,同比下滑约25%;销售额为1.2亿,环比下滑约11%&…

前端实现埋点监控

前端实现埋点&监控 实现埋点功能的意义主要体现在以下几个方面: 数据采集:埋点是数据采集领域(尤其是用户行为数据采集领域)的术语,它针对特定用户行为或事件进行捕获、处理和发送的相关技术及其实施过程。通过埋…

本地生活商家用批量剪辑有用吗?

可以用,现在很多本地生活商家,都会通过借助批量剪辑工具来提升视频的曝光量,从而带动店铺的客流量。 推荐本地生活商家使用超级编导批量剪辑工具,这是一款0基础小白也可以很快上手的批量剪辑工具,剪辑页面布局以及功能…

python_PyQt5日周月K线纵向对齐显示_3_聚焦某段图形

目录 写在前面: 结果显示: 代码: 写在前面: “PyQt5日周月K线纵向对齐显示”,将分三篇博文描述 1 数据处理。将数据处理成适合图形显示的格式。(已写,请看往期博文) 2 显示工具…

不小心commit错误代码,还没push的回滚解决方法

命令:git reset --soft HEAD^ 第一步:找到项目所在文件夹 第二步,右键点击git base here 第三步,命令行输入git reset --soft HEAD^ 回车即可

【斗破年番】暗杀行动开始,萧炎斩杀负伤,彩鳞心疼霸气回击

【侵权联系删除】【文/郑尔巴金】 深度爆料,《斗破苍穹》年番第69集刚刚更新了!在这集剧情中,萧炎和美杜莎筹划了一场暗杀行动,以保障炎盟的安全。他们根据小医仙提供的地图,分别负责击杀慕兰三老和雁落天这两位敌方强…

sql-50练习题0-5

sql练习题0-5题 前言数据库表结构介绍学生表课程表成绩表教师表 0-1 查询"01"课程比"02"课程成绩高的学生的信息及课程分数0-2查询"01"课程比"02"课程成绩小的学生的信息及课程分数0-3查询平均成绩大于等于60分的同学的学生编号和学生…