详解数据科学自动化与机器学习自动化

过去十年里,人工智能(AI)构建自动化发展迅速并取得了多项成就。在关于AI未来的讨论中,您可能会经常听到人们交替使用数据科学自动化与机器学习自动化这两个术语。事实上,这些术语有着不同的定义:如今的自动化机器学习,即AutoML,特指模型构建自动化。但是,数据科学家的工作内容并不仅止于此。简单地说,数据科学家从数据中获取信息,以解决现实世界中的问题;机器学习只是数据科学家的众多工作方法之一。 从数据预处理到解决方案部署,自动化贯穿数据科学生命周期的每个阶段。毋庸置疑,AutoML极大地提升了数据科学生命周期的自动化程度,尤其是在模型构建阶段。在大多数情况下,自动化主要针对最耗时、最复杂的任务,以降低任务难度,提高效率。借助先进的自动化技术,数据科学家可以将更多时间花在训练任务上:利用数据洞察为其服务的企业开发差异化解决方案。

数据生命周期中的自动化

在解决方案开发过程中,数据科学家完成的每一项任务都包括在数据科学生命周期中。于我们而言,我们需要关注数据科学家在构建AI模型时需要完成的任务。数据生命周期的每个阶段,都涉及到某种程度的自动化。鉴于AI构建过程中有几个步骤较为耗时,这一事实并不出人意料。

数据准备

假设数据科学家需要解决某一问题,则他们的首要任务就是收集和准备数据。通常情况下,数据准备包括将数据转换成正确格式、识别数据错误、以及修复数据异常。目前,数据准备任务已经实现部分自动化。数据科学家可以使用简单的探索法或第三方数据清理工具来清理数据。例如,探索法可以指定自动删除实际范围以外的任何数字。数据清理工具可以自动清理模式、执行统计分析,并根据需要完成其他准备步骤。 为何数据清理仍未实现完全自动化?主要原因是数据科学家需要经常对数据做出主观决策。另外,数据集可能会包含许多边缘数据;数据清理工具或探索法可能无法轻易解决这些问题。

数据探索

数据科学生命周期的下一阶段是数据探索。在这一阶段中,数据科学家使用可视化工具来获得数据概览。与第一阶段相同,数据探索阶段只能实现部分自动化。数据科学家可以自动创建图表,但图表分析仍需要其专业知识。

特征工程

特征工程正逐渐成为AutoML的一部分,并且可能有利于提升ML的自动化程度。特征工程是指从现有输入中创建新的输入变量,新的输入变量与您试图解决的问题相关。如果操作正确,特征工程可以促使模型关注数据中未明确呈现的重要变量,从而提升模型性能。 借助自动化,工具可以从各种表格、文本、地理空间和时间序列数据以及其他来源获得特征。这些工具可以快速评估数百个,甚至数百万个特征,并输出与模型最相关的特征。因此,在自动化的帮助下,数据科学家可以更高效地完成这些传统的人工选择任务。

模型构建

模型构建包括模型选择、验证和超参数优化(HPO)。模型构建可以完全实现自动化,这正是AutoML的真正亮点。AutoML工具可以循环使用同一组输入数据来训练各类模型,以选出性能最佳的模型。工具可以通过超参数优化和重复验证措施自动调整模型,以提高模型准确度。但是,AutoML模型仍会保持高准确性和高置信度,模型质量不会成为模型效率提高的代价。 关于自动化模型构建的更多信息,请参阅我们的文章“关于AutoML,其中包含了您想了解的一切信息。”

持续部署

数据科学生命周期并不止于部署阶段。在实践过程中,每个AI模型都需要持续维护。因此,建立一个再训练流程将是成功的关键。在这一阶段中,我们使用自动化工具为模型提供定期维护检查,以确保模型始终满足准确度和置信度阈值。虽然在这一阶段中保持人机协同仍然大有帮助,但以自动化取代完全人工的过程,可以提高问题解决效率。

一个自动化示例:Github Copilot

最近,Github Copilot软件成功上市,是AI自动化的一个现实示例。这款软件由OpenAI Codex提供支持,是一个AI配对程序员,可以帮助工程师编写代码。Github Copilot可以分析您正在开发的代码,在您输入代码时提示行或函数。该款软件旨在提供替代解决方案和测试用例,从而提高工作效率,降低复杂性。Github Copilot只是机器学习自 动化的最新激动人心的应用之一,可以极大地提高AI和工程的效率。

AI自动化的未来

当我们展望AI的未来时,数据科学自动化和AutoML可以告诉我们什么?首先,AI构建是一项具有挑战的任务,但已变得越来越容易。对自动化的需求无疑源于以下事实:实施AI解决方案需要时间、经费、专业知识等大量资源,而这通常导致许多小型企业望而却步。随着自动化工具的出现,准入门槛会降低,允许更多的参与者进入这一领域进行实验和创新。 随着AI和AutoML的发展,高质量训练数据的需求仍会存在,并且还会持续增长。AI从业者需要更多的数据来优化和修正机器学习模型,以及保持模型的实践性能。与外部数据供应商合作,可以为团队提供适合的工具、专业知识和流程,从而为实现长远的AI目标建立可扩展的数据流程。澳鹏(Appen)拥有目前最先进的AI辅助数据标注平台,其解决方案是获取高质量数据的最可靠来源,可以满足日益增长的数据需求。 数据科学家又会如何?机器是否会影响到对数据科学家的需求?当然不可能。数据科学家拥有机器无法比拟的高度专业化领域知识。定义和理解问题,并对数据进行假设等,都需要主观的专业知识。正如我们在软件工程中所看到的,当软件工程变得更容易时,软件工程师的需求只会上升;数据科学家当然也不例外。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/236858.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【QT Visual Studio环境配置】error MSB8020: 无法找到 v141/v142 的生成工具(完整版)

首先要了解V**平台工具集根据你安装的Visual Studio版本不同而有所区别,知道这个就容易解决问题了,确定你安装的那个版本,需要使用哪个工具集。 v143–>VS2022v142–>VS2019v141–>VS2017v140–>VS2015v120–>VS2013 一、解决…

[kubernetes]基于版本v1.28.5+containerd + helm 搭建集群

0 环境准备 节点数量: 3 台虚拟机 centos7硬件配置: 2G或更多的RAM,2个CPU或更多的CPU,硬盘至少30G 以上网络要求: 多个节点之间网络互通,每个节点能访问外网 1 集群规划 k8s-node1:10.0.0.32k8s-node2:10.0.3.231k…

TypeScript 中的 interface 和 type 有什么区别?应该如何选择?

背景 TypeScript中的 interface 和 type 都是声明自定义类型的方式,但它们有一些区别,适用于不同的使用场景。 两者使用案例 interface interface 主要用于描述对象的形状或者类的结构,这是它最经常的应用场景。 interface使用示例&…

机器学习之线性回归(Linear Regression)附代码

概念 线性回归(Linear Regression)是机器学习中的一种基本的监督学习算法,用于建立输入变量(特征)与输出变量(目标)之间的线性关系。它假设输入变量与输出变量之间存在线性关系,并试图找到最佳拟合线来描述这种关系。 在简单线性回归中,只涉及两个变量:一个是自变量…

MySQL:通过官方mysql server,搭建绿色版mysql服务器(Windows)

1. 官网下载mysql server 下载mysql server的zip文件,地址: https://downloads.mysql.com/archives/community/ 解压后 2. 初始化数据库 运行cmd, 进入bin目录,运行 mysqld --initialize-insecureinitialize-insecure说明如…

python面向对象反射

就是通过字符串的形式操作对象相关属性 反射基本语法 from django.test import TestCase# Create your tests here. class Students:def __init__(self, name, gender):self.name nameself.gender genderdef play(self, game, novel):print(game, novel)s Students(lyz, …

Jenkins 插件下载速度慢安装失败?这篇文章可能解决你头等难题!

Jenkins部署完毕,如果不安装插件的话,那它就是一个光杆司令,啥事也做不了! 所以首先要登陆管理员账号然后点击系统管理再点击右边的插件管理安装CI/CD必要插件。 但是问题来了,jenkins下载插件速度非常慢&#xff0c…

Educational Codeforces Round 160 (Div. 2) A~E

A.Rating Increase(思维) 题意: 给出一个仅包含数字的字符串 s s s,要求将该字符串按以下要求分成左右两部分 a , b a,b a,b: 两个数字均不包含前导 0 0 0 两个数字均大于 0 0 0 b > a b > a b>a 如果…

算法基础之快速幂

快速幂 核心思想&#xff1a;logk的复杂度求出ak mod p 将k拆成若干个2的n之和 (二进制) #include<iostream>#include<algorithm>using namespace std;typedef long long LL;LL qmi(int a,int k,int p){LL res 1 % p;while(k) //k转为二进制 还有正数 就进行…

U-MixFormer:用于高效语义分割的类unet结构的混合注意力Transformer

论文&#xff1a; 代码&#xff1a;GitHub - RecklessRonan/MuSE 感觉这篇比较优雅无痛涨点欸.....最近要期末了没时间看文章和做实验了&#xff08;摊 摘要 语义分割在Transformer架构的适应下取得了显著的进步。与Transformer的进步并行的是基于CNN的U-Net在高质量医学影…

QT基础介绍

QT介绍 QT 是跨平台的c开发库&#xff0c;主要用来开发图形用户界面&#xff08;Graphical User Interface&#xff0c;GUI&#xff09;程序&#xff0c;当然也可以开发不带界面的命令行&#xff08;command user interface&#xff0c;CUI&#xff09;程序。 Qt中文官网&…

互操作性(Interoperability)如何影响着机器学习的发展?

互操作性&#xff08;Interoperability&#xff09;&#xff0c;也称为互用性&#xff0c;即两个系统之间有效沟通的能力&#xff0c;是机器学习未来发展中的关键因素。对于银行业、医疗和其他生活服务行业&#xff0c;我们期望那些用于信息交换的平台可以在我们需要时无缝沟通…

揭开 Vue3 响应式系统的神秘面纱:多种监听状态变量变化的方法大揭秘

在 Vue 3 中&#xff0c;响应式系统是其核心特性之一。通过响应式系统&#xff0c;Vue 可以自动跟踪组件的状态变化&#xff0c;并根据变化更新视图。这使得开发者能够更加高效地开发复杂的用户界面&#xff0c;同时保持代码的可读性和可维护性。在本文中&#xff0c;我们将深入…

mt5和mt4交易软件有什么区别?

MetaTrader 4&#xff08;MT4&#xff09;和MetaTrader 5&#xff08;MT5&#xff09;是两种广泛使用的外汇和金融市场交易平台&#xff0c;由MetaQuotes公司开发。尽管它们都是外汇交易的常见选择&#xff0c;但在功能和特性上存在一些区别。以下是MT4和MT5之间的主要区别&…

python三大开发框架django、 flask 和 fastapi 对比

本文讲述了什么启发了 FastAPI 的诞生&#xff0c;它与其他替代框架的对比&#xff0c;以及从中汲取的经验。 如果不是基于前人的成果&#xff0c;FastAPI 将不会存在。在 FastAPI 之前&#xff0c;前人已经创建了许多工具 。 几年来&#xff0c;我一直在避免创建新框架。首先&…

12.21 知识总结(def之序列化常用字段、常用参数、soruce用法、定制返回字段等)

一、 序列化类常用字段 字段字段构造方式BooleanFieldBooleanField()NullBooleanFieldNullBooleanField()CharFieldCharField(max_lengthNone, min_lengthNone, allow_blankFalse, trim_whitespaceTrue)EmailFieldEmailField(max_lengthNone, min_lengthNone, allow_blankFals…

Educational Codeforces Round 160 (Rated for Div. 2) A~C

目录 A. Rating Increase 题目分析&#xff1a; B. Swap and Delete 题目分析: C. Game with Multiset 题目分析: A. Rating Increase 题目分析&#xff1a; 因为首部不为零&#xff0c;故我们从第二个字符开始遍历&#xff0c;如果遇到第一个不为‘0’的字符&#xff0…

C#文件操作(一)

一、前言 学习心得&#xff1a;C# 入门经典第8版书中的第20章《文件》 二、操作文件的相关类 在C#应用程序中Syste.IO名称空间包含用于在文件中读写数据的类。在此我列举一下File、Directory、Path、FileInfo、DirectoryInfo、FileSystemInfo、FileSystemWatcher。其中在Syste…

《Spring Cloud Gateway 技术要点》

中文文档&#xff1f; Spring Cloud Gateway 中文文档 他是如何工作的? 它是如何工作的 路由谓词 12种路由谓词 Route Predicate&#xff08;路由谓词&#xff09;工厂 常见问题 1、深入解析spring cloud gateway】09 巨坑&#xff01;GlobalFilter的执行顺序 2、Sprin…

Lettuce操作redis

Lettuce是一个高性能基于Java编写的Redis驱动框架&#xff0c;底层集成了Project Reactor提供天然的反应式编程&#xff0c;通信框架集成了Netty使用了非阻塞IO&#xff0c;5.x版本之后融合了JDK1.8的异步编程特性&#xff0c;在保证高性能的同时提供了十分丰富易用的API。本文…