机器学习的整个流程

机器学习的整个流程定义了数据科学团队执行以创建和交付机器学习模型的工作流。此外,机器学习流程还定义了团队如何协作合作,以创建最有用的预测模型。

机器学习high level的流程

机器学习流程的关键步骤包括问题探索(Problem Exploration)、数据工程(Data Engineering)、模型工程(Model Engineering)和模型运营 (ML Ops)。

更详细的机器学习流程

这个更详细的流程保留了相同的高层阶段(Problem Exploration、Data Engineering、Model Engineering和ML Ops),但定义了ML流程每个阶段的关键步骤。以下是对每个步骤的讨论。

问题探索(Problem Exploration)

首先关注模型将如何使用。在这个过程中,评估期望的模型准确性并探索其他细节,比如误报和漏报哪个更糟。这个阶段还包括了解可能可用的数据。

  • 定义成功(Define Success):定义要解决的问题。例如,应该预测什么。这有助于定义将需要的数据。此外,确保清楚如何度量成功。
  • 评估数据(Evalute Data):确定相关的数据源。换句话说,评估团队将需要哪些数据,数据是如何收集的,以及数据存储在哪里。

数据工程(Data Engineering)

设计和构建数据管道。这些管道获取、清理和转换数据,使其更容易用于构建预测模型。需要注意的是,这些数据可能来自多个数据源,因此合并数据也是数据工程的关键方面。这通常是在机器学习项目中花费最多时间的地方。

  • 获取数据(Obtain Data):组装数据。这包括连接到远程存储的数据和数据库,这些数据可能以不同的格式存在。例如,一些数据可能以CSV格式存在,而其他数据可能通过Web服务以JSON格式提供。
  • 清理数据(Scrub Data):重新格式化特定属性并纠正数据中的错误,如缺失值填充。数据集通常缺少值,或者它们可能包含错误类型或范围的值。清理可以包括去重、纠正错误、处理缺失值、归一化以及处理数据类型转换。
  • 探索/验证数据(Explore/Validate Data):对数据有一个基本的了解。这种探索性分析包括数据概要分析,以获取关于数据内容和结构的信息。目标是了解数据属性以及数据质量。

模型工程(Data Engineering)

这是大多数人与构建机器学习模型相关联的阶段。在这个阶段,使用数据来训练和评估模型。这通常是一个迭代的任务,其中尝试不同的模型,并调整模型。

  • 选择和训练模型(Select&Train Model):确定合适的模型,并构建/训练模型(在训练数据上)。培训的目标是尽可能正确地回答问题或进行预测。
  • 测试模型(Test Model):在模型尚未看到的数据上运行模型(例如测试数据)。换句话说,通过使用从培训中保留的数据进行模型测试(即回测)。
  • 评估和解释模型(Evaluate&Interpret Model):客观地测量模型的性能。请注意,基本评估探讨精度和精确度等指标,以确定模型是否可用,并确定哪个模型最适合解决特定的问题。这个评估还包括了解模型何时犯错误。更普遍地说,在将训练好的模型投入生产之前,验证训练好的模型有助于确保模型符合最初的组织目标。
  • 调整模型(Tune Model):这一步涉及到参数调整,这依赖于所使用的模型,可能更像是一门艺术而不是科学。简而言之,模型通常具有参数(即调整模型的旋钮),允许通过参数细化模型来获得改进的性能。简单的模型参数可能包括培训步骤的数量和某些值的初始化。

模型运营 (ML Ops)

广义上定义的模型运营(ML Ops)涵盖了数据科学家、数据工程师、云工程师、IT运营和业务利益相关者用于部署、扩展和维护机器学习解决方案的一系列实践、系统和责任。

  • 部署模型(Deploy Model):打包并投入使用模型(即投入生产)。尽管这因小组而异,但团队需要了解预期的模型性能、模型将如何进行监控以及通常的模型关键绩效指标(KPI)。
  • 监控模型(Moniter Model):在生产中维护模型。这包括监控关键绩效指标并主动努力确保预测稳定而且可靠。

其它

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/669056.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

幻兽帕鲁服务器怎么搭建?Palworld多人联机教程

玩转幻兽帕鲁服务器,阿里云推出新手0基础一键部署幻兽帕鲁服务器教程,傻瓜式一键部署,3分钟即可成功创建一台Palworld专属服务器,成本仅需26元,阿里云服务器网aliyunfuwuqi.com分享2024年新版基于阿里云搭建幻兽帕鲁服…

http伪造本地用户字段系列总结

本篇记录了http伪造本地用户的多条字段,便于快速解决题目 用法举例: 直接把伪造本地用户的多个字段复制到请求头中,光速解决部分字段被过滤的问题。 Client-IP: 127.0.0.1 Forwarded-For-Ip: 127.0.0.1 Forwarded-For: 127.0.0.1 Forwarded…

(4)【Python数据分析进阶】Machine-Learning模型与算法应用-回归、分类模型汇总

线性回归、逻辑回归算法应用请参考: https://codeknight.blog.csdn.net/article/details/135693621https://codeknight.blog.csdn.net/article/details/135693621本篇主要介绍决策树、随机森林、KNN、SVM、Bayes等有监督算法以及无监督的聚类算法和应用PCA对数据进行降维的算法…

CSS的Day05(浮动+flex布局)

跟着黑马程序员的课,稍稍对CSS的了解 常见的显示模式:行内、块级、行内块 在HTML中,标准流也称为文档流或普通流,是指元素按照其在HTML文档中的出现顺序依次排列的方式。在标准流中,元素会自动占据父容器的空间&#…

编程实例分享,麻将馆计时方法计费系统,棋牌室计时计费管理系统软件试用版教程

编程实例分享,麻将馆计时方法计费系统,棋牌室计时计费管理系统软件试用版教程 一、前言 以下教程以 佳易王棋牌计时计费管理系统软件V17.9为例说明 1、恢复上次状态:在突然停电或非正常关机情况下,再次打开软件,可以…

openssl3.2 - use openssl cmd create ca and p12

文章目录 openssl3.2 - use openssl cmd create ca and p12概述笔记实验的openssl环境建立CA生成私钥和证书请求生成CA证书用CA签发应用证书用CA对应用证书进行签名将已经签名好的PEM证书封装为P12证书验证P12证书是否可用END openssl3.2 - use openssl cmd create ca and p12 …

Linux实验记录:使用BIND提供域名解析服务

前言: 本文是一篇关于Linux系统初学者的实验记录。 参考书籍:《Linux就该这么学》 实验环境: VmwareWorkStation 17——虚拟机软件 RedHatEnterpriseLinux[RHEL]8——红帽操作系统 备注: 为了降低用户访问网络资源的门槛&am…

PySpark(三)RDD持久化、共享变量、Spark内核制度,Spark Shuffle

目录 RDD持久化 RDD 的数据是过程数据 RDD 缓存 RDD CheckPoint 共享变量 广播变量 累加器 Spark 内核调度 DAG DAG 的宽窄依赖和阶段划分 内存迭代计算 Spark是怎么做内存计算的? DAG的作用?Stage阶段划分的作用? Spark为什么比MapReduce快? Spar…

【动态规划】【精度】1883. 准时抵达会议现场的最小跳过休息次数

作者推荐 【动态规划】【状态压缩】【2次选择】【广度搜索】1494. 并行课程 II 本文涉及知识点 动态规划汇总 LeetCode:1883. 准时抵达会议现场的最小跳过休息次数 给你一个整数 hoursBefore ,表示你要前往会议所剩下的可用小时数。要想成功抵达会议现场&#…

pthread实现生产者消费者模式

总感觉Java线程这块缺了些啥,看源代码有时候看不太懂。因此就萌生了我下面的想法,学习pthread的相关知识,去探究Java Thread对象的底层是如何实现。基于这样的缘由我在某位大佬的基础写了下面的代码。 之前没有写过pthrea的代码,这…

Springboot写一个对接钉钉机器人的小插件

钉钉机器人 有时候我门需要监控各种事件,需要机器人给我发给提醒 如:git代码交接,代码合并, 服务器异常捕获,。。。。 参照钉钉给我们的开发文档,可以发现对接起来是非常简单哈哈 这是我写的小插件以及例子…

ChatGPT生产力|chat gpt实战介绍

标注说| ⭐ : 使用稳定,推荐 | 😄 : 免费使用 | 🔑 : 需要登陆或密码 | ✈️ : 需waiwang进行访问 | ChatGPT 1PoePoe - Fast, Helpful ...🔑😄🔗2 AItianhuGPT4😄⭐🔗3 PhantoNa…

XCTF:3-1[WriteUP]

从题目中获取文件 使用file命令查看文件类型 修改后缀为.rar后进行解压缩 再次使用file命令查询该文件的类型 再次修改后缀为.pcap或者.pcapng 使用wireshark打开,直接搜索flag字样 在多个数据包里发现了flag.rar、flag.txt等文件 尝试使用http导出文件 有一个fl…

数据结构——框架简介

1.数据结构的作用 数据结构是计算机科学中一种重要的概念,它主要用于组织和存储数据以便有效地进行操作。数据结构可以看作是数据的组织方式,通过合理的数据结构设计,可以更高效地执行各种操作,提高程序的性能和可维护性。 以下是…

文献速递:肿瘤分割---- ALA-Net:用于3D结直肠肿瘤分割的自适应病变感知注意力网络

文献速递:肿瘤分割---- ALA-Net:用于3D结直肠肿瘤分割的自适应病变感知注意力网络 01 文献速递介绍 结直肠癌(CRC)在全球范围内与高发病率和死亡率相关,。肿瘤的预后高度依赖于诊断时疾病的阶段。准确检测和分割肿瘤…

不需英文基础也可以轻松学编程,中文编程开发工具免费版下载,编程工具构件箱之扩展控制面板构件用法

不需英文基础也可以轻松学编程,中文编程开发工具免费版下载,编程工具构件箱之扩展控制面板构件用法 一、前言 编程入门视频教程链接 https://edu.csdn.net/course/detail/39036 编程工具及实例源码文件下载可以点击最下方官网卡片——软件下载——常…

1-3 动手学深度学习v2-线性回归的从零开始实现-笔记

手动创建训练数据集 根据带有噪声的线性模型构造一个人造数据集。我们使用线性模型参数 w [ 2 , − 3.4 ] T \pmb{w} [2,-3.4]^{T} w[2,−3.4]T、 b 4.2 b 4.2 b4.2和噪声项 ϵ \epsilon ϵ生成数据集及其标签: y X w b ϵ \pmb{y} \pmb{Xw}b\epsilon yXw…

2024年【化工自动化控制仪表】考试题及化工自动化控制仪表最新解析

题库来源:安全生产模拟考试一点通公众号小程序 2024年化工自动化控制仪表考试题为正在备考化工自动化控制仪表操作证的学员准备的理论考试专题,每个月更新的化工自动化控制仪表最新解析祝您顺利通过化工自动化控制仪表考试。 1、【单选题】()指用多个相…

spring-security authentication persistence

翻译版本【spring-security 6.2.1】persistence Persisting Authentication 用户第一次请求受保护的资源时,系统会提示他们输入凭据。提示输入凭据的最常见方法之一是将用户重定向到登录页面。未经身份验证的用户请求受保护的资源的HTTP交换可能如下所示: 例1。未…

关于Linux和消息队列常见的十道面试题

实际工作中如何排查CPU飙升问题? 在实际工作中,我们可以通过以下步骤来排查CPU飙升的问题: 使用系统监控工具:首先,我们可以使用系统监控工具,如top命令,来查看所有进程占系统CPU的排序。这样可…