如何交付机器学习项目:一份机器学习工程开发流程指南

随着机器学习(ML)成为每个行业的重要组成部分,对机器学习工程师(MLE)的需求急剧增长。MLE需要将机器学习技能与软件工程专业知识相结合,为特定应用程序找到高性能的模型,并应对出现的实施挑战——从构建训练基础架构到准备部署模型。在新的机器学习团队中,遇到最常见的障碍之一是工程师习惯传统软件工程的开发过程,而开发新ML模型的过程从一开始就是非常不确定的,需要不断的尝试才能找到一个比较合适的模型。

许多类型的专业人员都面临着类似的情况:软件和商业开发人员,寻求产品市场契合的初创公司等,这些职业中的每一个都采用了一个共同的框架,以帮助团队高效地工作:软件开发中的agile/scrum,初创公司和美国空军的OODA环。MLE同样可以遵循类似的框架来应对不确定性并快速开发出优质的产品。

ML工程环

在本文中,我们将描述ML的“OODA环”的概念:ML工程循环,其中ML工程师迭代地

  • 1.分析
  • 2.选择一种方法
  • 3.实现
  • 4.测量

快速有效地发现最佳模型并适应未知的环境。此外,我们将为每个阶段,以及优化过程给出具体的提示。


MLE环


ML团队的成功通常意味着在给定的约束条件下提供高性能模型。例如,实现高预测准确性的模型,同时还受到内存使用、预测时间等约束。性能由与最终产品成功最相关的指标定义,无论是准确性、运行速度、输出多样性等。简单起见,本文选择将“错误率”最小化作为性能指标。

当刚开始确定新项目的范围时,就应该准确定义成功的标准,然后将其转换为模型指标。在产品方面,服务需要达到什么样的性能水平?例如,如果在新闻平台上向个人用户推荐5篇文章,我们需要多少相关内容,以及如何定义相关性?鉴于此性能标准和拥有的数据,可以构建的最简单的模型是什么?

ML工程环的目的是围绕开发过程设置一个死记硬背的框架,简化决策过程,专注于其中最重要的步骤。当不确定性增加时,即使是最有经验的工程师,这个框架仍然是非常有价值,例如,当模型意外地无法满足要求时、团队的目标突然改变等情况。

入门

要引导下面描述的循环,您应该从一个涉及非常少的不确定性的最小实现开始。通常我们希望尽快建立足够的系统,以便我们可以评估其性能并开始迭代开发。这通常意味着:
设置训练、开发和测试数据集,以及构建好一个简单的模型。

例如,如果要构建一个树木探测器来测量一个地区的树木种群,可能会使用类似的Kaggle 竞赛中的现成训练集,以及来自目标区域的手工收集的一组照片用于开发和测试集。然后可以对原始像素进行逻辑回归,或者在训练图像上运行预训练网络(如ResNet)。此时的目标不是一次性地完成项目,而是开始迭代周期。以下是一些有所帮助的提示:

提示

关于测试集:

  • 由于团队的目标是在测试集上表现良好,所以测试集应该反映产品或业务的需求。例如,如果正在构建一个应用程序来检测自拍的皮肤状况,请随意对任何一组图像进行训练,但要确保测试集中包含光线不足且质量差的图片。
  • 更改测试集会改变团队的目标,因此尽早修复测试集并对其进行修改以反映项目、产品或业务目标的变化会很有帮助。
  • 测试集合训练集大小都设置足够大,以使获得的性能指标足够准确,以便在模型之间做出良好区分。
  • 尽可能地为开发集和测试集创建对的标签或注释。错误标记的测试集等同于错误指定的产品要求。
  • 了解人类在测试集上的表现如何,或者现有/竞争系统的表现如何,这将为你提供最佳的错误率,即目前可以实现的最佳性能。
  • 最终目标是使测试性能尽可能接近我们的猜测,以获得最佳性能。
    关于开发和训练集:
  • 开发集是团队的测试性能代理,可用于超参数的调整。因此,它应该与测试集有相同的分布。一个好方法是首先收集一大堆样本,然后将它们随机分成开发集和测试集。
  • 如果认为生产数据会产生噪音,请确保通过使用数据增强或降级来解决训练集中的噪音问题。

一旦获得初始原型后,应检查其在训练、开发和测试集上的性能,评估测试性能与产品所需性能之间的差距。开始迭代开发模型了!

分析

确定性能瓶颈

分析阶段就像医疗诊断一样:配备了一套可以执行的诊断程序,目标是针对限制模型性能的因素提出最可能的诊断。在实践中,可能会有许多不同的重叠问题导致当前的结果。不要试图全面了解每一个缺点,而是要了解最重要的因素,因为许多小问题会随着模型改进而改变甚至消失。

下面,我们列出了一组常用的诊断流程。

每次分析的一个良好起点是查看训练、开发和测试性能。建议在每次实验结束时使用代码执行此操作,以使自己习惯于每次查看这些数字。一般而言,训练集错误<=开发集错误<=测试集错误(如果每组中的数据遵循相同的分布)。根据上一次实验的训练、开发和测试错误率,可以快速查看这些因素中的哪些是当前的约束约束。


权重直方图

诊断和治疗

如果训练集错误是当前的限制因素,则可能会出现以下问题:

  • 1.优化算法未被精确调整。查看学习曲线,看看loss损失是否在减少,检查是否过拟合。可以通过可视化神经元反应的直方图,以检查它们是否饱和(导致梯度消失)。
  • 2.训练集可能包含错误标记或损坏的数据。在训练算法使用之前,在代码阶段手动检查一些训练样例。
  • 3.模型可能太小或泛化能力不强。

如果开发集错误是当前限制因素,这可能是由以下问题引起的:

  • 1.模型可能太大或过拟合。
  • 2.没有足够的训练数据来学习基础模式的良好模型。
  • 3.训练数据的分布与开发或测试数据分布不匹配。
  • 4.模型的超参数设置很差。
  • 5.模型归纳与数据匹配不佳。

如果测试集错误是当前限制因素,这通常是由于开发集太小或者实验过程中过度拟合开发集导致。
对于上述任何一种情况,可以通过手动检查模型出错的一组随机示例来了解模型的失败。

  • 1.尝试通过可视化数据来识别常见的错误类型,然后浏览这些示例并记录每种错误发生的频率。
  • 2.某些样本可能被错误标记或具有多个合理标签。
  • 3.一些样本可能比其他样本更难预测,或者可能缺少做出正确决策所需的上下文。

请注意,上述许多诊断都有直接而明显的应对方法。例如,如果训练数据太少,那么只需获取更多训练数据即可!我们仍然发现在心理上将分析阶段和选择阶段分开是有用的,因为很多人容易陷入尝试随机方法而不真正深入挖掘潜在的问题。此外,以开放的心态努力回归错误分析通常会发现更有用的见解,可以改善做出的决定。

例子

 

众所周知,卫星数据噪声很大,通常需要检查。以Insight为例,当AI研究员Jack Kwok正在建立一个帮助灾难恢复的分割系统时,他注意到虽然他的分割模型在他的卫星图像训练集上表现良好,但它在开发集上表现不佳。原因是飓风图像质量较低且比训练数据更模糊。向训练管道添加额外的增强操作,对图像应用模糊有助于缩小训练和开发性能之间的差距。

选择方法

找到解决瓶颈的最简单方法

在进行分析之后,需要很好地了解模型所出现的错误类型以及影响性能的因素。对于给定的诊断,可能存在几种可能的解决方案,下一步是枚举并优化它们。

上面的一些诊断有着潜在的解决方案。例如,如果训练数据集太小,收集更多训练数据可能是一个相当快速和简单的解决方案。

建议ML工程师列举尽可能多的想法,然后偏向简单、快速的解决方案。如果现有解决方案可能有效,请尝试在此基础之上使用迁移学习。

提示

根据诊断,以下是一些常见的解决方案。
       如果需要调整优化器以更好地适应数据:

  • 对于数值优化器,尝试调整学习速率或动量设置。
  • 尝试不同的初始化策略,或从预先训练的模型开始。
  • 尝试一种更容易调整的模型。在深度学习中,具有批量归一化的剩余网络或网络可能更容易训练。

       如果模型无法很好地拟合训练数据:

  • 使用更大或更具表现力的模型类。
  • 检查模型在标记错误、缺少字段等的训练集上出错的示例。在训练数据清理中投入时间可以显著改善性能。

       如果模型没有在开发集表现不好:

  • 添加更多训练数据。
  • 使用真实训练示例生成的新样本扩充数据。例如,如果注意树检测器在模糊图像上始终表现不佳,请使用OpenCV对图像增强,使图像看起来有点模糊。
  • 搜索更广泛或更细粒度的超参数范围,以确保在开发集上找到表现最佳的模型。
  • 尝试不同形式的正则化(例如权重衰减、dropout或决策树的修剪)。
  • 尝试不同的模型,不同类型的模型可以改变数据拟合程度以及泛化能力。最好先从最简单的模型开始。

     

实现

只构建需要构建的内容,并快速完成
这个阶段的目标是快速实现基础模型,以便可以测量出结果,并从中学习,之后快速回到开发循环周期中。因此,建议专注于构建当前实验所需的内容。

提示

大多数人高估了收集和标记数据所带来的成本,并低估了在数据匮乏的环境中解决问题的困难。

当收集和标记数据时:

  • 定期查看数据。查看原始数据,在预处理后查看、查看标签。这一点非常重要!通过在每个步骤中密切关注数据来捕获许多错误。
  • 标签和清洗数据是一项常见任务。大多数人高估了收集和标记数据所带来的成本,并低估了在数据匮乏的环境中解决问题的困难。一旦进入节奏,可以轻松地每分钟标记20张图像。思考下,你是想花一个小时标记图像,并花一个小时来解决1200个图像数据集的简单分类问题,或者花3个星期试图从5个样本中学习模型呢?

当构造新的模型时,请从类似的现有实现开始。许多相似的研究论文都开源代码,这将节省大量的开发时间。对于任何问题,建议连续执行以下步骤:

  • 1.找到解决类似问题的模型的实现。
  • 2.在现有模型(相同数据集和超参数)的条件下重现实验。
  • 3.慢慢调整模型和数据以满足任务的需求。
  • 4.重写所需的任何部件。

编写测试程序以检查梯度、张量值、输入数据和标签是否格式正确。在最初设置模型时执行此操作,这样一旦捕获错误并解决后,之后再也不会遇到了。

测量

打印出需要的测试结果和任何其他指标。

如果实验结果的表现有所改善,这可能说明你正走上正轨。在这种情况下,可能是弄清楚运行良好组件的好时机,并确保团队中的其他人可以复现该实验。

另一方面,如果性能变差或没有足够的改善,你需要决定是再次尝试(回到分析阶段)还是放弃当前的想法。这点取决于二者的成本,尝试成本和沉没成本。

提示

  • 有用的绩效指标包括模型的准确性和损失,以及业务价值指标。注意,业务相关的指标最终是重要的,因为它们决定了目前开发的模型的有用性。如果测试指标与业务指标不同,则此测量周期结束是停止并考虑更改优化标准或测试集的好时机。
  • 由于在每个开发循环结束时都打印出相关的指标,此时也是计算其他指标的时机,可以在分析阶段帮助你看决定是否继续使用当前的想法。
  • 最终会建立一个“仪表板”,其中包含测试指标和业务指标,以及每次实验结束时可以看到的其他有用数据。

优化循环

尽管任务固有的不确定性,上面的ML工程环将帮助开发者朝着更好的模型方向前进。遗憾的是,它无法保证立刻开发出正确的模型,还需要我们需要培养自己在每个阶段做出正确选择的能力,比如确定性能瓶颈、决定尝试哪些解决方案、如何正确实现,以及如何衡量应用程序的性能。

此外,还应该花时间考虑提高迭代的质量和速度,以便在每个周期中取得最大进展,并且可以快速完成多次迭代。

提示

  • 如果在分析阶段的结果并不满意的话,请创建一个总结实验结果的脚本,从训练和开发集中收集错误,并对其进行格式化。“仪表板”经常使用的诊断输出能帮助你克服这一时刻的思维。
  • 如果觉得自己想要尝试什么,那就只选择一个方向对其进行实验。试图一次做太多事情会减慢速度。
  • 收集数据是获得更好性能的常用方法,投资工具以使数据更易于收集、清理和标记是有意义的。
  • 如果感觉困在诊断瓶颈或不知道如何选择一个好的模型来尝试下一步时,请考虑联系该领域的专家。专家通常可以在错误分析期间提供有用的见解,而研究论文或经验丰富的ML从业者可能会有创造性的解决方案添加到您要尝试的事物列表中。
  • 好的实现技能很重要,编码规范可以防止错误。
  • 如果实验花费的时间太长,请考虑花一些时间寻找代码的优化,或者与系统专家讨论如何加快训练速度。

与其他决策一样,只有在解决当前的痛点时才能处理这些项目。有些团队花费太多时间构建“完美”框架,却发现真正令人头疼的事情在其他地方。

结论

机器学习项目具有内在的不确定性,上面推荐的方法旨在为开发者提供一些指导。虽然每次实验的结果无法预测,很难让自己对达到特定的准确度目标负责,但至少可以让自己负责完成错误分析、制定想法列表、编写代码并查看其工作原理。


原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/520896.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

国际顶级学界业界大咖云集,9 场技术论坛布道,2019 嵌入式智能国际大会强势来袭!...

2019 嵌入式智能国际大会即将来袭&#xff01;购票官网&#xff1a;https://dwz.cn/z1jHouwE2019年12月6日-8日&#xff0c;2019嵌入式智能国际大会将在深圳华侨城洲际大酒店举行。本次大会由哈尔滨工业大学&#xff08;深圳&#xff09;、清华大学国际研究生院、CSDN、嵌入式视…

qtcreator下拉列表怎么制作_设置EXCEL动态下拉菜单,只需要一个组合键,新手也能快速掌握...

操作版本&#xff1a;OFFICE365在EXCEL制作一级下拉菜单有4种方法&#xff0c;你掌握几种&#xff1f;一文中&#xff0c;我提到了一级下拉菜单的制作方法&#xff0c;其中用公式法来制作下拉菜单可以实现内容增减后下拉菜单的内容也自动增减&#xff0c;这个方法涉及OFFSET函数…

使用Numpy和Opencv完成图像的基本数据分析(Part III)

引言 本文是使用python进行图像基本处理系列的第三部分&#xff0c;在本人之前的文章里介绍了一些非常基本的图像分析操作&#xff0c;见文章《使用Numpy和Opencv完成图像的基本数据分析Part I》和《使用Numpy和Opencv完成图像的基本数据分析 Part II》&#xff0c;下面我们将…

Microsoft Windows Server 2019 1809 iso镜像 企业版本

企业版本 标准版本 默认页面&#xff0c;关闭即可 参考链接&#xff1a; Microsoft Windows Server 2019 1809 iso镜像 http://www.ddooo.com/softdown/131736.htm

【程序猿必备】数据结构与算法精选面试题

有很多计算机科学技术专业的毕业生和程序员申请在Uber和Netflix这样的初创公司、谷歌和阿里巴巴这样的大公司以及Infosys或Luxsoft等以服务为基础的公司从事编程、编码和软件开发工作&#xff0c;但他们中的许多人都不知道&#xff0c;当你申请这些公司的职位时&#xff0c;你会…

技术干货 | 详谈AI芯片分类和关键技术

戳蓝字“CSDN云计算”关注我们哦&#xff01;作者 | 架构师技术联盟责编 | 阿秃人工智能芯片目前有两种发展路径&#xff1a;一种是延续传统计算架构&#xff0c;加速硬件计算能力&#xff0c;主要以 3 种类型的芯片为代表&#xff0c;即 GPU、 FPGA、 ASIC&#xff0c;但 CPU依…

AI+服务 阿里巴巴如何做智能服务转型?

AI下围棋、AI写作文、AI看病……在智能时代&#xff0c;通过新技术的赋能&#xff0c;行业已经发展到了一个新的高度。那么在服务领域&#xff0c;尤其是企业服务中&#xff0c;智能技术的加入会带来哪些新的想象&#xff1f; 在阿里巴巴&#xff0c;智能服务已经成为企业发展…

tfidf关键词提取_基于TextRank提取关键词、关键短语、摘要,文章排序

之前使用TFIDF做过行业关键词提取&#xff0c;TFIDF仅从词的统计信息出发&#xff0c;而没有充分考虑词之间的语义信息。TextRank考虑到了相邻词的语义关系&#xff0c;是一种基于图排序的关键词提取算法。TextRank的提出TextRank由Mihalcea与Tarau于EMNLP04提出来&#xff0c;…

AliOS Things手势识别应用演示

1. 概述 手势识别作为一种辅助的人机交互方式&#xff0c;在人机脱离的场景下可以提供方便的交互体验。本文介绍基于AliOS Things STM32F413H Discovery开发板实现手势交互功能的演示。 2. 环境搭建 开发板&#xff1a;STM32F413H Discovery&#xff08;附带麦克风阵列板&a…

idea 个性化定制快捷键

添加和修改快捷键 先找到相应的快捷键 鼠标右击&#xff0c;上面add开头是添加&#xff0c;下面remove是移除快捷键

i 智慧 | 回首30年存储演进之路 再看新数据时代阿里云存储如何革故鼎新?

戳蓝字“CSDN云计算”关注我们哦&#xff01;作者 | 刘丹 责编 | 阿秃 出品 | CSDN云计算&#xff08;ID&#xff1a;CSDNcloud&#xff09;人类以日新月异的速度刷新着科技的成果&#xff0c;其中存储的发展历史尤其悠久&#xff0c;堪称万年进化史。自文明诞生以来&#xff0…

php validate form,laravel 中validate验证规则 利用FormRequest进行数据验证

namespace App\Http\Requests;use Illuminate\Foundation\Http\FormRequest;class AddCartRequest extends FormRequest{public function authorize(){return true;}//这两种写法都是支持的public function rules(){return [amount > [required, integer, min:1],pid > r…

AliOS Things声源定位应用演示

1. 概述 利用麦克风阵列进行声源定位在智能降噪、语音增强、语音识别等领域有广泛应用和研究前景。本文介绍基于AliOS Things STM32F413H Discovery开发板实现声源定位算法集成和功能演示。 声源定位算法 本案例集成了STMicroelectronics的Acoustic_SL声源定位算法。Acousti…

可优比和aag哪个好_火花塞多级和单级哪个性能更好?多就等于好?这可未必

从电极数量来判断火花塞性能&#xff0c;选择火花塞的一个误区&#xff01;不知从何时开始&#xff0c;很多车友选择火花塞特别迷信侧电极数量&#xff0c;认为侧电极数量越多&#xff0c;火花塞就越好&#xff0c;点火火花就越大。我估计这是被一些别有用心的人带节奏了&#…

Quick BI v3.0版本全新起航——2018杭州云栖大会

在9月22日杭州云栖大会云上数据中台专场中&#xff0c;阿里巴巴产品专家陌停跟现场的观众们分享了Quick BI v3.0版本的新体验、新分析和新功能。 作为一个高效数据分析与展现的BI套件&#xff0c;Quick BI通过拖拽式的可视化分析能力&#xff0c;让懂业务的人自助式实现数据分析…

IDEA配置JDK

IDEA配置JDK 项目应用JDK

漫画:我用深度学习框架画下女朋友最美的脸

这不&#xff0c;又一个程序员为爱变身灵魂画手&#xff0c;看得我都想学画画了。阿华是幸运的&#xff0c;因为他找到了对的方法&#xff0c;事半功倍&#xff0c;最终有情人终成眷属。这也得益于 PyTorch 的易学易用&#xff0c;大多数人第一次使用 PyTorch 几乎可以做到无痛…

云端一体化差分+安全升级,AliOS Things物联网升级“利器”

1.1 OTA升级简介 随着物联网的日益发展&#xff0c;OTA升级逐渐成为物联网设备的刚性需求&#xff0c;目前物联网设备种类繁多&#xff0c;但并未提供统一的OTA升级方案&#xff0c;针对日益发展的物联网设备&#xff0c;开发者迫切需要一套云端一体化的OTA升级方案来满足快速迭…

startlogging中设置setstdout=false来禁用这个功能。_Windows 10禁用USB选择性暂停设置,峰哥教你解决USB设备失灵问题...

最近发现在 Win10 笔记本中使用 U 盘或者连接一些 USB 外设的情况下&#xff0c;时不时会有设备失灵的现象。经过研究发现&#xff0c;微软为了节省电力&#xff0c;在 Win10 系统中内置了一项「USB 选择性暂停设置」&#xff0c;而这个功能默认还处于启用状态。启用「USB 选择…