MLOps是构建在一个谎言上的吗?

13ac94a83e5a5a3f39dd7bbe5512632f.png

来源:AI前线

作者:Mateusz Kwaśniak

译者:王强

策划:刘燕

在一些 MLOps 项目的背景介绍中,都会提及“87% 的数据科学项目以失败告终”的论点。这个数据具体出自何处,是否准确测定?本文作者通过相关文献资料调研,指出该论点并无实据可依。尽管 MLOps 非常必要,但社区、学术界和业界不应以基于此论点开展讨论。

大家是否听说过这样一个论点,即 87% 的数据科学项目以失败告终?

“机器学习运维”(MLOps)对数据科学家、机器学习工程师等数据科学领域相关从业人士来说都应该耳熟能详了。这个概念相对较新,但越来越多的人们开始想要了解什么是 MLOps,以及如何在自身项目中应用 MLOps 实践和工具。

我相信大家也注意到了这种趋势。MLOps 社区 正在持续不断成长(我也有幸参与其中)。MLOps 的相关议题和文章,涵盖了几乎全部机器学习领域会议。最近吴恩达和 DeepLearning.ai 也跟进,在 Coursera 发布了他们的 MLOps 课程“用于生产环境的机器学习工程”(可访问:“Machine Learning Engineering for Production”)。

作为一名 MLOps 工程师,我阅读并关注了大量的相关内容。我发现同一批图表和统计结果,多次作为核心内容出现在各种演示报告中,演示内容越来越千篇一律了。

bf37d4e5ace15fc61eadf6939838beb0.png

此外我发现有一个特别有趣的素材在这些演讲和帖子里被复制来粘贴去,于是我要研究一下。是否真的“有 87% 的数据科学项目无法投入生产环节”,本帖将对此一探究竟。

87% 这一数字出自何处?

如果读者正参与面向社区和潜在客户的 MLOps 新产品展示宣讲,那么很有可能会看到这么一句:

87% 的数据科学项目无法投入生产环节。

不仅如此,这一论点还出现在 福布斯报道、StackOverflow 博客 等处,以及遍布互联网的各博客帖子和会议视频中。这句话或类似的解释,已成为在阐释 MLOps 商业特性中不可或缺的描述。

那么该论点出自哪里?看上去是引用自 VentureBeat 的一篇文章(原文:“Why do 87% of data science projects never make it into production?”)。下面我们转向该文章。

VentureBeat 文章是这么说的

a2587959d1b6a20017575eb76eda8a70.png

图 1 VentureBeat 的文章标题 。来源:VentureBeat.com

该文撰写于 2019 年 7 月。在此我必须指出的是,这是一篇介绍 VentureBeat Transform 2019 大会 小组讨论情况的软文。文章无非是一个短评,其中引用了大会小组议题“如何理解人工智能实施”(“What the heck does it even mean to “Do AI”?”)中的内容:

人工智能基于经验提供竞争优势。即然大家有此通识,那么为什么只有 13% 的数据科学项目(或者说每十个项目中只会有一个)实际投入生产?

Chapo 指出,为避免落入这 87% 的失败项目中,项目开始时可以采取三种方式。第一,从小处着手,不要试图去面对一片汪洋,而是从中选择一个痛点去解决,进而可看到进展。第二,为解决问题,确保具备一支适合的跨职能团队。第三,借助于第三方,甚至是一些大企业,从项目一开始就得到加速助力。

回顾这一惊人观点,即 87% 的数据科学项目是失败的,或者说无法投产,其中的数字的出自何处?我并没有在文章中找到,所以我决定上 YouTube 看一下演讲视频,肯定是在视频里的。

Transform 2019 大会小组讨论中是这么说的

88e371b9a89e14e288ef3424f4767226.png

图 2 Transform 2019 大会小组讨论的视频截图。来源:YouTube

由此,我回看了 Transform 2019 大会小组讨论的录像。我认定这就是所有一切的源头所在,并最终了解这一奇幻数字是如何在各 MLOps 演讲中口口相传。

顺便说一句,我注意到该视频上传 YouTube 的两年以来,只被观看 353 次,得到 0 条评论。因此我认为,并没有多少人有兴趣去厘清为什么近十个机器学习项目中会有九个失败。正好,我就是来搞清楚的。

我竖耳倾听了这段 26 分钟长度的视频,试图捕捉到是否有演讲者提及 87% 的数据科学项目失败,或是只有 13% 的项目成功等类似说法。为确保不漏一处,我看了三遍,最终有所发现。在视频大约第 10 分钟处可听到:

我认为《CIO Dive》杂志指出只有 13% 的项目最终实际投产。我非常惊讶于 13% 这一数据。

这句话正是 IBM 数据科学和人工智能行业 CTO、全球领袖人物 Deborah Leff 说的。

不幸的是,这只是我查证过程中遵循的一个线索(breadcrumb)。显然,Transform 2019 大会小组讨论并非我能确证的信息来源。

那么,下面我们去追溯《CIO Dive》杂志文章吧。

《CIO Dive》杂志是这么说的

14d0f1124d5163cc7f4ca26c5d40673c.png

图 3 James Roberts 撰写的文章。图片来源:CIODive.com

在 Transform 2019 大会两年前的 2017 年,现任 Quisitive 首席数据科学家的 James Roberts 应邀为《CIO Dive》杂志撰写了一篇文章,指出了导致大多数数据科学项目失败的四个原因。我希望该文最终揭示了 87% 这个神奇数字的由来,以及该数字是如何测定的。

文章篇幅相对较短,很有条理。因此我全文通读了多遍,在其中发现如下表述:

2017 年被专家称为数据素养(data literacy)和数字化转型之年。虽然数据是推动真正数字化转型的关键元素,但公司常以错误的方式推行数据和分析项目。事实上,只有 13% 的数据和分析项目得以完成。并且在已完成的项目中,只有 8% 的公司领导对结果表示完全满意。

我对 13% 这一数字非常敏感。正如 Deborah Leff 所说,她是从《CIO Dive》杂志获取该信息的。但这个数字来自何处?哪里有解释?是否依然只是一条线索?

为什么只有 13% 的“数据和分析项目”能够完成?

不幸的是,我们对这一论点的来源一无所知。也许只是《CIO Dive》杂志文章出于某种目的而捏出来的一个数字,或许是作者忘记指出对其它最终详细评定 87% 数据科学项目失败的文章的引用。

尽管十个机器学习项目中完全有可能失败九个,但对此做出一个可靠的衡量是几乎不可能得,甚至“失败”或“投产”也是无法准确定义的。首当其冲,我们应如何准确定义机器学习模型的投产?

如果使用 FastAPI 等提供了单一的 API 端点服务,就能说项目投产了吗?是否还需要建立完整的 CI/CD/CT 流水线和监控?更重要的是,有些项目并不需要也没有计划去部署到生产环节中,这是否也会被视为失败?

查无实据,我也毫无头绪,略为失望。

应该如何阐释?

小结

有位首席数据科学家于 2017 年受邀在《CIO Dive》杂志发表了一个“观点”,指出“只有 13% 的数据和分析项目完工”。这一神奇数字没有来源,也没有指出研究论文出处,具体出处的相关信息为零。

此后,该文由 IBM 数据科学和人工智能 CTO 和全球领导人物 Deborah Leff 在 Transform 2019 大会小组讨论中提及。她说:“我认为《CIO Dive》杂志指出,只有 13% 的项目最终实际投产。”

然后,VentureBeat 在介绍 VentureBeat Transform 2019 大会小组讨论情况的软文中引用了这一数字,尽管文章中甚至没有提供视频录像的链接。那么随后发生了什么?

数以百计的机器学习和 MLOps 资源引用了同一文章,同一信息,即“87% 的数据科学项目从未投产”,以此作为推销自己工具和产品的依据。

这种未经证实的信息这么容易传播,尤其是在严重依赖研究并非常接近研发和学术环境的社区中,这非常令人失望。

类似论点对于 MLOps 有何意义?可能毫无意义,但我们仍然需要这样的数字。但依据一篇主观论断的文章中提出的神奇数字,并以此为论点去构建社区、各种工具和多家初创公司,这无疑令人震惊。

原文链接:

https://mtszkw.medium.com/is-mlops-built-upon-a-lie-8282948b41ae

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

3a1534373ffa26c3eb9b42a4177cc208.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483543.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Intel格式与Motorola格式的区别

Intel低字节在前Motorola高字节在前 在进行CAN总线通信设计或者测试过程中,经常看到CAN总线信号的编码格式有两种定义:Intel格式与Motorola格式。究竟两种编码格式有什么样的区别呢?设计者、dbc文件编辑者或者测试人员又该如何判断两种格式,并进行有效正…

【计算机网络复习 物理层】2.2 物理传输介质

物理传输介质一、传输介质及分类1.1 导向性传输介质1.1.1 双绞线1.1.2 同轴电缆1.1.3 光纤1.2 非导向性传输介质一、传输介质及分类 传输介质也称为传输媒体/传输媒介,它就是数据传输系统中在发送设备和接收设备之间的物理通路。 **传输介质并不是物理层。**传输介…

前沿科技 | 中科院科学家在关于运动规划的环路机制研究方面获进展

来源:中国科学院网站今年5月11日,Nature Communications在线发表了题为《皮层上丘环路在记忆依赖感知决策任务中的作用机制》的研究论文,该研究由中国科学院科学家团队——脑科学与智能技术卓越创新中心(神经科学研究所&#xff0…

MyCP(课下作业,必做)

选做题目以及分析 题目:编写MyCP.java 实现类似Linux下cp XXX1 XXX2的功能,要求MyCP支持两个参数: java MyCP -tx XXX1.txt XXX2.bin 用来把文本文件(内容为十进制数字)转化为二进制文件java MyCP -xt XXX1.bin XXX2.t…

一文讲解单片机、ARM、MCU、DSP、FPGA、嵌入式错综复杂的关系!

来源: ittbank首先,“嵌入式”这是个概念,准确的定义没有,各个书上都有各自的定义。但是主要思想是一样的,就是相比较PC机这种通用系统来说,嵌入式系统是个专用系统,结构精简,在硬件和软件上都只…

【计算机网络复习 物理层】2.3 物理层设备

物理层设备一、中继器二、集线器(多口中继器)一、中继器 诞生原因: 由于存在损耗,在线路上传输的信号功率会逐渐衰减,衰减到一定程度时将造成信号失真,因此会导致接收错误。 中继器的功能:对信…

Tomcat关闭失败,SEVERE: Could not contact localhost:8005. Tomcat may not be running.

SEVERE: Could not contact localhost:8005. Tomcat may not be running. Tomcat 启动后,关闭失败,显示以下 进入 java 的安装目目录下的 jdk/jre/lib/security 目录 修改 “java.security” 文件 vi java.security通过vim 命令 “ /securerandom.sourc…

Gartner发布2022年重要战略技术趋势

来源:Gartner公司Gartner于今日发布企业机构在2022年需要探索的重要战略技术趋势。分析师们在本周四举行的Gartner IT Symposium/Xpo峰会美洲站期间公布了他们的研究结果。Gartner研究副总裁David Groombridge表示:“首席执行官和董事会正在设法通过与客…

爬虫 --通用篇

概述 爬虫是合法的吗? 是的,它是一个计算机的学科!一个工具 什么是爬虫? 通过编写程序,模拟浏览器上网,然后让其去互联网上爬取/获取数据的过程.爬虫爬取的也就是服务端的响应数据 爬虫使用场景的分类 - 通用爬虫 : 爬取一整张页面数据."抓取系统" - 聚焦爬虫 : 爬…

【计算机网络复习 数据链路层】3.2 封装成帧和透明传输

封装成帧和透明传输一、封装成帧二、透明传输一、封装成帧 封装成帧就是在一段数据的前后部分添加首部和尾部,这样就构成了一个帧。接收端在收到物理层上交的比特流后,就能根据首部和尾部的标记,从收到的比特流中识别帧的开始和结束。 首部…

新一代人工智能:从“感知智能”向“认知智能”转化

来源:光明网 《光明日报》( 2021年05月25日 09版)新一代人工智能正在逐步从感知智能向认知智能转化——这是全国政协副主席、中国科协主席万钢在第五届世界智能大会上作出的判断。“感知智能是机器具备了视觉、听觉、触觉等感知能力&#xf…

迷宫城堡 强连通

Problem Description为了训练小希的方向感&#xff0c;Gardon建立了一座大城堡&#xff0c;里面有N个房间(N<10000)和M条通道(M<100000)&#xff0c;每个通道都是单向的&#xff0c;就是说若称某通道连通了A房间和B房间&#xff0c;只说明可以通过这个通道由A房间到达B房…

【计算机网络复习 数据链路层】3.3.1 差错控制(检错编码)

差错控制&#xff08;检错编码&#xff09;一、差错从何而来&#xff1f;二、数据链路层的差错控制2.1 奇偶校验码2.2 CRC循环冗余码一、差错从何而来&#xff1f; 概括来说&#xff0c;传输中的差错都是由于噪声引起的。 全局性&#xff1a;由于线路本身电气特性所产生的随机…

从“元宇宙”热炒中理性看待我国虚拟现实产业发展

来源&#xff1a;工信头条作者&#xff1a;袁钰&#xff08;赛迪顾问、电子信息产业研究中心、分析师&#xff09;2021年4月以来&#xff0c;元宇宙概念大热&#xff0c;国内外巨头企业围绕“元宇宙”加快布局&#xff0c;作为元宇宙核心技术之一的虚拟现实也被寄予厚望。经数据…

2018-2019-2 网络对抗技术 20165332 Exp6 信息搜集与漏洞扫描

2018-2019-2 网络对抗技术 20165332 Exp6 信息搜集与漏洞扫描 基础问题回答 基础问题回答 &#xff08;1&#xff09;哪些组织负责DNS&#xff0c;IP的管理。 答&#xff1a;目前全球有5个地区性注册机构&#xff1a; ARIN主要负责北美地区业务 RIPE主要负责欧洲地区业务 APNIC…

【计算机网络复习 数据链路层】3.3.2 差错控制(纠错编码)

差错控制&#xff08;纠错编码&#xff09;一、海明码1.1 确定校验码位数r1.2 确定校验码和数据的位置1.3 求出校验码的值1.4 检错并纠错一、海明码 **海明码&#xff1a;**发现双比特错&#xff0c;纠正单比特错。 1.1 确定校验码位数r 海明不等式&#xff1a; r 为冗余信…

Nature封面重磅!剑桥大学团队揭开老年痴呆背后的罪魁祸首

来源&#xff1a;naturetau蛋白异常是老年痴呆症的重要病因。英国剑桥大学Sjors H. W. Scheres、Michel Goedert等研究人员在Nature上发文&#xff0c;基于不同的蛋白折叠结构对「tau蛋白病」进行分类&#xff0c;荣登Nature封面。听说过阿尔茨海默病吗&#xff1f;没有。老年痴…

速度比晶体管快1000倍,新型单光子开关登上Nature

来源&#xff1a;机器之心作者&#xff1a;CHARLES Q. CHOI一种新型光学开关每秒钟的运行次数达到 1 万亿次&#xff0c;要比现在商用的顶级硅芯片快100到1000倍&#xff0c;这项研究未来或许可以催生出基于光而不是电的新一代计算机。在如今人们应用最为广泛的计算机架构中&am…

【计算机网络复习 数据链路层】3.4.1 流量控制与可靠传输机制

流量控制与可靠传输机制一、数据链路层的流量控制二、流量控制的方法三、可靠传输、滑动窗口、流量控制一、数据链路层的流量控制 较高的发送速度和较低的接收能力不匹配&#xff0c;会造成传输出错&#xff0c;因此流量控制也是数据链路层的一项重要工作。 数据链路层的流量…

linux的驱动开发——简单驱动程序编写

1.字符设备驱动介绍 \qquad字符设备驱动是linux驱动中&#xff0c;最基本的一类设备驱动&#xff0c;字符设备就是按照一个字节一个字节的方式进行读写操作的设备。读写数据分先后顺序&#xff0c;我们常见的单片机外设&#xff0c;比如led灯、按键、I2C、SPI、LCD等等都属于字…