吴恩达:机器学习应以数据为中心

源 | 新智元

今天是吴恩达45岁生日。他是国际最权威的ML学者之一,学生遍布世界各地。在最近的一期线上课程中,吴恩达提出了以模型为中心向以数据为中心的AI。

吴恩达发推称,「大家为自己送上最好的礼物就是,观看这个视频观看并提出自己的见解。让大家的工作从以模型为中心向以数据为中心的AI转变。」

在这个视频中,吴恩达提出了著名二八定律:80%的数据+20%的模型=更好的AI。

他是斯坦福大学计算机科学系和电子工程系副教授,还是在线教育平台Coursera的联合创始人。

是当今人工智能和机器学习领域国际最权威的学者之一,学生遍布世界各地。

谢谢他带给我们的礼物,也感谢他为机器学习领域做出的贡献!

二八定律:80%的数据+20%的模型=更好的机器学习

机器学习操作(MLOps)——从以模型为中心到以数据为中心的AI这一课程上线的第一天,就引来了全球近3万人的观看。

吴恩达开场的第一句话就深入人心:

AI = Data + Code

他表示,「如果我们80%的工作是数据准备,那么确保数据质量是机器学习团队的重要工作。」

机器学习的进步是模型带来的还是数据带来的,这可能是一个世纪辩题。

吴恩达对此的想法是,一个机器学习团队80%的工作应该放在数据准备上,确保数据质量是最重要的工作,每个人都知道应该如此做,但没人在乎。如果更多地强调以数据为中心而不是以模型为中心,那么机器学习的发展会更快。

机器学习的进步很大程度上归功于团队下载模型并试图在标准基准数据集上做得更好。所以他们大部分的时间都花在了改进代码,模型或算法上。

机器学习的进步一直是由提高基准数据集性能的努力所推动的。研究人员的常见做法是在尝试改进代码的同时保持数据固定。但是,当数据集大小适中(<10,000个示例)时,如果数据集良好,则ML(Machine Learning)的团队将取得更快的进步。

所以对于很多问题,我们应该做的不仅是改进代码,而且应该将思维方式转向如何创造出一种更系统的方式来改进数据,这才是很有用的。

吴恩达(Andrew Ng)认为如果更多地强调以数据为中心而不是以模型为中心,那么机器学习将快速发展。

传统软件是由代码提供动力,而AI系统是同时使用代码(模型+算法)和数据构建的。

当系统运行不正常时,许多团队会本能地尝试改进代码。但是对于许多实际应用而言,集中精力改善数据会更有效。

吴恩达(Andrew Ng)提到每个人都应对ML做出80%的数据准备。

小编快速浏览了一下arxiv,了解到ML研究的方向现在围绕基准测试展开了前所未有的竞争,所以我们更应该充分做好数据准备,争取在竞争中脱颖而出。

我们都知道Google具有BERT,则OpenAI具有GPT-3。但是,这些神奇的模型仅解决了业务问题的20%。

良好部署的不同之处就在于数据的质量。每个人都可以使用经过预先训练的模型或许可的API。

根据剑桥研究人员所做的一项研究,最重要的但却经常被忽略的问题就是数据分散。

当数据从不同的源流式传输时会出现问题,这些源可能具有不同的架构,不同的约定及其存储和访问数据的方式。

现在,这对于ML工程师来说是一个繁琐的过程,因为需要他们将信息组合成适合机器学习的单个数据集,较大的数据量可能还会使标记变得困难。

MLOps是什么?

MLOps,即Machine Learning和Operations的组合,是ModelOps的子集。

它是数据科学家与操作专业人员之间进行协作和交流以帮助管理机器学习任务生命周期的一种实践。

与DevOps或DataOps方法类似,MLOps希望提高自动化程度并提高生产ML的质量,同时还要关注业务和法规要求。

互联网公司通常用有大量的数据,而如果在缺少数据的应用场景中进行部署AI时,例如农业场景,你不能指望自己有一百万台拖拉机为自己收集数据。

视频地址:
https://www.youtube.com/watch?v=06-AZXmwHjo

基于MLOps,吴恩达也提出几点建议:

  1. MLOps的最重要任务是提供高质量数据。

  2. 标签的一致性也很重要。检验标签是否有自己所管辖的明确界限,即使标签的定义是好的,缺乏一致性也会导致模型效果不佳。

  3. 系统地改善baseline模型上的数据质量要比追求具有低质量数据的最新模型要好。

  4. 如果训练期间出现错误,那么应当采取以数据为中心的方法。

  5. 如果以数据为中心,对于较小的数据集(<10,000个样本),则数据容量上存在很大的改进空间。

  6. 当使用较小的数据集时,提高数据质量的工具和服务至关重要。

一致性的数据定义,涵盖所有边界情况,从生产数据中得到及时的反馈,数据集大小合适。

吴恩达同时建议不要指望工程师去尝试改善数据集。相反,他希望ML社区开发更多MLOps工具,以帮助产生高质量的数据集和AI系统,并使他们具有可重复性。除此之外,MLOps是一个新生领域,MLOps团队的最重要目标应该是确保整个项目各个阶段的高质量和一致的数据流。

在线教育平台Coursera上市,吴恩达身价超4亿美元

值得关注的是,3月31日,在线教育平台Coursera以超过40亿美元的估值首次公开募股(IPO)。吴恩达身价超4亿美元。

Coursera由斯坦福大学计算机科学系教授Daphne Koller和吴恩达于2012年创办。

吴恩达的理想是让世界上每个人能够接受高质量的免费教育。

没想到的是,吴恩达74岁的父亲Ronald Paul Ng在过去八年的时间里一直在使用自己儿子创办的在线学习平台Coursera,他是儿子最有力的支持者!

吴老在Coursera上报名参加的第一门课程名为《模型思维》(Model Thinking),这是密歇根大学(University of Michigan)的一门基于逻辑的在线课程。他甚至还上过自己儿子的课程:吴恩达的深度学习AI课程。

吴老不仅是Coursera的第一批学生,他还立志要终身学习!

吴恩达曾经还有一次为自己的父亲学完了Coursera上面的146门课发了推特表示庆祝。

所以吴恩达为什么会创办在线教育平台Coursera呢?

这是因为多年前,吴恩达收到一本父亲在1980年写的有关机器学习诊断肝脏疾病的论文副本,吴恩达备受鼓舞,他想进一步将机器学习与医疗等行业结合起来,因此创办了Coursera。

Coursera旨在同世界顶尖大学合作,在线提供网络公开课程。Coursera的首批合作院校包括斯坦福大学、密歇根大学、普林斯顿大学、宾夕法尼亚大学等美国名校,还有很多世界上非常有名大学与企业与Coursera纷纷合作。

Coursera作为MOOC(大型开放式网络课程)中的领头羊,在创立后三年就拥有了160多名员工,由原耶鲁校长担任CEO,Coursera的使命就是让所有人最便捷的获取世界最优质的教育机会,“Universal Access to the World's Best Education”。

小编也经常在Coursera上面看国外知名大学的网课,真的受益匪浅!看来Coursera成功上市也是志在必得!

现在Coursera的股票差不多45美金/股,你们会买吗?

寻求报道、约稿、文案投放:
添加微信xixiaoyao-1,备注“商务合作”

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

 

[1]https://www.163.com/dy/article/FP2LTNA90511831M.html

[2]https://twitter.com/AndrewYNg/status/1383461008920891397

[3]https://analyticsindiamag.com/big-data-to-good-data-andrew-ng-urges-ml-community-to-be-more-data-centric-and-less-model-centric/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478618.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何开发小程序开发者工具?

最近集团内部在自研小程序&#xff0c;我负责小程序开发者工具的调试部分。经过一段时间的探索&#xff0c;摸索出不少经过实际检验的可行手段。接下来将会用几篇文章总结一下思路。 文章的内容主要会分为以下几部分&#xff1a; 如何建立逻辑层运行时容器&#xff08;两种方…

美团点评基于Storm的实时数据处理实践

背景 目前美团点评已累计了丰富的线上交易与用户行为数据&#xff0c;为商家赋能需要我们有更强大的专业化数据加工能力&#xff0c;来帮助商家做出正确的决策从而提高用户体验。目前商家端产品在数据应用上主要基于离线数据加工&#xff0c;数据生产调度以“T1”为主&#xff…

会议交流 | 大规模知识图谱的构建及应用分享

本文转载自公众号&#xff1a;DataFunTalk。论坛出品&#xff1a;张伟 阿里巴巴 资深算法专家分享时间&#xff1a;12月19日&#xff0c;9:00-12:00导读&#xff1a;12月19日&#xff0c;9&#xff1a;00-12&#xff1a;00。在DataFunTalk年终大会上&#xff0c;由阿里巴巴资深…

机器翻译小记

神经网络翻译面临的挑战

赛尔原创 | N-LTP:基于预训练模型的中文自然语言处理平台

论文名称&#xff1a;N-LTP: A Open-source Neural Chinese Language Technology Platform with Pretrained Models论文作者&#xff1a;车万翔&#xff0c;冯云龙&#xff0c;覃立波&#xff0c;刘挺原创作者&#xff1a;冯云龙论文链接&#xff1a;https://arxiv.org/abs/200…

LeetCode 49. 字母异位词分组(哈希)

1. 题目 给定一个字符串数组&#xff0c;将字母异位词组合在一起。字母异位词指字母相同&#xff0c;但排列不同的字符串。 示例:输入: ["eat", "tea", "tan", "ate", "nat", "bat"], 输出: [["ate",…

论文浅尝 - SWJ | 基于知识图谱和注意力图卷积神经网络的可解释零样本学习

论文题目&#xff1a;Explainable Zero-shot Learning via Attentive Graph Convolutional Network and Knowledge Graphs本文作者&#xff1a;耿玉霞&#xff0c;浙江大学在读博士&#xff0c;研究方向为知识图谱、零样本学习、可解释性发表期刊&#xff1a;Semantic Web Jour…

LeetCode 3. 无重复字符的最长子串(滑动窗口+哈希)

1. 题目 给定一个字符串&#xff0c;请你找出其中不含有重复字符的 最长子串 的长度。 示例 1: 输入: "abcabcbb" 输出: 3 解释: 因为无重复字符的最长子串是 "abc"&#xff0c;所以其长度为 3。示例 2: 输入: "bbbbb" 输出: 1 解释: 因为无重…

安装kenlm出现问题的解决方案gcc g++

安装kenlm出现问题的解决方案 apt-get install gcc apt-get install g参考文章&#xff1a;gcc: error trying to exec ‘cc1plus’: execvp: No such file or directory

论文浅尝 - TACL2020 | 改进低资源跨语言实体链接的候选生成问题

论文笔记整理&#xff1a;谭亦鸣&#xff0c;东南大学博士。来源&#xff1a;TACL 2020链接&#xff1a;https://arxiv.org/ftp/arxiv/papers/2003/2003.01343.pdf1.背景介绍跨语言实体链接(Cross-lingual Entity Linking, XEL)旨在利用源语言文本中实体描述(提及)&#xff0c;…

卫星系统——酒店后端全链路日志收集工具介绍

背景 随着酒店业务的高速发展&#xff0c;我们为用户、商家提供的服务越来越精细&#xff0c;系统服务化程度、复杂度也逐渐上升。微服务化虽然能够很好地解决问题&#xff0c;但也有副作用&#xff0c;比如&#xff0c;问题定位。 每次问题定位都需要从源头开始找同事帮我人肉…

拖拽式Vue组件代码生成平台(LCG)新版详细介绍

拖拽式Vue组件代码生成平台是一款小猴自研的Vue代码生成工具&#xff0c;英文全称&#xff1a;Low Code Generator&#xff0c;简称LCG。它也是一种LowCode解决方案。通过它可以快速完成Vue组件的代码骨架搭建&#xff0c;通过减少不必要的重复工作从而带来开发效率的提升。 体…

ImportError: libgthread-2.0.so.0: cannot open shared object file: No such file or directory

apt-get update apt-get install libglib2.0-dev系统&#xff1a;ubuntu16.04

LeetCode 454. 四数相加 II(哈希)

1. 题目 给定四个包含整数的数组列表 A , B , C , D ,计算有多少个元组 (i, j, k, l) &#xff0c;使得 A[i] B[j] C[k] D[l] 0。 为了使问题简单化&#xff0c;所有的 A, B, C, D 具有相同的长度 N&#xff0c;且 0 ≤ N ≤ 500 。所有整数的范围在 -228 到 228 - 1 之间…

论文浅尝 - AAAI2020 | 多轮对话系统中的历史自适应知识融合机制

论文笔记整理&#xff1a;潘锐&#xff0c;天津大学硕士。链接&#xff1a;https://www.aaai.org/ojs/index.php/AAAI/article/view/6425来 源&#xff1a;AAAI 2020论文简介保持对话的一致性和避免内容重复是构建以知识为基础的多轮对话系统的两个关键因素。尽管一些工作倾…

高性能平台设计—美团旅行结算平台实践

本文根据第23期美团技术沙龙演讲内容整理而成。 背景 美团酒旅有很多条业务线&#xff0c;例如酒店、门票、火车票等等&#xff0c;每种业务都有结算诉求&#xff0c;而结算处于整个交易的最后一环不可缺少&#xff0c;因此我们将结算平台化&#xff0c;来满足业务的结算诉求。…

小程序调试技术导读

近期团队内在自研小程序&#xff0c;我负责开发者工具中的调试部分。调试作为面向开发者的基础能力&#xff0c;扮演了极为重要的角色。 本篇文章是导读文章。 调试能力从0到1一共经历了4个版本&#xff0c;接下来的文章将会以这4个版本为主线分别进行介绍。 初始版 上图为调试…

可交互的 Attention 可视化工具!我的Transformer可解释性有救了?

文 | Sherry视觉是人和动物最重要的感觉&#xff0c;至少有80%以上的外界信息是经过视觉获得的。我们看论文的时候&#xff0c;通过图表来确定文章的大致内容往往也是一个更高效的 说到深度神经网络的可视化&#xff0c;最经典的莫过于的CNN密恐图了&#xff1a;这种可视化方法…

ImportError: libSM.so.6: cannot open shared object file: No such file or dir

ImportError: libSM.so.6: cannot open shared object file: No such file or dir 出现错误&#xff1a; ImportError: libSM.so.6: cannot open shared object file: No such file or dir 解决方法&#xff1a; apt-get install libsm6如果你出现了上面的错误&#xff0c;那…

LeetCode 347. 前 K 个高频元素(哈希/优先队列)

文章目录1. 题目2. 解题2.1 哈希2.2 优先队列1. 题目 给定一个非空的整数数组&#xff0c;返回其中出现频率前 k 高的元素。 示例 1: 输入: nums [1,1,1,2,2,3], k 2 输出: [1,2]示例 2: 输入: nums [1], k 1 输出: [1] 说明&#xff1a; 你可以假设给定的 k 总是合理的&…