吴恩达发起新型竞赛范式!模型固定,只调数据?!

文 | 小戏

打开 Kaggle ,琳琅满目的比赛让人目不暇接,研究的领域更是五花八门,从农林牧渔到衣食住行,似乎只要有数据,不论数据好坏,就可以直接使用各种机器学习的模型在其身上大展拳脚,从逻辑回归到 SVM,从决策树到 XGBoost,换着模型套用在数据上重复实验,最后再加上集成学习的方法就可以取得不错的结果。

这样的现状往往让人们产生一种错觉,所谓 AI 其实质上指的就是那些基于复杂数学原理构造的不同模型,只要将这些模型的数学原理拿支笔细细推导一番,现实生活中的一切问题便都可以被这些模型所解决。

然而事实上,机器学习的算法代码只是整个 AI 流水线中的小小一环,我们往往开玩笑的说道我们的工作 80% 都是在做数据预处理的工作,事实在某种程度上也确是如此,一个 AI 项目一般而言由四个步骤组成:项目分析——数据收集——模型训练——项目部署。应用与改造各种模型的工作只存在于第三步,但现阶段无论是研究还是比赛,往往都是给定一个数据集,让研究员或参赛者不断改进模型不断迭代以达到预期的效果。而面对模型准确率的瓶颈,唯一的黄金法则却只是增大数据的量级。

在这个背景下,近日,我们熟悉的吴恩达老师发起了一个以数据为中心的 AI 竞赛( Data-Centric AI competition ),区别于传统的以模型为中心的比赛( Model-Centric AI competition )不断改进模型以提升准确率的方法,这项比赛通过给定模型的方式,要求参赛者通过不断改进数据以获得更好的成绩。

具体而言,这项比赛给予参赛者一个包含约 3000 张手写罗马数字 1-10 的图像数据集,在使用 ResNet50 模型的基础上,要求参赛者应用以数据为中心的方法对数据集进行改进以提升分类的准确率,其主要手段有应用数据增强、修复不正确的标签、新增体现边缘特征的样本等等

吴恩达老师指出,就目前来看,许多应用的模型与相应的代码实现其实是一个已经被解决了的问题。但是与一套已经成熟的可以应用到工业界的算法体系相比,现在更加缺少的也许是一套成熟的构建工业化数据集的方法论。而另一方面,尽管增加数据是目前提升模型性能的不二法门,但是根据调查,大多数的现实应用的数据量级往往是集中在 10000 上下,在小规模数据的情况下,数据质量的重要性将会更加凸显

从一个简单的小例子来看,当一个小数据集存在错误标签时,模型很难给出一个正确的输出,当增加数据量级时,错误标签带来的影响将会被削弱,模型有可能从大规模数据中得出正确的分类结果。但如果我们转换思路,如果我们对小数据集的错误标签进行处理,得到一个非常“干净”的数据集,那么我们将同样有可能得到正确的分类结果

从某种意义上讲,这种以数据为中心的方法的提出,完成了一次机器学习领域的“哥白尼倒转”,过去我们会认为在研究与比赛中应该模型绕着数据转,但现在一种数据绕着模型转的方法未尝不能以更有效率的方式做到同样的事情。然而可惜的是,在目前关于如何取获得“质量更好”而非“数量更多”的数据尚无一种统一的方法论去处理,甚至有质疑者如图灵奖得主 Judea Pearl 教授认为在不知道什么是质量更好的数据的基础上提升数据质量是不太现实的。但从某种程度上讲,这也是吴恩达老师举办这场比赛的原因之一。

目前,吴恩达老师的思路集中在借鉴 MLOps(机器学习操作)的思维框架之上。MLOps 是将 DevOps 原则应用于机器学习系统开发过程的实践,为缩短模型开发部署的迭代周期,MLOps 在一个机器学习系统从发布到规划部署的全部阶段应用自动化的流程连接模型构建、业务与运维团队,从而使得企业更加高效的应用机器学习系统。

针对以数据为中心的任务,首先使用固定模型对数据进行训练,针对结果进行错误分析,识别出模型处理不当的数据类型,再通过诸如数据增强、错误标签修复等方法增强数据,再进入模型之中反复持续改进。吴恩达老师希望以数据为中心的方法结合新的 MLOps 工具可以使得机器学习系统的构建更具高效性与系统性,并最终形成一个贯穿整个 AI 生命周期的工具集合。

这项由 DeepLearning AILanding AI 之间的合办的竞赛一直持续到美国时间2021年9月4日下午6点(北京时间9月5日上午10点),有兴趣的小伙伴可以注册 CodaLab Worksheets 帐户提交你所改进的数据集加入竞赛排行榜,比赛将从整体表现创新性两个维度进行评分,两项评分各自的前三名可以获得与吴恩达老师一起参加活动并共同讨论以数据为中心的方法的发展与未来的机会哦,以下是吴恩达老师的推特与竞赛官方网址~

Twitter:
https://twitter.com/AndrewYNg/status/1405622853735649284
项目主页:
https://https-deeplearning-ai.github.io/data-centric-comp/

萌屋作者:小戏

边学语言学边学NLP~

作品推荐

  1. 千呼万唤始出来——GPT-3终于开源!

  2. Linux 程 序 员 失 业 警 告

  3. NLP哪个细分方向最具社会价值?

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

 

[1].Andrew Ng Launches A Campaign For Data-Centric AI
https://www.forbes.com/sites/gilpress/2021/06/16/andrew-ng-launches-a-campaign-for-data-centric-ai/

[2].MLOps: Continuous delivery and automation pipelines in machine learning
https://cloud.google.com/architecture/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning

[3]. A Chat with Andrew on MLOps: From Model-centric to Data-centric AI
https://www.youtube.com/watch?v=06-AZXmwHjo

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478401.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文小综 | 文档级关系抽取方法(下)

本文作者:陈想,浙江大学在读博士,研究方向为自然语言处理张宁豫,浙江大学助理研究员,研究方向为自然语言处理、知识表示与推理这篇推文是文档级关系抽取方法的第二部分,前面的部分请移步推文“论文小综 | 文…

LeetCode 128. 最长连续序列(哈希set)

1. 题目 给定一个未排序的整数数组,找出最长连续序列的长度。 要求算法的时间复杂度为 O(n)。 示例:输入: [100, 4, 200, 1, 3, 2] 输出: 4 解释: 最长连续序列是 [1, 2, 3, 4]。它的长度为 4。来源:力扣(LeetCode) 链接&#…

清华姚班教师劝退文:读博,你真的想好了吗?

文 | 张焕晨编 | 琰琰源 | AI科技评论先简单介绍一下我的背景。我本科在University of Wisconsin-Madison,然后去CMU念了个PhD,主要研究数据库方向。目前回国在清华IIIS(姚班)做助理教授,并且 cofound 了Singularity D…

纠删码存储系统中的投机性部分写技术

本文已被USENIX’17年度技术大会录用,此处为中文简译版。 阅读英文论文完整版请点击:Speculative Partial Writes in Erasure-Coded Systems 多副本和纠删码(EC,Erasure Code)是存储系统中常见的两种数据可靠性方法。与…

论文浅尝 - EMNLP | 通过元强化学习实现少样本复杂知识库问答

笔记整理 | 谭亦鸣,东南大学博士生来源:EMNLP 2020链接:https://www.aclweb.org/anthology/2020.emnlp-main.469.pdf本文关注聚合型复杂知识图谱问答任务,这类复杂问题的答案通常需要经过一些集合操作得到,例如&#x…

写了一篇关于 NLP 综述的综述!

文 | 小轶综述,往往是了解一个子领域最为高效的起点。然而,对于AI这样一个日新月异高速发展的行业,时效性也自然地成为了我们选择综述的衡量指标之一。即使一篇 AI 综述具有超高 citation,如果它写于 20 年前,那对今天…

美团点评容器平台HULK的调度系统

本文是美团点评基础架构系列文章之一。这个系列将全面介绍支撑数亿用户、超千万日订单的美团点评平台诸多业务的公共基础架构相关技术。系列已经发布的文章包括: - 《分布式会话跟踪系统架构设计与实践》 - 《Leaf——美团点评分布式ID生成系统》 - 《深度剖析开源分…

论文浅尝 | 利用跨内和跨间信息的预训练实体关系编码器

笔记整理 | 朱珈徵,天津大学硕士链接:https://www.aclweb.org/anthology/2020.emnlp-main.132.pdf动机从自由文本中提取实体和关系是自然语言处理中的一项重要任务。它的目标是识别具有特定类型(实体)和这些实体(关系)之间的语义关系的文本。本文主要研究…

python的环境变量设置

程序和可执行文件可以在许多目录,而这些路径很可能不在操作系统提供可执行文件的搜索路径中。 path(路径)存储在环境变量中,这是由操作系统维护的一个命名的字符串。这些变量包含可用的命令行解释器和其他程序的信息。 Unix 或 Windows 中路径变量为 P…

LeetCode 76. 最小覆盖子串(滑动窗口)

1. 题目 给你一个字符串 S、一个字符串 T,请在字符串 S 里面找出:包含 T 所有字母的最小子串。 示例: 输入: S "ADOBECODEBANC", T "ABC" 输出: "BANC"说明: 如果 S 中不存这样的子串&#xff…

推荐一个可交互的 Attention 可视化工具!我的Transformer可解释性有救啦?

本文首发于微信公众号”夕小瑶的卖萌屋“文 | Sherry源 | 夕小瑶的卖萌屋视觉是人和动物最重要的感觉,至少有80%以上的外界信息是经过视觉获得的。我们看论文的时候,通过图表来确定文章的大致内容往往也是一个更高效的 说到深度神经网络的可视化&#xf…

机器学习中模型优化不得不思考的几个问题

本文根据美团点评算法工程师胡淏4月22日在“携程技术沙龙”上的分享整理而成。文字综合了“携程技术中心”微信公众号的版本和胡淏本人在微博上发表的文章,并有少量编辑加工。 图1 机器学习工程师的知识图谱 图1列出了我认为一个成功的机器学习工程师需要关注和积累…

【美团语音交互部】 NLP/知识图谱/语音识别等算法职位开放招聘!

致力于连接最靠谱的算法岗与最强的求职者招聘贴投放请联系微信xixiaoyao-1部门介绍:语音交互部负责美团语音和智能交互技术及产品研发,面向美团业务和生态伙伴,提供对语音和口语数据的大规模处理及智能响应能力。团队以建设业界一流的语音交互…

LeetCode 289. 生命游戏(位运算)

文章目录1. 题目2. 解题2.1 复制数组解法2.2 原地解法2.3 位运算1. 题目 链接&#xff1a;289. 生命游戏 2. 解题 2.1 复制数组解法 很简单&#xff0c;按照题意模拟即可 class Solution { public:void gameOfLife(vector<vector<int>>& board) {if(board…

论文浅尝 | S3QLRDF: 用于大规模RDF数据分布式SPARQL查询的关系分割架构

笔记整理 | 孙磊&#xff0c;天津大学硕士。动机RDF形式的语义网的繁荣对高效、可伸缩以及分布式的存储和高可用和容错并行策略都有着要求。RDF数据的飞速增长提升了在分布式数据管理系统上高效划分策略的需求来提升SPARQL查询性能。亮点本文提出了新的用于RDF的关系分割架构Pr…

美团DSP广告策略实践

近年来&#xff0c;在线广告在整个广告行业的比重越来越高。在线广告中实时竞价的广告由于其良好的转化效果&#xff0c;占有的比重逐年升高。DSP&#xff08;Demand-Side Platform&#xff09;[1]作为需求方平台&#xff0c;通过广告交易平台&#xff08;AdExchange&#xff0…

推荐几个出论文的好方向

如果你准备发AI方向的论文&#xff0c;或准备从事科研工作或已在企业中担任AI算法岗的工作。那么我真诚的向大家推荐&#xff0c;贪心学院《高阶机器学习研修班》&#xff0c;目前全网上应该找不到类似体系化的课程。课程精选了四大主题进行深入的剖析讲解&#xff0c;四个模块…

LeetCode 414. 第三大的数

1. 题目 给定一个非空数组&#xff0c;返回此数组中第三大的数。如果不存在&#xff0c;则返回数组中最大的数。要求算法时间复杂度必须是O(n)。 示例 1: 输入: [3, 2, 1] 输出: 1 解释: 第三大的数是 1.示例 2: 输入: [1, 2] 输出: 2 解释: 第三大的数不存在, 所以返回最大的…

论文浅尝 - ICLR2021 | BERTology 遇上生物学:在蛋白质语言模型中解释注意力

来源&#xff1a;ICLR2021链接&#xff1a;https://arxiv.org/abs/2006.15222v3一.动机Transformer架构已经被证明可以学习有用的蛋白质分类和生成任务表示。然而&#xff0c;在可解释性方面存在挑战。二.亮点本文通过attention分析蛋白质Transformer模型&#xff0c;通过atten…

Vuex框架原理与源码分析

Vuex是一个专为Vue服务&#xff0c;用于管理页面数据状态、提供统一数据操作的生态系统。它集中于MVC模式中的Model层&#xff0c;规定所有的数据操作必须通过 action - mutation - state change 的流程来进行&#xff0c;再结合Vue的数据视图双向绑定特性来实现页面的展示更新…