3 个问题:MIT专家论述关于阻碍AutoML发展的障碍

4a2a5a88adadb4debc0257589fd1d43b.png

来源:ScienceAI

编译:萝卜皮

研究人员希望更多用户友好的机器学习系统将使非专家能够分析大数据——但这样的系统能完全自主吗?

麻省理工学院计算机科学家 Kalyan Veeramachaneni 分享了他对自动化机器学习 (AutoML)现状、创建全自动机器学习系统的挑战以及未来道路的看法。

3ef7ac4cb8bbf27b96344b0cf4236d85.png

Kalyan Veeramachaneni

从银行业到医疗保健再到环境监测,跨领域大数据的激增刺激了对机器学习工具的需求不断增长,这些工具可帮助组织根据收集到的数据做出决策。

不断增长的行业需求促使研究人员探索自动化机器学习的可能性,该技术旨在自动化机器学习解决方案的开发,以使非专家可以使用它们,提高他们的效率,并加速机器学习研究。例如,AutoML 系统可帮助医生利用他们的专业知识来解释脑电图(EEG)结果来构建一个模型,该模型可以预测哪些患者患癫痫的风险更高——而无需医生具有数据科学背景。

然而,尽管进行了十多年的工作,研究人员仍无法完全自动化机器学习开发过程中的所有步骤。即使是最高效的商业 AutoML 系统仍然需要在领域专家(如营销经理或机械工程师)和数据科学家之间进行长时间的来回交流,从而使流程效率低下。

Kalyan Veeramachaneni 是麻省理工学院信息与决策系统实验室的首席研究科学家,自 2010 年以来一直在研究 AutoML,他在 ACM Computing Surveys 杂志上合著了一篇论文,详细介绍了一个七层示意图,用于根据 AutoML 工具的自主级别来评估它们。

5f2b39e6becea277cbcd1dd97149f880.png

论文链接:

https://dl.acm.org/doi/10.1145/3470918

零级系统没有自动化,需要数据科学家从头开始并手工构建模型,而六级工具是完全自动化的,非专家也可以轻松有效地使用。大多数商业系统都处于中间位置。

Veeramachaneni 谈到了 AutoML 的当前状态、阻碍真正自动机器学习系统的障碍以及 AutoML 研究人员的未来之路。

6033746d0ad2775dcec353498f565959.png

问:自动机器学习在过去十年中是如何发展的,AutoML 系统的现状如何?

答:2010 年,我们开始看到转变,企业希望投资于从商业智能之外的数据中获取价值。那么问题来了,也许在基于机器学习的解决方案的开发中,我们可以自动化某些事情?AutoML 的第一次迭代是让我们作为数据科学家的工作更有效率。我们能否将日常繁重的工作去掉,并通过使用软件系统将其自动化?这个研究领域一直持续到 2015 年左右,当时我们意识到我们仍然无法加快这个开发过程。

然后另一个线程出现了。有很多问题可以用数据解决,它们来自了解这些问题的专家,他们每天都与这些问题一起生活。这些人与机器学习或软件工程几乎没有关系。我们如何将它们带入折叠中?那真的是下一个技术前沿。

这些领域专家在机器学习系统中有三个方面有很强的投入。首先是定义问题本身,然后帮助将其制定为机器学习模型要解决的预测任务。其次,他们知道数据是如何收集的,因此他们也很直观地知道如何处理这些数据。最后,机器学习模型只给你解决方案的很小一部分——它们只是给你一个预测。机器学习模型的输出只是帮助领域专家做出决定或行动的一个输入。

4bd557b8600b300680f173afd5c765d1.png

问:机器学习流程的哪些步骤最难自动化,为什么自动化它们如此具有挑战性?

答:问题制定部分极难自动化。例如,如果我是一名想要获得更多政府资助的研究人员,并且我有很多关于我撰写的研究计划的内容以及我是否获得资助的数据,那么机器学习是否有帮助?我们还不知道。在问题表述中,我利用我的领域专业知识将问题转化为更切实可预测的问题,这需要非常了解该领域的人。他也知道如何在预测后使用该信息。这个问题是拒绝自动化。

问题制定的一部分可以自动化。事实证明,我们可以查看数据并自动以数学方式表达几个可能的预测任务。然后我们可以与领域专家共享这些预测任务,看看它们中的任何一个是否有助于解决他们试图解决的更大问题。然后一旦你选择了预测任务,你就需要做很多中间步骤,包括特征工程、建模等;这些步骤非常机械且易于自动化。

但是定义预测任务通常是数据科学家和领域专家之间的协作努力,因为除非您了解领域,否则您无法将领域问题转化为预测任务。然后有时领域专家不知道「预测」是什么意思。双方需要频繁交流,这导致了这个过程中的大量的无效重复工作。如果有了自动化这一步,那么机器学习的渗透和使用数据来创建有意义的预测将大大增加。

那么机器学习模型给出预测之后会发生什么?我们可以自动化其中的软件和技术部分,但归根结底,它是根本原因分析以及人类直觉和决策。我们可以用很多工具来增强它们,但我们不能完全自动化。

08b7e92627ce42557b508ff329704f39.png

问:您希望通过您在论文中概述的用于评估 AutoML 系统的七层框架实现什么目标?

答:我希望人们开始认识到某些程度的自动化已经实现,有些还需要解决。在研究界,我们倾向于专注于我们感到舒服的事情。我们已经习惯于自动化某些步骤,然后我们就坚持下去。自动化机器学习解决方案开发的这些其他部分非常重要,这也是最大的瓶颈所在。

我的第二个希望是研究人员将非常清楚地了解领域专业知识的含义。许多 AutoML 工作仍在由学者进行,问题是我们通常不做应用工作。领域专家是什么并没有一个非常清晰的定义,「领域专家」本身就是一个非常模糊的词组。我们所说的领域专家是指您尝试使用机器学习解决的问题的专家。我希望每个人都围绕这一点统一起来,因为这会让事情变得更加清晰。

我仍然相信我们无法为那么多问题构建那么多模型,但即使对于我们正在构建的模型,它们中的大多数也没有在日常生活中得到部署和使用。机器学习的输出只是某人决策中的另一个数据点,一个增强的数据点。他们如何根据这些输入做出这些决定,这将如何改变他们的行为,以及他们将如何调整他们的工作风格,这仍然是一个很大的悬而未决的问题。一旦我们自动化了一切,那就是下一步。

我们必须确定在银行贷款的人的日常工作流程中需要从根本上改变什么,或者教育工作者试图决定他是否应该改变在线课程中的作业。他们将如何使用机器学习的输出?我们需要专注于我们必须构建的基本事物,以使机器学习更有用。

相关报道:

https://news.mit.edu/2021/automated-machine-learning-veeramachaneni-1006

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

b82f4d7278a6dd395be0888be2141e55.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483486.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【计算机网络复习 数据链路层】3.6.1 局域网

局域网基本概念和体系结构局域网基本概念和体系结构一、局域网二、局域网拓扑结构三、局域网介质访问控制方法四、局域网的分类五、MAC子层和LLC子层局域网基本概念和体系结构 一、局域网 局域网 (Local Area Network):简称LAN,…

佐治亚理工学院发文:不要迷信可解释性,小心被误导

来源:AI科技评论编译:王晔校对: 琰琰可解释性对人工智能发展来说至关重要,但在可解释系统的可信度方面,理解其可能带来的负面效应亦同等重要。近日,佐治亚理工学院研究团队发表最新研究,重点讨论了可解释人工智能系统&…

【计算机网络复习 数据链路层】3.6.2 以太网

以太网一、以太网概述二、以太网提供无连接、不可靠的服务三、以太网传输介质与拓扑结构的发展四、10BASE-T以太网五、适配器与MAC地址六、以太网MAC帧七、高速以太网一、以太网概述 以太网(Ethernet)指的是由Xerox公司创建并由Xerox、Intel和DEC公司联…

软件开发冲刺1

站立会议: 分配好任务,在队长的带领下开始了为期十天的软件开发冲刺,我们做的是一款聊天无课表软件有了目标就有了动力。我们先对我们的产品做了一个详细的规划,指定每天的任务量,调试好开发环境,做好一切准…

一文了解机器人伺服系统

来源:传感器技术工业机器人有4大组成部分,分别为本体、伺服、减速器和控制器。而其中,工业机器人电动伺服系统的一般结构为三个闭环控制,即电流环、速度环和位置环。一般情况下,对于交流伺服驱动器,可通过对…

【计算机网络复习 数据链路层】3.6.5 PPP、HDLC

PPP协议和HDLC协议PPP协议和HDLC协议一、广域网二、PPP协议2.1 PPP协议的特点2.2 PPP协议应满足的要求2.3 PPP协议无需满足的要求2.4 PPP协议的三个组成部分2.5 PPP协议的帧格式三、HDLC协议3.1 HDLC的站3.2 HDLC的帧格式四、PPP协议 & HDLC协议PPP协议和HDLC协议 一、广域…

李彦宏:用“工程思维”做自动驾驶

来源:央广网10月23日,北京大学新工科国际论坛正式召开,大会以“新时代、新挑战、新工科”为主题,旨在进一步推动新工科建设,深化全球交流,推进国际合作。百度创始人、董事长兼CEO李彦宏受邀出席并发表题为“…

爬取Github Web API 并存入Mysql数据库

写在前面 本文内容为爬取GitHub的Web API并存入mysql数据库,内容为华为鸿蒙OS相关的代码。 WEB API Web API是网络应用程序接口。它包含了广泛的功能,网络应用通过API接口,可以实现存储服务、消息服务、计算服务等能力。Web API最主要的功能…

Facebook 正在研究新型 AI 系统,以自我视角与世界进行交互

来源:AI科技大本营(ID:rgznai100)编译:禾木木你是否能想象 AI 以第一人称视角来理解世界是什么样的呢?未来,以第一人称视角理解世界的 AI 可以开启沉浸式体验的新时代。增强现实(AR)…

王道计算机网络 数据链路层整理 超详细版

数据链路层的基本概念 结点:主机、路由器 链路:网络中两个结点之间的物理通道,链路的传输介质主要有双绞线、光纤和微波。分为有线链路、无线链路。 数据链路:网络中两个结点之间的逻辑通道,把实现控制数据传输协议…

Linux之用户/组 管理

关机&重启命令 shutdown -h now立刻进行关机shutdown -h 11分钟后关机(shutdown默认等于shutdown -h 1) -h即halt shutdown -r now现在重新启动计算机 -r即reboot halt关机reboot重新启动计算机sync把内存数据同步到磁盘 再进行shutdown/reboot/halt命令在执行…

贝尔实验室:如何让6G成为通用技术

来源:B5G与6G通信作者:沃尔克齐格勒:贝尔实验室“6G leadership”首席架构师。塞波伊约拉:诺基亚企业业务(Nokia Enterprise)首席工程师。未来智能实验室的主要工作包括:建立AI智能系统智商评测…

王道计算机网络 计算机网络体系结构整理 超详细版

计算机网络的概念 计算机网络是 互连的、自治的 计算机系统的集合。 互连:互联互通 自治:无主从关系 计算机网络是一个将分散的、具有独立功能的计算机系统,通过通信设备和线路连接起来,由功能完善的软件实现资源共享和信息传递…

哥德尔的逻辑结构

来源:人机与认知实验室1920年代末,数学圈内的人们均认为所有数学问题都有一个确定的答案一一真或假。比如说,每个偶数均是两个质数之和,数学文献中称这个论断为哥德巴赫猜想。曾几何时,在传统认识中,人们认…

王道计算机组成原理 物理层整理 超详细版

数据通信 通信的目的是传送信息。 数据:传送信息的实体,通常是有意义的符号序列。 信号:数据的电气/电磁的表现,是数据在传输过程中的存在形式。 ​ 数字信号:代表消息的参数取值是离散的。 ​ 模拟信号&#xf…

威胁生存!科学家警告灾难性“气候临界点”已逼近

来源:中国新闻网 中新网10月26日电 综合报道,从联合国的一份报告草案中,科学家已发现多个灾难性的“气候临界点”。专家警告,临界点之间相互关联,可能产生连锁反应,成为一种生存威胁。据报道,根…

王道计算机网络 网络层整理 超详细版

网络层功能概述 主要任务是把分组从源端传到目的端,为分组交换网上的不同主机提供通信服务。网络层传输单位是数据报。 1、路由选择与分组转发 2、异构网络互联 3、拥塞控制 数据交换方式 电路交换 在进行数据传输时,两个结点之间必须先建立一条专用…

ios点击有300毫秒延迟,输入框必须重压或长按才能获取焦点唤起软键盘

以下方法主要针对在vue中的使用 // ios点击有300毫秒延迟 1. 安装依赖包cnpm install fastclick --save 2. 在 /src/main.js 中引入并使用import FastClick from fastclickFastClick.attach(document.body)// 输入框必须重压或长按才能获取焦点唤起软键盘 // 这是由于上面引入了…

Forerunner:首个面向“多未来”的推测执行技术

来源:微软研究院AI头条编者按:10月26-29日,系统领域的全球顶会 SOSP 2021 在线上举办。在本届大会上,微软亚洲研究院研究员陈洋、郭众鑫、李润怀(实习生,浙江大学)、陈硕、周礼栋、张宪以及浙江…

linux的基础知识——信号的概念

1.计算机信号的特点 \qquad简单;不能携带大量信息;满足某个特设条件才发送 2.信号的机制 \qquadA与B两个进程,A向B发送一个信号,此时B进程正在执行自己的程序,在收到信号时,会暂停程序的执行,先…