来源:ScienceAI
编译:萝卜皮
研究人员希望更多用户友好的机器学习系统将使非专家能够分析大数据——但这样的系统能完全自主吗?
麻省理工学院计算机科学家 Kalyan Veeramachaneni 分享了他对自动化机器学习 (AutoML)现状、创建全自动机器学习系统的挑战以及未来道路的看法。
Kalyan Veeramachaneni
从银行业到医疗保健再到环境监测,跨领域大数据的激增刺激了对机器学习工具的需求不断增长,这些工具可帮助组织根据收集到的数据做出决策。
不断增长的行业需求促使研究人员探索自动化机器学习的可能性,该技术旨在自动化机器学习解决方案的开发,以使非专家可以使用它们,提高他们的效率,并加速机器学习研究。例如,AutoML 系统可帮助医生利用他们的专业知识来解释脑电图(EEG)结果来构建一个模型,该模型可以预测哪些患者患癫痫的风险更高——而无需医生具有数据科学背景。
然而,尽管进行了十多年的工作,研究人员仍无法完全自动化机器学习开发过程中的所有步骤。即使是最高效的商业 AutoML 系统仍然需要在领域专家(如营销经理或机械工程师)和数据科学家之间进行长时间的来回交流,从而使流程效率低下。
Kalyan Veeramachaneni 是麻省理工学院信息与决策系统实验室的首席研究科学家,自 2010 年以来一直在研究 AutoML,他在 ACM Computing Surveys 杂志上合著了一篇论文,详细介绍了一个七层示意图,用于根据 AutoML 工具的自主级别来评估它们。
论文链接:
https://dl.acm.org/doi/10.1145/3470918
零级系统没有自动化,需要数据科学家从头开始并手工构建模型,而六级工具是完全自动化的,非专家也可以轻松有效地使用。大多数商业系统都处于中间位置。
Veeramachaneni 谈到了 AutoML 的当前状态、阻碍真正自动机器学习系统的障碍以及 AutoML 研究人员的未来之路。
问:自动机器学习在过去十年中是如何发展的,AutoML 系统的现状如何?
答:2010 年,我们开始看到转变,企业希望投资于从商业智能之外的数据中获取价值。那么问题来了,也许在基于机器学习的解决方案的开发中,我们可以自动化某些事情?AutoML 的第一次迭代是让我们作为数据科学家的工作更有效率。我们能否将日常繁重的工作去掉,并通过使用软件系统将其自动化?这个研究领域一直持续到 2015 年左右,当时我们意识到我们仍然无法加快这个开发过程。
然后另一个线程出现了。有很多问题可以用数据解决,它们来自了解这些问题的专家,他们每天都与这些问题一起生活。这些人与机器学习或软件工程几乎没有关系。我们如何将它们带入折叠中?那真的是下一个技术前沿。
这些领域专家在机器学习系统中有三个方面有很强的投入。首先是定义问题本身,然后帮助将其制定为机器学习模型要解决的预测任务。其次,他们知道数据是如何收集的,因此他们也很直观地知道如何处理这些数据。最后,机器学习模型只给你解决方案的很小一部分——它们只是给你一个预测。机器学习模型的输出只是帮助领域专家做出决定或行动的一个输入。
问:机器学习流程的哪些步骤最难自动化,为什么自动化它们如此具有挑战性?
答:问题制定部分极难自动化。例如,如果我是一名想要获得更多政府资助的研究人员,并且我有很多关于我撰写的研究计划的内容以及我是否获得资助的数据,那么机器学习是否有帮助?我们还不知道。在问题表述中,我利用我的领域专业知识将问题转化为更切实可预测的问题,这需要非常了解该领域的人。他也知道如何在预测后使用该信息。这个问题是拒绝自动化。
问题制定的一部分可以自动化。事实证明,我们可以查看数据并自动以数学方式表达几个可能的预测任务。然后我们可以与领域专家共享这些预测任务,看看它们中的任何一个是否有助于解决他们试图解决的更大问题。然后一旦你选择了预测任务,你就需要做很多中间步骤,包括特征工程、建模等;这些步骤非常机械且易于自动化。
但是定义预测任务通常是数据科学家和领域专家之间的协作努力,因为除非您了解领域,否则您无法将领域问题转化为预测任务。然后有时领域专家不知道「预测」是什么意思。双方需要频繁交流,这导致了这个过程中的大量的无效重复工作。如果有了自动化这一步,那么机器学习的渗透和使用数据来创建有意义的预测将大大增加。
那么机器学习模型给出预测之后会发生什么?我们可以自动化其中的软件和技术部分,但归根结底,它是根本原因分析以及人类直觉和决策。我们可以用很多工具来增强它们,但我们不能完全自动化。
问:您希望通过您在论文中概述的用于评估 AutoML 系统的七层框架实现什么目标?
答:我希望人们开始认识到某些程度的自动化已经实现,有些还需要解决。在研究界,我们倾向于专注于我们感到舒服的事情。我们已经习惯于自动化某些步骤,然后我们就坚持下去。自动化机器学习解决方案开发的这些其他部分非常重要,这也是最大的瓶颈所在。
我的第二个希望是研究人员将非常清楚地了解领域专业知识的含义。许多 AutoML 工作仍在由学者进行,问题是我们通常不做应用工作。领域专家是什么并没有一个非常清晰的定义,「领域专家」本身就是一个非常模糊的词组。我们所说的领域专家是指您尝试使用机器学习解决的问题的专家。我希望每个人都围绕这一点统一起来,因为这会让事情变得更加清晰。
我仍然相信我们无法为那么多问题构建那么多模型,但即使对于我们正在构建的模型,它们中的大多数也没有在日常生活中得到部署和使用。机器学习的输出只是某人决策中的另一个数据点,一个增强的数据点。他们如何根据这些输入做出这些决定,这将如何改变他们的行为,以及他们将如何调整他们的工作风格,这仍然是一个很大的悬而未决的问题。一旦我们自动化了一切,那就是下一步。
我们必须确定在银行贷款的人的日常工作流程中需要从根本上改变什么,或者教育工作者试图决定他是否应该改变在线课程中的作业。他们将如何使用机器学习的输出?我们需要专注于我们必须构建的基本事物,以使机器学习更有用。
相关报道:
https://news.mit.edu/2021/automated-machine-learning-veeramachaneni-1006
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”