吴恩达:未来十年,人工智能将向以数据为中心转变

994926471995ec94526960a85b03ea7b.png

来源:AI前线

作者:Eliza Strickland

译者:平川

策划:凌敏

本文最初发布于 IEEE Spectrum。

吴恩达在人工智能领域可谓声名显赫。2000 年底,他与斯坦福大学的学生一起开创了使用图形处理单元(GPU)训练深度学习模型的先河,并在 2011 年共同创立了谷歌大脑,然后在百度担任了三年的首席科学家,帮助这家科技巨头创立了人工智能小组。因此,很多人都相信他所说的,人工智能将迎来下一个重大转变。本文是他某次接受 IEEE Spectrum 独家采访的内容整理。

目前,他的主要精力都放在其公司 Landing AI 上。该公司构建了一个名为 LandingLens 的平台,帮助制造商利用计算机视觉改善视觉检测。他还成为了他所谓的以数据为中心的人工智能运动的布道者,他说这可以为人工智能领域的大问题提供“小数据”解决方案,涉及模型效率、准确性和偏见。

本文主要内容包括:

  • 真正的大模型将走向何方;

  • 他未听取的职业建议;

  • 定义以数据为中心的人工智能运动;

  • 合成数据;

  • 为什么 Landing AI 要求客户做这项工作。

IEEE Spectrum:在过去十年左右的时间里,深度学习的巨大进步是以越来越大的模型处理越来越多的数据为基础。有人认为,这种发展模式是不可持续的。您是否同意这种说法,深度学习不能再以这种方式继续发展下去?

吴恩达:这个问题很大。我们已经看过了 NLP(自然语言处理)中的基础模型。我对 NLP 模型变得越来越大感到兴奋,同时也对在计算机视觉领域构建基础模型的潜力感到兴奋。我认为,视频中仍有很多讯息可以利用:受限于计算带宽和视频处理成本,我们还无法为视频构建出不再依赖文本分词的基础模型。因此我认为,这个扩展深度学习算法的引擎,虽然已经运行了大约 15 年,但仍然有活力。话虽如此,那也只适用于某些问题,还有其他一系列问题需要小数据解决方案。

IEEE Spectrum:当您说您希望有一个计算机视觉的基础模型时,您指的是什么?

吴恩达:这是由 Percy Liang 和我在斯坦福的一些朋友们创造的一个术语,指的是非常大的模型,在非常大的数据集上训练,可以针对特定的应用进行调优。例如,GPT-3 就是一个基础模型 [用于 NLP] 的例子。基础模型作为开发机器学习应用的一个新范式,有很大的应用前景,但同时也面临着挑战,即如何确保它们合理、公平、没有偏见,特别是如果我们中的许多人将以它们为基础进行构建。

IEEE Spectrum:在什么情况下才会有人针对视频构建一个基础模型?

吴恩达:我认为有一个可扩展性问题。处理视频中的大量图片所需的计算能力非常大,我想这就是为什么基础模型会首先出现在 NLP 中。许多研究人员正在研究这个问题,我认为我们已经看到了在计算机视觉领域开发这种模型的早期迹象。我相信,如果有一家半导体制造商给我们提供 10 倍的处理能力,那么我们就很容易找到 10 倍的视频来构建这样的视觉模型。

话虽如此,在过去十年里,经常出现的情况是,深度学习发生在面向消费者的公司。这些公司拥有庞大的用户群,有时是数十亿用户,他们也因此拥有非常庞大的数据集。虽然这种机器学习范式为消费类软件带来了巨大的经济价值,但我发现,适用于这种规模的方法对其他行业并不适用。

IEEE Spectrum:听您这么说很有意思,因为您早期就是在一家面向消费者而且有数百万用户的公司工作。

吴恩达:十多年前,当我提议启动谷歌大脑项目,利用谷歌的计算基础设施来构建非常大的神经网络时,是有争议的。一个非常资深的人把我拉到一边,警告我说,启动谷歌大脑对我的职业生涯不利。我想,他是觉得行动不能只停留在扩大规模上,而应该把重点放在架构创新上。

在许多行业中,巨型数据集根本不存在,所以我认为,关注点必须从大数据转向好数据。有 50 个精心设计的样本就足以向神经网络解释你想让它学习什么。

我记得,在我和我的学生发表第一篇 NeurIPS 研讨会论文,提倡使用 CUDA(一种在 GPU 上进行处理的平台)进行深度学习时,一位与众不同的 AI 资深人士对我说:“CUDA 编程真的很复杂。作为一种编程范式,这么做工作似乎太多。”我设法说服了他;但另一个人我却没能说服。

IEEE Spectrum:我希望他们现在都信服了。

吴恩达:我认为是这样。

在过去一年里,当我与人们谈论以数据为中心的人工智能运动时,我一直在回想 10 或 15 年前在与人们谈论深度学习和可扩展性时的情景。在这一年里,我一直听到同样的杂音:“这没有什么新东西”和“这似乎是一个错误的方向”。

IEEE Spectrum:您是怎么定义以数据为中心的 AI 的?为什么您将其视为一场运动?

吴恩达:以数据为中心的 AI 是一门系统地设计数据以促成人工智能系统构建的学科。人工智能系统必须在代码中实现一些算法,比如说神经网络,然后在数据集上训练它。过去十年的主流范式是下载数据集,并专注于改进代码。得益于这种范式,在过去十年中,深度学习网络有了显著的改善,以至于对于很多应用程序来说,代码——神经网络架构——基本上是一个已解决的问题。因此,对于许多实际应用来说,将神经网络架构固定下来,转而寻找改善数据的方法,会更有成效。

当我开始谈论这个问题时,有许多从业者举手说,“是的,我们已经做了 20 年了”。现在,是时候把一些人一直凭直觉在做的事情,变成一门系统的工程学科了。

与一家公司或一群研究人员相比,以数据为中心的人工智能运动的规模要大得多。我和我的合作者在 NeurIPS 上组织了一个以数据为中心的人工智能研讨会,前来参加的作者和演讲者的数量让我感到非常高兴。

IEEE Spectrum:您经常谈到,有些公司或机构只有少量的数据可供利用。以数据为中心的人工智能如何为他们提供帮助?

吴恩达:你应该听说过,很多视觉系统的构建使用了数百万张图片,我曾经用 3.5 亿张图片构建了一个面部识别系统。为数以亿计的图片构建的架构在只有 50 张图片时是行不通的。

但事实证明,如果有 50 个非常好的样本,那么你就可以构建一些有价值的东西,比如缺陷检测系统。在许多行业,根本不存在非常大的数据集,所以我认为,关注点必须从大数据转移到好数据。有 50 个精心设计的样本就足以向神经网络解释你想让它学习什么。

IEEE Spectrum:您说用 50 张图片训练一个模型的意思是对一个现有的、在非常大的数据集上训练的模型进行微调,还是说一个全新的模型,只是它被设计成只从小数据集学习?

吴恩达:让我描述一下 Landing AI 的作用。在帮助制造商实现视觉检测时,我们经常使用我们自己的 RetinaNet。它是一个预训练的模型。话虽如此,预训练只是整个拼图的一小部分。更大的难题是提供工具,使制造商能够挑选合适的图片集 [用于调优],并用同样的方式标记它们。我们看到,有一个非常实际的问题,横跨视觉、NLP 和语音,即使是人类标注者也没法一致地给出适当的标签。对于大数据应用,常见的反应是:如果数据嘈杂,我们就获取大量的数据,然后由算法来均化处理。但是,如果你能开发一些工具来标记数据不一致的地方,并给出一个非常有针对性的方法来改善数据的一致性,那么这将是构建一个高性能的系统更有效的方法。

收集更多的数据往往是有帮助的,但如果你什么时候都设法收集更多的数据,那可能是一项非常昂贵的活动。

例如,如果你有 1 万张图片,其中 30 张属于一个类别,而这 30 张图片的标签不一致,我们所做的其中一件事就是构建工具,帮助你发现不一致的数据子集。那样,你就可以非常迅速地重新标注这些图片,提升图片一致性,进而提升性能。

IEEE Spectrum:这种对高质量数据的关注是否能帮助解决数据集偏见,如果能在训练前更多地挑选数据?

吴恩达:帮助非常大。已经有许多研究人员指出,数据偏见是导致系统偏见的众多因素之一。人们在数据设计方面已经付出了许多努力。在 NeurIPS 研讨会上,Olga Russakovsky 就这个问题做了一个非常好的演讲。我也非常喜欢 NeurIPS 大会上 Mary Gray 的演讲,她提到,以数据为中心的人工智能只是解决方案的一部分,但不是全部解决方案。像 Datasheets for Datasets 这样的新工具似乎也是拼图的重要组成部分。

以数据为中心的人工智能为我们提供的其中一个强大的工具是设计数据子集的能力。想象一下,训练一个机器学习系统,发现它在大部分数据集上的表现都还可以,但只是对数据的一个子集有偏见。如果你为了提高在那个数据子集上的性能,试图改变整个神经网络的架构,这相当困难。但是,如果你能对数据的一个子集进行设计,你就能以更有针对性的方式解决这个问题。

IEEE Spectrum:准确地说,您所说的数据设计是指什么?

吴恩达:在人工智能领域,数据清理很重要,但数据清理的方式往往需要大量的手动工作。在计算机视觉中,有人可能通过 Jupyter 笔记本将图片可视化,也许会发现问题,也许会修复它。

但对于那些让我们可以拥有一个非常大的数据集的工具,那些可以快速有效地定位存在标签噪声的数据子集的工具,我感到非常兴奋。或者是快速将你的注意力吸引到 100 个类中的某一类,从中收集更多的数据会让你受益。收集更多的数据往往是有帮助的,但是如果你什么时候都设法收集更多的数据,那可能是一项非常昂贵的活动。

例如,我曾经指出,当背景中有汽车噪音时,语音识别系统的表现很差。了解了这一点,我就可以在有汽车噪音时收集更多的数据,而不是什么时候都设法收集更多的数据,那样成本又高又耗时。

IEEE Spectrum:使用合成数据怎么样,通常这是一个好的解决方案吗?

吴恩达:我认为,合成数据是以数据为中心的人工智能工具箱中的一个重要工具。在 NeurIPS 研讨会上,Anima Anandkumar 做了一个关于合成数据的精彩演讲。我认为,合成数据的重要用途不仅仅是作为一个预处理步骤来增加学习算法的数据集。我希望看到更多的工具,让开发者可以把合成数据生成作为机器学习迭代开发闭环的一部分。

IEEE Spectrum:您是说合成数据可以让我们在更多的数据集上试验模型吗?

吴恩达:不是这样。举个例子。比方说,你试图检测智能手机外壳的缺陷。智能手机上有许多不同类型的缺陷。那可能是划痕、凹痕、坑痕、材料变色或其他类型的瑕疵。如果你训练了模型,然后通过误差分析发现它总体上表现很好,但在坑痕上表现很差,那么合成数据生成让你可以更有针对性地解决这个问题。你可以只针对坑痕类别生成更多的数据。

在消费类软件互联网中,我们可以训练少数几种机器学习模型来服务 10 亿用户。但在制造业,你可能要为 1 万个制造商构建 1 万个定制化的人工智能模型。

合成数据生成是一个非常强大的工具,但也有许多简单一些的工具,我经常会先试一下。比如说数据增强,改善标签一致性,或者只是要求工厂收集更多的数据。

IEEE Spectrum:为了使这些问题更加具体化,您能通过一个例子来更具体地说明下这些问题吗?当一家公司找到 Landing AI 并说它在视觉检测方面存在问题时,您如何让他们参与进来并努力实现部署?

吴恩达:当客户找到我们时,我们通常会就他们在检测方面遇到的问题进行交谈,并查看一些图片,以验证该问题是否可以通过计算机视觉来解决。假如可以,我们会要求他们将数据上传到 LandingLens 平台。我们经常基于以数据为中心的人工智能方法论向他们提供建议,并帮助他们对数据进行标注。

Landing AI 的其中一个重要目标是让制造企业可以自己完成机器学习工作。我们的很多工作都是为了确保软件快速且易于使用。我们通过机器学习开发的迭代过程为客户提供建议,比如如何在平台上训练模型,何时以及如何改进数据的标注,从而提高模型的性能。我们会一直提供培训和软件支持,直到他们将训练好的模型部署到工厂的边缘设备上。

IEEE Spectrum:你们如何处理不断变化的需求?如果产品发生变化或工厂的照明条件发生变化,模型能跟得上吗?

吴恩达:这和制造商有关系。在许多情况下都会有数据漂移。但也有一些制造商,一条生产线运行了 20 年,几乎没有什么变化,所以他们不觉得未来 5 年内会有什么变化。稳定的环境使事情变得相对简单。对于其他制造商,我们提供工具,在发生重大数据漂移问题时进行标记。

我发现,赋予制造业客户纠正数据、重新训练和更新模型的能力真的很重要。因为如果有什么变化,而且现在是美国时间凌晨 3 点,我希望他们能够立即调整他们的学习算法,以保证运营。

在消费类软件互联网中,我们可以训练少数几个机器学习模型来服务 10 亿用户。但在制造业,你可能要为 1 万个制造商构建 1 万个定制化的人工智能模型。这里的挑战是,如果没有 Landing AI ,你如何做到这一点,是雇用 10000 名机器学习专家吗?

IEEE Spectrum:所以您是说,为了使其可扩展,您必须赋能客户来做大量的训练及其他工作。

吴恩达:是的,完全正确!这是涉及全行业的人工智能问题,不仅仅是在制造业。看看卫生保健领域。每家医院的电子健康记录格式都略微不同。每家医院该如何训练自己定制化的人工智能模型?指望每家医院的 IT 人员发明新的神经网络架构是不现实的。

摆脱这种困境的唯一方法是构建工具赋能客户,为他们提供工具来设计数据和表示领域知识,使他们能够构建自己的模型。这就是 Landing AI 希望在计算机视觉领域达成的目标,人工智能领域需要其他团队在其他领域完成类似的目标。

IEEE Spectrum:关于您所做的工作或以数据为中心的人工智能运动,您认为还有什么需要人们了解的吗?

吴恩达:在过去十年中,人工智能最大的转变是向深度学习转变。我认为,在这个十年里,最大的转变很有可能是向以数据为中心的人工智能转变。随着现如今神经网络架构的成熟,我认为,对于很多实际的应用来说,瓶颈将是我们能否有效地获得我们所需的数据,开发出效果良好的系统。

以数据为中心的人工智能运动在整个社区有着巨大的活力和动力。我希望有更多的研究人员和开发人员能够加入进来,为之努力。

原文链接:

https://spectrum.ieee.org/andrew-ng-data-centric-ai?accessToken=eyJhbGciOiJIUzI1NiIsImtpZCI6ImRlZmF1bHQiLCJ0eXAiOiJKV1QifQ.eyJhdWQiOiJhY2Nlc3NfcmVzb3VyY2UiLCJleHAiOjE2NTE3MzMzODUsImZpbGVHVUlEIjoiS3JrRVZMek5SS0NucGpBSiIsImlhdCI6MTY1MTczMzA4NSwidXNlcklkIjoyNTY1MTE5Nn0.TTm2H0sQUhoOuSo6daWsuXAluK1g7jQ_FODci0Pjqok

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

8c181c7496bbed973d29c5a406d62c3a.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482145.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

知识图谱最新权威综述论文解读:时序知识图谱部分

从最近一两年有关知识图谱的顶会论文中可以发现,越来越多的国内外研究者开始关注动态时序知识图谱,可见时序知识图谱已经成为了一大研究趋势,相信之后会有更多相关研究出来。因此,这期我们对综述论文的时序知识图谱部分接着进行解…

CACM观点:超越联邦学习,让AI跨越公司边界

来源:AI科技评论 编译:张泷玲、杨柳编辑:维克多今年1月份,苏黎世联邦理工学院的Stefan Feuerriegelc教授在 《Communications of the ACM》期刊上刊文“Artificial Intelligence Across Company Borders”,在文中教授指…

知识图谱最新权威综述论文解读:知识图谱应用部分

知识图谱在人工智能的许多领域都发挥了重要作用,综述论文的这一章引入多个最新的基于深度学习的知识驱动方法,主要包括的应用领域有自然语言理解,推荐系统和问答系统。 1 自然语言理解 知识感知的自然语言理解通过将结构化的知识注入一个统一…

知识图谱和专家系统、知识工程、数据库等概念的比较

知识图谱虽然是Google在2012年公布其开发的搜索引擎时提出的名词,但是知识图谱的雏形早在1960左右就已经出现,因此,知识图谱其实是很多相关技术继承发展的结果。并且,和知识图谱类似的还有好几个概念:专家系统、知识工…

CICC城市大脑专委会成功举办“城市大脑成熟度评估专家研讨会”

来源:中国指挥与控制学会2020年以来,城市大脑已成为科技领域的新热点。作为一个新兴的前沿科技领域,不同企业、不同城市对城市大脑的理解并不相同,在建设的过程中没有统一的建设规范和标准作为指导,从而导致不同企业建…

“知识图谱+”系列:知识图谱+图神经网络

最近有很多朋友联系泽宇说想了解一些知识图谱和图神经网络(GNN)结合的研究。那泽宇当然要满足朋友们的要求啊,本期泽宇从知识图谱的几个不同研究方向总结了结合GNN的经典研究,也和大家一起分享。所有内容是泽宇查阅了很多顶会论文…

周志华:“数据、算法、算力” 人工智能三要素,在未来要加上“知识”!

来源:AI科技评论作者:李雨晨 编辑:丛末在CCF-GAIR 2020 的人工智能前沿专场上,南京大学计算机系主任、人工智能学院院长、CCF会士、ACM、AAAI、IEEE、IAPR Fellow周志华教授以“反绎学习”为题发表了大会报告。周志华表示&#x…

“知识图谱+”系列:知识图谱+强化学习

泽宇个人一直认为强化学习是建模动态系统最好的方法之一,通过与环境的不断交互,在动作选择和状态更新的动态过程中逐渐达到优化目标。因此,本期泽宇将从知识图谱结合强化学习的角度介绍几个不同的研究方向的内容,包括知识图谱推理…

吴恩达 | 未来十年,人工智能将向以数据为中心转变

来源:IEEE Spectrum访者:吴恩达 计算机科学家吴恩达在人工智能领域可谓声名显赫。2000 年底,他与斯坦福大学的学生一起开创了使用图形处理单元(GPU)训练深度学习模型的先河,并在 2011 年共同创立了谷歌大脑…

给几句话就能生成分子,看见分子也能生成描述,神秘的Google X把多模态AI做成了黑科技...

来源:机器学习研究组订阅AIscience 领域近来有了诸多进展。设想一下,医生写几句话来描述一种专门用于治疗患者的药物,AI 就能自动生成所需药物的确切结构。这听起来像是科幻小说,但随着自然语言和分子生物学交叉领域的进展&#x…

MIT新发现:细胞在分裂前会把垃圾带走

来源:生物通 细胞可以利用这种策略清除有毒的副产品,给后代一个干净的环境。麻省理工学院(MIT)的研究人员发现,在细胞开始分裂之前,它们会进行一些清理,将似乎不再需要的分子排出体外。利用他们开发的一种测量细胞干质…

图灵测试其实已经过时了

来源:立委NLP频道图灵测试的实质就是要让人机交互在限定时间内做到真假莫辨。玩过GPT3的同学们都清楚,其实这一点已经做到了。从这个角度看,图灵测试已经过时了。区别人和机器,需要寻找其他的标准。今天就唠一唠正在风口上的预训练…

揭示世界本质的「机器科学家」,比深度神经网络还强?

来源:AI科技评论作者:Charlie Wood编译:王玥、刘冰一编辑:陈彩娴我们正处于“GoPro 物理学”的风口浪尖。无论摄像机聚焦于什么事件,算法都可以识别其中潜在的物理方程。2017 年,西北大学化学与生物工程系的…

AI 与合成生物学「联姻」的五大挑战:技术、数据、算法、评估与社会学

来源:ACM通讯编译:王玥编辑:陈彩娴在过去的二十年里,生物学发生了翻天覆地的变化,建立在生物系统上的工程成为了可能。赋予了我们细胞遗传密码(DNA)排序能力的基因组革命是这一巨大变化的主要推…

物理学家:时间旅行有可能实现,但前提是……

来源:机器之心作者:Barak Shoshany原文链接:https://phys.org/news/2022-04-parallel-timelines.html时间旅行是科幻电影、小说中经久不衰的话题,然而直到现在,我们依然无法确定这种幻想是否可行。在这篇文章中&#x…

二叉树----数据结构:二叉树的三种遍历及习题

二叉树----数据结构:二叉树的三种遍历,利用递归算法。 关于二叉树的遍历,应用非常广泛,不单单是访问打印结点,还可以进行一系列的操作,如赋值、删除、查找、求二叉树的深度等等。 有递归和非递归两种算法,非递归用到了…

谷歌硬件主管:AR眼镜还在开发,环境计算是未来目标

来源:网易智能5月13日消息,谷歌硬件主管里克奥斯特洛 (Rick Osterloh)日前在接受采访时表示,“环境计算”是谷歌未来的目标和愿景。奥斯特洛周三在接受采访时表示:“计算应该能够无缝帮助你解决任何问题,而且就在你身边…

大脑衰老可逆转,只需注入年轻脑脊液,「返老还童」登Nature

来源:FUTURE远见 选编:闵青云 「老喽,记不住喽。」随着年龄的不断增长,不少人都会发出这样的感叹——记忆力逐渐下降。那么是否存在一种方法,可以让这种自然现象「逆天改命」呢?Nature说:有的。…

人工智能在苍蝇眼的帮助下监测无人机:新的仿生算法从噪声中提取信号

来源:国际仿生工程学会2018年12月,由于有报道称附近有无人机飞行,数千名度假旅客被困在伦敦盖特威克机场。导致这个欧洲非常繁忙的机场关闭了两天,造成重大延误,并使航空公司损失了数百万美元。商业空域中未经授权的无…

树的知识点总结-数据结构

** 一:树的基本术语 1.定义 树是一种非线性结构,只有一个根结点,除根结点外每个孩子结点可以有多个后继,没有后继的结点叫叶子结点。 2.概念 根结点:没有前驱; 孩子:有前驱的结点;…