PNAS “深度学习的科学”论文合集导读

点击查看源网页

来源：混沌巡洋舰

今天的科学家对于机器可以学习做什么的想法与我们10年前完全不同。

在图像处理、语音和视频处理、机器视觉、自然语言处理和经典的双人游戏中，特别是在过去的十年中，随着在一系列公共组织的挑战问题（例如围棋，图像分类）上，机器学习的表现超出预期记录，相关技术得到了迅速的推进。在许多这些挑战中，记录现在已经达到或超过了人类的水平。

2010年的一场比赛证明，当时的围棋电脑软件无法击败强大的人类围棋选手。2020年的今天，没有人相信人类围棋选手——包括人类世界冠军李世石——能够打败过去10年建立起来的 AlphaGo。这些新的记录，以及它们取得成就的方式，已经超越了10年前的期望。当时，人类水平的性能似乎还有很长的路要走，而且对于许多人来说，似乎没有任何可用的技术能够提供这样的性能。

像 AlphaGo 这样的系统在过去的十年中，受益于几个方面同时出现的出人意料的进步。一方面，我们看到了以云计算为代表的前所未有的随需应变的可扩展计算能力，另一方面，一些全球最大的技术公司从全球化的人才库中，组建工程师团队进行了大规模的算法优化。这些资源在过去十年中稳步部署，以便能够迅速扩大应对挑战问题的业绩。

21世纪10年代产生了真正的技术爆炸: 大量图片和文本数据的突然公开。随着“大数据”这个词进入媒体的视野，数十亿人在社交媒体上张贴了数万亿张图片和文件。图像处理和自然语言处理被这种新的数据资源永远改变了，因为他们利用计算能力的革命性增长，以及新的全球化人才库来挖掘新的图像和文本资源。

图像处理领域首先感受到了新数据的影响，李飞飞和她的合作者从网上提出了 ImageNet 数据集，为一系列年度 ImageNet 大规模视觉识别挑战(ILSVRC)预测挑战赛提供了数据集。这些比赛为机器学习中深度学习范式的出现和不断完善提供了一个平台。

深层神经网络至少从20世纪80年代以来一直稳步发展，然而，试错的启发式方法阻止了对其进行理论化分析的尝试。在20世纪90年代和21世纪初的相当一段时间里，人工神经网络一直受到坚持AI的发展需要正式理论论证的科学家们的怀疑。在这十年中，互联网上图像数据和云计算资源的爆炸式增长，使得雄心勃勃的深度网络模型能够赢得预测比赛，相对于基于核（kernel）的更“形式上可分析”的方法，取得了相当大的成功。

事实上，随着时间的推移，深度网络相对于“理论上可理解”的方法的性能优势越来越明显。最初的成功包括将猫和狗的图片分离开来，但很快成功的就是全面的计算机视觉问题，比如人脸识别和运动图像中的行人跟踪。

在图像处理取得初步成功的几年后，深层网络开始渗透到自然语言处理中，最终在最大的工业研究团队手中产生了能够将105种语言中的任何一种翻译成任何其他语言的系统，甚至是之前几乎没有翻译例子的语言对。

今天，听到深层网络使用数百亿个例子的数据库训练数百亿个参数已不再令人震惊。另一方面，它可能已经越来越令科学家感到不安，人们害怕目睹人类的在更多领域表现变得远远不足基于训练形成的智能体，尽管目前这些系统最容易的理解特性仅仅是他们在游戏中占优势的能力和能够在 ImageNet 这样的预测战胜人类。

2019年3月，美国国家科学院在华盛顿召开了一次关于“深度学习的科学”的座谈会。组织者的目标是促进对当今以经验为基础的深度学习系统的科学理解，同时推动将此类系统用于传统科学研究。

为此，来自学术界和产业界的重要人物进行了演讲; 听众包括来自全国各地机构的许多研究生和博士后，以及来自美国国家科学基金会(NSF)、国家卫生研究院(NIH)和国防部(DoD)的研究赞助商，还有来自华盛顿特区实验室的美国政府科学家。

来自希伯来大学的 Amnon Shashua 讨论了使自动驾驶汽车成为可能的计算机视觉研究策略。他告诉听众，移动车辆视觉系统的错误率需要保持在每万亿个视觉体验单位一个错误检测的水平以下，并讨论了建模和测试策略，这些策略有朝一日可以产生具有如此低错误率的验证系统。

麻省理工学院(MIT)的罗德尼 · 布鲁克斯(Rodney Brooks)解释了，在他看来，机器学习系统是如何在数百年后才能完全展现出一般智能的。作为支持，他指出当今成功的深度学习系统对大量优质数据的巨大需求，并将其与人类从极少数据中理解和概括的能力进行了对比。

在座谈会召开前的几周，白宫发布了一份名为《美国人民的人工智能》(Artificial Intelligence for the American People)的国家战略文件，呼吁美国对人工智能(AI)进行新的投资。

https://www.whitehouse.gov/briefings-statements/artificial-intelligence-american-people/

由于座谈会是在学院位于华盛顿广场的办公楼里举行的，所以这次座谈会一夜之间成为了讨论这项新举措的绝佳场所。资助机构(NSF、 NIH 和 DoD)的代表，包括一些深入参与制定该战略的人，描述了他们最近和即将进行的研究项目，并告诉听众深度学习研究如何适合即将进行的国家研究计划。

作为座谈会系列的一部分，这次活动伴随着一期 PNAS 的特刊，你们现在正在阅读的这期刊物，是由一些发言人和参加座谈会的人撰写的。特刊收集了许多有趣的论文，反映了在这个迅速发展的新领域正在进行的科学工作的活力和深度。

本期特刊以两篇概述性论文开篇。索尔克研究所的Terrence J. Sejnowski 讨论了“人工智能中深度学习的不合理的有效性”(2)。Sejnowski 的论文标题起源于 Eugene Wigner 的著名文章《数学在物理科学中的不合理的有效性》，并在这十年中延续了 Alon Halevy，Peter Norvig 和 Google 的费尔南多·佩雷拉的《数据的不合理的有效性》。

https://doi.org/10.1073/pnas.1907373117

在这种传统中，作者通常会指出一种技术(例如，数学、大数据、深度学习)在某些领域获得了毋庸置疑的成功，但我们并不完全理解，而且从更高层次的角度来看，这种技术似乎令人惊讶。Sejnowski研究了这样一个悖论: 对于一系列重要的机器学习问题，深度学习比传统的统计学习理论预测的效果要好得多。Sejnowski 认为，尽管今天的深度学习系统是受到大脑皮层的启发，但要达到人工一般智能，还需要从其它重要的大脑区域获得启发，比如那些负责计划和生存的区域。

麻省理工学院的 Tomaso Poggio，Andrzej Banburski 和 Liao 则很好地继承了“深层网络的理论问题”(5) ，它考虑了关于逼近能力、复杂性控制和深层神经网络泛化性质的理论成果。

https://doi.org/10.1073/pnas.1907369117

根据经验，深度神经网络在这三个方面表现非常不同于其他机器学习模型。为了逼近，作者给出了形式化的论证，证明了某些卷积网在逼近某些光滑函数时可以避免“维数灾难”。对于复杂性控制和正则化问题，作者将指数损失下适当正则化网络的梯度流看作动力系统。作者指出无约束的梯度下降法网络的隐式正则化特性，可能解释了在超参数化的深海网络中观察到的复杂性控制。

“深度学习一直让我们感到惊讶”的观点是由斯坦福大学的Christopher D. Manning, Kevin Clark, John Hewitt, Urvashi Khandelwal, and Omer Levy 进一步发展起来的。

https://doi.org/10.1073/pnas.1907367117

他们考虑通过自我监督训练的深层神经网络，这种神经网络在给定的上下文中没有标记的训练数据就能预测出一个带有掩码的单词。作者对语言学的主流观点提出质疑，认为统计机器学习预测语言模型并没有发展出有趣的突现的语言结构知识。在自我监督训练过程中，深层神经网络中出现了句法、形态和语义语言结构，这些语言结构具有惊人的经验证明。这些丰富的信息是通过自我监督而产生的，这对人类语言习得有着诱人的影响。

纽约大学的Kyle Cranmer与合著者Johann Brehmer 和 Gilles Louppe,在他们的文章“基于模拟推理的前沿”(7)中讨论了另一个领域的进展。本文描述了粒子物理学中的重要科学推理问题，这些问题一直被认为是难以解决的。

https://doi.org/10.1073/pnas.1907367117

针对今天的“机器学习革命” ，作者通过融合大量的科学模拟、诸如主动学习和概率建模等机器学习思想，确定了解决这类推理问题的新可能性。实际上，机器学习可以帮助我们从科学模拟的测量方面进行训练，给我们提供经验模型来代替经典的分析概率模型。文中指出了一系列的科学推理问题，并总结道: “ ... ... 科学的几个领域应该期待... ... 推理质量的显著提高... ... 这种转变可能对科学产生深远的影响”(7)。

该特刊也提供了关于具体研究问题的引人入胜的文章。加州大学伯克利分校的 Peter l. Bartlett，Philip m. Long，Gábor Lugosi和 Alexander Tsigler 讨论了“线性回归的良性过拟合”(8)。许多最近的深度学习模型包含了更多的需要确定的参数，而不是由数据点来适应它们。我们认为这样的模式过于合适。

传统上，这会被认为有害于基于经验主义的科学实践。正如作者所说: “良性过拟合现象是深度学习方法揭示的关键秘密之一: 深度神经网络似乎能很好地预测，即使它完全适合嘈杂的训练数据”(8)。作者在简化的线性回归中对这种情况进行了深入的正式分析。

https://doi.org/10.1073/pnas.1907378117

麻省理工学院(MIT)的Antonio Torralba，David Bau，(Jun-Yan Zhu，Hendrik Strobelt，Agata Lapedriza和Bolei Zhou探讨了一个重要问题: 深层神经网络包含数十亿个人工神经元，但它们在做什么？他们的文章《理解深层神经网络中单个单元的角色》(9)是这样开始的: “深层神经网络的单个隐藏单元能够教会我们网络如何解决复杂的任务吗? ”？

https://doi.org/10.1073/pnas.1907375117

有趣的是，在最先进的深度网络中，已经观察到许多单元匹配人类可解释的概念，而这些概念并没有被明确地传授给网络: 已经发现单元可以检测物体、部件、纹理、时态、性别、语境和情感作者描述了进行这种鉴定的定量工具。在构建第二个“解释网络”时，他们开发了一个“解剖”框架，识别驱动网络神经元响应的概念。该技术应用于图像分类和图像生成网络，为对抗性攻击和图像语义编辑提供了新的视角。

来自麦吉尔大学和 DeepMind 的 Doina prerup ， André Barreto，Shaobo Hou，Diana Borsa，和 David Silver 讨论了机器学习的多样性---- 赋予我们 AlphaGo 世界一流的游戏系统的强化学习。强化学习是出了名的数据饥渴者。Prerup 和他的同事们提出了一个解决办法。

https://doi.org/10.1073/pnas.1907370117

他们的文章《快速强化学习与广义的政策更新》(10)开头写道: “强化学习与深度学习的结合是一种很有前途的方法，可以解决目前棘手且重要的连续决策问题。”为了克服这种强化学习与深度学习相结合的障碍，作者(10)提出了“ 强化学习的两个基本操作可以概括为: 政策改进和政策评估。这些操作的通用版本允许人们利用某些任务的解决方案来加快其他任务的解决方案。”Barreto 等人(10)发现“这两种策略都大大减少了解决强化学习问题所需的数据量。”

这期特刊以两篇文章结束，这两篇文章讨论了机器学习对日常生活的影响。剑桥大学的Anders C. Hansen 和合著者Vegard Antun, Francesco Renna, Clarice Poon及 Ben Adcock 确认了一个迫在眉睫的技术威胁。

他们的文章“关于图像重建中深度学习的不稳定性和人工智能的潜在代价”(11)引起人们对计算机视觉中深度神经网络不稳定的重要现象的关注。文献中广泛讨论了图像分类的不稳定性，以及在任务关键系统中使用深度学习视觉系统可能引起的安全和安保问题。

在基于深度学习的图像重建中，作者提出了一种类似的不稳定现象，即利用深度神经网络来解决图像生成问题。他们担心应用中的潜在安全问题，如医学成像。该文提出了一种稳定性测试来诊断稳定性问题，并描述了用于检测这类系统的测试的软件实现。