【Yoshua Bengio 亲自解答】机器学习 81 个问题及答案（最全收录）

本文转自：http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=401958262&idx=1&sn=707f228cf5779a31f0933af903516ba6&scene=1&srcid=0121zzdeFPtgoRoEviZ3LZDG#rd

译者：张巨岩王婉婷李宏菲戴秋池

这是 Quora 的最新节目，针对特定话题进行系列的问答。如果你不了解 Quora，可以把它看作美国版的知乎，不过里面大咖云集，奥巴马、Elon Musk、Bill Gates 都会在上面回答问题。

这是针对特定话题的问答系列，而有什么能比机器学习更适合作为开头的第一个话题呢？机器学习无疑是今天最炙手可热的技术之一，在过去几年间实现了深度学习等许多进展，而许多企业也将注意力和资源投向了这一领域。

这个 Quora 机器学习问答系列将会邀请众多这个领域的大神来答疑解惑。

这次参加的是 Yoshua Bengio，电脑科学家，毕业于麦吉尔大学，在MIT和AT&T贝尔实验室做过博士后研究员，自1993年之后就是蒙特利尔大学任教，与 Yann LeCun、 Geoffrey Hinton并称为“深度学习三巨头”，也是神经网络复兴的主要的三个发起人之一，在预训练问题、为自动编码器降噪等自动编码器的结构问题和生成式模型等等领域做出重大贡献。他早先的一篇关于语言概率模型的论文开创了神经网络做语言模型的先河，启发了一系列关于 NLP 的文章，进而在工业界产生重大影响。此外，他的小组开发了 Theano 平台。

现在仍然在完善嘉宾名单，不过已经有另外6位也确认了会参加这次活动。

包括：

吴恩达

百度首席科学家，斯坦福大学计算机科学系和电子工程系副教授，人工智能实验室主任。吴恩达是人工智能和机器学习领域国际上最权威的学者之一，同时也是在线教育平台Coursera的联合创始人。曾与谷歌顶级工程师合作建立全球最大的“神经网络”——“谷歌大脑”。

2014年5月16日，吴恩达加入百度，担任百度公司首席科学家，负责百度研究院的领导工作，尤其是Baidu Brain计划。

Pedro Domingos

Pedro Domingos是华盛顿大学的教授，他是机器学习领域的领头研究者，并且因研究出能够进行不确定推理的马尔可夫逻辑网络而著名。Domingos 获得了里斯本技术大学的本科和硕士学位，然后在加利福尼亚大学尔湾分校拿到了硕士和博士学位。在IST做了两年的助理教授后。它与1999年加入华盛顿大学并且现在是一名教授。

Kevin Murphy

谷歌总部研究科学家，在谷歌研究人工智能、机器学习、计算机视觉与自然语言理解。他于2011年加入谷歌，此前是加拿大温哥华英属哥伦比亚大学的计算机科学和统计学终生副教授。他已发表80多篇会议或期刊论文，是《机器学习：概率视角》的作者，该教材长达1100页，由麻省理工出版社2012年出版，并获得2013 DeGroot 统计科学最佳书籍奖。

Isabelle Guyon

咨询公司ClopiNet（为模式识别、机器学习、统计数据分析、以及数据挖掘提供咨询服务）的创始人兼总裁，纽约大学健康信息学和生物信息学中心（CHIBI）客座教授。她在机器学习领域是国际知名的学者，与Drs Vapnick和Boser一起发明了核SVM分类器，也发明了基于SVM的特征选择方法RFE。

Alex Smola

卡耐基梅隆大学教授，Marianas Lab 公司的 CEO。研究方向包括以下几个方面：

算法的可扩展性: 这意味着推动算法达到互联网一般的规模，使的他们在不同机器分布，设计出融合和修改模型来适应这些要求。

Kernels方法是线性方法非线性化和非参数画的有效手段。我的研究兴趣包括支持向量机(SVM)，高斯过程和条件随机场。

统计建模: 贝叶斯非参数是解决许多建模问题的好方法。很多时候综合运用Kernels方法和可扩展性可以得到让人满意的方案。

Thorsten Joachims

康奈尔大学计算机科学系和信息科学系教授。他于2001年完成博士学位后加入该系。主要研究方向是机器学习、支持向量机、数据学习理论、文本分类、文本挖掘等。他是 ACM Fellow, AAAI Fellow 和 Humboldt Fellow。

我们非常期待你能提出问题、参与这个活动，也非常激动于能够为分享这个奇妙的领域的知识做出贡献。

论文下载

回复 0121 按照本文中标注的序号如Q1a,Q1b来下载相应的论文

以下是81个问题：

Q1：在理解深度学习工作原理的道路上，我们已经前进了多远？

与有些人的想法相反，我相信我们对于深度学习的基础已经有了不错的基本理解，例如：

我们理解了卷积结构和递归结构的分布式表征、深度、以及元素与函数空间中的偏好（或者更通俗的说法是，先验，priors）相对应，并且我们有理论来解释为何其中一些偏好可以带来重要的（有时候是指数级增长的）统计优势（这意味着可以用更少的数据达到相似的准确度）；我的书中有更多的对于最近一些论文的详细描述，我最喜欢的一篇是NIPS 2014的“关于深度神经网络线性区域的数量（On the Number of Linear Regions of Deep Neural Networks）”（Q1a）。过去和现在，研究人员对于各种深度学习模型的解释力也做了许多工作。

我们更好地理解了为什么训练深度网络时涉及到的优化问题可能并不像我们先前以为的那样棘手，在某种意义上来说，绝大多数的局部最小值可能实际上都与非常好的解决方案相对应。这个问题上有两篇很好的论文：NIPS 2014的“识别和攻击高维度非凸优化的鞍点问题（Identifying and attacking the saddle point problem in high-dimensional non-convex optimization）”（Q1b）以及AISTATS 2015的“多层网络的损失面（The loss surface of multilayer networks）”（Q1c）。

不过，当然，我们需要更多更多的理论！许多时候我们都会处于无法理解实验结果的境地里。

Q2：你怎么看强化学习？它是像Yann LeCun说的那样，是画龙点睛的一笔吗？

如果我们只使用强化信号来引导学习，那么我同意Yann LeCun的说法，它是画龙点睛的最后一笔。糟糕的是：当使用的全局强化信号并不是对于特征的已知可微函数时（这种事经常发生），扩大能根据这个信号而训练的隐藏单元的数量（或是行动维度）就会有严重的问题。行动的样例数量、随机样本数量、或是尝试次数，随着单元数量的增加，可能不得不至少以线性的速度增长，才能在质量的信度分配方面达到和反向传播技术差不多的水平。如果行动空间很大，这会是一个很麻烦的问题。然而，就像在Yann提到这件事时说的那样，我们在做强化学习的时候也应该做非监督式学习。那么它就会变得更具可信度，能够在大规模的环境下发挥作用。

Q3：理解大脑对于理解深度学习来说有多重要？反过来呢？

就像许多早期从事神经网络研究的人（包括我的同事Geoff Hinton和Yann LeCun）一样，我相信，当我们思考我们对于大脑已经知道了什么的时候，我们会有不错的机会来从中学习一些对于搭建AI来说有用的东西，并且这一点随着神经科学家们收集了越来越多的大脑数据而变得越来越确定。这个信念与相反的想法也是有联系的——为了真正理解为何大脑让我们拥有智能，我们需要对于大脑中发生的事构建一个“机器的学习”的解释，也就是说，搭建一个计算的、数学的模型来解释我们的大脑是怎样学习如此复杂的东西、又怎样表现出如此成功的信度分配的。为了验证这个解释，我们应该能够运行一种机器学习算法，它拥有从神经生物学中提取出来的基本原则，但它没有必要理解这些原则（但是可能有必要将这些原则在它的“大脑”中实现，或是为它提供一些我们与生俱来的知识）。就我所知的而言，我们对于大脑怎样做一些反向传播技术做得很好的事情还没有一个可信的机器学习解释——也就是说，还没有明白，脑内神经元突触应该怎样产生变化，才能让作为一个整体的大脑对于世界有更好的理解、做出更好的行为。这是这些日子经常在我脑海中徘徊不去的话题之一。

Q4：有没有深度学习永远不能学会的东西？

这取决于你说的深度学习指什么。如果你指的是现在我们知道的算法，那么答案很有可能是“是的”。但是，毫无疑问，随着这个领域的研究不断探索，深度学习还在继续演化，很明显深度学习的应用范围有不断扩大的趋势。神经网络曾经在模式识别问题上非常成功，音素识别和物体识别都是很好的例子。然而，我们可以看到越来越多神经网络方面的工作正在靠近传统的AI领域，比如推理、知识表征、以及操作符号数据。我相信，这些近期的工作只不过是冰山一角，但是当然我的手里并没有水晶球来做预言。如果我们未来对于深度学习的定义中，包括了以受神经启发的算法来复制所有人类认知能力的能力，那么“这个领域中没有深度学习学不会的事情”的假设就是相当合理的。不过，到时候，可能会有一些人类永远不能学会的任务；对于这些任务，很容易得出结论：没有机器能完美地完成这些任务，因为用来训练的样本数量太局限了。

Q5：你对于Kaggle和其他机器学习竞赛有什么看法？

就像许多其他东西一样，适量的机器学习竞赛是很好的。激励一些愿意与人竞争的学生（特别是新学生）是一件很棒的事。这让他们真正地学习如何操作机器学习，只读论文你是学不到这些的。基准测试也扮演着重要的角色，让我们的注意力能集中到超越此前最新技术的全新方法上。但是它们不应该被用来作为抛弃那些败于基准测试的研究的理由。如果有什么东西在一个基准测试上表现很好，这可能意味着我们应该向它投以一些关注，但是相反的推论却并不正确。你可能有一个伟大的想法，但是你做出的方法现在表现得却不是很好，因为有一个讨厌的细节问题压抑了它的表现——而这可能在下一年就能被修正过来。这些日子，机器学习评论者们对于实验结果的比较被赋予了过多的重要性。我相信这是某种懒惰。查阅比较结果的表格的确比在实际上尝试理解论文中的思想要简单得多，局限在它给出的可能性里也的确更为轻松。

Q6：深度学习研究将去往何方？

研究从定义上来说就是在不断探索的，这意味着（a）我们不知道什么能起效，以及（b）我们需要探索许多途径，我们需要整个科学社区在研究方向上有很大的差异性。所以我只能告诉你我目前的直觉，我在哪些地方看到吸引了我直觉的重要挑战和机遇。这里是其中的一些：

非监督式学习是关键，我们现在的做法还并不正确（我和其他人在这一方面写过、说过很多观点试图纠正）

深度学习研究可能会继续扩张，从原本的传统模式识别任务扩张到AI的全部任务，包括符号操作、记忆、规划和推理。这对于完整地理解自然语言和与人对话（也就是说，通过图灵测试）来说将会非常重要。相似的是，我们见证着深度学习正在延伸到强化学习、控制、以及机器人学的领域，而这只不过是一个开始。

对于AI，我们可能仍然需要再获得许多知识，更好地理解大脑并尝试找到大脑运作的机器学习解释。

最大似然可以加以改进，当在复杂的高维度领域中学习时（非监督式学习和结构化输出情景中兴起的情况）它不一定是最佳的目标。

基于深度学习的AI（不只是消费者产品）将会很大地受益于计算力的大幅提高，这可能意味着出现专门的硬件；这是因为，AI需要大量关于世界的知识（然后对它们进行推理），这就需要用非常大量的数据来训练大型模型，这一切都需要比我们现在使用的高得多的计算力。

其他见我对于Q12“开放的研究领域”问题的答案。

Q7：2015年你读过的哪一篇机器学习研究论文最让你感到激动？

没有哪一篇能够完全胜过其他任何论文，而我意识到了跟人们说“不同的研究员会对不同的科学贡献印象深刻”，所以我对于如下进展的选取是非常主观的：

批量正态化的论文很激动人心，因为它已经对于训练无数架构都产生了影响，并且已经被作为标准来采用。

梯型网络的论文很激动人心，因为它让非监督式学习的想法重获新生（文中提到的是特别有趣的堆叠式消噪自动编码器），能够与直白的监督式学习能够共同竞争——特别是在半监督式的情境中。

今年，生成式对抗网络——LAPGAN和DCGAN——的论文，通过让人印象深刻的方式、真正地提高了对于图像的生成式建模的标准，瞬间让这种方法脱颖而出，为非监督式学习在去年的快速进展贡献良多。它们能与另一个基于变分自动编码器的深度生成式建模——包括去年早些时候那篇让人印象深刻的DRAW论文——相媲美。

去年，有不计其数的论文用了基于内容的注意力机制。我看着它从我们的使用注意力机制的神经机器翻译开始，之后是神经图灵机（再之后是端到端记忆网络），还有许多对于这种处理方式激动人心的用法——比如生成对于图片的描述和菜做数据结构（我特别喜欢Pointer网络和其他关于可微数据结构操作的论文，包括堆栈、序列、教机器阅读和理解等等）。所以这种架构的设备已经到来…

还有许多其他的我不能准确地评价的论文…

Q8：一个人怎样才能开始机器学习？/对于一个熟悉机器学习基本概念的人来说，开始接触深度学习时有什么不错的资源？

首先你需要在数学和计算机科学方面有适当的基础。深度学习方面，你可以看看MIT出版社的《深度学习》（现在可以在线阅读，最终MIT出版社会将它印刷成册）第1部分，重温一下数学和计算机科学的知识、或是看一下数学和计算机科学中哪些领域与深度学习最有关系。然后你需要了解一些机器学习方面的知识（有一些不错的书，比如Chris Bishop写的和Kevin Murphy写的，视频的话比如有吴恩达的coursera课程和Hugo Larochelle的神经网络授课视频，你也可以从《深度学习》这本书的第5章中获得许多基本知识的总结）。然后你需要开始练习，也就是说，亲手编写一些学习算法、用数据来训练它们——比如说，尝试参加一些Kaggle竞赛。试着成为优化超参数和选择恰当模型方面的专家吧。同时，继续保持阅读。如果你对于深度学习感兴趣，我的书《深度学习》中第3章将会为你使用大多数常见的算法打下基础。到那时，你应该有了足够的背景知识、能够以稳定的频率来阅读勾起你兴趣的论文了。

自我推销真是非常厚脸皮的一件事，但是我们真的为这本书做了许多努力… Ian Goodfellow、Aaron Courville和我写了一本为你们准备的书)

它叫做《深度学习》，应该很快就会出现在市面上，不过你已经可以在网站上（http://www.deeplearningbook.org/）阅读所有的草稿了。

Q9：你怎么看OpenAI？

我觉得在我所在的社区中有另一个玩家加入是一件很棒的事，它在市场和研究人员的文化两方面的影响力进一步推动着业界实验室转向重视长远的目标，让基础研究不只由学界来做。我强烈地相信，如果能以几十年的度量来考虑，如果我们对于短期目标没有那么关注、没有那么贪婪（试图立刻利用起来赚钱），我们本来是可以在探索AI的道路上走到更远的地方的。

Q10：目前对于深度学习的炒作是否言过其实？

如果它是炒作，它就会夸大实际情况。这种夸张是存在，我见到过。当有人认为人工智能的研究比实际情况更加接近人类表现时，这就是炒作，而这种想法通常是依据人们在电影或科幻作品中见到的AI场景而得出的心理印象。

在我的生涯中，我经常会觉得，通常情况下，人类很贪婪。我们在短期目标中会花费很多精力，如果我们在长期目标中持续这种状态的话，我们会收获更多。而这意味着要接受很多事实：在AI领域还有很多根本性挑战；我们不知道还要用多久才能解决这些挑战（我们也有可能永远无法成功解决）。我感觉人类有一种存在于本性中的倾向：更倾向于“利用”知识，而非“探索”收集更多的知识。这种倾向对于我们的祖先来说是很有意义的，因为他们每天都面临危险。于是成功存活下来就变成了一种短期顾虑。公司想要快速赚钱。投资人对它也有需求。政府官员想要在其四年任期结束之前加快经济发展，而且他们也受到公司和非常富有的人的影响而被败坏，进而他们根本不在乎这对于人们的长期回报。学术界应该担负起担忧长远未来的责任，但是他们经常被卷入到政府和公司的短期想法中（他们为研究提供资金），或者陷入——“出版或死亡”和“短期增加研究强度以提高基准测试的表现”——的逻辑中而无法自拔。

这即是说，没有被夸大的是：深度学习已经有很好的表现（经过适当的设计并得到所需的数据后），而且也有可能被转成重大经济影响和增长。我们可能在某些非常有限的领域中找到了接近人类表现的方式，或者说，在之前技术基础上提升很多以至于有非常明显的经济价值。但是这距离人类级别的智能还非常遥远。

Q11：今年（2016）会有深度学习夏令营吗？

描述：Yoshua Bengio、Roland Memisevic和Yann LeCun2015年在蒙特利尔举办过一个深度学习夏令营。在蒙特利奥或其他地方会有相似的事情发生吗？

在2016年8月应该会有。静待通知。

Q12：在深度学习方面有哪些开放的研究领域？

这补充了之前的Q5。

每个研究人员对此都有看法，这很好。这里是我的想法：

非监督学习真的会发挥巨大作用

生成模型会根据一系列变异度很大的自然图像和声音来生成简洁的图像和声音

半监督学习会发挥作用，即使被标记的数据集不微小；

学习数据到空间的双向转换方式，空间中的变量是相互纠缠的（或者大部分独立的）

将（迭代式）推理带入到深度学习中来处理隐性变量的非因子后验概率

在我们的模型中引入更多推理能力

大规模自然语言理解和知识表征

序列数据长距离相关性模型并让学习器在多时间尺度上发现框架性的表征方式

更好地理解（并修补）有时会出现的优化问题（例如，在非监督学习或长距离相关性递归网络中）

训练将计划（能够理解假设分析场景，也许随机地通过一个生成式组件）作为一部分学习步骤的模型（而且还能做决定）

将强化学习扩展到较大的活动空间中

最大似然定理有一些已知的不足（例如在训练和测试情况下有错配现象），而且我们需要绕过它们（也许连最大似然定理一起抛弃）

弥合深度学习和生物学之前的空白

加速理论理解深度学习（优化问题是一方面，表征或统计方面也需要更多的理论）

研究特殊的硬件以支持离线训练模型来开发消费者产品，但这从科学的角度看可能更重要，训练更大的模型来捕捉更多的知识，进而为人类级别的AI研究开辟道路

很多应用还欠开发，我特别想看到在健康方面的研究工作（如缺失值等特定问题，还有通过迁移学习利用小型研究数据）。

Q13：有了Torch和谷歌发布的TensorFlow对工业的强大支持，你对Theano和其使用寿命的看法是什么？

TensorFlow对Theano有很大的威胁，它们建立在相同的基本想法中，即构建并操作一个计算图，以符号形式来表征数字计算。然而，TensorFlow需要更多的工作，而且谷歌看起来很想提高它，并让它成为更有用的工具。这要看事情以后的发展，学生和研究人员如何选择。我对以下两者感到很自豪：我们Theano的完成情况，和谷歌相似地构建了一些更好的东西，但是Theano对于我来说不是一种信仰。我喜欢对开放而有前瞻性地研究具有高级而灵活的探索能力的工具。

Q14：深度学习能像在视觉和语音领域中那样在自然语言处理领域中取得成功吗？

我当然相信会这样！最近几年的进步暗示了进步幅度会更快。例如在神经机器翻译中的相关工作，这方面我知道的比较清楚。我认为我们在来年会看到更多，而深度学习也在逐步朝着自然语言理解中存在的诸多根本性挑战方向发展。

Q15：深度学习与机器学习有怎样的不同？

深度学习是机器学习的一部分。在机器学习中有很多概念和想法，而深度学习是从这个更大集合中抽离出的一部分。很多大学曾有一段时间不再教学深度学习，但是现在，在某些地方，受到关于深度学习的炒作影响后，这种局势可能会逆转，而这并不好：学生继续学习经过几十年机器学习研究而得出的不同想法和概念是很重要的，这提供了更加广阔的思路，也为新发现打开大门。

Q16：你为什么会在神经网络（而非其他机器学习领域）上花费很多精力？

自从我研究生的研究后，我就预感神经网络会再次崛起，这受到了David Rumelhart和Geoff Hinton强有力想法的影响。在90年代后期，当机器学习社区开始转向神经网络后，这些预感让我开始探索神经网络绕过维度诅咒的方式和原因，我当初（现在也）认为是机器学习的关键挑战。这就引出了我和我兄弟Samy的第一篇文章（在1999年NIPS上，《Modeling High-Dimensional Discrete Data with Multi-Layer Neural Networks》（Q16a）），后来有了更好的工作（依据相同的想法）《neural language model》（Q16b）（在2000年NIPS大会上，和Pascal Vincent一起）。这个工作之后，我将这些想法扩展到连续空间和流形研究中，以及非参数流行方法是如何受到特定形式的维度诅咒的干扰。这最终引出2005年NIPS的文章《Non-Local Manifold Tangent Learning》（Q16c）和2005年NIPS的文章《The Curse of Highly Variable Functions for Local Kernel Machines》（Q16d）（和Olivier Delalleau、Nicolas Le Roux一起）。这一系列思想轨迹刺激了人们研究——利用深度来增加绕过维度诅咒的可能性——的积极性，最终在2006年的NIPS上有了这篇文章《Greedy Layer-Wise Training of Deep Networks》（Q16e），和Hugo Larochelle一起用RBMs和自动编码器来训练深度网络，这一工作受到Geoff Hinton早期对RBMs研究的启发。有了Geoff小组和Yann小组那年的文章，终于有了第一篇文章，表明可以训练深层网络（实际上比浅层网络性能好），这也是对深度的强调和神经网络重生的开端…

Q17：一个没有PhD学位（但是从技术上来说）自学过ML的人如何向你这样的人证明他已经足够优秀来为你工作？

见我回答的《对于正在进入机器学习领域的年轻研究人员，你有什么建议？》（Q18）和《对于一个熟悉机器学习基本概念的人来说，那些是开始学习深度学习的好资源？》和《某人应该如何开始学习机器学习？》

Q18：对于正在进入机器学习领域的年轻研究人员，你有什么建议？

确定你在数学和计算机方面经过了很强的训练（包括，实践部分，如编程）。读书，读很多文献，但这还不够：你需要发展你的直观理解，通过以下方式：（1）自己编写很多学习算法，如尝试重现文献中的方法；（2）例如参加比赛或者在重现文献中方法后进一步改善结果，从而学会去调试超参数（hyper-parameters）和探索（框架、目的函数等等）变异性。接着找人一起做头脑风暴，在探索和测试新创意时分享工作负担。和已有的小组一起工作是一种理想方式，或者招募自己的学生与你一起工作，如果你是一个教职人员的话。

Q19：非监督深度学习预训练有用吗？何时有用？

非监督预训练在自然语言处理中使用得很频繁，例如当我们使用非常大的文本语料库来预训练词汇的表征时，接着在小型标记好的数据集上使用或微调这些预训练表征。然而，我们一直（从2008年和Hugo Larochelle 一起写作的ICML论文《Classification using Discriminative Restricted Boltzmann Machines》开始）（Q19a）知道的是，结合监督式和非监督式方法来共同训练参数会更好。最近这类方法的成功应用是《Ladder Network》（Q19b）。

Q20：AI对人类有生存威胁吗？

我们未来某天可能实现的这类能够达到甚至超过人类表现的AI有很多不确定性。即使我站在乐观主义的一方（因为这种不确定性），我们不能否认存在这种可能：我们不想发生的事情发生了。这就是我签下了未来生活公开信以开发一个稳定而有益的AI的原因。

然而，请记住这种潜在威胁现在还离我们很远。媒体总喜欢夸大其词来吸引注意力。这会妨碍AI研究。相反的，我们应该鼓励相应领域的研究来更好的理解这些问题，进而如果某天出现一些事情要具体处理时，我们也能更好的准备并开发对人类来说更安全的AI。

谈到这里，我相信将媒体的注意力从AI带来的长远角度科幻性质的恐惧转移到短期更具体的政治经济问题上是很重要的。但我们应该提前考虑这些问题，而不是等到人类受到伤害（例如，失去工作）虽然会有少数幸运的人会变得超级富有而且有很大的权力。我们整体需要对如何利用AI带来的进步做出英明抉择，为全体利益着想而非少数。为了适应科学技术带给我们愈来愈强大的力量，丛林法则是不适用的：我们需要在个体和整体上都有英明的远见，这不仅是为了我们，也为了我们的后代。

Q21：你的书何时会上市吗？

现在基本要看MIT出版社。内容方面已经完工了（而且网上也有。）我们正在等评论家的反馈（估计一周或一个月吧），接着MIT出版社可能需要一些时间安排出版的事情。可能要几个月，总体来看，一年之内很可能完工，之后会邮寄。如果你找到打印错误、错误或者缺失重要部分，现在是你为这本提出宝贵意见的绝佳机会！

Q22：你对只用一个学习算法解决问题是怎么看的？

这是一个很有意思的想法，而且有点像皮质的功能，因为如果有必要的话，同样的皮质部分可以做其他部分的工作（即使每个区域由于初期的结构部署而被安排好做特定工作）。这很有意思，因为如果存在一个核心学习算法（虽然可能涉及到一些概念）完成多种任务的话，那么这种算法很可能很强大而且很实用，更不用提还能提供有用的科学观点。我认为，它足以有趣以至于不找寻它的人是不正常的，万一它存在呢。然而，大脑除了皮质之外，还存在着其他部分，例如海马区，有可能根据不同的算法学习并与皮质交流，近期记忆网络和神经图灵机的相关工作也暗示我们可以受益于多种不同类型的组件。另外，大脑也很有可能结合了非监督学习和强化学习（后者有研究透彻的生物学证据）。

Q23：在学术界做深度学习研究与在产业界相比有哪些好处和挑战？（为什么你是仍坚守在学术领域的为数不多的深度学习研究人员之一？）

据我所知：

好处:

为大众的利益而工作的满足感，为人类，而不是财富占有者或者投资人，在更加开放的环境中工作而没有专利使用限制的困扰

身边会有很多聪明的研究生和博士后，下一代研究人员而且也会影响他们

挑战:

不得不花很多时间写方案来获得资金、在委员会中任职等

只有访问公开数据集的权利（但我认为这其中有很多有趣的数据集）

没有大的工程团队来开发大型系统

没有很多计算资源

然而，我必须承认我在后两件事情上做的很好，这要感谢我当前接收到的（经常从大学那里）慷慨的资金和赞助。我很庆幸我的大学高度珍视我的存在而且只限定我每年一次（除了学术休假）教学研究生课程，在过去的15年中。当然这些只是我幸运地得到了这样的环境。

Q24：你曾说过当前机器学习算法的主要限制是它们学习需要太多的数据。你能详细说明这一点吗？

在孩子的前两年生活中（甚至在学会语言之前），他们本质上是通过看没有被标记的数据学习。孩子们在童年看到的自然语言比现在训练得出的最好的语音识别器和机器翻译系统所需的文本数量要少得多。这种差距是指数级别的。为什么？人们似乎能够更好的利用他们能够得到的较少的数据集，而且我相信这是因为他们自己对周围的世界建立了一个能够捕捉因果关系的模型。这让我们能够预测在某些假定条件下什么会发生，即使这些条件与我们以往经历过的条件有明显的不同。我从来没有真实经历过车祸（例如），但是我的大脑可以充分的模拟它（并预见结果），进而我可以自动的做出计划来规避这样的不幸。所以未来还有很多事情需要我们发掘。

Q25：如何将深度学习应用到时间序列预测上？

这有很多种可能性，但我会使用最先进的递归网络（使用门控单元（gated units）和很多层）在每个时间步中做出预测（这有利于未来垂直方面的一些应用）。接着，用下一个观测来更新RNN从而做出下一个预测。你可以预测一个值，可以是关于那个值的不确定性（例如用高斯对数似然），或者一个复杂密度（例如用混合模型），正如这篇文章《Generating Sequences With Recurrent Neural Networks》（Q25a）。你也可以预测多个值，甚至是关于它的未来不确定性轨迹（通过预测关于轨迹点的一些协方差），正如这篇文章《Forecasting Commodity Contract Spreads with Gaussian Process》（Q25b）。如果你想要一个更稳定的预测器，你可以使用绝对值（中位数）或者分位数预测器，例如这篇文章《Robust Regression with Asymmetric Heavy-Tail Noise Distributions》（Q25c）。

Q26：为什么非监督学习很重要？深度学习在其中起什么作用？

深度学习其实是关于学习表征方式，这意味着学习有益于捕捉我们所关注的统计相关性的中间概念，特征或隐性变量。这些相关性来自于从输入变量到输出变量的监督学习过程，或在变量的任何子集之间的非监督学习过程。通常来说，监督学习用于教电脑学会对解决特定任务很重要的中间概念（例如类别）。然而，我们看到监督式深层网络在它们的网络层中可以发掘出有意义的中间概念。非监督学习很相似，不同在于我们让模型捕捉了所有变量之间可能的相关性，不区别输入和输出。用监督学习来完成AI可能需要让电脑从所有与这些概念有关的数据集中学会所有对我们很重要的概念。这不是人类的学习方式：是的，由于语言的存在，我们得到了一些阐明新概念的示例，但是我们观察到的很多东西并没有明确的标记，至少一开始是这样的。孩子们并没有让大人告诉他们每幅图的每个像素是什么，或者每幅图中的物体是什么，什么是语法结果，每句话中的每个单词的确切意思是什么。我们从简单的观察中提取出大部分信息（可能通过“动作—感知”循环），而这就是非监督学习的基本原理。我们希望深度非监督学习将能够发现（可能需要很少的标记数据的帮助）所有的概念和事情发生的起因（一些被直接标记好，一些没有标记），进而解释我们看到的现象。所以我相信这个方向上的进步对实现AI有本质性推动作用。而且我们都是这么想的：）

如果你仔细想想，科学家正在做非监督学习：观察世界，想出解释某种现象的模型，收集更多观察数据（虽然是有目的的）来测试它们，接着不断的改进这种解释世界运行原理的模型。然而我们确实从教育中得到了提升，因此像《curriculum learning》（Q26a）文章中的想法也是必需的（正如我们见到过的一些机器学习任务）。

Q27：你对Max Weling的论文《ML和统计是互补的吗》是如何评价的？ML因为深度学习正在远离统计学吗？

Max确实找到了深度学习成功的3个因素：（1）计算力；（2）大型数据集；（3）大型灵活的模型。我会加上一点：（4）明显的偏向（偏爱函数空间或者贝叶斯方法）。深度网络受益于一些对底层数据的附加假设，我在深度学习书和很多讨论中提到过：多个潜在因子的假设（分布式表征，因果关系），因子组成的假设（深度），（在卷积网络中）等方差和时间一致性的假设，（在递归网络中的）时间恒定性，等等。虽然前三个因素属于计算科学领域，但是最后的因素（也可能是最有趣的因素）明显涉及到统计学的思想。我认同Max的看法：不太可能解释大型深度学习网络中亿万计的参数，但是有可能理解这些网络中直接或间接引入的先验假设。然而，如果统计师可以接受这些问题中的计算科学成分的话，会很好，就像计算科学家已经接受了机器学习中的统计成分一样。最后，关于深度学习还有很多理论需要去发现，统计学家明显可以在其中起到作用。

所以，是的，表面上看深度学习似乎正让机器学习远离统计学，但是正像Max所说，他们在未来发展的多个方面可以起到重要作用。

Q28：你认为，深度学习未被研究透彻的众多部分中，哪个是最令人困惑的？

深度学习到处都是迷！看我之前回答《在深度学习方面有哪些开放研究领域？》（Q12）来找深度学习研究方向。

这里是一个研究得很不充分且真的令我疑惑不解的一个例子：

我们可以用一个高效在线算法（不需要储存我们一生中所有的心理状态然后倒序播放）在时间中（对于训练递归网络）达到像反向传播一样，或者更好的效果吗？大脑显然做到了这一点，但我们没有任何线索。

Q29：神经网络可以有一个关于它们内在原理的纯概率式解释吗？

通常情况下，没有事物真的是简单而纯粹的，但是大部分神经网络都有一个清晰的概率解释（事实上，近年来，我在自动编码器的概率解释中做出过一些贡献，和Guillaume Alain一起）。监督式深度学习只是学习条件概率，然而很多不同类型的非监督学习方法直接或间接地估计了数据生成分布的联合分布。

然而，它们的工作原理不是概率问题。这涉及了统计问题还有优化问题。

Q30：“机器学习领域最新的重要进展大部分是关于工程和计算能力的”，这句话对吗？

我不同意这个观点。我会说，计算能力和数据集的大小是必要的要素。在现代的深度网络中，有几个计算要素（ingredient）实际上带来了不少的不同：修正器(rectifiers，及其变体)，丢弃法（dropout），批量正则化，还有某些情况里的半监督式学习和迁移学习。这其中甚至还都没有说到，由于出现了在十几二十年前没有人能想象到的算法，我们在生成式模型方面取得了惊人进展。

Q31：你认为传统的统计学习是否会在不久的将来再次战胜深度学习（或者任何基于神经网络的方法）？

神经网络是统计学习方法。

科学不是战斗，而是协作。我们都是在彼此的思想上建立自己的思想。科学是一种爱的行动，不是战争的行动。一种对于周围的世界的美丽产生的爱，一种愿意分享和合作的爱。从情感上来说，这使科学成为一种让人感到高度满足的活动。

Q32：你对于进入机器学习领域的年轻研究者们有什么建议？

确认你在数学和计算机科学领域(包括实际的部分，也就是编程)有扎实的背景。读书和（大量的）论文，但这还不够：你需要培养出你的直觉，这可以通过（a）亲手编写相当多的学习算法，比如重现论文中的结果，以及（b）学习怎样微调超参数以及怎样探索（架构、对象函数等方面的）变种。然后，找到合作者，你可以与他们一起对想法进行头脑风暴，并与他们一起分担探索和测试新想法的工作量。当然与一个已形成的团队一起工作非常理想，或者如果你是一位大学教师的话，你可以招募你自己的学生，和他们一起进行工作。

Q33：一个人要怎么才能想出新的深度学习架构？只是通过试错吗？

是，也不是。不是，因为对于一个单纯的随机搜索来说，能起作用的算法的空间太大了（均匀随机的话，找到好东西的几率非常小）。是，因为这会是一种高度引导式的随机探索，就像任何其他科学努力一样。但请尽量弄清到底发生了什么，这无疑会给你带来更多的好处。这不仅仅是与在算法的空间中进行搜索有关，它也与在这一旅途上理解更多普适的概念有关。这就是随机探索中“引导”的那一部分。它不同于只是想胜过基准测试，而且从长远来看,它对其他人来说会更有用。提出理论来解释你所看到的现象，然后通过建立一个专门为了打败这个理论而设计的实验来进行测试。不断重复这个过程。这就是科学的历久弥坚的方法。

Q34：你怎么看DeepMind？

那是一个好地方！许多我以前的学生都在那里工作。他们的研究成果很惊人。他们显然是全球进行深度学习研究（为数不多的）最好的地方之一。而且我喜欢这个想法：Google之类的公司正在向一个与产品并不紧密相连的团队所作的长远研究投入如此之多的资金。其他公司（如Facebook）已经在朝着这个方向行进，而现在我们也有了（小得多的）OpenAI。所有这些开放和长期研究投资对科学进步都很有帮助。但我相信这无法取代学术界的作用。

Q35：我们什么时候才能看到深度学习的理论背景和数学基础？

理论一直是神经网络研究的一个部分。参见我对于《Q1：在理解深度学习工作原理的道路上，我们已经前进了多远？》的回答。

我觉得我们对于为什么深度学习能发挥作用有了许多根植于理论的洞见，但是我很确定我们还会做到更多！

Q36：在研究预料之外的实验结果时，比如你觉得某个想法应该会有效、结果在实验里却没有效果，你会用到什么技术？

好吧，通常来说，这要么是一个bug，要么就是更有趣的情况：它证明了你脑海中的模型应该改一改了！你需要变得善于寻找bug（这需要练习），在机器学习中这并不是一件容易的事，因为许多bug仍然会允许及其继续学习，只不过效果不那么好了。但无论如何，当实验结果与你的期望不符时，不要无视它！这是一个你应该为之热切期盼的机会;-)

有时候你脑海中的模型是错误的，但是别人可能不觉得你的结果让他们惊讶，于是你将需要通过交流（可能是写一篇论文，或者是与其他研究人员探讨）来找出错误。

我最好的调试工具是我脑海中的模拟系统。让模型在你的脑海中运转，越详细越好，然后试着想象有什么事可能发生。

Q37：如果“深度学习”这种词语组合不存在的话，你会怎样称呼它？

神经网络也是一个不错的词语组合。

Q38：深度学习之后机器学习中的“下一个”大事会是什么？

第一，我根本没有水晶球。第二，据我所知，当我们实现了人类级别的AI后，深度学习的使命就结束了，而我很难预见这之后会发生什么。深度学习为神经网络带来了一些想法。随着时间推移，其他概念也会加入其中，从而一点点向着实现AI方向努力。我真的认为有些想法会历久弥新。这像是在问“我们研究了过拟合、欠拟合和容量之后，机器学习的下一个大事件是什么？”（过拟合、欠拟合和容量在80年代后期开始盛行。）这些想法永远不会过时，因为它们非常有用。显然这类想法，如学习复合函数（深度）的提出（和重要性），会历久弥新。但单凭其自身无法保证这一点。我们还有很多工作要完成。

Q39：你对概率图模型是怎么看的？

概率图模型的相关研究给我（和很多其他的深度学习研究人员）提供了一些伟大的洞见。它们是很多非监督学习算法的基础，也帮助人们理解了那些看起来不像是概率问题的模型（如自动编码器）。

Q40：在自然语言方面，未来的深度学习会有怎样的发展。

我相信，对于深度学习，自然语言处理是最让人兴奋的研究领域之一。这是一个长期存在的挑战，而深度学习正试图解决它们，而且我相信我们这套正确的工具能够取得巨大进步。

Q41:ILSVRC12 ,14,15 这三个先进的解决方案分别包含5层，23层，152层的卷积神经网络。您认为基于深度学习的视觉识别在朝着什么方向发展？

应该注意这样的数据：如果每一层激活函数更具线性，那么更深的神经网络实质上不会给你带来更多东西。我认为基于深度学习的视觉识别技术将会继续被改善（尽管可能不是在ImageNet这一基准测试上，因为它几乎达到了人类的水平。）在多变场景下的全景理解还没有取得任何进展，更别说“理解一个电影了”。从某些方面来说，更好的视觉理解需要更好的AI技术，也即更好的理解世界运行机制的机器，这包括理解人与人之间的交流。

Q42：你为什么会对机器学习感兴趣？

那是在1986年，我正在为我的计算机理学硕士学位寻找一个研究主题，并且我开始阅读一些基于神经网络学习的早期联结主义论文。我一见钟情。自那以后，我对其一直很有热情并且成为它的忠诚信徒。

Q43:除了重构输入数据（例如像是自编码器这样的深度神经网络，其工作原理即是重构输入数据），还有其它什么任务能够证明对深度网络中的无监督学习有用？

许多！

就我们目前知道的就有很多，例如：

在给定其它变量的情况下，预测另一个变量（伪似然函数）

给定其它的情况下，预测多个变量的子集（广义的伪似然函数）

给定了以某种顺序排列的前部分变量，预测下一个变量（完全可视的贝叶斯网络，自回归网络，NADE，生成式循环神经网络）

给定一个有噪声的输入，恢复原始干净的信号点（去噪过程）

预测输入信号是来自于数据生成分布还是其他分布（像是一个概率分类器）（对比噪声估计）

学习一个可逆函数，使其变换分布尽可能是阶乘式的。（NICE，并且考虑到近似一个可逆函数，利用变分的自编码器就有这样的特性）

学习一个随机变换，基于此，如果我们多次运用这个随机变换，我们能够使我们的模型模型收敛到接近于数据生成分布的输出。（生成随机网络、生成去噪自编码器、扩散反演=非平衡态热力学系统）

学习生成分类器不能从训练样本中辨别出的样本（生成对抗网络）

或者最大化某个概率模型中数据的似然概率

并且我确定我忘记了一些，并且会出现越来越多的基于无监督式学习的模型。

Q44：你认为自己将来某一天会在Coursera上开讲深度学习课程吗？

当编写有关深度学习的书时，我感觉我自己用尽了我全部的精力。我需要回复一些元气。或者其他人会来教授关于机器学习的网络公开课，而且他们可能会比我做的更好！最令我感到满意的感受之一就是看到所有这些聪明的研究者沉浸在深度学习研究中。

Q45：你认为NIPS会议取得了多大的成功？

太成功啦！

NIPS委员会正在考虑应该怎样来应对参会人员的增长。随着参会人数数量呈指数式地增长，一些像是在每个海报周围预设多少围观人数才合理之类简单的问题都是不容易得到解决的。

你认为我们应该尝试多声道口述？当房间里有数千人时，继续单声道口述有意义吗？为了自己的利益，NIPS是不是太大了呢？同样的问题之后也在ICML上出现了。

Q46：关于统计学习理论，你有什么想法？

统计学习理论是机器学习的部分理论基础（对深度学习同样适用）。我们需要用新的和更多的理论来解释用我们观察到的今天的学习算法所产生的现象。

Q47：你认为利用AI技术能够捕捉到人类失去理性的行为和思考过程吗（例如信任）？

当然。你所谓的非理性即是指“错的”。可能不能充分适用于这种情况。信任思维是非常理性的。理性于我而言就是:“利用可用的知识，做出正确的决定。”信任，以及其它许多的人类举动都是非常理性的。如果我们不相信任何人，我们哪里也去不了。最重要的是做对的事情。生物、文化的发展以及我们自己的经历已经在我们心中对世界建立了一个模型。但是我们没有意识到它的大部分。理性对于我来说，不是可以用几句话或者几个词就能够解释的。它对于我来说就是意味着最优的决策。

Q48：基于你以前的工作——不同时间段下的分离的循环神经网络（1995年），你认为最近的Clockwork 循环神经网络（Clockwork RNNs）怎么样？

它是一篇非常好的论文，但是我认为我们还没有解决如何学习时间层次的问题。在我1995年NIPS论文上，基于clockwork RNN（钟摆循环神经网络），时间层次结构是固定的。我想看到这样一个结构：可学习的，动态的（例如，在一个被处理的序列中，在不同的时间点是不一样的。）

Q49:你认为我们拥有一个支持或解释深度学习原理的理论框架有多重要？

我认为追求更多的关于深度学习的理论研究是一件非常有价值的事。

几年前，我认为它之所以重要是为了为人们提供便利。现在，实践结果如此强大，以至于当初的动机已经开始转移了。将来更好的理论能够帮助我们建立更好的算法。

Q50：在机器学习中解释一个模型有多重要？

这个问题就像是在问“一个人能够完全解释他的每个想法有多重要？”

那当然很好啦，但是对于我们发现人类（或机器）是否一个好伙伴来说，不一定必要的。可解释性已经被大肆地热议过了。在使用一个模型前我们真正需要的是对一个训练模型泛化能力的可靠保证。（这也正是围绕一个训练模型不断计算其测试的错误率以及不断评估其不确定性要达到的目标）。那即是指：我们应该尽我们所能来理解机器学习模型的内部到底是如何工作的，因为只有这样，才能够帮助我们排除模型中出现的故障，并且了解到模型的局限性，进而建立更好的模型。

Q51：你认为有可能让算法从通常被当做是噪音的数据中提取出有用的信息吗？

只有当其中存在一些潜在统计结构时！（即使我们没有看到它）

我确定，听见我说话的猫只是认为我在发出一些有趣的噪音（例如，对于猫来说，当声音变得响亮或声调高时，这些噪音才包含信息）。当我听到一个完全不同的专业人士用各种专业词汇谈论某个话题时，这也很快也会变成噪音。只有当我们构建了合适的模型时，才能把噪音变得有规律，例如，用与众不同的方式来预测，会承载有用信息。

Q52：我们如何让深度学习在计算能力较低的设备（如手机）上运行？

开发专业硬件，设计相应的学习算法。在我的实验室中，我们研究在很低的分辨率下且不需要使用任何乘法运算的神经网络的实现方法。这在很大程度上会减少计算消耗。

Q53：和你一起工作有哪些非学术的方式？

我经常和不在我实验室的人远程合作（例如在这个星球上的其他本科学生）。

Q54：加拿大蒙特利尔有哪些有趣的初创公司？

Imagia、Mantika、Datacratic、 Apstat、 Maluuba（不再是一家初创公司，起源于Waterloo）。

Q55：你对哪些有志于PhD项目的学生有哪些意见？

见我之前的回答：What areas need to be covered for machine learning and deep learning in particular.（深度学习和机器学习方面需要有哪些背景？）