【深度学习】这才是深度学习的本源

640?wx_fmt=jpeg

内容来源：2019年7月26日，在长城会主办的“GMIC之院士AI论坛”上，索尔克生物研究所计算神经生物学实验室主任特伦斯进行了以“人工智能，将成科技的最大风口”为主题的精彩分享。笔记侠作为合作方，未经主办方和讲者审核。
讲者 | 特伦斯
封面设计 & 责编 | 马畅

一、人工智能与人的大脑

大家好。现在人工智能对科学发展起着推波助澜的作用，如虎添翼，我们今天讨论的话题，就是这样普适的内容。

我们先回顾一下过去的250年。英国的工业革命兴起后，蒸汽机的发明增强了人类使用动能的能力，一个蒸汽机就能取代一百个劳动力。

当时，世界上的大部分人口，仍在农场进行手工劳动，可这样一来，手工劳动都被蒸汽机取代了。蒸汽机极大程度地替代了人工劳动力。

工业革命也带来人口迁移，人们从乡村转移到城镇。工业革命为社会带来极深远的影响。

从过去的250年可以看到，一系列的工业革命，使科学技术大范围地使用，各种技术层出不穷，这些技术深刻影响我们生活的方方面面。

当然这也有不少缺陷。几十年来，比如说工业革命时期的伦敦，有着大量的雾霾、烟尘，这是因为使用了以煤为驱动的蒸汽机所导致的。

在煤厂工作的煤炭工也饱受着呼吸疾病折磨，这是技术带来便利的同时，也要面临的挑战。怎么进行空气治理，减少呼吸疾病，就是一大挑战。

技术发展的同时，也需要处理技术带来的后果。我们现在正面临的人工智能技术也不例外。

大家会听到很多科技热词，我来简单介绍一下：

人工智能。这个名词诞生于1956年，目标就是在机器上模仿人类智能。这是一个非常大的目标，我们至今仍然没有达到这个目标。

在人工智能范畴内，有一个子范畴快速增长，就是机器学习。机器学习是以另一种方向发展人工智能。

比如说你能编程，就说明你已经具备了这个领域的知识，能去解决相关问题，而且解决问题的形式就是编程。所以你能编程，就已经是这个领域的专家。

但机器学习的路径是不一样的。我们通过收集大量数据、通过机器进行学习，利用数据结构化进行学习，学习图像对象、语言、词语序列等等。

在机器学习范畴，又另有一个方法学，就是特定算法。这是受到大脑启发触动的一个方向。

我们的大脑是一个非常复杂的设备，负责收集信息，有数千亿的脑神经元，来进行信息传递。

比如在场这么多人，大脑通过上千亿脑神经元进行信息处理，再将信息传递给在座各位。

目前我们仍然不了解大脑的内部运作，但是我想说，深度学习的灵感就来自大脑运作机制。

640?wx_fmt=jpeg

▲ 学习与编程的权衡

红线是编程线，如果要雇一个程序员给你解决问题，这个成本从1980年到2040年，成本都是逐年增加的。编程员是很贵的，而且需要专家级的编程员。

所以相对来说，从发展开始，我们的机器学习，从上世纪80年代开始，成本就非常高，电脑非常贵。但是现在的人工智能、机器学习，成本不断下降。

2012年，机器学习算法跟编程的成本大致相同，从2012年开始就逐年下降。

我们使用不同的数据组，不需要完全了解这个领域的知识，只要获得大量实例数据，我们的机器就可以通过特定的学习算法不断解决困难。

我们使用神经网络处理系统，在30年前就提出“神经网络模式”的理论。脑神经网络可以有效处理复杂的数据组，也有能力处理上亿的图像数据。

我相信在座各位对于阿尔法狗与柯洁的大战是非常熟悉的。2017年阿尔法狗打败世界围棋冠军柯洁，当时震惊世界。

不仅是因为它通过围棋这么复杂的运动，而打败了世界围棋冠军，同时还有巨大的人类共鸣，认为：机器打败人类，已经超越人类了。

在阿尔法狗打败世界冠军前，人们认为机器可以学得很好，但是不可能打败人类。但我们来看看柯洁是怎么说的：

“去年跟阿尔法狗对话，觉得它的下棋方式非常接近人类，今天已经像围棋之神一样在下棋，它每一步下棋的章法非常创新，是之前棋盘没有出现过的，非常创新，如果是人，我们称之为围棋天才。因为是通过人工智能，阿尔法狗出现创新下棋之举，所以也可以看到通过AI机器学习，机器也可以实现超神一般的创新。”

人类的大脑机制，是一个非常简单的版本，大脑里有很多神经元，大概上千亿个，但它们是平行工作的，这和数字化电脑不一样。

电脑是有处理器的，是有内存的。记忆实际上是神经元之间的连接，也就是在突触中存在，十的十次方个神经元，就有十个十次方个连接。

大脑里突触的数量非常多，也就是说大脑内存是巨大的，可以储存非常多的数据，这是大脑的好处。问题是人脑是毫秒级传输速度，所以和电脑比慢很多。

在自然中，人脑没有这么多处理层，而且电脑计算速度更快，是因为我们居住的世界就是毫秒级的世界，不需要这么快的速度。

我们在大脑中的信息传递，是非常复杂的过程。信息的储存、处理等等，都是我们要解决的一大串问题，这才是最关键的。

还有一些挑战，比如说有很多神经元、有突触等等，最终是围绕着中枢神经系统，这是最重要的一个器官。

我们要知道，某一个连接的改变是否会改变信息的输入和输出？如果把这个连接改变了，就会受到影响。

640?wx_fmt=jpeg

当时杰弗里和我一起，得出神经算法，也就是怎么样才能让突触处理正确的神经传递。

在这之前，几乎所有的科学家和工程师觉得这是不可能的。但我想告诉一些年轻人：

你不要相信专家说的话，因为很多专家总是知道这个事情不能做的原因，但是不知道这个事情可以做成的方法。

所以我们发明了玻尔兹曼机，今天在网络神经学习中还在使用。

二、什么是真正的深度学习？

深度学习网络是怎样的？举个例子：一边是输出，是要对疾病进行诊断，另一边是各种各样的输入，对于医生来说，看了就可以得出诊断。

每一个信息点就是神经节点，最希望有一个架构师能让这些信息一层层传递到输出端，可以有效地诊断这是什么疾病。

帮助病人治病，我们需要大量的病历输入才可以做到这一点，而且必须从已经确诊的病人那里获得信息，这才是有效的输入。

机器不是说要去记住这些东西，将其泛化，因为不同人给出的输入不一样，人脑可以进行非常好的泛化，这是我们希望让机器做到的事情。

杨立昆是一个架构师，而且受到了视觉系统的启发，大概在上世纪60、70年代的时候，已经有一些生物学家学习了人的视觉系统。所以我们知道在人脑当中，信息是如何流动的。

他们研究了猴子的架构，因为人与猴子有一定的相似性。他们就是设计并用了卷积神经网络的算法，这边输入信息，将图像和神经元网络进行结合，传输后进行输出。

640?wx_fmt=jpeg

这里有猴子的大脑，有一层层的神经输入架构，最上面的是猴子的大脑皮层最上端，一、二、三层等等输入，要怎么样大脑才能解决视觉输入的方法？

杨立昆他们设计多层架构，使用早期的卷积神经网络，最终他们就有了识别物体的功能。

还有就是网络中的单元，模仿人的大脑，而且有阈值，如果低于这个阈值就没有输出，高于这个阈值才有。

之后他们还进行了一系列的实验，进行了很多技术上的工作。

640?wx_fmt=jpeg

这是2012年的时候，ImageNet比赛，这是一个深度学习应用。这个网络里有概率分布，第一张图，大家最高概率猜的是老鼠，我可能也猜不出是虫，以为是蜘蛛。

后面也是猜图片，不同人看到的是不同面。我们看出，在性能级别上，深度学习能够在计算机识别方面，把误差率下降20%，这已经非常厉害了。

而且这是经过很多年才有的成果，但是对于某一些图像依然无法准确识别。关键是要不断进行改善、演化。

今年图灵奖颁给我的朋友杨立昆、约书亚·本吉奥、杰弗里·辛顿，这相当于诺贝尔级别了，是对他们在深度学习里非常大的鼓励。

而且深度学习现在成了很热的词。去年我写了一本书，总结深度学习的发展历史：

深度学习是怎么来的、学习算法是怎么来的、取得了哪些成功、有哪些失败、未来将向何处去、偏差带来哪些问题、怎么解决、未来的挑战等等。最近这本书已被翻译成中文。

我书中的一个章节写到：皮肤病医生看病，检查病人的病到底是癌症还是良性的，已经治疗了2000例皮肤病的医生收集的数据，用来做训练集。

机器和16个皮肤病学家同场竞技，人们发现网络表现和医生是并驾齐驱的，诊断率可以达到92%之高。

只要有一台手机，只要看到有一块皮肤病就可以拍照，马上可以得到诊断，不需要去看医生，也不需要去付很多医药费。

有谁去看过皮肤病的？去医院看皮肤病真的很麻烦，有时候要做出诊断，需要好几个星期，甚至几个月时间，这样往往让病人苦不堪言。

书是2017年写的，2018年出版，今天我在听一个电台节目时，听到有一个公司，已经提供了这样的服务：

只要病患拍照发到他们平台，他们的AI系统就可以告诉病人，现在是否要就医，还是说是良性的。

有一位女士，看到她男朋友背上长了一些东西，就随便拍了照片试一下，发给这个平台，谁料到竟然是恶性的，因为及时就诊，她救了自己男朋友一命，而且收费才29美元。

640?wx_fmt=jpeg

这是WAYMO自动驾驶汽车，舆论让你感觉明天就可以做成，其实要做几十年时间，因为有很多路况和复杂因素需要攻克和优化。

这辆汽车搭载了很多雷达和传感器，180度的传感器不像我们人类的视觉，只能看前方，它可以有180度的视角。

现在无人驾驶汽车的应用场景非常受限，我们看一下有可能的一些场景——

如果我们能一键启车，就可以提高车辆使用率，如果无人驾驶汽车能够实现这单，就可以重新规划停车场和停车道。

因为大量汽车利用率增高，很多车都在路上跑，就不需要那么多停车场了，我们现在城市里遍布的停车场、停车道，都可以再利用，可以变成公园、自行车专道。

当然，这样很多公司可能就要关门大吉了，就是汽车维修店和汽车保险公司。但是更重要的，这样可以挽救很多生命：

因为疲劳驾驶是导致事故死亡的重要原因，酒驾、醉驾的事件也很多，每年在高速公路，醉驾导致4万人死亡。

一键启车最大的便利是可以节省通行时间，尤其是出行高峰的时候，高峰时候堵车是很堵心的，如果我们使用无人驾驶汽车，就都不用开车了。

出行时间可以用来看看报纸，驾驶完全自动且安全，这样可以极大的降低交通事故死亡率。

我们还可以更进一步畅想，盗车时代会被终结；此外还有一些新的就业岗位生成，很多人说卡车司机要失业了，不会的，我们如果使用无人驾驶的卡车，也要人去控制的。

卡车司机的角色可以转化为安全监测，这个岗位比开卡车好得多，而且更舒服。

现在无人驾驶汽车仍然不能实现，因为有很多极端路况交通控制，比如说卡车有一些货物掉在路上怎么办？

所以我们还吸收更多的训练数据，集训无人卡车，一旦有这种边缘情况案例出现，我们需要有人监控。

机器是监控不了的，所以我们仍然需要人去监控这些无人驾驶的卡车。

这还这能催生另一个新的产业岗位，传感器技术供应链。这是一个全新的供应链。

因为我们需要在无人驾驶车辆上边搭载几十亿个传感器，大量数据生成后，我们需要进行数据清理，这些都会催生很多很好的新工作岗位。

这一个公司——睿金科技——来自中国郏县，他们是有几千万人专门做数据清理的公司。

听上去是挺烦燥的工作，但是比在“煤矿”上工作更好，其实是数据挖煤，这比在现实中的煤矿挖煤好得多。

接下来举一个语言翻译的例子。语言翻译在中国有几千个语种，互相不能理解，所以我们训练机器预计下一个字词出现，这时候不需要分类数据，是非监督学习。

这种叫做文字嵌入。如果机器能够训练得很好，我们期望的是学习内模通过自己的活动运算，可以了解和解构整个语义，同时要识别出大写的专有名词，非常有趣。

比如说俄罗斯和莫斯科是一组对应关系，这是一个项量，将这个项量依附于德国，则德国对应柏林。这个网络没有任何监督，就可以发现城市首都的关系和地理位置的关系。

这在之前语言学领域从来没有做过，机器学习打开了整个语言学新的理论。

此外，我们机器从翻译上可以做时域序列解读，从底层慢慢学习，可以解读时态，还有语义强度、语气强度，还有增强机器工作记忆，句头首词到句末最后一个词都可以分析。

现在谷歌翻译软件，单字单词翻译并不完美，我不想让大家有误解，认为这个网络已经可以理解句子的，不是的。但是，它比传统的翻译好多了。

之前我们是字对字的硬设，这是行不通的，现在的翻译软件某一些语义是可以理解的，听上去翻译出来的中文或者英文，还是非常的奇怪，但是语义是通的。

人类语种翻译是变的，比如说有一个非常有趣的句子：我们的意志力精神，反映我们的意志之力。但这句话从俄语翻译为英文后，反而离题万里。所以我们翻译最重要的是语义翻译、句义翻译。

20世纪语言学主要领域主要是词法上做很多研究，其实语言最重要的就是语义理解、语义解构，词与词的关系，这些词组排列完后是怎样的意思，这是语义。现在人工智能已经往这个方向深化。

人工智能驱动的翻译技术有多么的神奇，这是我们取得的另一个进展。

640?wx_fmt=jpeg

这是语言网络，有三个语种——英、韩、日，从英语翻译为韩语、日语都做了实验，但是还没有韩语翻译为日语。

机器在一定程度上通过学习，其实可以韩翻日，也就是说你的训练更多，语言组越多，训练得越好，网络就可以更加相通，机器的翻译就能够学习得更好。

所以我们这种语言学网络，可以给予我们更多的洞见，可以让我们更加理解各语种之间的转化和翻译机理。

我们大脑在运算的时候，总是需要大脑海马体和皮层运作，我给大家分享一个概念，就是强化学习：

怎么样通过增强学习达成目标？这个模式就是阿尔法狗怎么打败柯洁的秘密。

我再分享一点，是最近在无监督学习中的一大突破，前提是需要大量数据组。

我们把网络里面输入了很多名人图像，很多都是西方人，为什么看起来都像名人呢？

这个网络很厉害，它实际上可以生成关于名人的新的图像，之前是没有存在过的，所有的图片都是不存在的，只是给出的案例中依据自动生成的，而且可以生成很多图像。

但是这些都不是真实的人，都不是真实存在的，还可以不断地继续下去，所以这个例子就向我们展示了未来，生成性的网络。

就像我们的大脑，我们大脑也会不断生成信息，我们坐在那里，就会有各种各样的想法出现。

现在我们到哪一步了？还是在初期，就好像是莱特兄弟做了第一台飞机的时候，离喷气式飞机还有很长一段路要走。

640?wx_fmt=jpeg

我们从自然当中可以学到很多东西，莱特兄弟研究了自然，研究了鸟，然后他们发现：

大自然是这样解决问题的，而且要解决这些困难的问题并不难，大自然已经会了，大自然中已经蕴含着解开这些奥秘的钥匙了。

我们还处于很早期的阶段，但是也在不断地进步。非常感谢各位的参与和聆听，我们还处于人工智能的早期阶段，还有很多问题需要解决。

我们也看到了非常令人兴奋的成就和成果，恐怕有一些问题要花很多年才能解决，甚至需要几代人努力。

但是回顾一下工业革命，一切成功全都不是一夜之间发生的，而是经过几代人努力才实现的。

所以各位，你们的孩子会从你们手中接过这个成果，从充满AI的世界中长大。那时候就像大家今天看到飞机一样，人工智能会非常的普遍。谢谢各位。

640?wx_fmt=jpeg

张亚勤、刘慈欣、周鸿祎、王飞跃、约翰.翰兹联合推荐

这是一部力图破解21世纪前沿科技大爆发背后的规律与秘密，深度解读数十亿群体智能与数百亿机器智能如何经过50年形成互联网大脑模型，详细阐述互联网大脑为代表的超级智能如何深刻影响人类社会、产业与科技未来的最新著作。

《崛起的超级智能;互联网大脑如何影响科技未来》2019年7月中信出版社出版。刘锋著。了解详情请点击：【新书】崛起的超级智能：互联网大脑如何影响科技未来

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能，互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）云脑研究计划，构建互联网（城市）云脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文 640?wx_fmt=jpeg

【深度学习】这才是深度学习的本源

相关文章

KALI Linux中GURB安装失败如何处理

IEEE选择和下载投稿期刊模板（LaTeX和Word）网站

d3.js 旋转图形_苏教版三年级数学上册6.1平移和旋转微课视频 | 练习

任正非签发最新电邮：过去我们是为了赚点小钱，现在是要战胜美国

wget for windows 下载与安装

CTF中的EXP编写技巧 zio库的使用

C语言定义外部变量或函数使得另一个C文件可以调用

case when 多条件_3年前的设计如今被iPhone强推 PITAKA磁吸生态设计的前瞻性到底有多可怕？...

BAT文件命名中含有英文括号运行出错

美国新登月计划有何不一样

浅谈对px em rem的理解

C语言定义外部文件可使用的结构体和结构体变量

_不懂操作？手把手教你如何在linux下搭建FTP

can't request region for resource [mem 0xfed40080-0xfed40fff]问题的解决办法

人工智能技术在美国国家安全领域的应用

C++ #include ＜.h＞和“.h“的区别

r3 4300u r5 u_R5刀粒

OpenCV中文路径问题、matplotlib可视化中文乱码问题的解决办法

沙龙预告 | 新书分享《崛起的超级智能：互联网大脑如何影响科技未来》

FFmpeg参数说明