当代人工智能三教父——深度学习三巨头

文章目录

引言

人物介绍

突出贡献

专业名词解释

引言

今天下午闲来无事翻阅了一下csdn首页的头条文章——《27 岁天才创始人 Joel Hellermark 分享了自己和“AI 教父” Geoffery Hinton 的最新采访》

感觉挺有意思，就从头到尾的看了一遍，里面有很多自己以前从未涉及到的知识，就浅显的整理了一下：

人物介绍

杨立昆（Yann LeCun）、杰弗里·欣顿（Geoffrey Hinton）和约书亚·本希奥（Yoshua Bengio）

被业内称为“当代人工智能三教父”

杨立昆（Yann LeCun），在法国皮埃尔和玛丽·居里大学获得计算机科学博士学位。现任纽约大学柯朗数学科学研究所Silver冠名教授、Facebook公司人工智能首席科学家、副总裁。他获得了包括美国工程院院士、IEEE神经网络先锋奖（IEEE Neural Network Pioneer Award）等一系列荣誉。他还是纽约大学数据科学中心的创始人，与约书亚·本希奥一起担任加拿大先进研究院机器与大脑学习项目的主管。

杰弗里·欣顿（Geoffery Hinton），在爱丁堡大学获得人工智能博士学位。现任谷歌公司副总裁、工程研究员，多伦多人工智能矢量研究所首席科学顾问、多伦多大学名誉教授。他是加拿大先进研究院神经计算和自适应项目（Neural Computation and Adaptive Perception Program）的创始人，还获得了加拿大最高荣誉勋章（Companion of the Order of Canada）、英国皇家学会成员、美国工程院外籍院士、人工智能国际联合会（IJCAI）杰出研究奖等一系列荣誉。2017年被彭博社（Bloomberg）评为改变全球商业格局的50人之一。

约书亚·本希奥（Yoshua Bengio），在加拿大麦吉尔大学取得计算机博士学位。现为加拿大蒙特利尔大学教授、加拿大数据定价中心主任（IVADO）、蒙特利尔学习算法研究中心（Mila）科学主任、加拿大先进研究院主任。他还与杨立昆一起担任加拿大先进研究院机器与大脑学习项目的主管。他创建了目前世界上最大的深度学习研究中心——蒙特利尔学习算法研究中心，使蒙特利尔成为世界上人工智能研究最为活跃的地区之一，引来大批公司和研究室入驻。

突出贡献

三位科学家发明了深度学习的基本概念，在实验中发现了惊人的结果，也在工程领域做出了重要突破，帮助深度神经网络获得实际应用。

Hinton 最重要的贡献来自他1986年发明反向传播的论文 “Learning Internal Representations by Error Propagation”；1983年发明的玻尔兹曼机（Boltzmann Machines），以及2012年对卷积神经网络的改进。

Hinton 和他的学生 Alex Krizhevsky 以及 Ilya Sutskever 通过 Rectified Linear Neurons 和 Dropout Regularization 改进了卷积神经网络，并在著名的 ImageNet 评测中取得了很好的成绩，在计算机视觉领域掀起一场革命。

Bengio 的贡献主要在1990年代发明的 Probabilistic models of sequences。他把神经网络和概率模型（例如隐马尔可夫模型）结合在一起，并和 AT&T 公司合作，用新技术识别手写的支票。现代深度学习技术中的语音识别也是这些概念的扩展。

此外 Bengio 还于2000年还发表了划时代的论文“A Neural Probabilistic Language Model”，使用高维词向量来表征自然语言。他的团队还引入了注意力机制，让机器翻译获得突破，也成为了让深度学习处理序列的重要技术。

Yann LeCun 的代表贡献之一是卷积神经网络。1980年代，LeCun 发明了卷积神经网络，现在已经成为了机器学习领域的基础技术之一，也让深度学习效率更高。1980年代末期，Yan LeCun 在多伦多大学和贝尔实验室工作期间，首次将卷积神经网络用于手写数字识别。

今天，卷积神经网络已经成为了业界标准技术，广泛用于计算机视觉、语音识别、语音合成、图片合成，以及自然语言处理等学术方向，以及自动驾驶、医学图片识别、语音助手、信息过滤等工业应用方向。

LeCun 的第二个重要贡献是改进了反向传播算法。他提出了一个早期的反向传播算法 backprop，也根据变分原理给出了一个简洁的推导。他的工作让反向传播算法更快，比如描述了两个简单的方法可以减少学习时间。

LeCun 第三个贡献是拓展了神经网络的应用范围。他把神经网络变成了一个可以完成大量不同任务的计算模型。他早期引进的一些工作现在已经成为了人工智能的基础概念。

例如，在图片识别领域，他研究了如何让神经网络学习层次特征，这一方法现在已经用于很多日常的识别任务。他们还提出了可以操作结构数据的深度学习架构。

Geoffrey Hinton

反向传播：在 1986 年与 David Rumelhart 和 Ronald Williams 共同撰写的 “Learning Internal Representations by Error Propagation” 一文中，Hinton 证明了反向传播算法允许神经网络发现自己的数据内部表示，这使得使用神经网络成为可能网络解决以前被认为超出其范围的问题。如今，反向传播算法是大多数神经网络的标准。

玻尔兹曼机（Boltzmann Machines）：1983 年，Hinton 与 Terrence Sejnowski 一起发明了玻尔兹曼机，这是第一个能够学习不属于输入或输出的神经元内部表示的神经网络之一。

卷积神经网络的改进：2012 年，Hinton 和他的学生 Alex Krizhevsky 以及 Ilya Sutskever 通过 Rectified Linear Neurons 和 Dropout Regularization 改进了卷积神经网络，并在著名的 ImageNet 评测中将对象识别的错误率减半，在计算机视觉领域掀起一场革命。

Yoshua Bengio

序列的概率模型：在 20 世纪 90 年代，Bengio 将神经网络与序列的概率模型相结合，例如隐马尔可夫模型。这些想法被纳入 AT＆T / NCR 用于阅读手写支票中，被认为是 20 世纪 90 年代神经网络研究的巅峰之作。现代深度学习语音识别系统也是这些概念的扩展。

高维词汇嵌入和关注：2000 年，Bengio 撰写了具有里程碑意义的论文“A Neural Probabilistic Language Model”，它引入了高维词向量作为词义的表示。Bengio 的见解对自然语言处理任务产生了巨大而持久的影响，包括语言翻译、问答和视觉问答。他的团队还引入了注意力机制，这种机制促使了机器翻译的突破，并构成了深度学习的序列处理的关键组成部分。

生成性对抗网络：自 2010 年以来，Bengio 关于生成性深度学习的论文，特别是与 Ian Goodfellow 共同开发的生成性对抗网络（GAN），引发了计算机视觉和计算机图形学的革命。

Yann LeCun

卷积神经网络：在 20 世纪 80 年代，LeCun 研发了卷积神经网络，现已成为该领域的基本理论基础。其让深度学习更有效。在 20 世纪 80 年代后期，多伦多大学和贝尔实验室工作期间，LeCun 是第一个在手写数字图像上训练卷积神经网络系统的人。如今，卷积神经网络是计算机视觉以及语音识别、语音合成、图像合成和自然语言处理的行业标准。它们用于各种应用，包括自动驾驶、医学图像分析、语音激活助手和信息过滤。

改进反向传播算法：LeCun 提出了一个早期的反向传播算法 backprop，并根据变分原理对其进行了简洁的推导。他的工作让加快了反向传播算，包括描述两种加速学习时间的简单方法。

拓宽神经网络的视野：LeCun 还将神经网络作为可以完成更为广泛任务的计算模型，其早期工作现已成为 AI 的基础概念。例如，在图像识别领域，他研究了如何在神经网络中学习分层特征表示，这个理念现在通常用于许多识别任务中。与 LéonBottou 一起，他还提出了学习系统可以构建为复杂的模块网络，其中通过自动区分来执行反向传播，目前在每个现代深度学习软件中得到使用。他们还提出了可以操作结构化数据的深度学习架构，例如图形。

专业名词解释

人工智能 (AI) 是一组技术，使计算机能够执行各种高级功能，包括查看、理解和翻译口语和书面语言、分析数据、提出建议等各种能力。

卷积神经网络（Convolutional Neural Network, CNN）是一种深度学习模型，通常用于图像、视频、语音等信号数据的分类和识别任务。

计算机视觉（Computer Vision）是一种利用计算机和数学方法对图像和视频进行分析和处理的技术。

机器翻译（Tencent Machine Translation，TMT）结合了神经机器翻译和统计机器翻译的优点，从大规模双语语料库自动学习翻译知识，实现从源语言文本到目标语言文本的自动翻译，目前可支持十余种语言的互译。

机器学习是一种人工智能的分支，它是指让计算机通过学习数据和模式，从而自动改进和优化算法的能力。简单来说，机器学习是一种让计算机从数据中学习的方法，而不是通过手动编程来实现特定的任务。

自动驾驶是指通过计算机视觉、传感器、机器学习等技术，使汽车、无人机等车辆实现自主驾驶、导航和避障等功能，不需要人类驾驶员进行干预或者只需要有限的干预。

语音合成（Text To Speech，TTS）满足将文本转化成拟人化语音的需求，打通人机交互闭环。提供多场景、多语言的音色选择，支持 SSML 标记语言，支持自定义音量、语速等参数，让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。

语音助手是一种基于人工智能技术的智能语音交互系统，能够通过语音和人类用户进行沟通，帮助用户完成各种操作或提供各种服务。

结构化数据是指具有固定格式和规则的数据，通常以表格、树状结构或关系模型的形式呈现。结构化数据通常具有明确的数据类型和字段，可以进行数据建模和数据分析等操作。结构化数据的常见形式包括关系型数据库中的表格、XML文档、CSV文件、JSON数据等。

蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS）是一种基于统计学习的启发式搜索算法，用于解决决策问题或增强学习问题。它是以蒙特卡洛方法为基础，通过模拟大量的随机游戏来评估每个节点的价值，从而选择最优的决策路径。

MCTS主要分为四个步骤：选择（Selection）、扩展（Expansion）、模拟（Simulation）和回溯（Backpropagation）。在每一步中，算法会根据当前节点的信息，通过模拟多次随机游戏来评估不同决策路径的优劣，并选择一个最具有潜在价值的节点进行扩展和模拟，最终通过回溯来更新每个节点的价值估计，以辅助做出最佳决策。

蒙特卡洛树搜索在围棋、象棋等棋类游戏中取得了很好的效果，并在人工智能领域得到广泛应用。它的优势在于可以应对状态空间庞大、不确定性高的决策问题，并且可以在搜索的过程中动态调整策略，以适应不同情况下的决策需求。

反向传播（Backpropagation）是一种在神经网络中用于计算梯度并更新模型参数的算法。在训练一个神经网络时，我们需要通过最小化损失函数来调整网络参数，以使得模型能够更好地拟合训练数据。而反向传播就是一种通过计算损失函数关于每个参数的梯度，然后根据这些梯度来更新参数的方法。

通常包含以下步骤：

前向传播：通过输入数据以及当前的参数设定，计算得到模型的预测输出。
计算损失：将模型的输出与真实标签进行比较，计算出模型的损失函数值。
反向传播梯度计算：从输出层开始，通过链式法则计算损失函数对于每个参数的偏导数，即梯度。这一过程将梯度从输出层传播回到输入层。
参数更新：利用梯度下降等优化算法，根据计算得到的梯度信息更新神经网络中的参数。这一步骤会使得损失函数的值逐渐减小，使得模型表现得更好。

通过反向传播算法，神经网络可以在训练过程中不断调整参数，以使得模型表现更好地拟合训练数据，提高其泛化能力。反向传播算法是深度学习中非常重要的一部分，它使得训练深层神经网络变得可能，并且被广泛应用于各种神经网络结构中。

大语言模型（Large Language Model）是指具有大量参数和大规模数据训练得到的语言模型。语言模型是一种用来估计自然语言文本序列概率的模型，可以用来预测下一个单词或者生成连续的文本。

大语言模型通常基于神经网络架构，例如循环神经网络（RNN）或者变换器（Transformer）等。这些模型在训练时需要大规模的文本数据集，以及大量的计算资源和时间。通过在大规模数据集上进行训练，大语言模型可以学习到更复杂的语言结构和规律，从而在生成文本、翻译、文本分类等自然语言处理任务中表现更好。

一些著名的大语言模型包括GPT-3（Generative Pre-trained Transformer-3）和BERT（Bidirectional Encoder Representations from Transformers）。这些模型在各种自然语言处理任务中取得了令人瞩目的成绩，使得自然语言处理领域取得了重大的进展和突破。

多模态输入指的是包含多种不同类型数据的输入，例如文本、图像、音频、视频等多种形式的数据。在自然语言处理和计算机视觉领域，多模态输入成为了一个研究热点，因为实际应用场景中往往需要同时处理多种类型的数据来完成任务。

例如，在图像描述生成任务中，输入包含图像和文本描述，模型需要通过处理图像和文本数据来生成描述图片内容的文本。在视频理解任务中，输入可能包含视频、音频和文本，模型需要结合这些不同类型的数据来理解视频内容。在智能对话系统中，输入可能包含文本和声音等多种形式的数据，模型需要综合考虑多种数据类型来进行回答和交互。

多模态输入的处理通常需要结合多种不同类型数据的特征表示和融合方法，以便模型可以有效地利用不同数据类型之间的相关性和信息。

知识蒸馏（Knowledge Distillation）是一种模型压缩技术，旨在通过在一个较大复杂模型（教师模型）和一个较小简单模型（学生模型）之间进行知识迁移，从而提高小模型的性能。知识蒸馏的基本思想是利用教师模型的知识（soft labels、logits和attention weights等）来指导学生模型，以便学生模型学习到更深层次、更丰富的特征表示，从而达到提升性能的目的。

在知识蒸馏中，教师模型通常是一个较大的深度神经网络，拥有较高的性能和表达能力，而学生模型则是一个简化版本的模型，通常具有更少的参数和计算量。通过知识蒸馏，学生模型可以利用教师模型的复杂知识和经验，更有效地学习到数据的特征表示，从而在保持模型精度的同时减少计算和内存消耗。

MATLAB代码是使用MATLAB编程语言编写的程序或脚本。MATLAB是一种高级的数学软件，广泛用于科学和工程领域。MATLAB代码可以用来执行各种数学计算、数据分析、图形绘制等任务。MATLAB代码通常采用矩阵表示数据和进行计算，具有强大的数学计算能力和丰富的功能库。