深度学习的历史与八卦

楔子

有这么一个说法,每多一个数学公式,读者就减少一半。深度学习想来也无法免俗,毕竟技术文章不免艰涩,而要完全绕过公式讲好深度学习与大模型,以臣妾微薄的实力实在是做不到啊。

因此,本文先歪歪楼,讲讲深度学习与大模型的历史与八卦,一方面是让大家稍微了解下技术发展的脉络,另一方面也是尝试挽救一下读者的欢心,毕竟历史八卦,人人都爱。

历史

说到神经网络的起源,一般都会追溯到沃尔特·皮茨(Walter Pitts)与麦卡洛克(McCulloch),其中皮茨起到了更主要的作用,而且更具传奇性。皮茨(见图1)于1923年出生于美国底特律的铁匠家庭,家庭教育以老爸的拳头为主,而在这种家庭环境里,他主要靠自学学会了拉丁文、希腊文、逻辑和数学。在12岁那年,皮茨看完了罗素与怀特海的大厚本《数学原理》,并向罗素写邮件附上了自己发现的一些问题,罗素不免大吃一惊,还回信邀请皮茨到剑桥大学读他的研究生。由于家庭与年龄原因,皮茨当然不可能成行,不过当三年后,罗素到美国芝加哥讲学的消息传到皮茨耳朵里时,他就离家出走,而且终其一生再也没有回去过。其后皮茨遇到了麦卡洛克,两人在数学、逻辑和神经网络上有着共同的看法,并一起努力,于1943年合作完成了知名论文A Logical Calculus of Ideas Immanent in Nervous Activity,在这篇论文中,他们用二进制逻辑门来表示神经元,而且证明了此模型可以实现任何经典逻辑,从而表明了神经网络的通用性,奠定了深度学习的基础,同时也建立了神经科学和计算机科学之间的交叉研究。高中未毕业的皮茨受到了数学家与控制论之父维纳的欣赏,破格进入麻省理工学院攻读博士学位,被引荐给了冯·诺依曼,而上述论文也成为了冯·诺依曼关于计算机架构的著名论文First Draft of a Report on the EDVAC所引用的唯一一篇文章。但是在其后,首先是维纳与皮茨等断绝了关系,然后科学家们又发现神经网络并不能解释一切生物感知现象,皮茨深感失望,于是烧掉了自己历经数年写作的博士论文,从此退出了科研界,并死于酗酒相关的病症。

我们要介绍的下一位是弗兰克·罗森布拉特(Frank Rosenblatt),他是感知机(perceptron)的提出者(感知机在我们之前的文章“深度学习入门”里介绍过),并且于1958年在实验了50次之后,让IBM 704自行学会了识别打孔卡上的标记是在左侧还是在右侧。他认为,通过感知机可以不依赖人类的训练与控制,就能感知、识别和辨认周边的环境,其代表作是Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms。但是,当时罗森布拉特设计的感知机实际上是只有一层的神经网络,能力非常有限,相比之下,现代成熟的神经网络则有数十层,因此同样是人工智能专家的明斯基撰文指出了感知机的局限性,并使得相应的研究进入了低潮。直到在2004年,大家重新看到了神经网络的潜力,IEEE协会为此也专门设立了罗森布拉特奖。

在神经网络漫长的寒冬期,研究者相对较少,其中就包括了于1974年在其博士论文中提出了反向传播(backpropagation)的Werbos(并由于此贡献获得了IEEE罗森布拉特奖),还有于上个世纪八十年代提出了Hopfield 神经网络的Hopfield。

下面隆重登场的是深度学习之父,大名鼎鼎的杰弗里·辛顿(Geoffrey Hinton)。辛顿1986年发表的论文Learning Representations by Back-Propagating Errors,给出了通过反向传播学习表征的算法,于2006年其推出了深度学习(Deep Learning)的概念,为深度学习与大模型的大潮解开了序幕。

另一位深度学习的大佬杨立昆(Yann LeCun)在辛顿麾下求学后就职于贝尔实验室,并在1989~1993年间发明了卷积神经网络(CNN),可以用来解决手写数字识别(如MNIST)的问题。当时可没有GPU,那时CPU的性能也相当低下。

2012年是深度学习重要的一年。在这一年,辛顿和他的两个学生Alex Krizhevsky,以及Ilya Sutskeverz共同发布了AlexNet这个多层神经网络。这个神经网络用到了诸多的新技术,包括使用了ReLU作为激活函数,使用了CUDA利用英伟达的GPU来进行神经网络的计算,使用了dropout作为神经网络的一种优化方法等。AlexNet在知名的图像识别分类比赛ImageNet中一鸣惊人,它不仅获得了比赛的冠军,而且其错误率达到了16.4%,比当年亚军的26.2%低了将近10%,比2011年冠军的25.8%低了超过9%,几乎可以认为是降维打击。自此,深度学习名声大噪,大量研究人员都转向深度学习尝试完成计算机视觉等相关的人工智能任务。

下面深度学习的发展就顺畅了很多,2014年Ian Goodfellow推出了GAN,通过生成式对抗网络能生成逼真的图像甚至视频;2016年 DeepMind 推出了AlphaGo,其水平很快就远远超过了人类围棋冠军;同样在 2016年,何恺明等研究者推出了ResNet,它成为了包括大语言模型在内的各神经网络的通用技术,对应论文引用截止2023年上半年已经超过了17万,成为了深度学习领域引用最高的文章。

2017年是大模型关键技术transformer的诞生年,它是在Attention is All You Need这篇论文中被提出的,其后就成为包括BERT、GPT、T5等大语言模型使用的框架,而且跨界到了计算机视觉领域,形成了ViT等新的研究方向,几乎成了一统江湖的标准模型。

2018年是深度学习三巨头辛顿、杨立昆与约书亚·本吉奥(Yoshua Bengio)的收获之年,他们因为在深度学习方面的诸多成就与影响力获得了ACM图灵奖,这项计算机科学领域的最高奖。在接下来的几年,深度学习的各项研究成果仍然难以大规模落地,诸多深度学习相关的公司持续烧钱,很多人认为这一波人工智能的热潮马上又要过去了。

让我们快进到2022年,上半年以stable diffusion为代表的图像生成模型风靡一时,而到了下半年的十一月底,以ChatGPT为代表的大语言模型横空出世,其知识广度、推理能力与多轮对话能力使得它成为了历史上最快达到一亿用户的产品,重新点燃了人工智能产业化的火炬,并使得业界的诸多大佬认定它是划时代的产品,其影响深远,延续至今。

顺便说一句,GPT系列大模型的出品者是OpenAI,而OpenAI的首席科学家就是之前提到过的Ilya Sutskeverz。在2012年AlexNet一飞冲天后,多个大厂邀请辛顿等三人加入,于是辛顿团队成立了一个名为DNNResearch的公司,公司仅有他们叁,公司唯一的目的就是被大厂整体收购。竞拍的公司包括谷歌、百度、微软与DeepMind,随着竞拍价格的逐步走高,微软与DeepMind首先被淘汰出局,谷歌与百度均出价到了4400万美元。辛顿当晚暂停了竞拍,第二天早上便决定公司被谷歌收购。Ilya Sutskeverz在其后做出了诸多贡献,包括首创seq2seq(大语言模型的前身),参与深度学习框架Tensorflow与AlphaGo的开发等,最终于2015年加入OpenAI,成为了GPT等系列产品的核心技术人物。

八卦

关于深度学习之父辛顿,还有很多不少八卦,其家族还与中国有着不少联系。

从头说起,George Everest是十九世纪英国的大地测量工作者,其主要的工作地域都在印度,他和其前任测量了从喜马拉雅山到印度次大陆最南端科莫林角11.5度的经向弧,由于这些贡献,珠穆朗玛峰(Mount Everest)以他的名字命名。George Everest有一个侄女婿名为乔治·布尔(George Boole),也就是著名的布尔代数的发明者,现代计算机所使用的逻辑与、或、非等运算均来自于他。

乔治·布尔的小女儿艾捷尔·丽莲·伏尼契(Ethel Lilian Voynich)则是知名的《牛虻》的作者,这本书描写的是19世纪意大利爱国者反对奥地利统治者的斗争,是风靡一时的革命书籍,在苏联和中国都拥有广大读者。

乔治·布尔的大女儿玛丽(Mary)则嫁给了一个姓辛顿的数学家,他们有一个孙子威廉·辛顿(William Hinton),以及孙女琼·辛顿(Joan Hinton),不过在中国,他们一般被称为韩丁与寒春。寒春是芝加哥大学核子物理研究所的研究生,也是曼哈顿计划中少数的女科学家之一,在洛斯阿拉莫斯(Los Alamos)武器试验室做费米的助手,其后反对核战争,并于1948年来到中国,进入延安,投身中国革命,并与阳早(Erwin Engst)结婚,成为了奶牛专家。现在在北京还留有他们的工作成果,那就是北京市昌平区沙河大学城农机院的学农基地,寒春与阳早均为农机院学农基地的创办人,时至今日,每年仍然有大量的北京中学生来到学农基地参加学农实习(笔者的小孩有幸成为其中的一员)。寒春和阳早把大部分生命都奉献给了中国的事业,并最终在中国去世。2004年8月,中国开始实施“绿卡”制度,寒春成为了第一个获得中国“绿卡”的外国人。

玛丽的另一支当然就是深度学习之父杰弗里·辛顿了,他是玛丽的曾孙,因此比寒春、韩丁晚一辈。当然,他们之间并没有直接联系。

深度学习的历史与八卦到此告一段落。下面,我们又将步入正轨,重新来讲讲产品与技术了,咱们下次再见。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/67840.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

电脑怎么设置定时关机,2个简单的操作

电脑作为现代生活中不可或缺的工具,我们通常会在工作或娱乐过程中使用它。但有时候,我们可能需要在一段时间后自动关机,例如在下载完成后或在睡觉前。那么电脑怎么设置定时关机呢?为了满足这种需求,电脑提供了多种定时…

手写Mybatis:第9章-细化XML语句构建器,完善静态SQL解析

文章目录 一、目标:XML语句构建器二、设计:XML语句构建器三、实现:XML语句构建器3.0 引入依赖3.1 工程结构3.2 XML语句构建器关系图3.3 I/O资源扫描3.4 SQL源码3.4.1 SQL对象3.4.2 SQL源码接口3.4.3 原始SQL源码实现类3.4.4 静态SQL源码实现类…

C到C++的升级

C和C的关系 C继承了所有C语言的特性;C在C的基础上提供了更多的语法和特性,C语言去除了一些C语言的不好的特性。C的设计目标是运行效率与开发效率的统一。 变化一:所有变量都可以在使用时定义 C中更强调语言的实用性,所有的变量…

CentOS7 Hadoop3.3.0 安装与配置

一、安装JDK 1、创建文件夹tools和training用于存放压缩包和解压使用,tools存放压缩包,training用于解压后安装jdk和hadoop的路径。 1)回到路径为 / 的位置 cd /2) 创建 tools 和 training mkdir toolsmkdir training3) 进入tools文件夹 …

测试工程师的领航指南:《Effective软件测试》

目录 前言一、本书适合对象二、本书大纲第1章:有效和系统的软件测试第2章:基于需求规格的测试第3章:结构化测试与代码覆盖第4章:契约式设计第5章:基于属性的测试第6章:测试替身和模拟对象第7章:…

Python综合案例(基本地图使用)

一、基本地图的使用 基本代码: """ 演示地图可视化的基本使用 """ from pyecharts.charts import Map from pyecharts.options import VisualMapOpts# 准备地图对象 map Map() # 准备数据 data [("北京", 99),("…

【C++进阶(四)】STL大法--list深度剖析list迭代器问题探讨

💓博主CSDN主页:杭电码农-NEO💓   ⏩专栏分类:C从入门到精通⏪   🚚代码仓库:NEO的学习日记🚚   🌹关注我🫵带你学习C   🔝🔝 链表list 1. 前言2. list的使用2.1 list的构造函…

【树形权限】树形列表权限互斥选择、el-tree设置禁用等等

文章目录 一、实现如上树形列表1.1 首先要就是渲染树形列表1.2 然后通过插槽处理头部标题1.3 再通过插槽处理表格body体内容1.4 让body体中的选框和表头中的选框产生关联 二、将 el-tree 整棵树设为禁用状态三、动态表格合并 需求:按照权限管理配置的数据权限树展开…

如何利用客户旅程打造好的用户体验?

在当今竞争激烈的市场中,提供卓越的用户体验已经成为企业脱颖而出的关键因素之一。客户旅程是实现出色用户体验的有力工具之一,而HubSpot的客户旅程规划功能为企业提供了强大的支持,帮助他们更好地理解、管理和改善客户的互动过程。今天运营坛…

【USRP】调制解调系列5:16QAM、32QAM、64QAM、256QAM、1024QAM、基于labview的实现

QAM 正交振幅键控是一种将两种调幅信号(2ASK和2PSK)汇合到一个信道的方法,因此会双倍扩展有效带宽,正交调幅被用于脉冲调幅。正交调幅信号有两个相同频率的载波,但是相位相差90度(四分之一周期&#xff0c…

MYSQL的系统数据表空间,用户数据表空间,系统临时表空间,用户临时表空间详解

系统数据表空间: 系统表空间可以有一个或多个数据文件。默认情况下,会在数据目录中创建一个名为ibdata1的系统表空间数据文件 。系统表空间数据文件的大小和数量由innodb_data_file_path启动选项定义。 mysql> show variables like %innodb_data%; ------------…

参编三大金融国标,奇富科技以技术促行业规范化演进

近期,由中国互联网金融协会领导制定的《互联网金融智能风险防控技术要求》《互联网金融个人网络消费信贷信息披露》《互联网金融个人身份识别技术要求》三项国家标准颁布,由国家市场监督管理总局、国家标准化管理委员会发布,奇富科技作为核心…

Flutter 混合开发调试

针对Flutter开发的同学来说,大部分的应用还是Native Flutter的混合开发,所以每次改完Flutter代码,运行整个项目无疑是很费时间的。所以Flutter官方也给我们提供了混合调试的方案【在混合开发模式下进行调试】,这里以Android Stud…

OPENCV实现图像查找

特征匹配+单应性矩阵 # -*- coding:utf-8 -*- """ 作者:794919561 日期:2023/9/4 """ import cv2 import numpy as np# 读图像 img1 = cv2.imread(F:\\learnOpenCV\\openCVLearning\\pictures\\chess

【HTML5高级第一篇】Web存储 - cookie、localStorage、sessionStorage

文章目录 一、数据存储1.1 cookie1.1.1 概念介绍1.1.2 存储与获取1.1.3 方法的封装1.1.4 总结 1.2 localstorage 与 sessionstorage1.2.1 概述1.2.2 操作数据的属性或方法1.2.3 案例-提交问卷1.2.4 Web Storage带来的好处 附录:1. HTML5提供的数据持久化技术&#x…

万里路,咫尺间:汽车与芯片的智能之遇

目前阶段,汽车产业有两个最闪耀的关键词,就是智能与低碳。 在践行双碳目标与产业智能化的大背景下,汽车已经成为了能源技术、交通技术、先进制造以及通信、数字化、智能化技术的融合体。汽车的产品形态与产业生态都在发生着前所未有的巨大变革…

Hadoop的概述与安装

Hadoop的概述与安装 一、Hadoop内部的三个核心组件1、HDFS:分布式文件存储系统2、YARN:分布式资源调度系统3、MapReduce:分布式离线计算框架4、Hadoop Common(了解即可) 二、Hadoop技术诞生的一个生态圈数据采集存储数…

http接口自动化测试框架实现

目录 一、测试需求描述 二、实现方法 三、Excel表格样式 四、实现代码(代码才是王道,有注释很容易就能看明白的) 一、测试需求描述 对服务后台一系列的http接口功能测试。 输入:根据接口描述构造不同的参数输入值 输出&…

C语言:递归思想及实例详解

简介:在计算机科学中是指一种通过重复将问题分解为同类的子问题而解决问题的方法。通过函数的自调用化繁为简。 递归可以说是编程中最神奇的一种算法。因为我们有时候可能不能完全明晰代码的运行过程,但是我们却知道代码可以跑出正确的结果。而当我们使…

qt day 6

登录界面 #include "window.h" #include<QDebug> #include<QIcon> Window::Window(QWidget *parent) //构造函数的定义: QWidget(parent) //显性调用父类的构造函数 {//判断数据库对象是否包含了自己使用的数据库Student.dbif(!db.contains(&…