Hinton揭秘GPT之父【Ilya】成长历程:Scaling Law是他学生时代就有的直觉

2003年夏天的一个周日,AI教父Hinton在多伦多大学的办公室里敲代码,突然响起略显莽撞的敲门声。门外站着一位年轻的学生,说自己整个夏天都在打工炸薯条,但更希望能加入Hinton的实验室工作。Hinton问,你咋不预约呢?预约了我们才能好好谈谈。学生反问,要不就现在吧?

这位年轻学生就是Ilya Sutskever,刚刚完成本科二年级的数学课程,从教务处打听到“想学机器学习,最好去找Hinton教授”。

他照做了,也因此成就了一段传奇:

从AlexNet到AlphaGo,他两次参与改变世界的研究。

OpenAI创立之初挖他去当首席科学家,在他的领导下,推出了GPT系列早期版本、DALL·E系列、代码大模型Codex,直到ChatGPT,再次改变世界。

多年后,他发动董事会内讧,最终与OpenAI彻底分道扬镳,全世界都在等待着他的下一个动作。

在OpenAI的时候,Ilya并不像Altman那样到处抛头露面,也不像Brockman天天在网上分享自己的“编程之禅”。

仅有的几次演讲和访谈中也多是聊技术、宏观思考,不常谈及自己的经历,最近半年更是销声匿迹。

这次的故事,正是来自他的博士导师Geoffrey Hinton。

在与Sana Labs创始人的最新对话节目中,Hinton不仅讲了自己的事,还回忆了师徒共事期间的一些往事。

20多年过去了,很多细节在Hinton的叙述里还是那么鲜活。

这段访谈录像理所当然的火了,除了轶事之外,还涉及Ilya的一些学术思想怎么来的,又是如何发展:

2010年Ilya就用GPU开发了一种语言模型

Scaling Law最早是他的一种直觉

两人都认为”语言模型不只是预测下一个token“

两人都认同“预测即压缩压缩即智能” (个人:我当时学压缩算法,就觉得香农提出的信息论很神奇)

那么,Hinton眼中的Ilya,到底是什么样子?

惊人的原始直觉

Ilya加入实验室后,Hinton给他布置的第一个任务是读论文,一篇关于反向传播的论文。

下一个周会,Ilya回来报告了,说“我不理解”。

Hinton很失望,内心OS:“这孩子看着挺机灵的,咋连链式法则求导这么基础的东西都看不懂?”

Ilya连忙解释,哦这个部分我懂了,我不理解的是,为什么不给梯度加一个sensible functional optimizer?

Hinto团队后来花了好几年来解决这个问题,最初指出问题的却是刚入门一周的Ilya。

像这样的情况后面还在反复发生……Hinton如此评价Ilya:

他对事物的原始直觉总是非常好。

但Hinton也说搞不清楚Ilya这种直觉从何而来,或许归功于他从小就对人工智能问题感兴趣,再加上数学基础很棒。

除了研究直觉,学生时期的Ilya也展现了超强的代码和工程能力。

当时还没有TenserFlow或Torch之类流行框架,机器学习的主要工具和平台是Matlab。

一项工作需要在Matlab里调整大量矩阵乘法代码,Ilya做了一段时间就很不耐烦,说要为Matlab写一个界面:

我用其他(Python等更方便的)语言写代码,然后能自动转成Matlab代码就好了。

Hinton听说后苦口婆心劝他,你可别,这得花上一个月时间,我们不要分心,把手头项目先做完。

Ilya却轻描淡写地说,害,没事,今天早上我已经写完了。

打小就坚信Scaling Law

正如Hinton所言,Ilya在很多问题上有惊人的直觉。

今天全AI圈不少人信奉的Scaling Law,Ilya学生时代就已坚信,并抓住各种机会向身边的人安利:

只要(把模型)做得更大,它们就会发挥更好的作用。

后来到OpenAI成立之处,Ilya的表述更加完善了:

如果你有一个大而深的神经网络,可以在大量数据上进行训练,那么你实际上可以解决任何模式识别问题。

早年间Hinton看来,这就像是研究者在没有创新的想法时,一种“逃避责任”的表现。

当时的我错了,而Ilya基本上是对的。

比如Transformer确实是一种创新想法,但实际上起作用的还是规模,数据的规模和计算的规模。

Hinton提到在当年那个时间节点,没人敢预料计算机速度今后会快上10亿倍,最多想象到快100倍就不得了。

如果有今天的计算机,当年研究的难题可能会自行解决,包括语言模型问题。

(此处应插入比尔盖茨曾预言64k内存就足够任何人用了笑话)

Ilya在2003年加入Hinton的实验室,不知具体何时开始有了Scaling Law的想法,可能在他脑海里已经盘旋了20多年。

后来直到2020年,GPT-3发布的几个月前,OpenAI团队才正式在论文中向世人完整定义和介绍这一理念。

在语言模型上用GPU,比AlexNet更早

2010年底,Ilya和另一个学生James Martens(现DeepMind研究科学家)合作研究了一种语言模型,后来入选ICML 2011。

RNN架构,使用维基百科数据,在8张当时最先进的GPU上训练,比在AlexNet上使用GPU还早两年。

与今天的大语言模型预测下一个token不一样,当时他们尝试的是一次预测一个字符。

这款模型能力有限,比如给一段起始文字,模型可以继续生成看起来像维基百科文章的语句。

虽然语意上像是胡言乱语,但语法和标点符号大部分是准确的,引号和括号已经能成对出现,主语和动词形态一致,比如论文中的一段:

生命的意义是古代人类繁殖的传统:对于好男孩什么时候移除她更大的来说,并不是很有利。在这个节目的协议中,几乎一致地重新浮现……

当年的Ilya并不愿意讨论这项工作的潜在应用。

在维基百科上成功后,团队又尝试了纽约时报文章数据,目标是教会它根据文字识别不同作者的身份。

但Ilya已经想到并承认,如果做的足够好,这项技术有一天可能成为洗稿软件的基础。

如今,这篇论文的代码依然存放在多伦多大学的服务器上,供感兴趣的人研究。

不止是预测下一个token

后来的AlexNet、师徒三人“拍卖”自己加入Google等大家已熟知的故事,这里先略过。

Ilya加入OpenAI后,虽然不再与Hinton共事,但两人的学术思想始终在一条路上。

ChatGPT问世后,不少人批评大模型本质上只是统计学,预测下一个token,就像随机模仿人类说话的鹦鹉。

但Hinton和Ilya师徒二人都认为,远不止如此。

在Hinton眼中,问题之后的下一个token,便是答案的第一个token。

因此学会预测,就意味着必须学会理解问题。

这种理解的方式与人类相似,同时与老式基于三元组数据的自动补全有根本不同。

今天我们现在已经看到了,做一个大语言模型,不刻意训练其推理能力,就产生了推理能力。

这就是大脑如何学习,你在预测视觉的下一帧、听觉的下一个声音。

Ilya更是不遗余力传播这套理论,在去年和英伟达老黄的炉边对话中说了这个,在OpenAI内讧两周前最后一个公开采访中也讲了这个:

当我们训练一个大型神经网络来准确预测互联网上许多不同文本中的下一个单词时,我们所做的就是学习一个世界模型。

从表面上看,可能只是在学习文本中的统计相关性。

但事实证明,为了“只是学习”文本中的统计相关性,为了压缩它们,神经网络需要学习的是文本生成过程的某种表示。

文本实际上是对世界的投影。

在另一场采访中,他走的更远:

很好地预测下一个token,意味着了解创造该token的深层现实。

这不仅是统计学,而是理解创造了这些统计数字的那个世界。

如果真的很擅长预测下一个token,就可能根据普通人如何行动的数据,外推出拥有非凡智慧和洞察力的人如何行动,尽管这种人可能并不存在。

这就是Ilya认为的,为什么“预测下一个token”范式有可能抵达AGI,甚至有可能超越人类直至ASI。

预测即压缩,压缩即智能

在不同场合提到“预测下一个Token”时,Ilya大概率会同时提到“压缩”,他认为预测即是压缩,压缩就是智能的来源。

但Ilya总是从理论的角度去解释这个想法,并不容易让所有人都能理解。

比如在UC Berkley的一场演讲中,他这样解释:

  • “Kolmogorov压缩器”,是理论上能生成特定数据集的、长度最短的一段程序,能最小化遗憾值。

  • 随机梯度下降,可以看成在软计算机(比如大型Transformer)的权重里,搜索隐含的“Kolmogorov压缩器”。

  • 神经网络越大,就越能更好的近似“Kolmogorov压缩器”,遗憾值越低。

Hinton也认同这个说法,并且在访谈中举了非常形象的例子。

大模型做的是寻找共同结构,使用共同结构编码事物,这样效率更高。

如果你问GPT-4堆肥和原子弹相似性在哪,大多数人类都回答不出来,认为它们是非常不同的两种东西。

GPT-4会告诉你,虽然他们的能量规模不同,时间尺度不同,但仍有相同之处:

当堆肥变热时,产生热量的速度就更快。

当原子弹产生更多中子时,产生中子的速度也更快。

通过类比,AI就理解了“链式反应”的概念。

Hinton认为,AI在利用这种理解去将所有信息压缩到自己的权重中。

一但AI这样做了,那么它就有能力理解数百种人类还未见过的类比,这就是创造力的来源。

Hinton眼中什么是好学生?

说回到两人相遇时,Hinton谈到,与他交谈没多久就能看出他很聪明。

再多交谈一会,就能发现他有很好的直觉,而且擅长数学。

所以选Ilya做学生是非常容易做出的决定。

那么如何挑选其他学生?Hinton也用了Ilya最擅长的方法:跟着直觉走。

如果一个人轻信别人告诉他的一切,那就太致命了。

不轻信他人,而是尝试将新信息融入自己对世界的理解框架中,如果融入不进去,就拒绝,这是很好的策略。

如果试图吸收被告知的一切,最终会得到一个非常模糊的框架。相信一切,但是没有用处。

所以Hinton眼中的好学生,应该拥有一个坚定的世界观,并试图摆弄输入的事实以适应你的观点。

这样虽然也可能陷入深信宗教或坚持致命错误,但我认为这种方法仍是正确的。

后来我们也能看到,两人都是秉持这样的理念,坚持着“大模型不止是预测下一个token”,坚持着“预测即压缩,压缩即智能”。

他们也都坚持认为,这个世界应该更加重视AI带来的风险,一个因此离开了工作10年的Google,一个因此离开了一手拉扯大的OpenAI。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/842065.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SQLite 如何导出某些SQLite3表的数据

https://deepinout.com/sqlite/sqlite-questions/44_sqlite_how_do_i_dump_the_data_of_some_sqlite3_tables.html 要导出整个SQLite3数据库的数据,可以使用SQLite3的.dump命令。首先,打开终端或命令提示符,并进入SQLite3终端会话。然后&…

# LLM高效微调详解-从Adpter、PrefixTuning到LoRA

一、背景 目前NLP主流范式是在大量通用数据上进行预训练语言模型训练,然后再针对特定下游任务进行微调,达到领域适应(迁移学习)的目的。 Context Learning v.s. SFT 指令微调是预训练语言模型微调的主流范式,其目的是…

嵌入式C语言--基础知识

嵌入式C语言–基础知识 嵌入式C语言--基础知识 嵌入式C语言--基础知识一. 含参数的宏与函数的不同点1)函数2)宏 二. scanf格式化输入的注意事项三. 指针1)指针变量(地址变量)2)指针常见含义 四. 数组五. 数组与指针的区…

解读 Nginx:构建高效反向代理和负载均衡的秘密

解读 Nginx:构建高效反向代理和负载均衡的秘密 一、简介 Nginx (Engine-X) 是一个高性能的 HTTP 和反向代理服务器,也是一个 IMAP/POP3/SMTP 代理服务器。Nginx 以其高并发、高可靠性、低内存消耗等特点,成为了众多互联网公司首选的服务器软…

通用代码生成器应用场景三,遗留项目反向工程

通用代码生成器应用场景三,遗留项目反向工程 如果您有一个遗留项目,要重新开发,或者源代码遗失,或者需要重新开发,但是希望复用原来的数据,并加快开发。 如果您的项目是通用代码生成器生成的,…

在智慧城市建设中,大数据发挥着怎样的关键作用?

在智慧城市建设中,大数据发挥着以下关键作用: 数据采集与监测:大数据技术能够帮助城市采集和监测各种数据,包括气象、环境、交通、能源等方面的数据。这些数据可以用来分析和预测城市的运行情况,并为城市的各个部门提供…

阿里云产品DTU评测报告(二)

阿里云产品DTU评测报告(二) 问题回顾问题处理继续执行 问题回顾 基于上一次DTU评测,在评测过程中遇到了windows系统情况下执行amp命令失败的情况,失败情况如图 导致后续命令无法执行,一时之间不知如何处理&#xff0…

20 道大模型面试问题(含答案)

大型语言模型在生成式人工智能(GenAI)和人工智能(AI)中正变得越来越有价值。这些复杂的算法增强了人类的能力,并在各个领域促进了效率和创造力。 节前,我们组织了一场算法岗技术&面试讨论会&#xff0…

python 两个表格字段列名称值,对比字段差异

支持xlsx,xls文件,相互对比字段列 输出两个表格文件相同字段,置底色为绿色 存在差异的不同字段,输出两个新的表格文件,差异字段,置底色为红色 注意点:读取的文件仅支持xlsx格式,头列需要删除…

【AD21】Gerber文件的输出

Gerber文件是对接生产的文件,该文件包含了PCB的所有层的信息,如铜层、焊盘、丝印层、阻焊层等。板厂使用这些文件来准备生产工艺。虽然可以将PCB发给板厂去打板,但是对于公司而言,直接发PCB会有泄密风险,Gerber文件会相…

《宝贵的人生建议》

致读者 2024/05/25 发表想法 简练表达,发散(灵活)运用。 原文:在写作过程中,我的主要精力是用在这个方面:把这些重要的经验教训浓缩为尽可能紧凑简炼、易于传播的语言。我鼓励读者在阅读时扩展这些“种子”…

不能错过的AI知识学习神器「Mo卡片」

1. 「Mo卡片」——知识点的另一种承载方式 1.1 产品特点 📱一款专为渴望理解和掌握人工智能知识的小伙伴量身打造的轻量级 App。 🏷AI 知识卡片集 Mo卡片内置了 26 套卡片集,总计 1387 张卡片,每张卡片都能获得 1 个核心知识。…

GpuMall智算云:AUTOMATIC1111/stable-diffusion-webui/stable-diffusion-webui-v1.8.0

配置环境介绍 目前平台集成了 Stable Diffusion WebUI 的官方镜像,该镜像中整合如下资源: GpuMall智算云 | 省钱、好用、弹性。租GPU就上GpuMall,面向AI开发者的GPU云平台 Stable Diffusion WebUI版本:v1.8.0 Python版本:3.10.…

nginx与nginx-rtmp-module安装

nginx与nginx-rtmp-module安装 画了好几天图,实在有些乏力,找点有意思的事情做做 觉得视频流传输挺有意思,B站找了些视频,但感觉有些大同小异,讲得不是很清楚 FFmpeg/RTMP/webRTC丨90分钟搞定直播逻辑-推流-流媒体服…

半年不在csdn写博客,总结一下这半年的学习经历,coderfun的一些碎碎念.

前言 自从自己建站一来,就不在csdn写博客了,但是后来自己的网站因为资金问题不能继续维护下去,所以便放弃了自建博客网站来写博客,等到以后找到稳定,打算满意的工作再来做自己的博客网站。此篇博客用来记录自己在csdn…

如何使用Go语言编写RESTful API?

在当今的软件开发中,RESTful API的使用变得日益重要。它们提供了跨平台、跨语言的通信方式,使得不同的服务能够无缝地集成在一起。Go语言作为一种高效且简洁的编程语言,非常适合用于编写RESTful API。本文将向你展示如何使用Go语言编写RESTfu…

Git Large File Storage (LFS) 的安装与使用

Git Large File Storage [LFS] 的安装与使用 1. An open source Git extension for versioning large files2. Installing on Linux using packagecloud3. Getting Started4. Error: Failed to call git rev-parse --git-dir: exit status 128References 1. An open source Git…

HLS流在部分安卓机型无法播放问题的排查

问题描述 最近上线了一个数字人系统,客户端通过HLS实时拉流进行播放来提升用户体验(视频推理后再进行播放的延时不可接受)。通过一段时间的使用,反馈有部分Android机型无法正常播放视频。 问题排查 因为上线之前做过测试,在VLC播放器, iOS…

Android Studio 获取 SHA1

以 debug.keystore 调试密钥库为例。 步骤1:明确 debug.keystore 位置 debug.keystore 在 .android 目录下: Windows 用户:C:\Users\用户名\.android\debug.keystore Mac 用户:/Users/用户名/.android/debug.keystore 假设我的…