方向对了?MIT新研究:GPT-3和人类大脑处理语言的方式惊人相似

d40b1aec63651dd43e1be2d257af4f22.png

来源:机器之心

「人工智能网络并没有试图直接模仿大脑,然而最终看起来像大脑一样,这在某种意义上表明,人工智能和自然之间发生了某种趋同演化。」

计算机擅长理解结构化数据,让计算机去理解主要以文化习惯沉淀下来的人类语言是一件困难的事。不过在 AI 的重要方向,自然语言处理(NLP)领域中,人们经过多年的实践找到了一些方法。

在目前流行的 NLP 方法中,其中一种语言模型就是根据上下文去预测下一个词是什么。通过这种方法,语言模型能够从无限制的大规模单语语料中学习到丰富的语义知识。而预训练的思想让模型的参数不再是随机初始化,而是先有一个任务进行训练得到一套模型参数,然后用这套参数对模型进行初始化,再进行训练。

899f78974f1779ebed4f7530e899e4b8.gif

计算机科学家们一直在通过这种方式试图让电脑尽量接近人类识别语言的水准,却不曾想到有一天会发现它和生物的思考方式异曲同工。

来自麻省理工学院(MIT)的科学家向 AI 模型输入与测试人类大脑相同的刺激,结果发现很多模型获得了与人类相同类型的激活。在超过 40 种语言模型的测试中(包括词嵌入、循环神经网络、Transformer 等),OpenAI 的 GPT 系列可以几乎完美地进行一些推断,而且这种能力具有跨数据集的稳健性。

像 GloVe 这样的词嵌入则不行。

模型预测出的下一个词越准,它和人类大脑契合度就越高

在过去的几年中,自然语言处理模型在很多任务中都表现出了出色的性能。最值得注意的是,它们非常擅长预测一串文本中的下一个词。这一技术最直白的应用就是在搜索引擎以及很多文本类 APP 上,可以准确地预测出你想要输入的下一个词。

614c32fbd29726c4bc4612f8ce445591.png

最新一代的预测语言模型似乎也学习了一些关于语言潜在含义的东西。这些模型不仅能预测下一个词,还能执行一些需要一定程度的真正理解才能执行的任务,如问答、文本摘要、故事续写等。这类模型是为了优化预测文本的特定功能而设计的,而不是试图模仿人类大脑如何执行这项任务或理解语言。

但是,来自 MIT 的一项新研究表明,这些模型的基本功能其实类似于人类大脑语言处理中心的功能。

此外,研究人员还发现,在其他类型的语言任务中表现良好的计算机模型并没有展现出此类相似性。这意味着,人类大脑可能会用「下一个词预测」来驱动语言处理。

「模型预测出的下一个词越准,它和人类大脑契合度就越高,」MIT 的认知神经科学教授 Nancy Kanwisher(论文作者之一)表示,「令人惊奇的是,这些模型契合得竟如此之好。这是强烈的间接证据,证明人类的语言系统可能就是在预测接下来会发生什么。」

这项研究发表在最新一期的《美国国家科学院院刊(Proceedings of the National Academy of Sciences)》上。

ad168843620ca04c40bf341de2c86667.png

  • 论文:https://www.pnas.org/content/118/45/e2105646118

  • 论文预印版(Biorxiv):https://www.biorxiv.org/content/biorxiv/early/2020/10/09/2020.06.26.174482.full.pdf

  • GitHub:https://github.com/mschrimpf/neural-nlp

论文一作 Martin Schrimpf 以及另一位作者 Evelina Fedorenko 在一个视频中针对该论文进行了解读。

b4975ea644486204706659f2b8138161.png

论文第一作者,MIT 在读博士 Martin Schrimpf。

人工智能和自然之间发生了某种趋同演化?

当前高性能的下一个词预测模型属于深度神经网络模型。这些网络包含构成不同强度连接的计算「节点」,以及以规定方式在彼此之间传递信息的层。

十多年来,科学家们使用深度神经网络来创建可以识别物体的视觉模型,以实现灵长类大脑的功能。MIT 2019 年的一项研究表明,视觉对象识别模型的基本功能与灵长类动物视觉皮层的组织相似,尽管这些计算机模型并不是专门为模仿大脑而设计的。

在这份新研究中,MIT 的研究团队使用类似的方法将人脑中的语言处理中心与语言处理模型进行比较。他们分析了 43 种不同的语言模型,包括一些针对下一个词预测任务进行了优化的模型。这些模型旨在执行不同的语言任务,其中 GPT-3 可以根据提示生成类似于人类生成的文本,还有一些模型旨在补全文本中的空白。

932afcd4d7adae297b19064e91b1b349.png

b0b92cb105f5aef37f45ad95446efdb9.png

负责语言处理的人工神经网络模型与人类语言处理系统的比较。MIT 的研究者测试了不同模型对语言理解过程中的人类神经活动(fMRI and ECoG)和行为数据进行预测的效果。候选模型包括简单的嵌入模型、更复杂的循环模型和 transformer 网络。测试内容从句子到段落再到故事,这些内容要经历两个步骤:1)输入模型,2)呈现给人类参与者(视觉或听觉)。模型的内部表征主要在三个维度上进行评估:预测人类神经表征的能力;以阅读次数的形式预测人类行为的能力;执行计算任务的能力(例如下一个词预测)。研究者在许多个不同的模型中归纳分析了测试结果,得到的结论比从单个模型中得到的更具说服力。

每个模型都有一串词作为输入,研究人员测量了网络中节点的活动。然后,他们将这些模式与人脑中的活动进行了比较,并根据执行的三种语言任务进行度量:听故事、一次阅读一个句子,以及阅读每次只显示一个单词的句子。其中用到的人类数据集包括功能磁共振 (fMRI) 数据和在接受癫痫脑部手术的人中进行的颅内皮层电图测量数据。

他们发现,表现最佳的下一个单词预测模型的活动模式与人类大脑的活动模式非常相似。这些模型中的活动与人类行为度量高度相关,比如人们阅读文本的速度。

「我们发现,那些能够很好地预测神经反应的模型在预测人类行为反应时也往往表现良好。这两种情况都可以用模型在下一词预测中的表现来解释。这个三角形真的把一切都联系在了一起。」Schrimpf 表示。

「这项研究的一个关键结论是,语言处理是一个高度约束问题: AI 工程师创造的最佳解决方案最终与创造人类大脑进化过程所得到的解决方案类似。」斯坦福大学心理学和计算机科学助理教授 Daniel Yamins 评价说: 「人工智能网络并没有试图直接模仿大脑,然而最终看起来像大脑一样,这在某种意义上表明,人工智能和自然之间发生了某种趋同演化。」

24e2e643d7c6e921d566c233449325b9.png

图 6: 主要研究结果。红色与橙色框内是归一化后的神经及行为预测。

论文作者:这个结果对我来说是有生之年系列

GPT-3 这种预测模型的关键计算特性是:它有一种被称为「前向单向预测 transformer」的成分。这种 transformer 架构能够根据之前的序列预测接下来会发生什么,它可以基于很长的前文内容进行预测(数百个单词),而不仅仅是最后几个单词。

科学家们还没有发现任何与这种信息处理相对应的大脑回路或学习机制,MIT 计算认知科学教授 Joshua Tenenbaum (本文作者之一)表示,然而新发现与先前提出的假设是一致的,即预测是语言处理的关键功能之一。

「语言处理的挑战之一是实时性,」他说,「语言输入了,你必须跟上,并且要实时理解它。」

研究人员打算建立这些语言处理模型的变体,观察它们架构中的微小变化是如何影响性能和适应人类神经数据能力的。

「对我来说,这个结果意义重大,」Fedorenko 说,「这完全改变了我的研究计划,因为我没有预料到,有生之年我能得到这些计算很明确的模型,捕捉到足够多的关于大脑的信息,从而利用它们来理解大脑是如何工作的。」

研究人员还计划将这些高效的语言模型与 Tenenbaum 实验室之前开发的一些计算机模型结合起来,这些模型可以执行其他类型的任务,比如构建物理世界的知觉表征。

「如果我们能够理解这些语言模型的作用,以及它们如何与那些更像是感知和思考的模型相联系,我们就可以得到更多关于事物如何在大脑中工作的综合模型。」

「这将带领我们走向更好的人工智能模型,同时也为我们提供了比过去更好的思路——关于大脑如何工作以及通用智能如何产生。」

参考内容:

https://cbmm.mit.edu/news-events/news/artificial-intelligence-sheds-light-how-brain-processes-language-mit-news

https://scitechdaily.com/surprisingly-smart-artificial-intelligence-sheds-light-on-how-the-brain-processes-language/

https://twitter.com/martin_schrimpf/status/1276832575022137344

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

a229202b52525ff4477034149993c02f.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483354.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux的基础知识——signal信号捕捉,信号集操作函数

文章目录1.signal捕捉信号2.信号集操作函数3.sigprocmask函数4.sigpending函数5.例子1&#xff1a;打印某个进程未决信号集6.例子2&#xff1a;signal函数的注册捕捉执行函数7.sigaction函数8.信号捕捉特性9.内核实现信号捕捉过程1.signal捕捉信号 #include <signal.h> …

MIT诺奖大牛2万字雄文:记忆的本质

来源&#xff1a;知乎&#xff1a;连玉君Stata专栏-连享会文&#xff1a;Sheena A. Josselyn & Susumu Tonegawa译&#xff1a;C57记忆的神经基础形成记忆的能力是学习和知识积累的关键。然而什么是记忆&#xff1f;长久以来&#xff0c;人们都渴望找到大脑中形成记忆的神经…

如何判断两个IP地址是不是处于同一网段?

个人理解&#xff0c;欢迎指正。 一、要判断两个IP地址是不是在同一个网段&#xff0c;就将它们的IP地址分别与子网掩码做与运算&#xff0c;得到的结果-->网络号&#xff0c;如果网络号相同&#xff0c; 就在同一子网&#xff0c;否则&#xff0c;不在同一子网。 例&#x…

linux的基础知识——时序竞态

文章目录1.pause函数1.1 pause函数例子2.时序问题3.解决时序问题4.例子&#xff1a;sigsuspend函数的举例5.总结1.pause函数 1.1 pause函数例子 \qquad程序依次从1到无穷输出数字&#xff0c;当遇到100的整数倍时就暂停&#xff0c;键盘输入ctrlc&#xff0c;就继续输出。 #in…

深夜文献:2021腾讯科技WE大会硬核复习资料,看看如何烧脑?

来源&#xff1a;腾讯今年的腾讯科学WE大会&#xff0c;再次带着全球顶尖的科学家们&#xff0c;为你贡献了能吃三个多小时的科学盛宴&#xff1a;宇宙起源、黑洞观测、脑机接口、电子皮肤、软体机器鱼、快充电池......听了就很下饭的那种看了直播的同学更赚&#xff1a;这是微…

python 经典排序算法

python 经典排序算法 排序算法可以分为内部排序和外部排序&#xff0c;内部排序是数据记录在内存中进行排序&#xff0c;而外部排序是因排序的数据很大&#xff0c;一次不能容纳全部的排序记录&#xff0c;在排序过程中需要访问外存。常见的内部排序算法有&#xff1a;插入排序…

宇宙中至少有两种方式能灭绝人类,第一种仅需两秒

来源&#xff1a;科学的乐园在科幻小说《三体Ⅲ&#xff1a;死神永生》之中&#xff0c;歌者文明“母世界”的宇宙飞船曾经利用宇宙规律武器二向箔来摧毁地球文明&#xff0c;将地球所处的三维世界完全变成了一个二维世界。很多人无法想象&#xff0c;仅仅一个手机大小的物质&a…

linux的基础知识——捕捉SIGCHLD、信号传参,中断系统调用

文章目录1.SIGCHLD信号2.信号传参3.捕捉信号传参4.中断系统调用1.SIGCHLD信号 2.信号传参 3.捕捉信号传参 4.中断系统调用

Android SQLiteDatabase分析

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主同意不得转载。 https://blog.csdn.net/Sailingthink/article/details/27691953 Android中的数据存储使用的小巧的SQLite数据库。为了方便java层使用SQLite&#xff0c;android做了大量的封装&#xff0c;提供了一些…

linux的基础知识——终端

文章目录1.终端2.终端的启动流程3.线路规程4.ttyname函数5.网络终端1.终端 2.终端的启动流程 3.线路规程 4.ttyname函数 5.网络终端

美国没有光刻机背后的原因

来源&#xff1a;semiwiki编辑&#xff1a;小艾 光刻可以说是半导体制造中最重要的一步。今天最先进的 EUV 光刻机是极其复杂的机器&#xff0c;其成本与一架新的波音喷气式客机一样高。从 1984 年与飞利浦的合资企业开始&#xff0c;ASML 已经发展成为世界第二大芯片设备制造商…

项目Beta冲刺(团队) --1/7

课程名称&#xff1a;软件工程1916|W&#xff08;福州大学&#xff09;作业要求&#xff1a;项目Beta冲刺&#xff09;团队名称&#xff1a;葫芦娃队作业目标&#xff1a;尽力完成团队博客 队员学号队员昵称博客地址041602421der himmelhttps://www.cnblogs.com/wenghaoo221600…

2021年度人类社会发展十大科学问题发布

来源&#xff1a;中国科学报作者&#xff1a;高雅丽 11月7日&#xff0c;在第三届世界科技与发展论坛闭幕式上&#xff0c;可持续发展大数据国际研究中心主任、中国科学院院士郭华东&#xff0c;英国工程技术学会主席朱利安杨以及《交叉科学》主编斯蒂法诺通扎尼共同发布“2021…

linux的基础知识——进程组

文章目录1.进程组的概念2.进程组操作函数1.进程组的概念 2.进程组操作函数

linux的基础知识——会话

文章目录1.会话2.getsid函数3.setsid函数1.会话 \qquad进程组是进程的集合&#xff0c;而会话是进程组的集合。 2.getsid函数 3.setsid函数

关注:诺奖得主被爆40多篇论文P图造假!涉及国内“杰青”

来源&#xff1a;解螺旋、弗雷赛斯诺奖得主也沦陷了!截止2021年11月6日&#xff0c;Gregg L. Semenza教授针对其在Pubpeer被挂的52篇论文&#xff0c;进行了至少6篇文章的纠正&#xff0c;且撤回了1篇文章。离谱的是&#xff0c;这位美国约翰霍普金斯大学教授&#xff0c;正是2…

linux的基础知识——守护进程

文章目录1.守护进程2.创建守护进程模型3.创建守护进程的步骤4.举例&#xff1a;创建一个守护进程5.守护进程随着系统启动而启动1.守护进程 2.创建守护进程模型 3.创建守护进程的步骤 4.举例&#xff1a;创建一个守护进程 #include<stdio.h> #include<unistd.h> #i…

生命如何在复杂环境中生存?信息、调控和几何结构的交织

来源&#xff1a;集智俱乐部作者&#xff1a;Jürgen Jost译者&#xff1a;十三维 编辑&#xff1a;邓一雪 导语生物有机体生活在复杂的环境中&#xff0c;同时受到环境的促进和限制。比如在三维几何空间中&#xff0c;DNA一维的线性结构更有利于信息存储和读取&#xff0c;而…

MQ(消息队列)相关知识

1. 什么是mq 消息队列是一种“先进先出”的数据结构 2. 应用场景 其应用场景主要包含以下3个方面 应用解耦 系统的耦合性越高&#xff0c;容错性就越低。以电商应用为例&#xff0c;用户创建订单后&#xff0c;如果耦合调用库存系统、物流系统、支付系统&#xff0c;任何…

linux的基础知识——线程

文章目录1.什么是线程&#xff1f;2.linux内核线程实现原理3.线程共享资源4.线程的非共享资源5.线程优缺点6.线程的控制原语6.1 pthread_self函数6.2 pthread_create函数6.3 程序&#xff1a;创建线程7.线程与共享8.pthread_exit线程退出函数1.什么是线程&#xff1f; 2.linux内…