Transformers 如何模仿大脑的某些部分

22e282cc1af152c1a3b6a2da77037879.png

来源:ScienceAI

编译:白菜叶

了解大脑如何组织和访问空间信息「我们在哪里」,「拐角处有什么」,「如何到达那里」,这仍然是一项艰巨的挑战。该过程涉及从数百亿个神经元中调用整个记忆网络和存储的空间数据,每个神经元都连接到数千个其他神经元。

神经科学家已经确定了关键元素,例如网格细胞、映射位置的神经元。但更深入将被证明是棘手的:并不是说研究人员可以移除或研究人类灰质的切片来观察基于位置的图像、声音和气味记忆是如何流动并相互连接的。

人工智能提供了另一种方式。多年来,神经科学家利用多种类型的神经网络——为大多数深度学习应用程序提供动力的引擎——来模拟大脑中神经元的放电。

在最近的工作中,研究人员表明,海马体是一种对记忆至关重要的大脑结构,基本上是一种特殊的神经网络,被称为 Transformer。他们的新模型以与大脑内部运作相似的方式跟踪空间信息。他们已经看到了非凡的成功。

「我们知道这些大脑模型相当于 Transformer,这一事实意味着我们的模型表现得更好,更容易训练。」来自斯坦福大学的认知神经科学家 James Whittington 说。

Whittington 和其他人的研究表明,Transformer 可以极大地提高神经网络模型模拟网格细胞和大脑其他部分进行的各种计算的能力。Whittington 说,这样的模型可以推动我们对人工神经网络如何工作的理解,甚至更有可能推动我们对大脑中如何进行计算的理解。

「我们并不是要重建大脑。」谷歌大脑的计算机科学家 David Ha 说,他也在研究 Transformer 模型,「但我们能否创造一种机制来完成大脑所做的事情?」

Transformers 于五年前首次出现,是人工智能处理语言的一种新方式。它们是 BERT 和 GPT-3 等引人注目的补句程序中的秘密武器,可以生成令人信服的歌词、创作莎士比亚十四行诗并模仿客户服务代表。

Transformers 使用一种称为自我注意的机制工作,其中每个输入——一个单词、一个像素、一个序列中的数字——总是连接到每个其他输入。(其他神经网络仅将输入连接到某些其他输入。)但是,虽然转换器是为语言任务而设计的,但它们后来在其他任务上表现出色,例如对图像进行分类——现在是大脑建模。

2020 年,由奥地利林茨约翰内斯·开普勒大学的计算机科学家 Sepp Hochreiter 领导的一个小组使用 Transformer 改造了一个强大的、长期存在的记忆检索模型,称为 Hopfield 网络。40 年前由普林斯顿物理学家 John Hopfield 首次提出,这些网络遵循一般规则:同时活跃的神经元彼此建立牢固的联系。

Hochreiter 和他的合作者指出,研究人员一直在寻找更好的记忆检索模型,他们看到了 Hopfield 网络如何检索记忆与转换器如何执行注意力之间的联系。他们升级了 Hopfield 网络,基本上把它变成了一个Transformer。Whittington 说,由于更有效的连接,这种变化使模型能够存储和检索更多的记忆。Hopfield 本人与 MIT-IBM Watson AI 实验室的 Dmitry Krotov 一起证明了基于Transformer的 Hopfield 网络在生物学上是合理的。

然后,今年早些时候,Whittington 和 Behrens 帮助进一步调整了 Hochreiter 的方法,修改了转换器,以便不再将记忆视为线性序列——就像句子中的一串单词——而是将它们编码为高维空间中的坐标。正如研究人员所说,这种「扭曲」进一步提高了模型在神经科学任务上的表现。他们还表明,该模型在数学上等同于神经科学家在 fMRI 扫描中看到的网格细胞放电模式模型。

伦敦大学学院的神经科学家 Caswell Barry 说:「网格细胞具有这种令人兴奋、美丽、规则的结构,并且具有不太可能随机出现的引人注目的图案。」这项新工作展示了 Transformer 如何准确复制在海马体中观察到的那些模式。「他们认识到,Transformer 可以根据以前的状态以及它的移动方式来确定它的位置,并且以一种与传统网格单元模型相结合的方式。」

最近的其他研究表明,Transformers 也可以促进我们对其他大脑功能的理解。去年,麻省理工学院的计算神经科学家 Martin Schrimpf 分析了 43 种不同的神经网络模型,看看它们对 fMRI 和皮层脑电图报告的人类神经活动测量结果的预测效果如何。他发现,Transformers 是目前领先的、最先进的神经网络,几乎可以预测成像中发现的所有变化。

Ha 和计算机科学家 Yujin Tang 最近设计了一个模型,该模型可以有意地通过 Transformer 以随机、无序的方式发送大量数据,模仿人体如何将感官观察传递到大脑。他们的 Transformer,就像我们的大脑一样,可以成功地处理无序的信息流。

「神经网络天生就接受特定的输入。」Tang 说。但在现实生活中,数据集往往变化很快,大多数 AI 没有办法调整。「我们想试验一种可以很快适应的架构。」

尽管有这些进步的迹象,Behrens 认为 Transformers 只是迈向准确的大脑模型的一步,而不是探索的终点。「我在这里必须是一个怀疑的神经科学家。」他说,「例如,我不认为 Transformers 最终会成为我们在大脑中思考语言的方式,即使它们拥有当前最好的句子模型。」

「这是预测我在哪里以及接下来会看到什么的最有效的基础吗?老实说,现在说还为时过早。」Barry说。

Schrimpf 也指出,即使是表现最好的转换器也是有限的,例如,在单词和短语方面表现良好,但在讲故事等更大规模的语言任务中却不适用。

「我的感觉是,这种架构,这种 Transformer,让你进入正确的空间来理解大脑的结构,并且可以通过训练得到改善。」Schrimpf 说,「这是一个很好的方向,但这个领域超级复杂。」

相关报道:https://www.quantamagazine.org/how-ai-Transformers-mimic-parts-of-the-brain-20220912/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

e9a7c8ed6786407c4d177dcc94fbd374.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481626.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

国科大prml-往年习题

文章目录1 模式识别过拟合欠拟合概率图概率图-独立性HMM哲学理论adaboost贝叶斯贝叶斯判别贝叶斯判别-正态分布贝叶斯估计贝叶斯决策朴素贝叶斯半监督无监督聚类GMMEM极大似然估计判别函数线性判别和非线性判别线性判别函数的数量(M分类感知机势函数法9.势函数法&am…

城市大脑已经几岁?城市大脑发展成熟度的年龄评估模型

说明:该论文由科学院研究团队刘颖、刘锋于2022年7月发表在《科技导报》第14期,是对城市大脑发展成熟度的探索研究,为构建城市大脑发展成熟度评估规范提供参考。根据研究团队建立的评估模型,进行初步评估,提出目前城市大…

GMM

GMM 一个类一个正态分布N(μk,Σk)N(\mu_k,\Sigma_k)N(μk​,Σk​) 有监督无监督半监督目标函数Llogp(Xl,Yl∥θ)Σi1llogp(yi∥θ)p(xi∥yi,θ)Σi1llogαyiN(xi∥θyi)Llogp(X_l,Y_l\|\theta)\Sigma_{i1}^llogp(y_i\|\theta)p(x_i\|y_i,\theta)\\\Sigma_{i1}^llog \alpha_…

城市大脑已经几岁?城市大脑发展成熟度的年龄评估模型(修改版)

说明:该论文由科学院研究团队刘颖、刘锋于2022年7月发表在《科技导报》第14期,是对城市大脑发展成熟度的探索研究,为构建城市大脑发展成熟度评估规范提供参考。根据研究团队建立的评估模型,进行初步评估,提出目前城市大…

2022年 AI 技术成熟度曲线

来源:Gartner公司编辑:蒲蒲近日,Gartner发布了最新的《2022年人工智能技术成熟度曲线》报告,报告称尽早采用复合型人工智能(AI)、决策智能等AI技术将给企业机构带来明显的竞争优势,缓解AI模型脆…

国科大prml--SVM

拉格朗日的原始问题是minw,bmaxλLmin_{w,b} max_{\lambda} Lminw,b​maxλ​L对偶问题是maxλminw,bLmax_{\lambda} min_{w,b}Lmaxλ​minw,b​L 原问题拉格朗日对偶问题分界面最终参数hard marginminw12∥w∥2min_w \frac{1}{2}\|w\|^2minw​21​∥w∥2约束yi(wTxi)>1,对…

科学家们正在使用人工智能来构想革命性的新蛋白质

来源:ScienceAI编译:白菜叶6 月,韩国监管机构授权使用人类设计的新型蛋白质制成首个药物,即 COVID 疫苗。该疫苗基于研究人员近十年前通过劳动密集型试错过程创造的球形蛋白质「纳米颗粒」。现在,由于人工智能&#xf…

多模态认知计算

来源:图灵人工智能 日常生活中, 人类至少利用视觉, 听觉等多种感官理解周围环境, 通过整合多种感知模态, 形成对事件的整体认识. 为使机器更好地模仿人类的认知能力, 多模态认知计算模拟人类的“联 觉”(Synaesthesia), 探索图像, 视频, 文本, 语音等多模态输入的高…

知识表示与知识图谱--介绍

知识表示与知识图谱 知识支撑 人类理解需要机器也需要知识工程 手段:信息技术特点:高效率、大容量目标:获取并利用知识与信息的技术例子 第一个专家系统:费根鲍姆知识工程语言TUILI--1982--陆汝衿专家系统开发环‘天马’--1987--…

「图学习推荐系统」最新2022综述

来源:专知协同过滤是一种被广泛应用于推荐系统中的方法,其利用不同用户之间(或不同物品之间)的相似性关系来过滤和抽 取用户和物品的交互信息,从而进行用户推荐.近年来,图神经网络因其出色的表示学习性能和良好的可扩展性逐渐成为推荐 领域中的一种新兴的范式.文中从…

2知识图谱的生命周期

知识图谱的生命周期 知识图谱 知识建模--建立本体ontolog 建什么 概念、实体的类型概念/实体的关联关系要求:可靠性方法 自顶向下--专家手工形成数据模式自底向上--实体--类 利用现有的标准转换从现有的高质量数据源中进行映射:用知识图谱--抽象建模--来…

nlp1-介绍

能做什么? 自然语言处理: 如何让计算机能够自动或半自动地理解自然语言文本,懂得人的意图和心声?如何让计算机实现海量语言文本的自动处理、挖掘和有效利用,满足不同用户的各种需求,实现个性化信息服务&…

经纬张颖:给科研技术背景创始人的十条建议

来源:动脉橙果局编辑: Light出品: 科技智谷"给科研技术背景创始人的十条建议近一年,随着经纬在科技类公司的投资比例更大、金额更多,我和这类创始人们也进行了更高频次的交流,更多地了解了他们的困惑和…

nlp2-数学基础(信息论,概率论、词义消歧)

文章目录概率论信息论计算熵计算信息熵、条件熵、联合熵波利尼亚语熵率噪声信道模型建立一个翻译词义消歧(WSD贝叶斯最大熵的消歧方法概率论 在自然语言处理中,以句子为处理单位时一般假设句子独立于它前面的其它语句,句子的概率分布近似地符…

格鲁夫12年前惊人的预言,解释了今天美国对中国芯片所做的一切

来源: 未尽研究从芯片到光伏和动力电池,英特尔前董事长和CEO格鲁夫惊人地预言了美国制造业与科技当下所遇到的麻烦。他是一位以严厉著称的CEO,在美国金融危机刚结束之际,在商业杂志的封面发表了一篇犀利的评论。尤其是在美国硅谷如…

真正的人工智能,需要理解本体论

来源:混沌巡洋舰人工智能的终极语境是什么?真正的人工智能,需要理解本体论现在的人工智能技术突破或许具有划时代意义,但即使是计算能力最强大、最先进的机器,也达不到人类智能的层级。人工智能具备测算能力&#xff0…

知识图谱-架构图

binlog-MySQL的日志 用于实时处理与离线增量导入架构 Kafka消息队列 老虎队队长(AV75056045)

知识图谱2-知识表示

知识表示的重要性 知识是智能的基础 机器可以获得知识机器可以运用知识符合计算机要求的知识模式 计算机能存储处理的知识表示模式数据结构ER模型Sql与RDF模型SPARQL对比 关系模型 关系显式定义(RDF) 关系隐式定义(ER)(理解后写出来的表 数据变更时 RDF--数据变更…

韩国芯片教父:金钟基如何带领韩国成为半导体超级大国

来源 :大数据文摘编译:Mickey来源:https://spectrum.ieee.org/kim-choong-ki在韩国芯片行业有这样一群人的传说,他们被称为“金氏黑手党”。金钟基本人不会这么称呼这群人,但对韩国的半导体工程师们来说,“金氏黑手党”…

论文学习1-DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning

文章目录摘要Introduction最近工作基于PRA的其他方法其他使用强化学习的方法我们的方法方法介绍(强化学习摘要 研究了大规模知识图的学习推理问题。更具体地说,我们描述了一个用于学习多跳关系路径的新型强化学习框架:我们使用一个基于知识图嵌入的具有…