【Brain】大脑里也有个Transformer！和「海马体」机制相同

【Brain】大脑里也有个Transformer！和「海马体」机制相同

news/2025/4/26 17:37:25/文章来源:https://blog.csdn.net/cf2SudS8x8F0v/article/details/127148040

来源：墨玫人工智能

【导读】Transformer模型性能强的原因是模拟了人脑？

我不能创造的，我也不理解。
——费曼

想要创造人工智能，首先要理解人类的大脑因何有智能。

随着神经网络的诞生及后续的辉煌发展，研究者们一直在为神经网络寻找生物学上的解释，生物学上的进展也在启发AI研究人员开发新模型。

但人工智能领域的研究人员其实还有一个更远大的追求：利用AI模型来帮助理解大脑。

最近有研究发现，虽然时下最流行的Transformer模型是在完全没有生物学知识辅助的情况下开发出来的，但其架构却和人脑海马结构极其相似。

论文链接：https://arxiv.org/pdf/2112.04035.pdf

研究人员给Transformer配备了递归位置编码后，发现模型可以精确复制海马结构（hippocampal formation）的空间表征。

不过作者也表示，对于这一结果并不惊讶，因为Transformer与目前神经科学中的海马体模型密切相关，最明显的就是位置细胞（place cell）和网格细胞（grid cell）。

而且通过实验发现，Transformer模型相比神经科学版本提供的模型来说有巨大的性能提升。

这项工作将人工神经网络和大脑网络的计算结合起来，对海马体和大脑皮层之间的相互作用提供了新的理解，并暗示了皮层区域如何执行超出目前神经科学模型的更广泛的复杂任务，如语言理解。

Transformer仿真海马体？

人类想要了解自己的大脑仍然困难重重，比如研究大脑如何组织和访问空间信息来解

决「我们在哪里，拐角处有什么以及如何到达那里」仍然是一项艰巨的挑战。

整个过程可能涉及到从数百亿个神经元中调用整个记忆网络和存储的空间数据，每个神经元都连接到数千个其他神经元。

虽然神经科学家已经确定了几个关键元素，例如网格细胞、映射位置的神经元，但如何进行更深入的研究仍然是未知的：研究人员无法移除和研究人类灰质切片来观察基于位置的图像、声音和气味记忆如何流动并相互连接。

人工智能模型则提供了另一种途径来理解人脑，多年来，神经科学家已经利用多种类型的神经网络来模拟大脑中神经元的发射。

最近有研究表明，海马体（一个对记忆至关重要的大脑结构）基本上和Transformer模型差不多。

研究人员用新模型以一种与大脑内部运作相似的方式追踪空间信息，取得了一些显著的研究成果。

来自牛津大学和斯坦福大学的认知神经科学家James Whittington表示，当我们知道这些大脑模型等同于Transformer时，也就意味着新模型会表现得更好，也更容易训练。

从Whittington和其他人的研究成果中可以看出，Transformer可以极大地提高神经网络模型模仿网格细胞和大脑其他部分进行的各种计算的能力。

Whittington表示，这样的模型可以推动我们对人工神经网络如何工作的理解，甚至更有可能是对大脑中如何进行计算的理解。

主要从事Transformer模型研究的谷歌大脑计算机科学家David Ha表示，我们并不是要重新创造一个新的大脑，但我们能不能创造一种机制来做大脑可以做的事情？

Transformer在五年前才首次提出，当时是作为人工智能处理自然语言的一种新模型，也是BERT和GPT-3等那些「明星模型」的秘密武器。这些模型可以生成令人信服的歌词，创作莎士比亚十四行诗，或者做一些人工客服的工作。

Transformer的核心机制就是自注意力，其中每个输入（例如一个单词、一个像素、一个序列中的数字）总是与其他的所有输入相连，而其他常见的神经网络只是将输入与某些输入相连接。

虽然Transformer是专门为自然语言任务而设计的，但后来的研究也证明了Transformer在其他任务中也同样表现出色，比如对图像进行分类，以及现在对大脑进行建模。

2020年，由奥地利约翰开普勒林茨大学的计算机科学家Sepp Hochreiter（LSTM论文一作）领导的一个小组，使用一个Transformer来重新调整一个强大的、长期存在的记忆检索模型Hopfield网络。

这些网络在40年前由普林斯顿物理学家John Hopfield首次提出，遵循一个一般规则：在同一时间活跃的神经元相互之间建立了强有力的联系。

Hochreiter和他的合作者注意到，研究人员一直在寻找更好的记忆检索模型，他们看到了一类新的Hopfield网络如何检索记忆和Transformer如何执行注意力之间的联系。

这些新的Hopfield网络由Hopfield和麻省理工学院-IBM沃森人工智能实验室的Dmitry Krotov开发，与标准的Hopfield网络相比，具有更有效的连接，可以存储和检索更多记忆。

论文链接：

https://papers.nips.cc/paper/2016/hash/eaae339c4d89fc102edd9dbdb6a28915-Abstract.html

Hochreiter的团队通过添加一个类似Transformer中的注意力机制的规则来升级这些网络。

2022年，这篇新论文的进一步调整了Hochreiter的方法，修改了Transformer，使其不再将记忆视为线性序列，而是像句子中的一串单词，将其编码为高维空间中的坐标。

研究人员称这种「扭曲」进一步提高了该模型在神经科学任务中的表现。实验结果还表明，该模型在数学上等同于神经科学家在fMRI扫描中看到的网格细胞发射模式的模型。

伦敦大学学院的神经科学家Caswell Barry表示，网格细胞具有这种令人兴奋的、美丽的、有规律的结构，并且具有引人注目的模式，不太可能随机出现。

这项新工作显示了Transformer如何准确地复制了在海马体中观察到的那些模式。

他们也认识到，Transformer模型可以根据以前的状态和它的移动方式弄清楚它在哪里，而且是以一种关键的方式进入传统的网格细胞模型。

近期的一些其他工作也表明，Transformer可以促进我们对其他大脑功能的理解。

去年，麻省理工学院的计算神经科学家Martin Schrimpf分析了43种不同的神经网络模型，以了解它们对由fMRI和皮质电图报告的人类神经活动测量结果的预测程度。

他发现Transformer是目前领先的、最先进的神经网络，几乎可以预测成像中发现的所有变化。

而David Ha与同为计算机科学家的Yujin Tang最近也设计了一个模型，可以故意给Transformer以随机、无序的方式输入大量数据，模仿人体如何向大脑传输感官观察。结果发现Transformer可以像我们的大脑一样，可以成功地处理无序的信息流。

论文链接：https://arxiv.org/abs/2111.14377

Yujin Tang表示，神经网络是硬接线，只能接收特定的输入。但在现实生活中，数据集经常快速变化，而大多数人工智能没有任何办法调整。未来我们想尝试一种能够快速适应的架构。

参考资料：

https://www.quantamagazine.org/how-ai-transformers-mimic-parts-of-the-brain-20220912/

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）大脑研究计划，构建互联网（城市）大脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/481566.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

CRF总结

CRF总结

文章目录计算下Z（矩阵）1.1 一般参数形式1.2 简化形式Z1.3 矩阵形式1.3.2 Z2.维特比算法3.前向算法4.后向算法5.使用前向后向的概率计算6.期望计算7.参数估计（学习）7.1 梯度上升参考文献CRF 是无向图模型code 它是一个判别式模型建…

阅读更多...

CAAI名誉理事长李德毅院士谈机器的生命观

CAAI名誉理事长李德毅院士谈机器的生命观

来源：图灵人工智能2022年9月28日上午，为促进人工智能产、学、研、经、用的发展，助力余杭区人民政府建设杭州市人工智能创新发展区，由中国人工智能学会主办的会士系列讲坛—第一期通过线上的形式在余杭区未来科技城成功举办。本次活…

阅读更多...

论文学习16-Going out on a limb: without Dependency Trees(联合实体关系抽取2017）

论文学习16-Going out on a limb: without Dependency Trees(联合实体关系抽取2017）

文章目录abstract1. Introduction2. 相关工作3. Model3.1 Multi-layer Bi-directional Recurrent Network3.2实体检测3.3 attention model3.4 关系检测3.5双向编码4.训练5.实验5.2 evaluation metrics5.3 基线和以前的模型5.4 超参数6.结果Katiyar, A. and C. Cardie (2017). G…

阅读更多...

困局中的英伟达：进一步是鲜花，退一步是悬崖

困局中的英伟达：进一步是鲜花，退一步是悬崖

来源： AI前线整理：王强、冬梅看看最近几个月的股价，英伟达的投资者肯定不怎么开心：但如果把时间拉长到 5 年，我们看到的故事似乎又不一样了：2020 年底显然是是一个转折点。很多游戏玩家还清楚地记得&#x…

阅读更多...

论文学习17-Global Normalization of Convolutional Neural Networks(联合实体关系抽取CNN+CRF)2017

论文学习17-Global Normalization of Convolutional Neural Networks(联合实体关系抽取CNN+CRF)2017

文章目录abstract1.Introduction2.相关工作3.Model全局归一化层（使用线性链CRF)4.实验和分析4.3实验结果总结Adel, H. and H. Schtze “Global Normalization of Convolutional Neural Networks for Joint Entity and Relation Classification.”abstract CNNCRF&g…

阅读更多...

特斯拉AI日点不燃仿人机器人的市场热情

特斯拉AI日点不燃仿人机器人的市场热情

来源：科技智谷编辑：Light"仿人机器人的巨大市场蓝海能否兑现，核心还要看产品量产和成本控制。近期，沉寂已久的仿人机器人市场终于迎来了它的“春晚”——特斯拉AI日。根据外媒报道，在9月30日（北京时间…

阅读更多...

LSTM(序列标注，自实现）

LSTM(序列标注，自实现）

文章目录1.LSTM1.1 单独计算单层LSTM-cell单层LSTMBPTT2.序列标注使用pytorch实现序列标注自实现lstmimport torchimport torch.nn as nndef prepare_sequence(seq, to_ix):idxs [to_ix[w] for w in seq]return torch.tensor(idxs, dtypetorch.long)training_data [("Th…

阅读更多...

Science最新：Jeff Gore团队揭示复杂生态系统中涌现的相变

Science最新：Jeff Gore团队揭示复杂生态系统中涌现的相变

来源：集智俱乐部作者：胡脊梁编辑：邓一雪导语生态学致力于理解自然生态系统中的多样化的物种和复杂的动力学行为，然而科学家长期缺乏描述和预测生物多样性和生态动力学的统一框架。MIT物理系的胡脊梁和Jeff Gore等科学家结合理论和…

阅读更多...

强化学习发现矩阵乘法算法，DeepMind再登Nature封面推出AlphaTensor

强化学习发现矩阵乘法算法，DeepMind再登Nature封面推出AlphaTensor

来源：机器之心微信公众号DeepMind 的 Alpha 系列 AI 智能体家族又多了一个成员——AlphaTensor，这次是用来发现算法。数千年来，算法一直在帮助数学家们进行基本运算。早在很久之前，古埃及人就发明了一种不需要乘法表就能将两个数…

阅读更多...

论文学习18-Relation extraction and the influence of automatic named-entity recognition（联合实体关系抽取模型,2007）

论文学习18-Relation extraction and the influence of automatic named-entity recognition（联合实体关系抽取模型,2007）

文章目录abstract1.introduction3.问题形式化4.系统架构5. 命名实体识别6.关系抽取（核方法）6.1global context kernel6.2 local context kernel6.3 shallow linguistic kernel7实验Giuliano, C., et al. “Relation extraction and the influence of aut…

阅读更多...

Nature：进化新方式？线粒体DNA会插入我们的基因组

Nature：进化新方式？线粒体DNA会插入我们的基因组

来源：生物通科学家们惊讶地发现，每4000个新生儿中就有一个会将线粒体中的一些遗传密码插入到我们的DNA中，这为人类的进化方式提供了新见解。剑桥大学和伦敦玛丽女王大学的研究人员表明，线粒体DNA也会出现在一些癌症DNA中&#xff…

阅读更多...

论文学习19-Structured prediction models for RNN based sequence labeling in clinical text(LSTM_CRF,2016)

论文学习19-Structured prediction models for RNN based sequence labeling in clinical text(LSTM_CRF,2016)

文章目录abstract1. Introduction2.相关工作3.方法3.1 Bi-LSTM (baseline)3.2BiLSTMCRF3.3 BiLSTM_CRF with pairwise modeling3.4 Approximate Skip-chain CRF5.实验Jagannatha, A. and H. Yu “Structured prediction models for RNN based sequence labeling in clinical te…

阅读更多...

「深度学习表情动作单元识别」最新2022研究综述

「深度学习表情动作单元识别」最新2022研究综述

来源：专知基于深度学习的表情动作单元识别是计算机视觉与情感计算领域的热点课题.每个动作单元描述了一种人脸局部表情动作，其组合可定量地表示任意表情.当前动作单元识别主要面临标签稀缺、特征难捕捉和标签不均衡3个挑战因素. 基于此，本文将…

阅读更多...

CS224n学习笔记1-nlp介绍和词向量

CS224n学习笔记1-nlp介绍和词向量

文章目录参考one-hot：维度太大，单词太多使用相似度：–》相似度也很多。分布式语义：含义与上下文有关 –>由相似的上下文得到一个小的密集的向量–>word embedding相似含义的向量会聚集。可以降维到可视化。word2vec 参考 …

阅读更多...

为什么物理诺奖颁给量子信息科学？——量子信息的过去、现在和未来

为什么物理诺奖颁给量子信息科学？——量子信息的过去、现在和未来

导语10月4日，2022年诺贝尔物理学奖授予 Alain Aspect, John F. Clauser 和 Anton Zeilinger，表彰他们“用纠缠光子实验，验证了量子力学违反贝尔不等式，开创了量子信息科学”。他们的研究为基于量子信息的新技术奠定了基础&#xf…

阅读更多...

论文学习20-End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF（序列标注，2016ACL

论文学习20-End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF（序列标注，2016ACL

文章目录abstract1.introduction2.Architecture2.1 CNN for Character-level Representation2.2 BiLSTM2.2.1 LSTM单元2.2.2BiLSTM2.3CRF2.4BiLSTM-CNNs-CRF3.训练Ma, X. and E. Hovy “End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF.”abstract 最先进的序列…

阅读更多...

可溶解光开关利用光控制神经元

可溶解光开关利用光控制神经元

ISTOCK来源：IEEE电气电子工程师大约20年前，出现了一种称为光遗传学的策略，用激光控制大脑活动。它利用病毒将基因插入细胞，使其对光敏感。光遗传学给研究人员提供了一种精确的方法来刺激或抑制大脑回路，并阐明它们在大…

阅读更多...

lstm_crf

lstm_crf

文章目录1.这里和LSTM一样2.维特比3.neg-log-loss3.1求logZ（前向算法）2.Σt1T(λTf(yt−1,yt,x)ηTg(yt,x))\Sigma_{t1}^T(\lambda^Tf(y_{t-1},y_t,x)\eta^Tg(y_t,x))Σt1T(λTf(yt−1,yt,x)ηTg(yt,x))4.整体问题：倾向于全标注Ocode…

阅读更多...

生成式AI无敌了: 大神微调Stable Diffusion，打造神奇宝贝新世界

生成式AI无敌了: 大神微调Stable Diffusion，打造神奇宝贝新世界

来源：大数据文摘授权转载自AI科技评论作者：李梅、施方圆编辑：陈彩娴作为一个强大、公开且足够简单的模型，最近大火的 Stable Diffusion 在文本生成图像之外，给了大家无限的创作可能性。最近，来自 Lambda La…

阅读更多...

论文学习21-Globally Normalized Transition-Based Neural Networks（2016，标签偏差问题

论文学习21-Globally Normalized Transition-Based Neural Networks（2016，标签偏差问题

文章目录abstract1.introduction2.Model2.1 Transition System2.2 全局和局部归一化3.训练3.2标签偏差问题abstract 介绍了一种基于全局规范化转换的神经网络模型，该模型实现了最先进的词性标注、依存分析和句子压缩结果。我们的模型是一个简单的前馈神经网络&#…

阅读更多...

最新文章