当AI遇见大脑:电脑与人脑协同“进化”

编者按:2023年是微软亚洲研究院建院25周年。借此机会,我们特别策划了“智启未来”系列文章,邀请到微软亚洲研究院不同研究领域的领军人物,以署名文章的形式分享他们对人工智能、计算机及其交叉学科领域的观点洞察及前沿展望。希望此举能为关注相关研究的同仁提供有价值的启发,激发新的智慧与灵感,推动行业发展。


dongsheng-ai-neuroscience-1

“人脑是世界上最复杂的物体之一,虽然我们对于大脑的研究已经持续了上千年,但人脑仍然有许多未解之谜。我们希望通过跨领域研究,用人工智能技术来帮助神经科学家更好地理解大脑。这种理解不仅有助于探索脑部疾病的机理,促进脑健康,而且通过从大脑汲取的灵感,有望启发我们设计出更聪明的人工智能。”

——李东胜,微软亚洲研究院首席研究员

比尔·盖茨曾坦言,他最害怕的事情之一就是他的大脑停止工作,这也说出了很多人的心声。大脑是人类生命的核心,智慧之源,我们的肢体运动、思想、情感、记忆、创造力等都依赖于大脑的神奇活动。

然而,人类脑健康的现状并不乐观。根据《柳叶刀》杂志2016年发布的全球疾病负担研究(Global Burden of Disease Study,GBD)显示,1997年至2016年,每年有900万人死于脑部疾病。医学界也有一句常言:只要活得够久,大脑总会出现问题。特别是随着人口老龄化的加剧,脑部疾病的发病率也在持续上升。毋庸置疑,理解人脑和改善人脑健康变得日益重要。

那由人类智慧孕育的人工智能是否能为人脑健康做些什么?答案是肯定的。例如,由于新生儿大脑发育不成熟,脑电波数据存在个体差异和大量噪声,导致基于脑电波的新生儿癫痫检测成为医学界的世界级难题。针对这个问题,我们与上海交通大学合作,运用人工智能技术显著提高了检测的准确性,与目前最先进的方法相比,AUPRC(精确率-召回率曲线下的面积)提升超过30%,证明了人工智能与脑科学跨领域研究的必要性和可行性。

在此前一系列成功实践的基础上,我和同事们开始拓展并深化人工智能与脑科学的跨学科交叉研究,借助人工智能技术来帮助科学家和医学专家更好地理解大脑,提升脑健康水平,以及更有效地保护大脑,同时,从理解大脑的结构和活动中获得灵感,启发我们设计更好的人工智能。

人工智能加速理解人脑,提升人脑健康

人脑是世界上最复杂、最神秘的结构之一。人类对人脑的研究可以追溯到四千多年前,古埃及时期人们就已经开始解剖人脑、了解人脑构造了。但直到今天,人脑仍然有许多未解之谜。最近几百年,人类开始从现代科学的角度理解人脑,并探索出了一些关键的研究方向和有效的工具,如脑电信号、基因、血液循环等。因此,我们也将人工智能与这三方面的研究结合起来,帮助人类理解大脑,进而对大脑采取更有效的保护措施。

帮助医生更好地理解脑电信号

人类脑电波(EEG)于1924年首次被记录,之后人们逐渐认识到大脑信号的变化与大脑活动密切相关,通过分析脑电信号变化,可以诊断出相关的脑部病症。然而,脑电图的解读非常困难,因为脑电信号经过大脑组织、头皮、头骨等层层反射,信号之间相互干扰,会产生很大的信号噪声。即使专业医疗技师也需要多年学习才能掌握,对几分钟的脑电图进行解读就需要至少一小时的时间,耗时耗力。而且专业医疗技师非常稀缺。

现有的利用人工智能来解读脑电图的方法,通常是针对单一问题的,即一个模型只能解决一个问题。然而,医生在判断病变的产生原因时需要对脑电信号进行综合分析,因此这种“一对一”的专属模型在实际应用中存在很大的局限性。

图1:大脑信号波动与相关的大脑活动示例

图1:大脑信号波动与相关的大脑活动示例

近年来,大语言模型正展现出越来越强大的生成和推理能力,但在医学领域中直接应用大模型还存在一些壁垒。大语言模型的输入长度有所限制,作为高频数据的脑电信号,即使是10分钟的采样数据也远远超过了大语言模型能够处理的序列长度。为了解决这一问题,我和同事们训练了首个跨数据集的脑电基础模型,可以对任何脑电数据进行分析,实现了“一对多”的脑电理解。

基于这个基础模型,我们还开发了 AI Neurologist 系统,可辅助临床和科研场景下的脑电信号分析工作。AI Neurologist 系统不仅提升了医护人员和神经科学家的工作效率,同时还将医生的判断准确率由原来的75%提高至90%。目前,我们已经在 GitHub 上开源了脑电信号基础模型,也期望有更多关注医疗领域的研究人员,与我们一同探索运用人工智能保护大脑健康的更多可能性。

图2:AI Neurologist 系统

图2:AI Neurologist 系统

推动超声定位显微镜技术走向临床

大脑活动与血液循环之间存在紧密的耦合性,尤其是在脑部活动增加时,大脑对能量的需求也更大,这时就需要血液输送更多的氧气和营养。由于存在这种“神经-血管耦合”效应,精准地了解脑部的血液循环有助于我们更好地理解脑部神经活动。

传统的血液循环检测主要依赖于 CT、MRI(磁共振成像)等技术,但这些技术价格昂贵且分辨率较低,只能观测到尺度在数百微米级的毛细血管。现在还有一种前沿的超声定位显微镜技术可以把分辨率从毫米级提升至十微米级,但它对帧率的要求非常高,每秒需要采集1000个图像并形成视频。而在实际临床应用中,视频帧率通常只有100帧或者更低。此外,超声定位显微镜技术对抖动异常敏感,心脏跳动或呼吸等微小的运动都会对检测结果产生影响,这也使得超声定位显微镜技术难以走向临床应用。

事实上,在血液循环检测方面人工智能模型也很难有的放矢,因为传统的机器学习训练和推理是基于预测值与正确值之间的不断匹配和试错。也就是说,我们需要知道正确答案,才能不断训练模型,使输出结果逐渐趋近于正确答案。然而,人脑血液流向的复杂性使其无法被预知,它因人而异、因时而异,导致机器学习难以确定学习目标。

针对这些问题,我们将人工智能与超声定位显微镜技术相结合,设计了一系列创新的方法。目前,这一解决方案已经能够在真实医疗场景中实现对毛细血管的精确追踪,有望推动超声定位显微镜技术从实验室走向临床应用,帮助医生更好地理解大脑血液循环。而且,相较于CT检测,超声检测的成本更低,除了能以更高的精度检测脑部血液循环情况外,由于对人体没有伤害,它还能被用于如孕妇等需要避免检测辐射的群体。

仅需一块 GPU 即可训练基因表达预测模型

在更深层次上,人脑的演化和各种脑部疾病的发生很大程度是受到基因的调控。基因是理解脑部异常相关机理的基础因素。然而,由于基因序列非常庞大,达到了数十亿的数量级,所以,目前最有效的基因表达预测模型之一 Enformer 对计算资源要求极高,需要64块专用 TPU 才能支持其训练和运行。这对一般的生物或医学实验室来说显然是无法承担的,也难以将其从实验室推广至真实应用场景。

对此,我们提出了一种全新的基因表达预测模型,其训练过程仅需要一块 GPU 即可完成。更重要的是,这个模型的准确性和预测范围都显著优于 Enformer,为理解复杂脑部疾病机理提供了重要的启发。利用这个预训练模型,我们可以分析与脑部疾病相关的异常基因表达,例如将帕金森病人与健康人的基因表达进行对比,从而找出异常基因或突变基因,帮助医生明确下一步研究方向。

从脑启发到创造新的人工智能

人工智能的终极目标是实现类脑智能,即让机器模仿人类大脑进行信息处理,实现更高的认知行为和智能水平。历史上,多层感知机(MLP)的概念就是受到了大脑神经元学说的启发,而很多深度学习技术也都是受脑启发而设计的,例如强化学习源自大脑多巴胺的奖励机制(Reward and dopamine),卷积神经网络的设计灵感来自于大脑视觉皮层结构(Visual cortex structure),注意力机制则借鉴了大脑认知注意力的研究。

图3:脑启发的人工智能

图3:脑启发的人工智能

人工智能的设计和优化目标虽然与大脑并不完全相同,也无需完全复制大脑的功能,但大脑有很多值得借鉴的机制可以用来提升人工智能技术。这种融合脑科学和人工智能的研究路径为未来人工智能的发展提供了有益的方向。我认为,其中有四个方面显示出了较大的潜力,包括人脑的节能性、表达能力、泛化能力,以及擅于利用工具的特性。

人工智能应该如人脑一样向节能方向演化

尽管当前人工智能大模型的能力已经超出了人们的预期,但是训练和运行的功耗却非常高,而且随着模型规模扩大,能耗也呈正比增长。如果这种趋势不断持续下去,多年后我们将无法为大模型运行提供足够的电力。与此不同,人脑是朝着更节能的方向进化的。据估计,人脑的功耗仅为10-20瓦,而具有相同算力的超级计算机的功耗却是21兆瓦,比人脑高出一百万倍。

因此,模拟大脑的计算和通信方式,被认为是解决当前人工智能行业能耗问题的一条可行途径。我和团队已经在一些时序分析的任务上进行了初步的探索,通过模仿大脑中稀疏的编码和计算方式,我们可以在不损失模型精度的同时把特征处理的能耗降低到原来的五分之一,这一方向的研究创新将有助于推动人工智能技术向更可持续的发展方向迈进。

统一大脑神经元信号传输机制,提升人工智能表达力

神经科学研究发现,人脑神经元通过各种连接模式相互作用来处理信息,其中有四种类型最为常见,包括前馈激励和抑制、反馈抑制、侧抑制和相互抑制。很多现有的人工智能神经网络仅包含其中的一两种类型,例如多层感知器只包含前馈激励,并不能把其他模式都集成到一种神经网络中。

在这一研究方向上,我们提出了一种创新的回路神经网络 CircuitNet,可以统一实现大脑中的前向、后向、抑制、促进等各种信号传输机制。通过在函数逼近、时序分析、图像识别、强化学习这四种任务上与多层感知器、CNN、RNN、Transformer 神经网络的对比,CircuitNet 能够以更少的参数实现更好的效果。CircuitNet 回路神经网络更趋同于脑部神经元处理信息的模式,为机器学习提供了一种新的基础架构。

图4:大脑神经元的不同连接模式

图4:大脑神经元的不同连接模式

模拟人类执行行为,提升人工智能泛化能力

人类在学习某项知识时,并不需要阅读世界上所有的相关书籍,而是具有一彻万融的能力。但如今最先进的大模型为了实现当前的高推理水平,在训练时已经学习了世界上几乎所有公开的数据。这种“举一隅不以三隅反”的学习方式不利于培养模型的泛化能力,也阻碍了模型向具身人工智能(Embodied AI)方向的发展。

通过模拟人类执行行为的特点,我们首次将习惯行为(habitual behavior)和目标导向行为(goal-directed behavior)统一建模,从而让智能体可以在不需要训练的情况下就实现两类行为的灵活切换。这种方法将会让人工智能具有更高的灵活性和更强的泛化能力,为实现具身人工智能提供了新的方向。

大语言模型还需具备使用其他模型和工具的能力

此外,人脑在执行任务时不仅涉及思考,还包括身体的控制以及利用工具。我们希望大语言模型也可以像大脑一样能够使用工具,即通过大语言模型来调度现有的人工智能模型,完成更复杂的任务。在这一方向上我们也进行了初步的尝试,提出了首个利用大语言模型连接开源社区中各种人工智能模型解决复杂任务的框架 JARVIS。

除了上述研究方向,还有一条技术路线是通过神经拟态芯片来模拟人脑的神经元结构。在现在的计算机架构——冯·诺依曼结构中,计算与存储是分离的,而这与人脑计算和存储一体化的架构有明显差异。神经拟态芯片则可以通过采用与生物更类似的处理方式,实现一种更接近人脑工作方式的计算,所以也被一些人看作是实现通用人工智能的可行路径。

人工智能与脑科学研究需要跨领域、系统性的研究能力

人工智能已经展现出重塑众多行业的潜力,但每个行业都面临独特的挑战,解决这些挑战的关键在于跨学科的合作研究。脑科学是一个典型的跨学科研究领域,涉及到生理学、解剖学、生物学、物理学、化学、计算机及数学等多个学科。因此,在人工智能与脑科学的研究中,跨领域和系统性的研发能力是实现创新突破的必要条件。

为了探索人工智能与脑科学这一跨领域研究的更多可能性,微软亚洲研究院与上海交通大学所成立的联合实验室于2021年开始了相关研究,并与该领域的医生展开了三方合作。在此过程中,我们摸索出了一套跨领域的合作模式——“自学-组团学习-专家交流”,来推动跨领域研究的创新。以新生儿癫痫检测合作为例,我的同事们首先自学了医学专业书籍,深入了解脑电图的相关知识;然后与具有神经科学和人工智能交叉学科背景的同事一起参加在线公开课,共同研讨学习,初步了解大脑的运行机制;在此基础之上,我们再与医疗领域的专家学者和医生深入沟通,将脑部研究的问题转化为人工智能问题。这一方法不仅可以更准确地找到脑科学研究中的痛点,有针对性地提出解决方案,也有助于计算机科研人员提出改进人工智能的新思路。

人工智能与脑科学之间的交叉研究有着悠久的历史,这一结合不仅推动了科技的创新,也深化了人类自身对大脑奥秘的理解。未来,我和同事们将进一步加强跨学科融合,推动脑科学研究与医学的进步,同时也为人工智能技术的发展开辟新的道路。我们也期待有更多的伙伴与我们一起合作,确保这些技术的进步可以惠及全人类。

本文作者

李东胜博士,微软亚洲研究院(上海)首席研究员,主要研究方向为机器学习和脑科学-AI交互计算。近年来,李东胜在相关领域的知名期刊和会议发表论文100余篇,出版专著1部,申请国际专利10余项。

李东胜2007年本科毕业于中国科学技术大学,2012年博士毕业于复旦大学。2019年,他被复旦大学计算机学院聘为客座教授、行业博士导师。目前他还担任中国计算机学会协同计算专业委员会执委和上海计算机学会计算机视觉专业委员会副主任。

相关链接

CircuitNet:A Generic Neural Network to Realize Universal Circuit Motif Modeling

https://proceedings.mlr.press/v202/wang23k/wang23k.pdf

脑电预训练模型论文:Learning Topology-Agnostic EEG Representations with Geometry-Aware Modeling

https://openreview.net/attachment?id=hiOUySN0ub&name=pdf

新生儿癫痫检测论文:Protecting the Future: Neonatal Seizure Detection with Spatial-Temporal Modeling

https://arxiv.org/abs/2307.05382

解码大脑信号重建视觉感知图像论文:Seeing through the Brain: Image Reconstruction of Visual Perception from Human Brain Signals

https://arxiv.org/abs/2308.02510

模拟人类行为论文:Habits and goals in synergy: a variational Bayesian framework for behavior

https://arxiv.org/abs/2304.05008

JAVIS项目链接:

https://github.com/microsoft/JARVIS

PhysioPro项目链接:

https://github.com/microsoft/PhysioPro

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/596351.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

FFmpeg之——获取上传视频的尺寸(长、宽)

获取上传视频的尺寸: 获取视频尺寸通常需要借助第三方库FFmpeg。 首先,确保你的系统中已安装了FFmpeg,并且FFmpeg的可执行文件路径已经添加到你的系统环境变量中。 1.官网下载ffmpeg 进入 链接: ffmpeg官网 网址,点击下载wind…

架构设计系列9,10

架构设计系列9:前端架构和后端架构的区别 前端架构和后端架构都是软件系统中最关键的架构层,负责处理不同方面的任务和逻辑,两者之间是存在一些区别和联系的,我会从以下几个方面来阐述: 定位和职责 ● 前端架构主要…

一文解释Linux的内存分页管理

内存是计算机的主存储器。内存为进程开辟出进程空间,让进程在其中保存数据。我将从内存的物理特性出发,深入到内存管理的细节,特别是了解虚拟内存和内存分页的概念。 内存 简单地说,内存就是一个数据货架。内存有一个最小的存储…

书客、孩视宝、明基护眼台灯好不好用?护眼灯测评对比!

现在一些家长对自家孩子的健康也是特别的重视,从小时开始的儿童枕;再到保护眼睛的护眼台灯、OK眼镜;再到青少年时期的生长激素...可以说是穷出不尽,但是关于孩子使用的东西又不能马虎,每次要帮孩子选东西的时候可是一阵…

四川思维跳动商务信息咨询有限公司电商服务怎么样

随着电商行业的迅猛发展,越来越多的企业开始寻求专业的电商服务以提升自身竞争力。四川思维跳动商务信息咨询有限公司作为一家专注于电商服务的公司,凭借其卓越的服务品质和创新能力,已经在业内树立了良好的口碑。本文将为您详细解析四川思维…

办公宝典:兼具多功能的4大办公软件app推荐!

现在,随着全球化和互联网的发展,团队协作成为企业成功的关键所在。在这个环境中,协同办公软件成为无法离开的工具。 在市面上,有很多种协同办公软件可供选择。这里介绍4款与协同办公密切相关的软件,它们提供了许多功能…

C#基础:字段的初始化、继承

一、字段的初始化 class Test {static int Main(string[] args){var list new List<Calculate>();//1.Calculate中加入abvar calculate new Calculate { a 2, b 3 };//2.Calculate中加入Value列表calculate.Values.Add(new Value { id 1, value 6 });calculate.Va…

【操作系统】输入输出系统

6.1 I/O系统的功能、模型和接口 I/O系统管理的主要对象是I/O设备和相应的设备控制器。其最主要的任务是&#xff0c;完成用户提出的I/O请求&#xff0c;提高I/O速率&#xff0c;以及提高设备的利用率&#xff0c;并能为更高层的进程方便地使用这些设备提供手段。 6.1.1 I/O系…

Ubuntu 22.04/20.04 安装 SSH

OpenSSH 是安全远程通信的重要工具&#xff0c;提供了一种安全的方式来访问和管理服务器。对于那些计划在 Ubuntu 22.04 Jammy Jellyfish 或其较旧的稳定版本的 Ubuntu 20.04 Focal Fossa 上安装 SSH 并启用它的人来说&#xff0c;了解其功能和优势至关重要。 OpenSSH的主要特…

技术学习|CDA level I 描述性统计分析(数据的描述性统计分析)

技术学习|CDA level I 描述性统计分析&#xff08;数据的描述性统计分析&#xff09; 数据的描述性统计分析常从数据的集中趋势、离散程度和分布形态3个方面进行。 一、集中趋势 集中趋势是指数据向其中心值靠拢的趋势。测量数据的集中趋势&#xff0c;主要是寻找其中心值。…

修改选择框el-select样式,显示及下拉样式

修改选择框el-select样式,显示及下拉样式 .el-input__inner {background: rgba(25, 126, 195, 0.2);border: none;color: #fff; }.el-select-dropdown {background: rgba(19, 73, 104, 0.79);border: 2px solid #48e3ff;border-radius: 0; }.el-popper .popper__arrow {display…

VUE局部组件

实现局部组件的注册功能&#xff0c;样例如下 代码如下 <html><head><meta charset"utf-8"><title></title></head><body><div id"app"><hello-word></hello-word><hello-tom></he…

多个微信的朋友圈如何高效管理?

大家都知道&#xff0c;在当今社交媒体盛行的时代&#xff0c;微信朋友圈已成为了我们交流和分享生活的重要平台。但是&#xff0c;对于那些同时管理多个微信号的人来说&#xff0c;如何高效省时地管理这些账号的朋友圈就成了一项挑战。 今天我将分享一个神奇的微信管理工具&a…

内存的基础知识-第四十天

目录 什么是内存&#xff1f;内存的作用 常用的数量单位 指令的工作原理 思考 三种装入方式 绝对装入 可重定位装入&#xff08;静态重定位&#xff09; 动态运行时装入&#xff08;动态重定位&#xff09; 写程序到程序运行 编译和链接 链接的三种方式 本节思维导…

达梦数据:数字化时代,国产数据库第一股终于到来?

又是新的一年开始。回首一年前的此时&#xff0c;在大家千呼万唤地期待中&#xff0c;数据基础制度体系的纲领性文件正式发布。 时隔一年之后&#xff0c;数据资源入表如约而至。2024年1月1日《企业数据资源相关会计处理暂行规定》正式施行&#xff0c;各行各业海量数据巨大的…

Fiddler工具 — 6.Fiddler页面布局之工具栏

Fiddler工具栏就是平时比较常用功能的一个快捷方式。 下面一一说明&#xff1a; 1、第一组工具&#xff1a; WinConfig&#xff1a;可以在里面配置一些windows系统的应用程序&#xff0c;配置在里面的应用的请求Fiddler都可以抓到&#xff0c;Fiddler5新增功能。 换句话说&…

caj转换成pdf有哪些方法?

caj转换成pdf有哪些方法&#xff1f;PDF是一个被广泛支持的文件格式&#xff0c;这种格式基本上在所有的操作系统和设备上都是支持使用的&#xff0c;也能够将PDF文件打开和查看的&#xff0c;相比于caj文件&#xff0c;它就只能通过一下特定的软件或者是插件才能够将caj打开或…

潮玩宇宙大逃杀游戏搭建

潮玩宇宙是当下较火的社交互动平台&#xff0c;它不仅涵盖了各种潮玩商品&#xff0c;还拥有各种游戏玩法&#xff0c;尤其是大逃杀游戏非常火爆&#xff01;本文将介绍大逃杀游戏的开发和发展前景。 大逃杀游戏 大逃杀游戏是当下的一种新型游戏模式&#xff0c;旨在为玩家提供…

odoo17 | 计算字段和更改事件

前言 模型之间的关系是任何Odoo模块的关键组成部分。它们是任何业务案例建模所必需的。然而&#xff0c;我们可能希望给定模型中的字段之间存在链接。有时一个字段的值是由其他字段的值决定的&#xff0c;而有时我们希望帮助用户进行数据输入。 这些案例得到了计算字段和onch…

JavaScript 基础四 函数使用、传参、返回值、作用域、匿名函数

JavaScript 基础四 函数 1.1 函数1.2 函数使用函数名命名规范函数的调用 1.3 函数传参&#xff08;1&#xff09;声明语法&#xff08;2&#xff09;调用有参函数&#xff08;3&#xff09;形参和实参&#xff08;4&#xff09;参数默认值 1.4 函数返回值&#xff08;1&#xf…