来源:ScienceAI
编辑:白菜叶
一立方毫米听起来并不多。但在人脑中,这一体积的组织包含约 50,000 条由 1.34 亿个突触连接的神经「线路」。Jeff Lichtman 想追踪所有这些。
为了生成原始数据,他使用了一种称为串行薄层电子显微镜的协议,在 11 个月内对数千条组织进行了成像。但该数据集非常庞大,达到 1.4 PB(相当于大约 200 万张 CD-ROM),对于研究人员来说,他们自己无法处理。「人类根本不可能手动追踪所有的线路。」马萨诸塞州剑桥市哈佛大学的分子和细胞生物学家 Lichtman 说,「地球上没有足够的人来真正有效地完成这项工作。」
这是连接组学(研究大脑的结构和功能连接)以及其他生物科学中的常见问题,其中显微镜的进步正在创造大量的成像数据。但是,在人力资源失败的地方,计算机可以介入,尤其是经过优化以从大型数据集中梳理出模式的深度学习算法。
「在过去的几年里,我们确实经历了深度学习工具寒武纪大爆发般的爆炸式增长。」麻省剑桥市麻省理工学院和哈佛大学布罗德研究所的计算生物学家 Beth Cimini 说。
深度学习是一种人工智能(AI)技术,它依赖于受大脑中神经元互连方式启发的多层人工神经网络。由于它们基于黑盒神经网络,这些算法有其局限性。其中包括依赖大量数据集来教会网络如何识别感兴趣的特征,以及有时难以理解的生成结果的方式。但是,一系列快速增长的开源和基于 Web 的工具使入门变得比以往任何时候都更容易。
以下是深度学习对生物图像分析产生深远影响的五个领域。
大规模连接组学
深度学习使研究人员能够从果蝇、老鼠甚至人类中生成越来越复杂的连接组。这些数据可以帮助神经科学家了解大脑是如何工作的,以及它的结构在发育和疾病过程中是如何变化的。但是神经连接并不容易映射。
2018 年,Lichtman 与位于加利福尼亚州山景城的 Google Connectomics 负责人 Viren Jain 联手,后者正在为他的团队的 AI 算法寻找合适的挑战。
「连接组学中的图像分析任务非常困难。」Jain 说,「你必须能够远距离追踪这些细线、细胞的轴突和树突,而传统的图像处理方法犯了很多错误,以至于它们基本上对这项任务毫无用处。」这些线可以比一微米更细,并延伸到数百微米甚至毫米的组织。深度学习算法提供了一种自动分析连接组学数据的方法,同时仍能实现高精度。
在深度学习中,研究人员可以使用包含感兴趣特征的注释数据集来训练复杂的计算模型,以便他们可以快速识别其他数据中的相同特征。「当你进行深度学习时,你会说,『好吧,我只是举个例子,你把一切都弄清楚』。」德国海德堡欧洲分子生物学实验室的计算机科学家 Anna Kreshuk 说。
但即使使用深度学习,Lichtman 和 Jain 也有一项艰巨的任务是试图绘制他们的人类皮层片段。仅对 5,000 个左右极薄的组织切片进行成像就需要 326 天。两名研究人员花了大约 100 小时手动注释图像并跟踪神经元,以创建「基本事实」数据集来训练算法,这种方法称为监督机器学习。然后,经过训练的算法自动将图像拼接在一起并识别神经元和突触以生成最终的连接组。
Jain 的团队带来了大量的计算资源来解决这个问题,包括数千个张量处理单元(TPU),这是谷歌内部专门为神经网络机器学习构建的图形处理单元(GPU)。Jain 说,在几个月内处理大约 100 万 TPU 小时所需的数据,之后人类志愿者在协作过程中校对和纠正连接组,「有点像 Google Docs」,Lichtman 说。
他们说,最终结果是在任何物种中以这种详细程度重建的最大此类数据集。尽管如此,它只代表了人类大脑的 0.0001%。但随着算法和硬件的改进,研究人员应该能够绘制大脑的更大部分,同时具有发现更多细胞特征的分辨率,例如细胞器甚至蛋白质。「在某些方面。」Jain 说,「我们只是触及了可能从这些图像中提取的东西的表面。」
虚拟组织学
组织学是医学中的关键工具,用于基于化学或分子染色诊断疾病。但这很费力,而且这个过程可能需要几天甚至几周才能完成。活检被切成薄片并染色以显示细胞和亚细胞特征。然后病理学家阅读载玻片并解释结果。Aydogan Ozcan 认为他可以加快这一进程。
加利福尼亚大学洛杉矶分校的电气和计算机工程师 Ozcan 训练了一个定制的深度学习模型,通过向其展示同一切片的数万个未染色和染色版本的示例,以计算方式对组织切片进行染色,并让模型计算出它们的不同之处。
虚拟染色几乎是瞬间完成的,经过董事会认证的病理学家发现几乎不可能将生成的图像与常规染色的图像区分开来。Ozcan 还表明,该算法可以在几秒钟内复制乳腺癌生物标志物 HER2 的分子染色,这一过程在组织学实验室中通常需要至少 24 小时。由三名获得董事会认证的乳腺病理学家组成的小组将这些图像评为与传统免疫组织化学染色具有可比性的质量和准确性。
旨在将虚拟染色商业化的 Ozcan 希望在药物开发中看到应用。他表示,通过消除对有毒染料和昂贵染色设备的需求,该技术还可以增加全球组织学服务的可及性。
细胞发现
如果你想从蜂窝图像中提取数据,你必须知道细胞在图像中的实际位置。
研究人员通常通过在显微镜下观察细胞或在软件中逐个图像地勾勒出它们来执行这个称为细胞分割的过程。「最能描述人们一直在做的事情的词是『辛苦』。」帕萨迪纳加州理工学院的计算生物学家 Morgan Schwartz 说,他正在开发用于生物图像分析的深度学习工具。但随着成像数据集变得越来越大,这些艰苦的方法正在碰壁。「如果不使过程自动化,你就无法分析其中一些实验。」
Schwartz 的研究生顾问、生物工程师 David Van Valen 创建了一套 AI 模型,可在 deepcell.org 上获得,用于计数和分析活细胞和保存组织图像中的细胞和其他特征。
Van Valen 与包括加州斯坦福大学癌症生物学家 Noah Greenwald 在内的合作者开发了一种名为 Mesmer 的深度学习模型,可以快速准确地检测不同组织类型的细胞和细胞核。「如果你有需要处理的数据,现在你可以上传它们,下载结果并在门户网站或使用其他软件包中将它们可视化。」Van Valen 说。
根据 Greenwald 的说法,研究人员可以利用这些信息来区分癌组织和非癌组织,并寻找治疗前后的差异。「你可以查看基于成像的变化,以更好地了解为什么一些患者有反应或没有反应,或者识别肿瘤的亚型。」他说。
映射蛋白质定位
人类蛋白质图谱项目利用了深度学习的另一个应用:细胞内定位。「几十年来,我们一直在生成数百万张图像,概述人体细胞和组织中的蛋白质表达。」斯坦福大学生物工程师兼该项目的联合经理 Emma Lundberg 说。起初,该项目手动注释了这些图像。但由于这种方法不能长期持续,Lundberg 转向了人工智能。
Lundberg 首先将深度学习与公民科学相结合,让志愿者在玩大型多人游戏 EVE Online 的同时对数百万张图像进行注释。
在过去的几年里,她转向了一个众包的仅限人工智能的解决方案,发起了 Kaggle 挑战——科学家和人工智能爱好者竞争完成各种计算任务——37,000 美元和 25,000 美元,用于设计有监督的机器学习模型来注释蛋白质图谱图像。
「之后的 Kaggle 挑战让游戏玩家大吃一惊。」Lundberg 说。获奖模型比 Lundberg 之前在蛋白质定位模式的多标签分类方面所做的努力高出约 20%,并且可以在细胞系中推广。
她补充说,他们管理了一些以前没有发表过的模型做过的事情,那就是准确分类存在于多个细胞位置的蛋白质。
「我们已经证明,一半的人类蛋白质定位于多个细胞区室。」Lundberg 说。位置很重要,因为相同的蛋白质在不同的地方可能表现不同。「了解一种蛋白质是在细胞核中还是在线粒体中,有助于了解有关其功能的许多信息。」
追踪动物行为
Mackenzie Mathis 是日内瓦洛桑瑞士联邦理工学院校园生物技术中心的神经科学家,长期以来一直对大脑如何驱动行为感兴趣。她开发了一个名为 DeepLabCut 的程序,使神经科学家能够从视频中跟踪动物的姿势和精细动作,将「猫视频」和其他动物的记录转化为数据。
DeepLabCut 提供了一个图形用户界面,因此科学家可以通过单击按钮上传和标记他们的视频并训练深度学习模型。4 月,Mathis 的团队扩展了该软件以同时估计多种动物的姿势,这通常对人类和 AI 来说都是具有挑战性的。
研究人员将多动物 DeepLabCut 应用到狨猴身上,发现当这些动物靠近时,它们的身体是对齐的,而且它们倾向于朝相似的方向看,而当它们分开时,它们往往会面对面。「这是一个很好的例子,姿势实际上很重要。」Mathis 说,「如果你想了解两只动物是如何相互作用、如何相互观察或观察世界的。」
相关报道:https://www.nature.com/articles/d41586-022-02964-6
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”