Nat. Rev. Genet. | 通过可解释人工智能从深度学习中获得遗传学见解

编译 | 沈祥振

审稿 | 夏忻焱

今天为大家介绍的是来自Maxwell W. Libbrecht,Wyeth W. Wasserman和Sara Mostafavi的一篇关于人工智能对于基因组学的可解释性的研究的综述。基于深度学习的人工智能(AI)模型现在代表了基因组学研究中进行功能预测的最先进水平。然而,模型预测的基础往往是未知的。对于基因组学研究人员来说,这种缺失的解释性信息往往比预测本身更有价值,因为它可以使人们对遗传过程有新的认识。作者回顾了可解释人工智能(xAI)新兴领域的进展,以启发生命科学研究人员对复杂深度学习模型的洞察力。之后,作者分类讨论了模型解释的方法,包括直观地理解每种方法的工作原理及其在典型高通量生物数据集中的基本假设和局限性。

0b7d680029d5f73a65f04917bf12642a.png

在接下来的章节中,作者首先介绍了关于深度学习方法在调节基因组学中如何使用的基础知识,然后对四种解释方法进行了分类:基于模型的解释、影响的数学传播、特征之间相互作用的识别以及透明模型的先验知识的使用(图1)。在整个综述中,作者使用了调控基因组学领域的例子,其所提出的概念可以广泛推广。

258ccd3b2350befee32fe4a83c8d56a2.png

图1:可解释人工智能的概念方法

深度学习之于调控基因组学

神经网络和序列-活性模型

深度神经网络(DNN)模型已成为调控基因组学预测模型的主要类型。本综述重点介绍基于神经网络的序列-活性模型。这些模型以假定的调控DNA序列(通常为100–10000 bp)为输入,旨在预测序列活性的某些动态特性(即细胞或环境特异性)。目前对于如何为给定任务设计最佳神经网络结构没有共识,因此研究人员通常使用多种结构进行实验。

DNN模型为何解释困难?

作者总结了DNN模型的三大挑战。首先,DNN对潜在特征表示进行编码的高容量导致了最先进的预测精度,但它也面临着识别模型所学习的特征和特征组合的挑战。第二个挑战是从局部解释(一次估计给定输入示例上的特征重要性)到对整个数据集上的重要特征组合的全局理解。另一个关键困难是无法系统地评估解释策略,首先是因为缺乏基准数据集,其中真正的重要特征集是提前知道的,其次是因为各种算法所做假设的有效性取决于输入数据集的属性和所涉及的生物过程。

基于模型的解释

模型解释的直观方法是检查网络的各个组件,以了解它们代表的(隐藏的)模式及其对预测性能的贡献。可以考虑基于模型的解释的两种主要方法类别:最简单的方法是直接检查隐藏神经元的活动,以提取一组相关特征;第二种方法是使用注意机制训练模型,通过一组学习的注意权重直接产生每个输入特征的相关性度量。在本节中,作者描述了如何将这些方法应用于序列-活性模型,以了解网络第一层学习到的单个特征。

解释第一层卷积节点

在卷积序列-活性模型中,第一层神经元(滤波器)捕获短序列模体,编码在卷积权重矩阵中。从数学上讲,将卷积权重矩阵应用于序列所执行的操作相当于使用位置权重矩阵(PWM)扫描序列(图2a)。在实践中,常见的策略是搜索在选定阈值以上激活给定滤波器的子序列,并根据激活子序列集的对齐情况直接构建PWM(图2b)。由于神经网络在设计上过于参数化,仅仅存在PWM并不意味着它是一个预测性、有趣或有用的特征。因此,我们需要测量PWM对模型预测的贡献。在基于节点的策略中,这是通过依次对每个滤波器进行置零,并测量这种置零对模型预测结果的影响来实现的(图2c)。

2887edb5038269364cec1b45e1c99cf9.png

图2:基于模型的解释方法

用于可视化特征重要性的注意权重机制

先前的实证研究表明,将注意力权重按顺序直接解释为活动设置方面有一定的前景。注意力可以被视为一种权重正则化形式,其为输入序列引入了权重,以对输入中的位置进行优先级排序,尽可能保留相关信息以进行处理。注意力机制可以提高神经网络模型的性能和可解释性。顾名思义,当与模型训练相结合时,注意力权重迫使模型在学习隐藏特征的同时关注输入的有限部分。在序列-活性模型的情况下,可以直接检查注意力向量,以帮助识别在模型内部表示中起关键作用的输入部分(图2d)。

影响的数学传播

该算法通过在模型中传播扰动数据并观察对预测的影响,直接对输入示例进行操作。基于传播的归因方法可以分为两大类:向前和向后。在本节中,作者讨论了最流行的归因方法背后的概念基础、它们的缺点以及遗传数据背景下的缓解策略。

影响的正向传播

本节主要介绍了硅诱变(ISM)策略。ISM与图像像素翻转类似,考虑翻转与生物序列核苷酸相对应的元素,以确定训练模型的特征重要性(图3a)。与单核苷酸ISM不同,输入序列的较大延伸可以改变,以识别依赖于重要碱基对组合的重要基序(类似于实验室扫描诱变)(图3b)。

影响的反向传播

由于生成准确统计数据需要大量的前向传递,因此前向传播方法的计算成本很高。反向传播方法是为了解决这个问题而开发的。这些方法通过评估给定输入序列下模型F的导数来近似ISM,以计算序列的微小变化对模型预测的影响(图3c)。

从局部传播结果到全局解释

为了从基于传播的方法生成的逐序列属性图中进行概括,以揭示对重要模体的全局理解,需要聚合许多输入示例的结果。可以使用TFMoDisco作为针对DNA输入序列的方法。

7572ff621ddf459b7216cd9c1d2e5a92.png

图3:基于传播的解释方法

特征之间相互作用的识别

在基因调控的背景下,人们普遍认识到,转录因子(TF)之间的相互作用可以解释除单独附着于每个TF之外的活动。本节描述了前面提到的生成局部解释的方法如何解释特征之间的相互作用。

基于模型的交互识别

检查较深层的神经元是一个明显策略。神经网络的较深层往往会聚合在较低层中学习到的特征。搜索那些最大限度地激活给定隐藏神经元的输入,效果最好。可以应用自注意机制模型来实现对神经元重要程度的量化。

通过数学传播解释相互作用

基于ISM的传播方法(向前和向后)可以用于解释模型内的交互。但该领域应用ISM的计算成本非常高。可以以受限的方式应用来降低其计算成本,这些方式包括:将两个基序插入随机序列,对包含特定基序对的序列进行有针对性的分析(图4a);正向和反向传播方法的折衷结合,即深层特征交互图(DFIM)(图4b)。

8a76758c742b09030622481de4052938.png

图4:揭示模型特征之间相互作用的方法

透明模型中先验知识的应用

透明神经网络模型是这样一种模型,其中隐藏的节点被构造成在物理上对应于粒度级别上的生物单元,这有助于解释更深层的隐藏节点(图5)。图5a展示了根据已知的TF绑定基序初始化过滤器,以演示如何使用先验知识来设计网络架构,构建具有固有可解释单元的模型。图5b展示了如何检查训练的模型,以深入了解给定上下文中存在的此类先验交互作用。

efc272c901e6609c44155935311d69d3.png

图5:利用先验知识构造透明神经网络

结论和未来展望

在本综述中,作者重点介绍了序列-活性模型,其所述的xAI方法可广泛应用于基因组学的深度学习应用。模型解释的目的和效用在很大程度上取决于目标应用,因此应该根据目标指导解释方法的选择。解释模型有其实际意义,但也不可盲目相信。解释模型可用于识别训练数据中存在的虚假相关性,防止预测模型通过学习非生物“捷径”实现高精度。然而,解释模型的“不可识别性”阻碍了解释的可靠性。因此,必须谨慎使用解释模型,并理解某些特性以及由此产生的特征可能是偶然的结果。对于哪种xAI方法最有效还没有达成共识,作者预计,随着这一领域的成熟,最佳实践将得到确立,并集成到可访问的分析工具中。随着生物数据集的规模和可用性的增长,使用模型研究特征之间的复杂关系变得越来越重要。从这些模型中提取洞察力需要有效的xAI方法。因此,xAI将在基因组学中发挥越来越重要的作用。

参考资料

Novakovsky, G., Dexter, N., Libbrecht, M.W. et al. Obtaining genetics insights from deep learning via explainable artificial intelligence. Nat Rev Genet (2022). 

https://doi.org/10.1038/s41576-022-00532-2

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481543.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

复杂系统的逆向工程——通过时间序列重构复杂网络和动力学

导语蛋白质相互作用网络、生态群落、全球气候系统……很多复杂系统都可以抽象为一个相互作用的网络和其上的动力学。传统的研究主要关注在如何构建网络动力学模型,从而产生和实验观测数据具有相似统计特征的结果。所谓的复杂系统逆向工程,就是反其道而行…

关系提取论文总结

文章目录1.模型总结1.1 基于序列的方法1.2 dependency-based(基于依赖的)(有图)1.2.2 句间关系抽取1.5 自动学习特征的方法1.4 联合抽取模型1.6 RNN/CNN/GCN用于关系提取1.7 远程监督1.8句子级关系提取1.9MCR(阅读理解&#xff09…

邬贺铨:“物超人”具有里程碑意义,五方面仍需发力

来源:人民邮电报作者:邬贺铨我国正式迈入“物超人”时代。据工业和信息化部最新数据显示,截至8月末,我国三家基础电信企业发展移动物联网终端用户16.98亿户,成为全球主要经济体中率先实现“物超人”的国家。“物超人”…

深度:计算机的本质到底是什么?

来源:图灵人工智能来源:www.cnblogs.com/jackyfei/p/13862607.html作者:张飞洪 01 抽象模型庄子说过吾生有崖,知无涯。以有限的生命去学习无尽的知识是很愚蠢的。所以,学习的终极目标一定不是知识本身,因为…

中科大郭光灿院士团队发PRL,量子力学基础研究取得重要进展

来源:FUTURE | 远见选编:FUTURE | 远见 闵青云 中国科学技术大学郭光灿院士团队在量子力学基础研究方面取得重要进展。该团队李传锋、黄运锋等人与西班牙理论物理学家合作,实验验证了基于局域操作和共享随机性(LOSR, Local operat…

论文阅读课2-Inter-sentence Relation Extraction with Document-level (GCNN,句间关系抽取,ACL2019

文章目录abstract1.introduction2.model2.1输入层2.2构造图2.3 GCNN层2.4MIL-based Relation Classification3.实验设置3.1 数据集3.2 数据预处理3.3 基线模型3.4 训练3.5结果4.相关工作4.1 句子间关系抽取4.2 GCNN5. 结论相关博客Sahu, S. K., et al. (2019). Inter-sentence …

量子并不总意味着小尺度,量子物理学家用它探索系外行星生命

来源:机器之心除了量子计算,量子物理学的应用范畴还很广。近日,美国东北大学物理学教授 Gregory Fiete 探讨了量子研究的广泛应用。量子物理学家研究的世界与普通人每天生活的世界是同一个,唯一的区别是它被科学家「缩放」到了无法…

论文阅读课3-GraphRel: Modeling Text as Relational Graphs for(实体关系联合抽取,重叠关系,关系之间的关系,自动提取特征)

文章目录abstract1.Introduction2.相关工作3.回顾GCN4.方法4.1第一阶段4.1.1 Bi-LSTM4.1.2 Bi_GCN4.1.3 实体关系抽取4.2 第二阶段4.2.1 构建关系权图4.3训练4.4 inference5.实验5.1 settings5.1.1数据集5.2 baseline and evaluation metrics5.3 Quantitative Results5.4 细节分…

大脑是如何编码外界各种信息的?

来源:知乎链接:https://www.zhihu.com/question/532956044/answer/2494267009大脑将外部信息编码成心智模型。编码方式分为三种神经链接、语言逻辑和数学。心智模型理论是成型于上世纪九十年代的认知科学理论,代表人物就是著名学者史蒂芬平克…

论文阅读课4-Long-tail Relation Extraction via Knowledge Graph Embeddings(GCN,关系抽取,2019,远程监督,少样本不平衡,2注意

文章目录abstract1.introduction2.相关工作2.1 关系提取2.2 KG embedding2.3 GCNN3. 方法3.1符号3.2框架3.2.1 Instance Encoder3.4 Relational Knowledge Learning through KG Embeddings and GCNs.3.5 knowledge-aware attention4.实验4.1 数据集4.3 result4.4 长尾关系的处理…

用机器学习建立的数字「鼻子」表明,我们的嗅觉既反映了芳香分子的结构,也反映了产生它们的代谢过程...

来源:ScienceAI编辑:萝卜皮Alex Wiltschko 十几岁时就开始收集香水。他的第一瓶是 Azzaro Pour Homme,这是他在 T.J. Maxx百货的货架上发现的一款永恒的古龙水。他从《Perfumes: The Guide》中认出了这个名字,这本书对香气的诗意描…

论文阅读课5-DocRED: A Large-Scale Document-Level Relation Extraction Dataset(大规模文档集关系提取数据集

文章目录abstract1.Introduction2.数据收集3.数据分析4.基线设置5.实验Yao, Y., et al. (2019). DocRED A Large-Scale Document-Level Relation Extraction Dataset. Proceedings of the 57th Annual Meeting ofthe Association for Computational Linguistics.基线docRED数据…

74位图灵奖得主背景显示:大多数没有主修计算机专业,也并非高引用计算机科学家...

来源:中小学信息学竞赛计算机科学是世界上发展最快的学科之一,计算机科学的发展直接影响着人们的生活,并有可能从根本上改变传统的生活方式。图灵奖作为计算机领域的最高奖项,一直被誉为“计算机界的诺贝尔奖”,截止20…

Meta最新款VR头显体验者亲述:Quest Pro更漂亮、更有趣,但戴久了,脑袋疼!

来源:AI前线作者:Rachel Metz编译:核子可乐、冬梅价值一万多块的 VR 头显设备,你会买吗?声明:本文为 InfoQ 翻译,未经许可禁止转载。当地时间 10 月 11 日,元宇宙公司 Meta 召开了一…

文献阅读6-Entity-Relation Extraction as Multi-turn Question Answering(实体关系联合抽取,层次标签依赖关系,multi-turn QA)

文章目录abstract1.Introduction3.相关工作2.2MRC(机器阅读理解)2.3 非QA->QA3.数据集和任务3.1别人的数据集3.2我们建立的数据集RESUME4.Model4.1概述4.2生成问题4.3通过MRC来获取答案范围4.4 强化学习5.实验5.1RESUME结果5.2 其他结果6 Ablation Studies6.2问题…

论文阅读课7-使用句子级注意力机制结合实体描述的远程监督关系抽取(APCNN+D)2017

文章目录abstract1. Introduction2.方法3.训练4.实验4.1数据集4.2 评价指标4.3实验结果和分析4.3.1参数设置4.3.2 baseline4.3.3 conclusion5.相关工作5.1监督学习5.2远程监督学习Ji, G., et al. (2017). Distant Supervision for Relation Extraction with Sentence-Level Att…

Cell经典回顾:机器学习模型揭示大脑怎样整合空间记忆与关系记忆

导语人类等高等动物能够做出复杂推理、整合新知识以控制行为,其神经机制离不开海马-内嗅系统对于空间记忆和关系记忆的调控。来自牛津大学的学者于2020年在Cell杂志发表文章,通过分解和重组的方法构建了一套框架(TEM模型)&#xf…

论文阅读课8-Chinese Relation Extraction with Multi-Grained Information and External Linguistic Knowledge

文章目录Abstract1.Introduction2.相关工作3. 方法3.1 输入3.1.1 字符级别表示3.1.2单词级表示3.2encoder3.2.1 base lattice LSTM encoder3.2.2 MG lattice LSTM encoder3.3 关系分类器4.实验4.1数据集4.1.2 评估4.1.2 超参数设置4.2lattice的作用4.3词义表示的影响4.4最终结果…

黑客帝国「缸中之脑」真的可以,这100万个「活体人脑细胞」5分钟学会打游戏...

来源:FUTURE | 远见 闵青云 选编既然生物神经元如此高效,为什么不拿来用呢?最新版本的《黑客帝国》还有两天才会上映,但最近的一些科技进展总让我们觉得,导演描述的世界似乎离我们越来越近了。其中一个进展来自前段时间…

Nature发布迄今为止规模最大的全基因组关联研究,揭示了基因与身高的关系

来源:生物通一个国际研究团队已经确定了超过12000个影响一个人身高的基因变异。这项发表在10月12日《自然》杂志上的研究是迄今为止最大规模的全基因组关联研究,使用了来自281项贡献研究的500多万人的DNA。它填补了我们在理解基因差异如何导致身高差异方…