一个基于 Transformer 的深度学习架构,在基因调控中组蛋白代码的定量破译方面性能超群...

编辑 | 萝卜皮

通过组蛋白修饰对转录控制的定量表征受到许多计算研究的挑战,但其中大多数只关注启动子周围的狭窄和线性基因组区域,留下了改进的空间。

韩国首尔大学的研究人员提出了 Chromoformer,这是一种基于 Transformer 的三维染色质构象感知深度学习架构,它在基因调控中组蛋白代码的定量破译方面实现了最先进的性能。Chromoformer 架构的核心本质在于注意力操作的三个变体,每个变体都专门模拟转录调控的个体层次,涉及从核心启动子到通过三维染色质相互作用与启动子接触的远端元件。

对 Chromoformer 的深入解释表明,它自适应地利用了与转录起始和延伸相关的组蛋白修饰之间的长程依赖性。研究表明,Chromoformer 可以捕获转录工厂和 Polycomb 基团的定量动力学。总之,这项研究突出了基于注意力的表观基因组中复杂相互作用的深度建模的巨大优势。

该研究以「Learning the histone codes with large genomic windows and three-dimensional chromatin interactions using transformer」为题,于 2022 年 11 月 5 日发布在《Nature Communications》。

dd0fac6ffd798d3104db6267b006dd10.png

基因表达的控制由不同组的调节因子进行,包括转录因子、共激活因子、辅助抑制因子以及基因组序列元件。然而,这些因素相互作用背后的基本前提是在相关基因组区域中组蛋白尾部或组蛋白修饰(HMs)的共价修饰的适当配置,因为它们在染色质可及性的调节中起关键作用。因此,可以设想一定数量的 HM 及其组合编码了附近基因组区域的调节潜力。

这个概念被称为「组蛋白密码假说」。已经有许多计算和定量方法来破解由 HM 编码的基因表达的调控代码。它们中的大多数是预测模型,利用转录起始位点(TSS)周围启动子的 HMs 水平来预测相应基因的表达水平。值得注意的是,最近的研究表明,在这项任务中,深度学习模型与传统机器学习模型相比具有卓越的性能。

两个挑战

迄今为止,深度学习已经在计算生物学的各个领域取得了显著的突破,从表征结合 DNA 和 RNA 结合蛋白的特异性,到长期存在的基于氨基酸序列的蛋白质结构预测问题。如果没有新的模型架构的发明以及它们对复杂生物学问题的巧妙应用,就无法在生物学中取得深度学习的这些成功。从这个意义上说,组蛋白代码的高度复杂性确实使其成为深度学习的一个很好的目标,如现有方法所示,但它们仍然存在两个主要的限制,推动了新方法的开发。

首先,他们只能在 TSS 周围使用狭窄的基因组窗口。这是因为这些模型所基于的深度学习架构,例如卷积神经网络(CNN)和循环神经网络(RNN),在对长序列内的依赖关系进行建模时效果不佳。CNN 高度专业于学习数据的局部模式,但对它们来说学习模式之间的远距离依赖关系具有挑战性。

尽管 RNN 架构是为对序列数据进行建模而开发的,但由于嵌入在单个位置的信息逐渐被稀释并被污染,而模型计算沿着两个遥远位置之间的位置传播,RNN 架构也难以清楚地捕获远程依赖关系。事实上,诸如门控循环单元或长短期记忆 (LSTM) 之类的 RNN 单元的高级形式部分地改善了这个问题,但是由于循环而对长序列进行建模的内在低效率仍然存在。

其次,大多数深度学习模型不考虑由三维(3D)染色质折叠介导的远端顺式调节,尽管众所周知,核心启动子和远端顺式调节元件之间的物理相互作用会严重调节基因表达。换言之,组蛋白代码所传达的调控信息不仅可以在本地传播,还可以通过 3D 染色质相互作用在遥远的基因组位点之间跳跃。

幸运的是,Hi-C 等高通量测量技术的最新进展成功地提供了千碱基规模的 3D 染色质相互作用的高分辨率视图,并为研究人员提供了前所未有的机会,来利用这些有价值的信息来模拟基因调控的综合观点。很少有新兴研究明确考虑 3D 染色质相互作用来预测基因表达。一个这样的例子是 GC-MERGE,这是一种图神经网络 (GNN),用于在相互作用的基因组区域之间传播信息以预测基因的表达水平。

虽然它是一个概念验证模型,不能应用于没有任何染色质相互作用的基因,并且只能执行 10 kbp 基因组 bin 级别的预测,但不能在基因级别进行预测,它仍然强调了对远端基因组区域以及启动子的表观基因组环境进行建模的前景。

Transformer 也许是药方

与此同时,最初为自然语言处理而开发的名为 Transformer 的深度学习模型架构,在理解 DNA 序列、氨基酸序列甚至它们的比对的潜在语法方面表现出巨大的潜力。在这项研究中,研究人员注意到 Transformer 架构的两个主要功能非常适合解决上述两个挑战。

首先,Transformer 可以精确地建模序列数据中的长期依赖关系。这是通过向输入序列添加位置编码来优雅地完成的。这些包含位置信息的输入特征被独立处理,并被输入到随后的自注意力模块中,该模块计算输入特征之间的所有成对依赖关系。因此,可以在不受位于对之间的特征干扰的情况下捕获远程依赖关系。

其次,Transformer 架构也可以应用于建模无序的实体集以及它们之间的交互。值得注意的是,对于大多数深度学习架构来说,这并不简单,因为包含它们的操作取决于输入位置。另一方面,构成变换器的操作基本上是置换不变的。

输入特征之间的交互仅在 self-attention 操作中考虑,所有其他操作都以位置方式完成,因此它们可以应用于模型的无序特征集。总之,Transformer 架构的这两个优势使其成为组蛋白代码定量建模的有希望的选择,因为它允许研究人员同时在多个远端调控区域利用 TSS 附近更宽的基因组窗口和组蛋白代码。

基于Transformer 的深度学习架构 Chromoformer

58fd06e4d628d1a7cd5e20d85817051e.png

图示:Chromoformer 模型架构。(来源:论文)

在这里,首尔大学的研究人员提出了一种名为 Chromoformer 的基于 Transformer 的深度学习架构,以模拟组蛋白代码在基因表达调控中的定量作用。Chromoformer 通过对涉及核心启动子和 pCRE 的三级顺式调节层次进行建模,极大地提高了基因表达预测的性能。

通过对 self-attention 权重、潜在嵌入动力学和几个特征消融研究的分析,研究人员对 Chromoformer 模型的行为提供了深入的生物学解释。

000a0a5586cf2230ce11ec7bdbad2878.png

图示:促成 Chromoformer 卓越性能的因素。(来源:论文)

由于 Transformer 能够理解序列中的远距离依赖性,Chromoformer 可以成功地学习关注基因体内的特定区域,在该区域中,与基因表达相关的 HM 在高表达和低表达基因之间最为独特。有趣的是,对基因体的关注程度取决于 TSS 的表观遗传背景,这意味着 Chromoformer 模型捕获了放置在 TSS 和基因体的 HM 的远距离依赖性。

另一方面,通过使用 Transformer 对一组无序特征中的成对关系进行建模,Chromoformer 可以了解由组蛋白代码介导的信息如何通过 3D 染色质折叠从 pCRE 传播到核心启动子以调节基因表达。对模型学习的组蛋白密码的潜在表示的分析强调,持家基因和细胞类型特异性基因的表达通过与增强子的相互作用得到加强,而发育基因的表达主要通过与 PRC2 结合的消音器的相互作用受到抑制。

该团队使用 3D 染色质相互作用的预编译知识来指导 Chromoformer 学习。那些通过实验测量的交互频率被用来确定将参与模型训练的 pCRE 的优先级,这些 pCRE 被显式地注入到自我注意得分矩阵中。

然而,仅从基因组序列信息中推断 pCRE 和核心启动子之间的相互作用频率似乎也是可能的。这是因为顺式调控相互作用的特异性很大程度上取决于 DNA 结合蛋白对 DNA 序列基序的识别,包括转录因子或 CCCTC 结合因子 (CTCF),它们作为分隔 3D 基因组构象的绝缘体。因此,嵌入基因组中的那些结合基序可以作为隐藏的词汇表,允许仅基于 DNA 序列推断所需的染色质构象。

0e6a15b1a8cfbc72d16de8ce2886406d.png

图示:Chromoformer 学习的顺式调节特征。(来源:论文)

同时,来自最近名为 Enformer 的模型的结果强烈支持,当使用更广泛的序列信息时,pCRE 的这种从头排序更有效,从而表明通过使用 Transformer 架构整合基因组和表观基因组特征,实现基因表达调控的完全数据驱动建模的令人兴奋的可能性。该团队将这种基于 Transformer 的多组学集成作为进一步的工作。

从活跃的 TSS 跳转到基因体的嵌入 Transformer 所学到的注意力表明,在预测稳态基因表达水平时,放置在基因体上的 HM 确实是有用的,即使不是最关键的信息。从这个结果中,研究人员考虑使用分布在单个基因中的整个组蛋白代码景观,可以进一步提高稳态 mRNA 水平的预测准确性的可能性。

此外,由于研究所用的 H3K36me3 的外显子比内含子丰富得多,因此利用全长基因注释将是模型训练的另一个有效指导。由于基因长度和外显子-内含子分布显示出很大的可变性,研究人员需要对这种生物学先验知识进行一些巧妙的表示。

同样,Transformer 架构将是最强大的选择之一,因为可以灵活地应用掩码来处理可变长度输入,还可以扩展位置编码以形成复合编码,同时包含基因组位置和基因结构注释的信息。

为 Chromoformer 模型提出的训练方案具有高度可扩展性。例如,该团队展示了 Chromoformer 模型可以针对来自人类以外物种的细胞类型进行训练,即小鼠胚胎干细胞,使用相关的组蛋白 ChIP-seq 和 Hi-C 配置文件,通过跨物种预测性能证明了两个物种之间组蛋白代码语法之间的总体相似性。

f9fa408cad18ca8baf7b13d69da98d09.png

图示:Chromoformer 的跨物种和跨细胞类型预测性能。(来源:论文)

此外,跨细胞类型预测实验表明,在一种细胞类型中训练的 Chromoformer 模型在一定程度上仍适用于其他细胞类型(相对验证AUC > 92%),相似细胞类型的交叉预测性能更高。

这意味着以细胞类型特异性方式训练的 Chromoformer 不仅学习了基因调控的细胞类型特异性特征,而且仍然捕获了可普遍应用于其他细胞类型的一般规则。如果它可以表示为全基因组信号值的数组,则可以扩展显色体训练以包含任何额外的表观基因组特征。这些特征包括转录因子 ChIP-seq 信号或用于隔间识别的第一主成分 (PC1) 信号。

8e153d67c9708c119ae0690fa0752423.png

图示:在 Chromoformer 训练中加入 CTCF 结合信号。(来源:论文)

论文中介绍,CTCF 结合是 3D 基因组结构的关键决定因素,并且通过远端增强子 - 启动子相互作用在基因激活中也突出了启动子 - 近端 CTCF 结合,如上图所示。该团队证明,包括 CTCF 在内的 Chromoformer-clf 性能有边际但一致的增加,而嵌入 Transformer 的 Chromoformer-clf 模型的增加更大。

另一方面,使用 PC1 值作为附加特征通知 Chromoformer 细胞类型特异性基因组划分状态不会导致显著的整体性能提升。尽管区室化与基因表达水平相关,但由于关联的绝对水平(皮尔逊相关系数 0.12–0.19)不够大,该团队认为,区室级特征的预测能力没有超过基因级 HM 特征的预测能力。

2dee1c4e02a8f4ae87a430522ca839bc.png

图示:在 Chromoformer 训练中纳入基因组划分状态。(来源:论文)

总之,Chromoformer 是另一个示例性应用,它强调了 Transformer 架构在生物序列建模方面的巨大潜力。该研究还强调了开发有效嵌入生物先验知识的专业深度学习架构的重要性,不仅可以提高预测任务的性能,还可以定量表征生物实体之间的复杂关系。

论文链接:https://www.nature.com/articles/s41467-022-34152-5

人工智能 × [ 生物 神经科学 数学 物理 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481417.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【搜索排序】预训练综述Pre-training Methods in Information Retrieval

文章目录相关性效率系统预训练word embeddingtransformers2. 召回阶段2.1 Sparse Retrieval Models2.2 Dense Retrieval Models。2.3 混合方式3.re-rank阶段4. 其他组件4.1 在query理解上4.2 在doc理解上:未来工作数据集数据集中排行榜信息检索中的花式预训练综述&a…

i-Refill | 张益唐:虽未实现大海捞针,但摸透了整个海底的情况

来源:IDG资本#i-Refill欢迎回到本周的i-Refill! 我们知道,黎曼猜想是当代数学领域内最重要的待解决问题之一,很多深入和重要的数学及物理结果都将在它成立的大前提下得到证明。10月中,我们围绕数学家张益唐承认已攻克黎曼猜想的弱…

【搜索排序】(ReRank)A Deep Look into Neural Ranking Models for Information Retrieval

文章目录数据集3. 同一框架4. 模型结构-对称与非对称对称结构:s,t可互换siamese networksSymmetric interaction networks,非对称结构query splitdocument splitJoint split,one-way attention mechanism基于表示的模型和基于交互的模型representation-focused arch…

2022全国市域治理与城市大脑峰会开放报名

来源:中国指挥与控制学会未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术…

新的深度学习方法可能有助于预测大脑认知功能

编辑 | 萝卜皮人类大脑结构与认知功能的关系很复杂,而这种关系在儿童期和成年期之间有何不同却知之甚少。一个强有力的假设表明,流体智能(Gf)的认知功能依赖于前额叶皮层和顶叶皮层。在这项工作中,西北大学&#xff08…

哈佛大学教授详解:深度学习和经典统计学差异?

来源:机器学习研究组订阅深度学习和简单的统计学是一回事吗?很多人可能都有这个疑问,毕竟二者连术语都有很多相似的地方。在这篇文章中,理论计算机科学家、哈佛大学知名教授 Boaz Barak 详细比较了深度学习与经典统计学的差异&…

【CTR优化】威尔逊区间

实际&#xff1a;正态分布 采样得到的&#xff1a;不一样 p^\hat{p}p^​:wilson p: 区间相等原则:&#xff08;假设&#xff09; P1/P2都是P,是实际值 做CTR优化时 p^\hat{p}p^​为计算所得CTR点击率/曝光率 优化后的为w- 疑问&#xff1a;why取w-?因为默认P<p(P1<p) …

数字科技与数字经济的数字大脑模型

本文2022年10月发表于中国科学报社《科学新闻》杂志作者&#xff1a;刘锋21世纪是数字科技和数字经济爆发的时代。从2000年开始&#xff0c;社交网络、web2.0等数字科技不断涌现&#xff0c;由此诞生的谷歌、亚马逊、腾讯、阿里巴巴、京东等科技企业构成了日益壮大的数字经济&a…

【hadoop3.2.1】windows10 docker学习环境创建,windows和容器bridge模式下联网,测试例子

本地机器&#xff1a;windows10 虚拟机&#xff1a;centOS7.9 docker创建hadoop学习环境 1.创建docker镜像&#xff08;hadoop&#xff09; 下载centos镜像: docker pull centos 启动一个容器&#xff1a;docker run -td --name base -i centos bash 进入容器&#xff0c;安装…

工信部专家:中国传感器最大的问题是什么?怎么解决?(最新观点)

来源&#xff1a;中国传感器与应用技术大会、河南省智能传感器行业协会、中国电子报、传感器专家网&#xff08;本文仅做综合整理&#xff09;11月11日-13日&#xff0c;首届中国传感器与应用技术大会在深圳市光明区隆重举行。会上&#xff0c;工信部电子元器件行业发展研究中心…

皮亚杰:数学结构和逻辑结构

来源&#xff1a;人机与认知实验室计算是封闭的事实结构&#xff0c;算计是开放的价值组合&#xff0c;计算计是开放性封闭的事实价值混合体——编者按群的概念如果不从检验数学结构开始&#xff0c;就不可能对结构主义进行批判性的陈述。其所以如此&#xff0c;不仅因为有逻辑…

大模型狂欢背后:AI基础设施的“老化”与改造工程

来源&#xff1a;OneFlow社区作者&#xff1a;River Riddle、Eric Johnson、Abdul Dakak翻译&#xff1a;胡燕君、杨婷机器学习模型逐渐发展成人们口中的“庞然大物”。全球顶尖的科技公司纷纷踏上“军备竞赛”之路&#xff0c;立志训练出规模最大的模型&#xff08;MUM、OPT、…

DeepMind 最新发文:AlphaZero 的黑箱打开了

来源&#xff1a;AI科技评论作者&#xff1a;李梅编辑&#xff1a;陈彩娴AlphaZero 表明神经网络可以学到人类可理解的表征。国际象棋一直是 AI 的试验场。70 年前&#xff0c;艾伦图灵猜想可以制造一台能够自我学习并不断从自身经验中获得改进的下棋机器。上世纪出现的“深蓝”…

陶哲轩:张益唐新论文存在一些技术问题,我已请他澄清

来源&#xff1a;梦晨 羿阁 发自 凹非寺量子位 | 公众号 QbitAI张益唐的零点猜想证明&#xff0c;该由谁来检验&#xff1f;不少人把目光投向陶哲轩。最新消息&#xff0c;陶哲轩已经读过张益唐的论文并做出点评&#xff1a;目前论文的基本正确性尚未得到确认。存在一些印刷错误…

MIT提出封闭式连续时间神经网络,解决大脑动力学问题可产生灵活的机器学习模型...

编辑/绿萝去年&#xff0c;麻省理工学院&#xff08;MIT&#xff09;的研究人员开发出了「液体」神经网络&#xff0c;其灵感来自小型物种的大脑&#xff0c;不仅能在训练阶段学习&#xff0c;而且还能持续不断地适应。可用于自动驾驶和飞行、大脑和心脏监测、天气预报和股票定…

自上而下的因果关系:数学结构与观察者

导语复杂性的基础是模块化的分层结构&#xff0c;导致基于较低级别网络的结构和功能的涌现级别。通俗而言&#xff0c;当需要执行复杂的任务时&#xff0c;可以将其分解为子任务&#xff0c;每个子任务都比整个项目更简单&#xff0c;需要更少的数据和更少的计算能力&#xff0…

从大脑中汲取灵感,能效提高了1000倍,新芯片拓展AI的可能性

来源&#xff1a;ScienceAI人工智能算法无法以目前的速度保持增长。像深度神经网络这样的算法——它受到大脑的松散启发&#xff0c;多层人工神经元通过称为权重的数值相互连接——每年都在变大。但如今&#xff0c;硬件改进已无法跟上运行这些海量算法所需的大量内存和处理能力…

5G/6G:构建一个更加互联智能的世界

来源&#xff1a;IEEE电气电子工程师在过去几年中&#xff0c;随着5G网络技术的兴起&#xff0c;5G基础建设与应用也日渐成熟。2023年&#xff0c;通信行业的发展步伐也并未放缓。在《IEEE全球调研&#xff1a;科技在2023年及未来的影响》中显示&#xff0c;当半数的受访者谈及…

Science 撤稿“天使粒子”论文,原始数据受质疑

海归学者发起的公益学术平台分享信息&#xff0c;整合资源交流学术&#xff0c;偶尔风月11月18日&#xff0c; Science 撤下了王康隆、张首晟等科学家完成的著名“天使粒子”论文。2021年3月 Nature 也撤回了代尔夫特理工大学的一篇“天使粒子”相关的论文。两篇重量级论文的倒…

2022年全球人工智能产业态势分析

来源&#xff1a;学术plus 作者&#xff1a;学术plus观察员 曹文&#xff0c;惠文审核&#xff1a;行业研究顾问 辛鑫&#xff0c;行雁国家战略风向1.1 全球主要国家密集发布政策举措&#xff0c;争夺人工智能领域优势2022年全球主要国家在人工智能领域的竞争仍然激烈。据英国牛…