西安交大团队开发了一种混合深度学习模型,用于在基因组中识别启动子

a2bd815befdfc1ea59fb085442f1d2a9.png

来源:ScienceAI

编辑:萝卜皮

人类的大部分细胞中,每时每刻都在进行着各种复杂的转录过程;这一过程与后续的蛋白质合成息息相关,从而会影响人体中各类酶、抗体、激素、免疫因子等生物分子的产生,最终影响人的身体健康。

与转录起始位点(TSS)相邻的区域,即启动子,主要参与DNA转录起始和调控的过程。因此,正确的启动子识别对于进一步了解控制基因组调控的网络机制至关重要。已经提出了许多用于识别启动子的方法。尽管如此,由于启动子中存在很大的异质性,这些程序的结果仍然不能令人满意。

为了建立额外的判别特征并正确识别启动子,西安交通大学的研究人员开发了启动子识别混合模型(HMPI);这是一种混合深度学习模型,可以同时表征启动子的天然序列和启动子的形态轮廓。

他们的 HMPI,将一种称为PSFN(启动子序列特征网络)的方法与一种称为 DSPN(深层结构轮廓网络)的技术结合起来,该方法描述了天然启动子序列并推断出序列特征。

该研究以「A successful hybrid deep learning model aiming at promoter identification」为题,于 2022 年 5 月 31 日发布在《BMC Bioinformatics》。

23018a3db06f2491f5604c9e4355e563.png

根据在遗传学中的定义,转录起始位点 (TSS) 周围的功能区域,对于启动和调节 DNA 转录至关重要,被称为启动子。因此,可靠的启动子鉴定是基因组学中一个关键的行动过程,可以进一步加深我们对基因调控网络的理解。

研究人员在识别启动子和非启动子(例如人类和植物启动子)方面面临着重大障碍,这些启动子种类更多且更难以描述。

近年来,多种生物实验方法被用于寻找启动子。这种传统程序既困难又昂贵。最近已经提出了基于具有较低复杂性和运行成本的计算技术的更新的启动子识别方法。因此,确定非启动子和启动子之间的差异,并提取不同物种之间启动子识别的最独特特征是至关重要的。

上下文特征、信号特征和 CpG 特征是用于表征启动子的三种特征。转录因子识别元件、CAAT盒、TATA盒和其他功能启动子元件区域总是用于提取信号特征。因此,启动子的许多其他区域被丢弃。上下文特征是通过执行 k 长度窗口并估计 k-mer(长度为 k 的似是而非的子序列)频率来获得的。

尽管如此,某些信息,例如放置在序列中的碱基对之间的空间连接,仍然被忽视了。CpG 岛的存在用于识别基于 CpG 特征的方法中的启动子区域。然而,由于 CpG 岛仅包含在 70% 的启动子中,因此这些方法不太可能显著提高识别结果。总而言之,包含三个单一特征的技术通常是不够的。

此外,最近提出了新的基于序列特征的启动子识别技术,并取得了可喜的成果。2017 年,Umarov 团队使用启动子的一级序列成功识别了启动子区域,而无需事先了解某些启动子特性。为了预测大肠杆菌启动子的强度,Bharanikumar 团队使用位置权重矩阵来表示启动子序列。

这些发现表明,与上述特征相比,启动子的一级序列可能意味着更多关于区分因素的信息。然而,由于启动子通常是复杂且异质的,基于启动子序列的信号不能很好地可靠地识别启动子。根据最近的研究,结构特征在多种生物过程中起着关键作用。

尽管 DNA 经常被表示为一种相当不灵活的双螺旋结构,但先天的结构属性提供了大量有用的细节。尽管核苷酸序列主要决定了这些结构特征,但研究表明,与其他序列相比,启动子的结构确实具有不同的模式。这一结果表明,指示启动子结构谱的结构属性有可能被用作启动子识别中一级序列的补充。

除了描述启动子特性的方法外,此类研究的重点一直是识别方法和模型。由于深度学习模型在不同领域的卓越性能和出色应用,深度神经网络最近被用于启动子识别和识别等任务。Umarov 团队利用卷积神经网络 (CNN) 分析真核和原核启动子的序列特征以及建立预测模型。

此外,Oubounyt 团队假设了 DeePromoter 模型,用于检查和分析短真核启动子序列的基本特征,并准确识别小鼠和人类的启动子序列。Xu 团队提出了一种从人类启动子中提取独特特征的 DCDE 深度学习方法。

为了更好地模拟启动子并改进识别结果,西安交通大学的研究团队开发了一种用于启动子识别的混合模型 (HMPI),旨在识别启动子。HMPI 实际上是受到上述研究和基于深度学习的算法的突出建模潜力的启发。他们提出了 PSFN(启动子序列特征网络)方法来对原始启动子序列进行建模,并基于 CNN 推导出序列特征。

2ae8dda64be433c81340693174a75bed.png

此外,在 PSFN 中,研究人员将中心损失作为分类损失函数的一个方面,以进一步提高启动子和非启动子的特异性。HMPI 的有效性通过使用初级启动子序列作为输入的识别结果来证明。此外,为了对启动子结构配置文件进行建模并提取结构特征,该团队提出了基于全连接网络和 DenseNet 的 DSPN(深层结构配置文件网络),该网络包含层间较小的连接。

由于 DSPN 层是直接连接的,因此网络可以更深入、更高效、更精确地对启动子结构特征进行建模。最终,他们构建了 HMPI,它结合了 DSPN 和 PSFN。HMPI 的效率通过对对应于植物、人类和大肠杆菌 K-12 菌株的数据集的实验证明。

该研究的主要贡献是推进了一种有效的混合深度学习模型,用于启动子识别。在 HMPI 中,启动子的原始序列和结构配置文件通过 PSFN 和 DSPN 同时建模,这是基于 CNN、全连接网络和 DenseNet 提出的方法。

5a6c85f531b1e13aabf5ea9c942bee9a.png

此外,他们没有提取单一类型的特征,而是提取并组合了序列特征和结构特征以进行启动子识别。实验结果表明,HMPI 可以显著提高在真核和原核启动子数据集上的启动子识别性能。

结果还表明,DSPN 恢复的结构信息和 PSFN 提取的区分元素信息可以在启动子识别中相互补充。此外,经过合成采样、迁移学习和标签平滑正则化的改进,改进后的 HMPI 模型在识别原核启动子子数据集上的启动子子类型方面取得了显著效果。

另外,作为一种混合模型,HMPI 可以扩展到包括更多的特征,并具有应用于各种功能生物序列的前景。

论文链接:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-022-04735-6

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

b98c50b3b42845c2c2cace7af3530485.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481949.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在科学史上,“革命”意味着什么?

来源:《科学哲学的历史导论》、思庐哲学(siluphilosophy)作者:约翰洛西对正统学说的诸多批评有一种累积的效果。许多科学哲学家渐渐认为,用形式逻辑范畴来重建科学时会失去一些至关重要的东西。在他们看来,…

SpringBoot整合Dubbo+Zookeeper进行分布式搭建系统

QUESTIONl:SpringBoot整合DubboZookeeper进行分布式搭建系统? ANSWER: 一:创建项目模块 1.1.创建一个Empty Project 名称:Dubbo 1.2.创建一个Provider模块 这里采用SpringBoot快速搭建。 1.3.创建Consumer模块 创建完成后代码架构: 二&am…

2023年全球前端大技术大会(GMTC北京站2023)-核心PPT资料下载

一、峰会简介 大会以“业务至上,效率为王”为主题,策划了 1 个主会场,10 个技术专场。会议议题包含前端 DevOps 实践、低代码、大前端监控、跨端技术选型、团队可持续发展、IoT 动态应用开发、移动端性能与效率优化、TypeScript、大前端技术…

人工智能并不像你想象的那么迫在眉睫

来源:AI前线作者:Gary Marcus策划:孙瑞瑞如果你仔细观察就会发现,最新的系统,包括 DeepMind 大肆宣传的 Gato,仍然被同样的老问题所困扰。在普通人看来,人工智能(AI)领域…

从感知机到Transformer,一文概述深度学习简史

来源:机器之心作者:Jean de Dieu Nyandwi这篇文章从感知机开始,按照时间顺序回顾了深度学习的历史。1958 年:感知机的兴起1958 年,弗兰克 罗森布拉特发明了感知机,这是一种非常简单的机器模型,…

深度学习的综述的综述

来源:知乎文章来源:https://zhuanlan.zhihu.com/p/85625555“ 综述永远是入门新领域的最快捷径之一!”2018年下半年an发的一篇综述类文献,好心的机器之心已经翻译好了,我就直接复制下来修改一下表述的错误和补充&#…

Docker添加或者更改容器的端口映射

QUESTION:Docker添加或者更改容器的端口映射? ANSWER: 初学Docker容器,按照教程的基本命令,拉取创建了几个容器,都是在一开始新建的时候 docker run -p 指定对应的端口,但对于docker start 没有这个功能&…

新书推荐:人工智能通识讲义

中国科学院大学经济与管理学院 副院长 中国科学院虚拟经济与数据科学研究中心 副主任 田英杰 目前,新一代人工智能(AI)技术处于爆发期之后的深化期,各行业都需要大量的具备AI技术素养的专业人才,人们的日常生活已经和A…

清华大学联手中科院顶会发文:全面分析四大自动驾驶策略

来源:新智元当前自动驾驶的策略研究还停留在具体场景执行具体策略,最近清华大学的研究人员在交通领域的顶会发表了一篇全面的综述,从更高级的角度分析自动驾驶策略。当自动驾驶遇见会车,应该抢先通过,还是等待让行&…

是什么让人类的大脑比其它动物更聪明?

Lena Vargas来源:六六脑在认知领域,人类有着无与伦比的卓越性。毕竟,还没有哪一个物种能向陌生的星球发射探测器,研发出可以挽救生命的疫苗,以及写出能够流芳百世的诗歌。人脑是如何处理信息的?人们对这一问…

MongoDB:SpringBoot有关@Document(collection = )与@Document(collation= )注解的区别

目录 QUESTION:SpringBoot有关Document(collection "")与Document(collation "")注解的区别? ANSWER: 一、问题原因 二、分析 2.1 Collection Id Document Indexed CompoundIndex Field Transient DBRef 2.…

清华大学药学院丁胜团队在《自然》发表突破性全能干细胞创新研究

来源:清华大学药学院最新科研速递 清华大学药学院丁胜教授及其团队首次发现全能干细胞的体外定向诱导及其稳定培养的药物组合,该突破性研究被国际顶级学术期刊《自然》(Nature)于北京时间2022年6月21日在线发表。该研究标…

RocketMQ:Linux下启动server和broker的命令

目录 QUESTION:RocketMQ:Linux下启动server和broker的命令? ANSWER: 一、启动mqnamesrv 1.1当前执行 1.2后台运行 二、启动mqbroker 2.1当前执行 2.2后台运行 QUESTION:RocketMQ:Linux下启动server和broker的命令? ANSWER: 一、启动mqnamesrv …

美国人如何看待超自然?

来源:返朴撰文:李品保原文刊载于《中华读书报》2022年6月22日期,《返朴》经授权发表。寻求超自然现象不是一种对理性的非理性反应,而是一种他择性合理性,也可将其视为美国人特定不安分的额外调解,这种不安分…

114名科学家Science发布关于长寿的最大规模动物研究:揭示了衰老的秘密

来源:生物通一个114名科学家组成的国际研究小组报告了迄今为止世界范围内最全面的关于爬行动物和两栖动物衰老和寿命的研究。在他们的许多发现中,他们首次记录了海龟、鳄鱼和蝾螈的衰老率特别低,并根据其体型延长了寿命。研究小组还发现&…

服务器上的Linux中Tomcat有时会挂掉的问题及方法

QUESTION:服务器上的Linux中Tomcat有时会挂掉的问题及方法? 目录 QUESTION:服务器上的Linux中Tomcat有时会挂掉的问题及方法? ANSWER: 一、内存不足 二、服务器内存不足 三、解决方法 3.1Tomcat内存优化 3.2代码优化内存泄漏 ANSWER: 正在启动的…

《关于加强数字政府建设的指导意见》最重要内容是这条。

来源:中国智慧城市论坛日前,国务院发布《国务院关于加强数字政府建设的指导意见》,我们在其中找到了让我们千呼万唤、翘首以盼、望眼欲穿的这段文字:强化考核评估。在各级党委领导下,建立常态化考核机制,将…

毕业设计-人脸表情识别系统、人工智能

人脸表情识别系统 1. 前言 在这个人工智能成为超级大热门的时代,人脸表情识别已成为其中的一项研究热点,而卷积神经网络、深度信念网络和多层感知器等相关算法在人脸面部表情识别领域的运用最为广泛。面部的表情中包含了太多的信息,轻微的表…

谷歌布莱克·勒莫因:为什么我觉得AI已觉醒了?

来源:科技智谷编辑:Light人们在 AI 身上寄托了感情,被一系列拟人化的 AI 术语误导,LaMDA 本质就是个聊天机器人。谷歌工程师布莱克勒莫因(Blake Lemoine)上周发布了一份他分发给同事的文件,引起…

阿里云数据库Mysql被黑

阿里云数据库Mysql被黑 打开Mysql查看数据库时,发现所有的服务器上的数据库被黑 百度翻译了一下: 总结一下: 以下是常用的可以保护数据库的方式,供参考。可以有效防止被攻击。 1.密码强化,使用复杂密码设置&#xff0…