来源:ScienceAI
编辑:萝卜皮
人类的大部分细胞中,每时每刻都在进行着各种复杂的转录过程;这一过程与后续的蛋白质合成息息相关,从而会影响人体中各类酶、抗体、激素、免疫因子等生物分子的产生,最终影响人的身体健康。
与转录起始位点(TSS)相邻的区域,即启动子,主要参与DNA转录起始和调控的过程。因此,正确的启动子识别对于进一步了解控制基因组调控的网络机制至关重要。已经提出了许多用于识别启动子的方法。尽管如此,由于启动子中存在很大的异质性,这些程序的结果仍然不能令人满意。
为了建立额外的判别特征并正确识别启动子,西安交通大学的研究人员开发了启动子识别混合模型(HMPI);这是一种混合深度学习模型,可以同时表征启动子的天然序列和启动子的形态轮廓。
他们的 HMPI,将一种称为PSFN(启动子序列特征网络)的方法与一种称为 DSPN(深层结构轮廓网络)的技术结合起来,该方法描述了天然启动子序列并推断出序列特征。
该研究以「A successful hybrid deep learning model aiming at promoter identification」为题,于 2022 年 5 月 31 日发布在《BMC Bioinformatics》。
根据在遗传学中的定义,转录起始位点 (TSS) 周围的功能区域,对于启动和调节 DNA 转录至关重要,被称为启动子。因此,可靠的启动子鉴定是基因组学中一个关键的行动过程,可以进一步加深我们对基因调控网络的理解。
研究人员在识别启动子和非启动子(例如人类和植物启动子)方面面临着重大障碍,这些启动子种类更多且更难以描述。
近年来,多种生物实验方法被用于寻找启动子。这种传统程序既困难又昂贵。最近已经提出了基于具有较低复杂性和运行成本的计算技术的更新的启动子识别方法。因此,确定非启动子和启动子之间的差异,并提取不同物种之间启动子识别的最独特特征是至关重要的。
上下文特征、信号特征和 CpG 特征是用于表征启动子的三种特征。转录因子识别元件、CAAT盒、TATA盒和其他功能启动子元件区域总是用于提取信号特征。因此,启动子的许多其他区域被丢弃。上下文特征是通过执行 k 长度窗口并估计 k-mer(长度为 k 的似是而非的子序列)频率来获得的。
尽管如此,某些信息,例如放置在序列中的碱基对之间的空间连接,仍然被忽视了。CpG 岛的存在用于识别基于 CpG 特征的方法中的启动子区域。然而,由于 CpG 岛仅包含在 70% 的启动子中,因此这些方法不太可能显著提高识别结果。总而言之,包含三个单一特征的技术通常是不够的。
此外,最近提出了新的基于序列特征的启动子识别技术,并取得了可喜的成果。2017 年,Umarov 团队使用启动子的一级序列成功识别了启动子区域,而无需事先了解某些启动子特性。为了预测大肠杆菌启动子的强度,Bharanikumar 团队使用位置权重矩阵来表示启动子序列。
这些发现表明,与上述特征相比,启动子的一级序列可能意味着更多关于区分因素的信息。然而,由于启动子通常是复杂且异质的,基于启动子序列的信号不能很好地可靠地识别启动子。根据最近的研究,结构特征在多种生物过程中起着关键作用。
尽管 DNA 经常被表示为一种相当不灵活的双螺旋结构,但先天的结构属性提供了大量有用的细节。尽管核苷酸序列主要决定了这些结构特征,但研究表明,与其他序列相比,启动子的结构确实具有不同的模式。这一结果表明,指示启动子结构谱的结构属性有可能被用作启动子识别中一级序列的补充。
除了描述启动子特性的方法外,此类研究的重点一直是识别方法和模型。由于深度学习模型在不同领域的卓越性能和出色应用,深度神经网络最近被用于启动子识别和识别等任务。Umarov 团队利用卷积神经网络 (CNN) 分析真核和原核启动子的序列特征以及建立预测模型。
此外,Oubounyt 团队假设了 DeePromoter 模型,用于检查和分析短真核启动子序列的基本特征,并准确识别小鼠和人类的启动子序列。Xu 团队提出了一种从人类启动子中提取独特特征的 DCDE 深度学习方法。
为了更好地模拟启动子并改进识别结果,西安交通大学的研究团队开发了一种用于启动子识别的混合模型 (HMPI),旨在识别启动子。HMPI 实际上是受到上述研究和基于深度学习的算法的突出建模潜力的启发。他们提出了 PSFN(启动子序列特征网络)方法来对原始启动子序列进行建模,并基于 CNN 推导出序列特征。
此外,在 PSFN 中,研究人员将中心损失作为分类损失函数的一个方面,以进一步提高启动子和非启动子的特异性。HMPI 的有效性通过使用初级启动子序列作为输入的识别结果来证明。此外,为了对启动子结构配置文件进行建模并提取结构特征,该团队提出了基于全连接网络和 DenseNet 的 DSPN(深层结构配置文件网络),该网络包含层间较小的连接。
由于 DSPN 层是直接连接的,因此网络可以更深入、更高效、更精确地对启动子结构特征进行建模。最终,他们构建了 HMPI,它结合了 DSPN 和 PSFN。HMPI 的效率通过对对应于植物、人类和大肠杆菌 K-12 菌株的数据集的实验证明。
该研究的主要贡献是推进了一种有效的混合深度学习模型,用于启动子识别。在 HMPI 中,启动子的原始序列和结构配置文件通过 PSFN 和 DSPN 同时建模,这是基于 CNN、全连接网络和 DenseNet 提出的方法。
此外,他们没有提取单一类型的特征,而是提取并组合了序列特征和结构特征以进行启动子识别。实验结果表明,HMPI 可以显著提高在真核和原核启动子数据集上的启动子识别性能。
结果还表明,DSPN 恢复的结构信息和 PSFN 提取的区分元素信息可以在启动子识别中相互补充。此外,经过合成采样、迁移学习和标签平滑正则化的改进,改进后的 HMPI 模型在识别原核启动子子数据集上的启动子子类型方面取得了显著效果。
另外,作为一种混合模型,HMPI 可以扩展到包括更多的特征,并具有应用于各种功能生物序列的前景。
论文链接:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-022-04735-6
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”