ncDLRES:一种基于动态LSTM和ResNet的非编码RNA家族预测新方法

现有的计算方法主要分为两类:第一类是通过学习序列或二级结构的特征来预测ncRNAs家族,另一类是通过同源序列之间的比对来预测ncRNAs家族。在第一类中,一些方法通过学习预测的二级结构特征来预测ncRNAs家族。二级结构预测的不准确性可能会导致这些方法的准确性较低。与之不同的是,ncRFP直接学习ncRNA序列的特征来预测ncRNAs家族。虽然ncRFP简化了预测过程,提高了性能,但是由于其输入数据的特征不完整,ncRFP的性能还有提升的空间。在第二类中,同源序列比对方法可以达到目前最高的性能。然而,由于需要对ncRNA序列进行一致性二级结构注释,以及对假结建模的无能为力,限制了该方法的使用。

本文基于Dynamic LSTM (长短期记忆)和ResNet (残差神经网络)提出了一种通过学习序列特征来预测ncRNA家族的新方法" ncDLRES "。

ncDLRES基于Dynamic LSTM提取ncRNA序列的特征,然后通过ResNet进行分类。与同源序列比对方法相比,ncDLRES降低了对数据的要求,扩大了应用范围。通过与第一类方法的比较,ncDLRES的性能有了很大的提高。

本文提出了一种基于动态深度学习模型预测ncRNAs家族的新方法" ncDLRES ",ncRNAs具有三级结构:一级结构、二级结构和三级结构,分别对应ncRNAs序列、二维平面结构和三维空间结构。每个ncRNA的层次结构都包含家族特征,可以作为深度学习模型的输入。由于ncDLRES是根据高通量技术精确获得的一级结构,因此将ncRNA序列作为输入数据,根据其一级结构特征对ncRNA进行分类,可以有效提取最准确的家族特征,提高预测性能。在静态深度学习模型中,需要将输入数据填充或截断成相同的格式,这会增加噪声或损失特征。因此,ncDLRES采用动态深度学习模型,可以将不同长度的ncRNA序列作为输入数据,保留nc RNA序列的完整特征。ncDLRES包括Dynamic LSTM和ResNet。Dynamic LSTM负责将不同长度的ncRNA编码成相同格式的数据,而ResNet倾向于对编码后的数据进行分类。为了提高性能,ncDLRES还采用了注意力机制,将算法注意力集中在重要的片段上。与通过学习二级结构特征的方法相比,ncDLRES简化了预测过程,同时与ncRFP不同的是,该方法保留了输入数据的完整性。与同源序列比对方法相比,ncDLRES只需要一级结构即可识别ncRNAs家族,降低了数据要求,扩大了应用范围。

材料和方法

数据采集处理

本文使用的数据来自于最近的两篇文献,该文献从Rfam数据库中收集。包含microRNAs、5S_rRNA、5.8 S_rRNA、核酶、CD-BOX、HACA-BOX、scaRNA、tRNA、Intron_GpI、Intron_GpII、IRES、leader和核糖开关等13个不同家族的非冗余ncRNA序列。本文采用十折交叉验证来测试ncDLRES的性能。每个家族的ncRNA序列被分为10等份。其中,从每个家庭中随机选取一部分作为测试集,其余部分作为训练集。这样,所有的ncRNA序列都落入10倍的训练集和测试集。为了便于ncRNA序列输入到ncDLRES中,ncDLRES将每个碱基编码成一个向量,ncDLRES采用1×8和1×4的方法对碱基进行编码,选择效果较好的作为最终的编码方式。表2为基与码之间的转换规则。A (腺嘌呤)、U (尿嘧啶)、G (鸟嘌呤)和C (胞嘧啶)是四种常见的碱基编码规则,而' N '代表一些稀有碱基。

在60 %的十折交叉中,1 × 8的正确率高于1 × 4,1 × 8的平均正确率也高于1 × 4。因此,ncDLRES选择1 × 8的编码方式,将每个nc RNA序列编码为L × 8的( L为ncRNA序列长度)矩阵。

方法

在静态深度学习模型中,输入数据应该具有相同的格式。需要对输入数据进行加垫或截断处理,使得输入噪声增大或特征丢失。与静态模型不同,ncDLRES是一种新颖的动态深度学习模型,直接将不同长度的ncRNA序列作为输入,从而进一步保持输入数据的完整性,使得该方法提取的特征更加完整。ncDLRES由动态LSTM 、Attention Mechanism 和ResNet三部分组成。Dynamic LSTM可以记录不同长度ncRNA的上下文信息并对其进行编码,因此选择它来提取完整的ncRNA序列特征并输出相同格式的数据注意力机制可以使神经网络专注于输入数据的重要特征,因此选择将方法专注于ncRNAs序列的重要片段ResNet可以避免神经网络中常见的梯度消失和爆炸问题,易于训练,性能优异。因此,选择对其他两部分的输出进行分类。

动态LSTM和注意力机制:循环神经网络是人工神经网络的一种,可以记录上下文信息。它的神经元按照时间顺序连接,可以处理可变长度的输入数据。由于ncRNA序列是上下文敏感的文本序列,因此循环神经网络是处理ncRNA序列的最佳网络。由于存储空间有限,传统的循环神经网络无法有效地记录长距离依赖信息。随着输入数据长度的增加,传统的循环神经网络由于无法有效地记录特征信息而丧失了学习能力。LSTM是一种特殊的循环神经网络,通过特殊的门机制可以有效解决文本长距离依赖的问题。LSTM包含3个门:输入门、遗忘门和输出门。具体来说,输入门决定记录哪些信息来更新LSTM隐藏状态。遗忘门用于找出每一步应该丢弃哪些无用的信息,而输出门基于LSTM状态识别输出信息。此外,当这三个门高效组合时,LSTM可以以较低的成本学习长距离依赖信息。LSTM可以通过以下公式(式中: 7 ~ 11 )来执行:

其中σ为logistic sigmoid函数,i,f,o,c分别为输入门、遗忘门、输出门和细胞向量,且均与隐向量h同维。同时,w表示权重矩阵,b表示偏置向量。式(7)是输入门的计算公式,等式。(8)是遗忘门的计算公式,即公式(9)是细胞状态的计算公式,公式(10)是输出门的计算公式,即公式(11)是隐藏状态的计算公式。

由于ncRNA序列长度的多样性,在采用静态深度学习模型对数据进行处理时,通常采用两种方法对数据进行预处理。一种是将所有序列按照最大长度进行填充,这样不仅增加了方法的运行时间,而且会因为给数据添加噪声而降低准确率;另一种是将所有序列截取成相同长度的序列,这样会造成序列特征的丢失,影响预测精度。因此,静态模型无法以最高效的方式解决ncRNAs家族预测问题。本文采用单层的Dynamic LSTM来解决序列多样性问题。在Dynamic LSTM中,所有的ncRNA序列都以其真实长度输入到模型中,这样可以完整地提取和学习它们的特征,从而提高家族预测的准确性。此外,每个基生成一个包含上下文信息的隐藏状态,即为Dynamic LSTM的输出数据。同一家族的ncRNA会有相似的关键片段。如果该方法更加关注这些重要的片段,则可以更有效地预测ncRNAs家族。模仿人脑注意力模式提出的注意力机制可以高效地完成这一任务。注意力机制并不是固定的神经网络结构,而是通过调整注意力的权重来增加有效信息的权重,弱化无效信息的权重。本文将注意力机制引入到ncDLRES中。通过学习Dynamic LSTM的输出,ncDLRES聚焦于nc RNAs家族片段。图5是动态LSTM和注意力机制的示意图。

图5动态LSTM和注意力机制的示意图。将不同长度的序列编码成矩阵作为Dynamic LSTM的输入。Attention机制将重要片段的隐藏状态以相同的格式整合到输出中

ResNet:ResNet 是深度卷积神经网络的一种特殊形式。深度卷积神经网络取得了一系列突破性进展,尤其是在二维数据的识别和分类方面。研究人员发现,层数对深度卷积神经网络至关重要,可以帮助丰富特征,提高准确率。卷积神经网络随着神经元的增加会逐渐达到饱和,在饱和站的精度最高。因此,浅层卷积神经网络的准确率在达到饱和前会随着深度的增加而增加,达到饱和后会随着深度的增加而降低。当一个神经网络处于饱和状态时,如果想要增加网络的深度并保持最高的精度,新增加的层必须是恒等映射层,或者换句话说,网络需要学习H ( x ) = x。在反向传播中,梯度会随着网络层数的增加而消失或爆炸。因此,很难完成身份映射学习。因此,单纯地提高神经网络的深度已经不能满足性能提升的要求。He在2015年提出了ResNet来解决神经网络退化的问题。ResNet包含很多残差块,由两层卷积神经网络组成。与传统的卷积神经网络不同,ResNet采用捷径连接的方式连接输入层和输出层,使得残差块的映射输出为H ( x ) = F ( x ) + x。在残差块中,输入数据x不仅是输入层的输入,还与输出层的映射相结合,形成残差块的输出。实验证明,新增加的层在ResNet网络达到饱和后需要学习F ( x ) = 0,比传统的卷积层简单得多。

本文根据卷积核的维度设计了一种包含3种残差块的新型ResNet,并将其用于ncDLRES中。对于残差块,采用3 × 3的卷积核,其维度分别为16、32、64。由于ResNet适合处理二维数据,因此首先将Dynamic LSTM和Attention Mechanism的输出转化为矩阵作为ResNet的输入。在ResNet的网络中,与现有的ResNet类似,使用一个卷积层来处理输入数据。之后,网络采用6个残差块,维度分别为16、16、32、32、64、64。经过残差块后,输出数据为64维数据。然后,使用全局平均池化层将输出数据池化成1 × 64个向量。最后,使用全连接层将池化数据分类到ncRNAs家族中。图6是ResNet的原理图。

图6 ResNet示意图。Conv是卷积神经网络层;Relu为激活函数,Avg Pool为全局池化层

学习结果与呈现

在模型学习过程中,将所有的ncRNAs数据处理成十折交叉验证的训练集和测试集,ncDLRES在每折训练集和测试集中训练和测试100次。图1是训练和测试的每个历元的十折交叉验证的平均精度和损失。通过交叉熵损失函数(式( 1 ) )计算损失。从图中可以看出,虽然曲线有波动,这可能是由于较高的学习率造成的,但没有出现过拟合或欠拟合的现象,并且在最后的历元中测试集的准确率和损失都比较稳定,说明该模型能够胜任ncRNAs家族预测的任务。

讨论

研究表明,同一家族的ncRNA具有相似的功能。因此,可以通过预测ncRNAs家族来初步确定它们的功能。在高通量时代,费时费力的生物实验方法已经不能满足科学研究的需求。在这种情况下,需要使用计算方法来预测ncRNAs家族。由于难以获得准确的二级结构,基于二级结构特征的方法性能较低。虽然基于一级结构特征的ncRFP的性能优于基于二级结构特征的方法,但是由于输入特征的丢失,并不能达到最佳的性能。本文提出了一种基于动态深度学习模型预测ncRNA家族的新方法" ncDLRES "。它的输入是ncRNA序列,其特征比基于二级结构的方法更准确,并且ncDLRES使用了动态深度学习模型,避免了ncRFP的输入特征丢失。此外,ncDLRES只需要nc RNA序列即可预测ncRNAs家族,与Internal的相比减少了对数据的需求。因此,它不仅可以应用于具有一致二级结构注释数据的家族,还可以应用于只有序列数据、结构注释数据不准确或有假结数据的家族,扩大了适用范围,避免了无法对假结进行建模的缺陷。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/896017.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

爱普生 SG-8101CE 可编程晶振在笔记本电脑的应用

在笔记本电脑的精密架构中,每一个微小的元件都如同精密仪器中的齿轮,虽小却对整体性能起着关键作用。如今的笔记本电脑早已不再局限于简单的办公用途,其功能愈发丰富多样。从日常轻松的文字处理、网页浏览,到专业领域中对图形处理…

SPRING10_getBean源码详细解读、流程图

文章目录 ①. getBean方法的入口-DefaultListableBeanFactory②. DefaultListableBeanFactory调用getBean③. 进入到doGetBean方法④. getSingleton三级缓存方法⑤. getSingleton()方法分析⑥. createBean创建对象方法⑦. 对象创建、属性赋值、初始化⑧. getBean最详细流程图 ①…

IDEA中查询Maven项目的依赖树

在Maven项目中,查看项目的依赖树是一个常见的需求,特别是当你需要了解项目中直接或间接依赖了哪些库及其版本时。你可以通过命令行使用Maven的dependency:tree插件来做到这一点。这个命令会列出项目中所有依赖的树状结构。 打开idea项目的终端&#xff…

深入xtquant:财务数据获取与应用的实战指南

深入xtquant:财务数据获取与应用的实战指南 在量化交易领域,虽然技术分析和市场情绪分析占据了主导地位,但财务数据作为评估公司基本面的重要依据,同样不可或缺。xtquant作为一个强大的Python库,提供了便捷的接口来获…

windows 安装 stable diffusion

在windows上安装 stable diffusion,如果windows没有nvidia显卡,想只使用CPU可在webui-user.bat中添加命令 set COMMANDLINE_ARGS--no-half --skip-torch-cuda-test 可正常使用stable diffusion,但速度较慢

Kubernetes控制平面组件:APIServer 基于 引导Token 的认证机制

云原生学习路线导航页(持续更新中) kubernetes学习系列快捷链接 Kubernetes架构原则和对象设计(一)Kubernetes架构原则和对象设计(二)Kubernetes架构原则和对象设计(三)Kubernetes控…

DeepSeek 助力 Vue 开发:打造丝滑的缩略图列表(Thumbnail List)

前言:哈喽,大家好,今天给大家分享一篇文章!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 💕 目录 Deep…

DeepSeek写俄罗斯方块手机小游戏

DeepSeek写俄罗斯方块手机小游戏 提问 根据提的要求,让DeepSeek整理的需求,进行提问,内容如下: 请生成一个包含以下功能的可运行移动端俄罗斯方块H5文件: 核心功能要求 原生JavaScript实现,适配手机屏幕 …

百问网(100ask)的IMX6ULL开发板的以太网控制器(MAC)与物理层(PHY)芯片(LAN8720A)连接的原理图分析(包含各引脚说明以及工作原理)

前言 本博文承接博文 https://blog.csdn.net/wenhao_ir/article/details/145663029 。 本博文和博文 https://blog.csdn.net/wenhao_ir/article/details/145663029 的目录是找出百问网(100ask)的IMX6ULL开发板与NXP官方提供的公板MCIMX6ULL-EVK(imx6ull14x14evk)在以太网硬件…

QT开发技术 【opencv图片裁剪,平均哈希相似度判断,以及获取游戏窗口图片】

一、图片裁剪 int CJSAutoWidget::GetHouseNo(cv::Mat matMap) {cv::imwrite(m_strPath "/Data/map.png", matMap);for (int i 0; i < 4; i){for (int j 0; j < 6; j){// 计算当前子区域的矩形cv::Rect roi(j * 20, i * 17, 20, 17);// 提取子区域cv::Mat …

TiDB 是一个分布式 NewSQL 数据库

TiDB 是一个分布式 NewSQL 数据库。它支持水平弹性扩展、ACID 事务、标准 SQL、MySQL 语法和 MySQL 协议&#xff0c;具有数据强一致的高可用特性&#xff0c;是一个不仅适合 OLTP 场景还适合 OLAP 场景的混合数据库。 TiDB是 PingCAP公司自主设计、研发的开源分布式关系型数据…

请解释 Vue 中的生命周期钩子,不同阶段触发的钩子函数及其用途是什么?

vue生命周期钩子详解&#xff08;Vue 3版本&#xff09; 一、生命周期阶段划分 Vue组件的生命周期可分为四大阶段&#xff0c;每个阶段对应特定钩子函数&#xff1a; 创建阶段&#xff1a;初始化实例并准备数据挂载阶段&#xff1a;将虚拟DOM渲染为真实DOM更新阶段&#xff…

计算机专业知识【深入理解子网中的特殊地址:为何 192.168.0.1 和 192.168.0.255 不能随意分配】

在计算机网络的世界里&#xff0c;IP 地址是设备进行通信的关键标识。对于常见的子网&#xff0c;如 192.168.0.0/24&#xff0c;我们可能会疑惑为何某些地址不能分配给主机使用。接下来&#xff0c;我们就以 192.168.0.0/24 为例&#xff0c;详细解释为何 192.168.0.1 和 192.…

软件架构设计:软件工程

一、软件工程概述 软件工程的定义 软件工程是应用系统化、规范化、可量化的方法开发、运行和维护软件。 软件工程的目标 提高软件质量、降低开发成本、缩短开发周期。 软件生命周期 瀑布模型&#xff1a;需求分析→设计→编码→测试→维护。迭代模型&#xff1a;分阶段迭代开…

mysql 学习15 SQL优化,插入数据优化,主键优化,order by优化,group by 优化,limit 优化,count 优化,update 优化

插入数据优化&#xff0c; insert 优化&#xff0c; 批量插入&#xff08;一次不超过1000条&#xff09; 手动提交事务 主键顺序插入 load 从本地一次插入大批量数据&#xff0c; 登陆时 mysql --local-infile -u root -p load data local infile /root/sql1.log into table tb…

达梦数据库针对慢SQL,收集统计信息清除执行计划缓存

前言&#xff1a;若遇到以下场景&#xff0c;大概率是SQL走错了执行计划&#xff1a; 1、一条SQL在页面上查询特别慢&#xff0c;但拿到数据库终端执行特别快 2、一条SQL在某种检索条件下查询特别慢&#xff0c;但拿到数据库终端执行特别快 此时&#xff0c;可以尝试按照下述步…

使用JWT实现微服务鉴权

目录 一、微服务鉴权 1、思路分析 2、系统微服务签发token 3、网关过滤器验证token 4、测试鉴权功能 前言&#xff1a; 随着微服务架构的广泛应用&#xff0c;服务间的鉴权与安全通信成为系统设计的核心挑战之一。传统的集中式会话管理在分布式场景下面临性能瓶颈和扩展性…

广西壮族自治区园区投促中心党委书记陶德文率团到访深兰科技

2月16日&#xff0c;广西壮族自治区园区投促中心党委书记、主任&#xff0c;自治区园区办党组成员陶德文率团来到深兰科技集团上海总部考察调研&#xff0c;并与深兰科技集团创始人、董事长陈海波等集团管理层座谈交流&#xff0c;双方围绕深兰科技人工智能项目落地广西的相关事…

基于UnrealEngine(UE5)的太空探索

视频部分可参见&#xff1a;https://www.bilibili.com/video/BV1JWA8eSEVg/ 中国 天宫号 空间站 人造卫星可视化 星链卫星可视化 小行星分布及运动轨迹可视化 月球基地 可视化 八大行星轨道 太阳系宜居带可视化 阿波罗8号拍摄的地球升起 谷神星模型及轨迹可视化 星座可视化 十…