用MiCoNE工具对16S序列数据进行共现网络分析

谷禾健康

在这里插入图片描述

微生物群通常由数百个物种组成的群落,这些物种之间存在复杂的相互作用。绘制微生物群落中不同物种之间的相互关系,对于理解和控制其结构和功能非常重要。

微生物群高通量测序的激增导致创建了数千个包含微生物丰度信息的数据集。这些丰度可以转化为共现网络,让我们了解微生物组内的关联。

然而,处理这些数据集以获得共现信息依赖于几个复杂的步骤,每个步骤都涉及大量工具相应参数的选择

本文给大家介绍一个标准化流程——MiCoNE,该流程可以从微生物群落的16S序列数据中生成稳健且可重复的共现网络,并使用户能够交互式地探索在每个步骤中使用不同的替代工具和参数时网络会如何变化。

MiCoNE推理出的共现网络结果可以导出为json格式,也可以通过Python包导出为Cytoscape、GML或其他常见的格式。

MiCoNE模块化式的构建使它可以分步骤运行,用户可以随时停止,也可以随时从任一步骤开始。文中使用了真实的实验数据、模拟微生物群数据以及合成的微生物相互作用数据,对MiCoNE的性能表现进行了一些测试和评估。

方 法

下图为MiCoNE的工作流程介绍。

该流程主要由五个模块组成,分别为:

  • SP(数据预处理)
  • DC(去噪和聚类)
  • TA(物种分类)
  • OP(OTU和ESV处理)
  • NI(网络推理)

每个模块下的方框都告知了该模块下包含的进程,以及执行该进程可选的工具或方法

在这里插入图片描述

SP模块中主要执行对序列的质检修剪,在MiCoNE中提交单个或多个样本混合的序列都可。

DC模块主要执行去噪和聚类,然后检查并移除序列中存在的嵌合体,该模块的输出是一个计数矩阵,它描述了每个样本(矩阵的列)中存在的特定OTU或ESV(矩阵的行)的读取次数

TA模块主要执行物种分类。可选的参考数据库有:

  • Greengenes13_8 (截至2013年5月)
  • Silva 138 (截至2020年8月)
  • NCBI的16S RefSeq数据库(截至2021年10月)

这些数据库是使用RESERT QIIME2插件下载和构建的。

在分配过程中,代表序列可能会被分配给一个“unknown”属,原因有两个:

一是数据库中与该序列相关联的分类标识符中没有包含给定的属信息

第二个更可能的原因是,数据库包含多个与查询(代表)序列非常相似的序列,而Consensus算法(来自QIIME2)无法以所需的置信度指定一个特定的属信息,也就是说如果数据库中没有该属信息,或者数据库中有多个与查询序列非常相似的序列,那么该代表性序列可能被标记为“unknown”属。

OP模块主要执行OTU或ESV计数矩阵的归一化、过滤和数据转换。默认情况下:

如果一个样本中的总读数少于500,那么过滤掉该样本

如果特征的相对丰度小于1%,则过滤掉该特征

如果特征在所有样本中的出现频率(含有该特征的样本百分比)小于5%,并且所有样本中该特征的计数总和小于100,则过滤掉该特征

换句话说,如果一个样本的数据量太小或者一个特征在样本中的出现频率、丰度都很低,那么它们都将被过滤掉。

NI模块主要执行网络推理,该模块包括四种基于相关性的方法和六种基于直接关联的方法,可以自由组合,对于计算显著性水平P值,根据关联强度和p值过滤后,应用研究人员开发出的共识算法,最终生成共现网络。

MiCoNE中包含的工具和方法在测试集中的表现和差异比较

1. 在DC模块中发现不同的去噪和聚类方法在识别丰度较低的序列方面有差异

使用五种方法处理了FMT研究的16S数据,分别为:

  • OR(open-reference clustering)
  • CR(closed-reference clustering)
  • DN(denovo clustering)
  • D2(DADA2)
  • DB(Deblur)

前三种方法来自QIIME2的vsearch插件OR和CR方法使用的参考数据库为Greengenes

通过计算所有样本的平均UniFrac距离,并在不同方法中进行比较,发现除了Deblur之外,其它方法产生的代表性序列在按其丰度加权时彼此相似差异主要在于分配较低丰度序列时。

哪个工具最能准确地概括样本中的参考序列?

使用相同的步骤处理了模拟数据集(mock4、mock12、mock16),并将预测的代表性序列与真实序列及其分布进行比较

结果如图CD,预测的序列分布与预期的完全不同。数据集之间的差异表明数据集本身在方法性能中有着很大的影响力

总体而言:

DADA2似乎是最可靠的,如图AB,它的加权UniFrac值在所有模拟数据集上都有更高的表现。

其次是Deblur,因为比较而言,OR和DN方法返回的OTU数量要多很多,如果不执行严格的过滤,将影响NI步骤的准确性。

但如果需要对不同16S区域进行测序的研究进行比较CR和OR方法可能是更好的选择。

去噪后,要对序列进行嵌合体检查,在MiCoNE中应用了两种检查方法,uchime-Denovoremove-bimera,经测试这两种方法之间没有显著差异

在这里插入图片描述

图AB用于分析的数据来自FMT研究,图CD中用于分析的数据来自模拟数据的mock 4、mock 12和mock 16数据集。基于以上结果,DC模块中的默认方法是DADA2+remove-bimera。

2. 在TA模块中发现参考数据库在分配目水平以下的分类水平时有较大差异

MiCoNE使用的16S分类参考数据库分别是:

  • Silva
  • Greengenes(GG)
  • (NCBI)RefSeq

对于GGSilva数据库,使用QIIME2的“naive Bayes”分类器,对于NCBI数据库,使用作为QIIME2插件的“BLAST”工具。

这些工具都经过了很好的量化和优化,因此都使用的默认参数

结果如下图所示:

在这里插入图片描述

图A展示了三个不同的参考数据库对前50个具有代表性的序列进行的属水平的物种注释,说明了相同的序列是如何被分配到不同数据库中的不同属中的。在GreengenesNCBI数据库中,代表序列的很大一部分被归入一个“unknown”。

图B比较了不同参考数据库之间分配给同一水平的代表性序列的数目(总和是前100个代表性序列),在较高的分类水平上,不匹配较少,但即使在目水平上,也存在超过51%的不匹配,这表明不同数据库的物种注释结果一致性较差

图C比较了模拟数据中不同数据库预测的物种和已知物种之间的Bray-Curtis距离,差异结果表明对于每个数据集,不存在唯一的最佳数据库选择,因为所有的数据库都表现出相似的性能。但由于Greengenes数据库的主流性,它被选为MiCoNE的TA步骤的默认参考数据库

3. 在NI模块中发现不同的网络推理方法生成的网络在边密度和连接性方面表现出显著差异

在这里插入图片描述

图A, 对来自FMT研究的健康人群数据使用不同网络推断方法生成了九个网络。每个网络的节点(代表物种)在圆形布局中排列,可以直接可视化比较它们之间的连接差异绿色的连线表示正相关橙色的连线表示负相关

这些网络看起来不同,并且在连接性方面差异很大,值得注意的是基于相关性的方法通常会产生具有更高边缘密度的网络。

而在本文中基于相关性的方法有sparcc、propr、spearman和pearson,设置了0.3的阈值;基于直接关联的方法有flashweave、spieceasi、cozine、harmonies和spring,设置了0.01的阈值。

为了量化网络之间的差异,如图B,使用Upset图展示所有网络中有很大比例的共享或单一节点的分布(68个里有33个是共享的)。

图C边缘重叠Upset图显示,这些连接中的一小部分实际上是共享的(202条里有8条是共享的)。

4. 在基准数据集中,scaled-sum(SS)方法表现出很高的精确度

研究人员开发了两种方法来生成共识网络(consensus network),分别为:

  • scaled-sum(SS)
  • simple voting(SV)

它们将基于相关性直接关联方法计算并过滤后的网络进行组合。基准数据集是计算机合成的相互作用数据,用于比较基于MiCoNE流程中的每种关联方法生成的预测关联的精确度和灵敏度。结果如下图:

在这里插入图片描述

图AC精确度的结果,图BD灵敏度的结果。总体而言,θ=0.333的SS方法表现最佳,灵敏度和精确度处在良好的平衡上,因此在MiCoNE工具中默认使用SS方法

5. 不同处理方法对共现网络的影响力比较,其中TA模块最甚

为了分析不同的处理方法对推理的共现网络的影响(在共识估计之前),研究人员使用MiCoNE中所有的方法组合生成网络,并量化每种选择导致的可变性,结果如下图:

在这里插入图片描述

图A为在线性模型上使用方差分析(ANOVA)计算MiCoNE流程中的DC、CC、TA、OP和NI步骤所贡献的网络方差百分比(从FMT数据集生成)。

图BPCA图每个点表示使用MiCoNE流程中可用的工具参数的不同组合推理的网络。点的颜色对应于流程中每一步骤(DC、TA、OP和NI)。

数据显示TA步骤对网络方差的影响最大,这意味着参考数据库的变化将导致截然不同的网络,其次是OP步骤的过滤水平和所使用的NI算法。

MiCoNE流程中的默认参数设置

经过上面的测试和分析,研究人员发现工具和参数的选择对最终呈现的网络有很大的影响,因此提供了一组默认设置,如下表,灰色突出显示的工具是MiCoNE的默认工具,这些工具是基于模拟和合成数据集的基准测试推荐的。

在这里插入图片描述

使用上面的默认工具和参数从FMT数据集中分别对自闭症人群(ASD)和健康对照(Healthy)生成的网络进行比较,结果如下图,对照样本的网络中有22个独有的连接,自闭症样本的网络中有12个独有的连接,两个网络之间有7个共同的边。

在这里插入图片描述

研究人员认为尽管这些独有的关联并不意味着实际的相互作用,但它们仍然可以作为文献调查和进一步探索菌群失调机制的起点。

结 论

MiCoNE工作流程提供了一个平台,可以轻松评估任何其他感兴趣的数据集在每个工作流程步骤的准确性、方差和其他属性。虽然MiCoNE内包含的工具方法较多,但研究人员基于测试结果也提供了一套默认参数,公开的测试结果也提高了可信度

目前而言,MiCoNE的网络分析主要以属水平为基础,节点的最低分辨率是属水平,如果无法确定到属水平,就会使用上一层分类级别(例如,科水平)。不过,研究人员表示会持续更新和扩大MiCoNE的工作范围。

该项目的github地址

GitHub - segrelab/MiCoNE: The Microbial Co-occurrence Network Explorer

https://github.com/segrelab/MiCoNE

参考文献:

Kishore D, Birzu G, Hu Z, DeLisi C, Korolev KS, Segrè D. Inferring microbial co-occurrence networks from amplicon data: a systematic evaluation. mSystems. 2023 Jun 20:e0096122. doi: 10.1128/msystems.00961-22. Epub ahead of print. PMID: 37338270.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/28849.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Nginx开启gzip网页传输压缩配置

场景 Nginx 服务器为网页压缩专门提供了 gz 模块,并且模块中的相关指令均可以设置在http、server或location块中, 实现服务器端按照指定的设置进行压缩。 CentOS7中解压tar包的方式安装Nginx: CentOS7中解压tar包的方式安装Nginx_centos7…

Dockerfile构建Redis镜像(yum方式)

目录 Dockerfile构建Redis镜像 1、建立工作目录 2、编写Dockerfile文件 3、构建镜像 4、测试容器 Dockerfile构建Redis镜像 1、建立工作目录 [roothuyang1 ~]# mkdir redis [roothuyang1 ~]# cd redis/ 2、编写Dockerfile文件 [roothuyang1 redis]# vim Dockerfile 配置如…

手搓vue3组件_1.封装一个button

我的icepro参考地址,内有参考代码,有条件的割割点点star 实现要求: 基于vue3支持通过colors(更改颜色)支持点击事件…支持其他的自定义样式(例如圆角,size等等) 最基础的第一步: 父组件引入并使用: <template><div class"buttonLim">我的按钮:<ice-b…

Java课题笔记~ 关于错误与异常

非检查异常(unckecked exception)&#xff1a;Error 和 RuntimeException 以及他们的子类。javac在编译时&#xff0c;不会提示和发现这样的异常&#xff0c;不要求程序员必须处理这些异常。在运行阶段&#xff0c;倘若发生Error则虚拟机几乎崩溃&#xff0c;倘若发生RuntimeEx…

Django快速入门

文章目录 一、安装1.创建虚拟环境&#xff08;virtualenv和virtualenvwrapper&#xff09;2. 安装django 二、改解释器三、创建一个Django项目四、项目目录项目同名文件夹/settings.py 五、测试服务器启动六、数据迁移七、创建应用八、基本视图1. 返回响应 response2. 渲染模板…

git和github学习

一、什么是git和github? 二、学会使用github desktop应用程序 初始使用&#xff1a; 一开始我们是新账户&#xff0c;里面是没有仓库的&#xff0c;需要手动创建一个仓库。此时&#xff0c;这个仓库是创建在本地仓库里面&#xff0c;需要用到push命令&#xff08;就是那个pub…

Vantage透明屏的工作原理是什么?应用、展示、显示

Vantage透明屏是一种新型的显示技术&#xff0c;它能够将图像和视频直接投影到透明的屏幕上&#xff0c;使得观众可以同时看到屏幕上的内容和背后的实物。 这种技术在广告、展览、零售和娱乐等领域有着广泛的应用前景。 Vantage透明屏的工作原理是利用透明的显示面板和背后的…

AI深度学习部署全记录

AI部署流程&#xff0c;以PyTorch为例&#xff1a; 1.Torch.Model->ONNX->ONNXSIM->TensortRT->落地 2.Torch.Model->Pt->ONNX->ONNXRunTime->落地 3.Torch.Model->Pt->Libtorch->落地 4.Torch.Model->PNNX->TensorRT->落地 5.…

sql刷题

文章目录 section A1 各部门工资最高的员工&#xff08;难度&#xff1a;中等&#xff09;2 换座位&#xff08;难度&#xff1a;中等&#xff09;3 分数排名&#xff08;难度&#xff1a;中等&#xff09;4 连续出现的数字&#xff08;难度&#xff1a;中等&#xff09;5 树节…

GD32F103VE串口中断发送和接收

GD32F103VE串口中断发送和接收&#xff0c;本程序基于RS485完成测试&#xff0c;实现将收到的数据&#xff0c;再发送出去。 #include "USART1_Interrupt.h" #include "stdio.h" //getchar(),putchar(),scanf(),printf(),puts(),gets(),sprintf() #inclu…

Zabbix监控华为交换机DHCP接口地址池

一、背景 最近工作中遇到一个因为DHCP地址池满载、导致用户无法获取到IP地址的故障&#xff0c;所以在想通过zabbix 监控DHCP地址池的状态、当DHCP 地址池数量小于某个值时触发zabbix告警。 网上找了一下没有相关的文档、和对应的OID值、于是用Python 脚本的方式实现 二、实现效…

电视盒子哪个牌子好?拆机达人揭晓电视盒子品牌排行榜

老赵每天会对各种类型的数码产品进行拆机&#xff0c;对硬件、品控这块非常熟悉&#xff0c;近期很多朋友问我电视盒子哪个牌子好&#xff0c;我整理了目前市面上硬件、软件都表现不错的电视盒子品牌排行榜&#xff0c;看看目前最值得入手的电视盒子都有哪些。 第一&#xff1a…

无涯教程-Perl - getnetent函数

描述 此函数从/etc/networks文件获取下一个条目,返回-($name,$aliases,$addrtype,$net) 如果/etc/networks文件为空,则它将不返回任何内容,并且调用将失败。 语法 以下是此函数的简单语法- getnetent返回值 此函数在错误时返回undef,否则在标量context中返回网络地址,在错…

第九次作业

1. SSL工作过程是什么&#xff1f; 当客户端向一个 https 网站发起请求时&#xff0c;服务器会将 SSL 证书发送给客户端进行校验&#xff0c;SSL 证书中包含一个公钥。校验成功后&#xff0c;客户端会生成一个随机串&#xff0c;并使用受访网站的 SSL 证书公钥进行加密&#xf…

手搓单链表

文章目录 前言一、链表和顺序表的区别二、什么是单链表单链表分类单链表的结构 三、带头不循环单链表1.单链表的结构体2.带头不循环单链表的初始化和销毁3.带头不循环单链表的头插&#xff0c;尾插和打印4.带头不循环单链表的头删和尾删5.带头不循环单链表的查找&#xff0c;指…

进程通信常见方式

目录 通信通信概述 通信的主要方式 进程同步机制--低级进程通信 高级通信工具 共享存储器系统(Shared-Memory System&#xff09; 管道(pipe)通信系统 客户机-服务器系统(Client-Server system)---套接字&#xff08;Socket&#xff09; 客户机-服务器系统(Client-Serv…

国内什么牌子的ipad手写笔好用?适合绘画电容笔推荐

对于那些想要用ipad来学习的人来说&#xff0c;苹果Pencil是必不可少的。但是&#xff0c;Apple Pencil的价格真的太贵了&#xff0c;以至于很多人都买不起。所以&#xff0c;最好的办法就是选用一支平替的电容笔。本人从前几年就开始使用iPad&#xff0c;同时本身也是一位数码…

冠达管理:创新药概念强势拉升,康希诺大涨超15%

立异药概念9日盘中强势拉升&#xff0c;到发稿&#xff0c;昊帆生物“20cm”涨停&#xff0c;康希诺大涨超15%&#xff0c;翰宇药业涨近13%&#xff0c;德展健康涨停&#xff0c;泰格医药、药石科技涨超7%。 康希诺昨日晚间公告&#xff0c;8月7日&#xff0c;公司与 AstraZene…

【三维重建】【深度学习】windows10下instant-nsr-pl代码Pytorch实现

【三维重建】【深度学习】windows10下instant-nsr-pl代码Pytorch实现 提示:基于 Instant-NGP 和 Pytorch-Lightning 框架的神经表面重建 文章目录 【三维重建】【深度学习】windows10下instant-nsr-pl代码Pytorch实现前言instant-nsr-pl模型运行下载源码并安装环境训练instant-…

那些没人教你的Jmeter 循环断言,百度不到的,收藏一下吧

前言 对于使用jmeter工具完成接口测试的测试工程师而言。在工作中&#xff0c;或者在面试中&#xff0c;都会遇到一个问题。 CSV文档做了一大笔测试数据后&#xff0c;怎么去校验这个结果呢&#xff1f; 现在大部分测试工程师可能都是通过人工的方法去查看结果&#xff0c;十几…