线性分解模型(LDM)的扩展方法——分析稀疏数据里的微生物组存在或缺失关联

谷禾健康

在这里插入图片描述

生态学家在分析微生物组和感兴趣的协变量(如临床结果或环境因素)之间的关联时,经常以两种方式查看物种分类计数数据

一种是将计数视为定量的(即作为相对丰度数据进行分析);另一种是将计数数据离散化,只表明一个分类单元在样本中是否存在。

虽然第一种方法在医学文献中可能更常见,但这种关联也可能是由于样本中存在或不存在的分类群的变化所驱动的。例如,在人类肠道中,物种丰富度的增加与更稳定的生态系统有关,生态系统往往对饮食、抗生素使用和病原体入侵等环境压力更具有抵抗力

相比之下,健康的阴道微生物群的特点往往是以Lactobacilli为主的低多样性。研究人员认为当常见的分类群占主导地位时,基于相对丰度的分析可能更合理,而当稀有分类群占主导地位时,基于存在或不存在的分析可能表现更好。

目前最常用的分析方法是基于未加权的UniFrac和Jaccard距离的PERMANOVA统计检验,但是它只给出了整个群落的关联没有给出与单个分类群的关联。Fisher’s精确检验可以检验协变量与单个分类群是否存在关联,对于更复杂的情况,可以使用精确的逻辑回归,但计算成本较高。

LDM本身是一种线性模型,研究人员对它进行了扩展,使得该方法可以基于稀疏计数数据,来分析协变量与群落或单个分类群之间的关联,同时控制混杂协变量(例如实验中出现的提取和扩增偏差),协变量可以是离散的也可以是连续的。

方法

在LDM中,元数据被放入矩阵X中(行对应N个样本,列对应协变量)。将X的列分为K组,这里可以理解为”子模型“,每个子模型代表一组想要联合检验的变量

LDM使X的列正交。设Y为N×J(原始)分类群计数表,共有J个分类群

Hk为子模型的帽子矩阵

在这里插入图片描述

H0为完整模型X的帽子矩阵

在这里插入图片描述


计算帽子矩阵得到模型预测值

通过计算完整模型的帽子矩阵可以得到在整个模型下的预测值。帽子矩阵可以用来计算残差,即实际观测值与模型预测值之间的差异

同时,帽子矩阵也可以用来评估模型的拟合优度,例如通过计算决定系数(R-squared)来衡量模型对数据的解释程度

在这里插入图片描述

研究人员表示由于LDM使用排列法评估显著性,在计算中没有考虑通常涉及自由度的乘法因子,并对通常的F-statisc加1。因此,LDM的检验统计量是在排除子模型k的模型中计算的残差平方和(RSS)与包含子模型k的模型中计算的RSS之比。

Fkj指所有分类群上特定于分类群的检验统计量的比值之和。总而言之,LDM使用残差来衡量子模型的效应,然后计算F-statisc来判断子模型是否对分类群产生显著影响,计算公式:

在这里插入图片描述


如何使用LDM结合稀疏的数据

在这里插入图片描述

其中B的元素根据Y是否大于0来确定,I是指示函数。然后使用上面的公式,将矩阵Y替换为矩阵B计算F-statisc

最后作者给出来两种方式来结合稀疏的数据,选择取平均值或比值,并通过对协变量进行排列来进行分类群水平和整个群落的检验。但是作者也表示选择平均值较为稳妥

使用模拟数据集测试LDM

模拟数据由50个病例和50个对照构成,根据上呼吸道微生物组(URT)的856个物种的相对丰度进行了模拟。

为了模拟在病例中存在而在对照中不存在的物种,从中均匀的选择了100个物种,并与病例-对照状态相关联。同时,单独选择了另外100个物种与混杂因子相关联,这是一个二元变量,在对照组与病例组中的分布为7:3。其中与病例-对照状态混杂因子相关联的物种可能会有重叠

在这里插入图片描述


不同LDM使用方式的性能

在模拟数据集中,作者比较了不同LDM使用方式的性能。

LDM-A作为基准,也是本篇文章的中心—一种扩展的LDM方法,它代表对所有稀释后的数据计算残差平方和(RSS)的平均值

LDM-F(R),指通过对R次稀释后的数据计算平均F-statisc,这里的R在文中等于1或5。

LDM-UR,指对未稀释的矩阵(方法中的矩阵B)进行分析。

LDM-L,指在未稀释的数据中将库大小调整为一个协变量,并在LDM中应用。比较的结果基于10000次模拟重复实验。显著性水平定义为0.05。

结果如上图所示,LDM-UR的性能随着病例和对照之间的文库大小差异增加而变差,而其他方法都可以控制文库大小差异带来的影响。其中LDM-L的成功可能是因为文库大小本质上是一个二元变量,如果不是这个数据类型,LDM-L在更复杂的情况下可能表现不佳。

接着作者将平均文库大小统一固定为10k、5k和1.5k、1k,在此基础上比较LDM-A、LDM-F(5)和LDM-L的性能。

结果如下图所示,纵坐标为Power的图表示在整个群落中的表现能力,其中LDM-A表现最出色

文中的Power指的是统计功效(statistical power)值,指在进行假设检验时,能够正确拒绝一个错误的零假设的概率。

纵坐标为sensitivity的图表示在分类群中,检验差异存在的敏感性,其中LDM-A具有最高的敏感性,相比之下,LDM-F(5)和LDM-L较低。

纵坐标为empirical FDR表示假阳性发现率,所有方法都在可接受范围内(<10%)。

在这里插入图片描述

编辑​

虽然LDM-UR方法在控制文库大小差异影响表现最差,但作者发现LDM-UR对未稀释的数据进行分析是有效的,并且可以期望达它达到最佳的功效,因为它使用了全部reads。

★ 使用适当的稀释深度,功效损失将很小

于是作者将LDM-A和LDM-UR进行了比较,给定两个稀释深度水平,即均值库大小的25%和10%(稀释深度也是数据中生成的最小库大小),观察当没有文库大小这类系统差异时,这两种LDM方法在不同稀释比例数据中的表现。

结果如下图所示,与分析完整数据的相比,稀释确实会导致功效损失,但随着均值库大小的增加,功效损失逐渐减小

在较高的稀释深度下,当均值库大小超过一定阈值时,LDM-A的功效与LDM-UR相当。因此,考虑到现代测序技术产生的大型文库的大小,只要使用适当的稀释深度,预计功效损失将很小

在这里插入图片描述

使用IBD数据集测试LDM

对来自RISK队列的数据子集进行了分析,该队列研究了新发炎性肠病(IBD)的儿童患者以及非IBD对照组。

作者选择了该数据子集中的来自直肠黏膜组织活检的数据。过滤掉了文库大小<10000的样本,相当于丢失了10%的样本。此外还过滤掉了在少于5个样本中存在的分类群。

最终留下267个样本的2565个分类群,共169个病例和98个对照。由于数据中男性比例存在不平衡(病例组为62%,对照组为44%),作者便将性别和抗生素使用作为需要控制的混杂因子,使用LDM检验直肠微生物组与IBD状态的存在-缺失关联。重点关注在群落水平上进行的关联分析,并检测对群落水平关联有显著贡献的个别分类群。


病例和对照组的文库大小分布

首先调查了所选数据中病例和对照组文库大小分布,结果如下图所示,发现文库大小分布确实存在系统差异(同模拟数据)。因此对所有样本的读取计数数据进行了稀释,将测序深度稀释到最小值10081。

作者在文中提到在补充数据中,对去除性别和抗生素使用影响后的数据利用Jaccard距离绘制排序图,分别进行了无稀释一次稀释的分析。

结果显示病例组与对照组在稀释前后都有明显的差异。且在没有稀释的情况下,两组差异更明显,这证实了文库大小的混杂效应

在这里插入图片描述

接着作者对数据集应用LDM-A和LDM-F(R)方法,其中稀释次数R在1到20之间变化。分析结果如下图。

在这里插入图片描述

最左的图展示了在群落水平上,直肠微生物组炎症性肠病状态存在-缺失关联分析的P值,这些P值表明,在群落水平上,炎症性肠病状态直肠微生物组之间存在非常强的存在-缺失关联

中间的图展示了在FDR为10%时,在病例和对照之间检测到差异的分类群数量,数据表明随着稀释次数从1增加到5,LDMF(R)检测到的分类群数量急剧增加,并在5次稀释后趋于稳定,这进一步证实数据至少需要进行5次稀释

最右的韦恩图展示了LDM-UR、LDM-F(20)和LDM-A检测到的唯一或共同存在的分类群数目,数据显示,LDM-F(20)和LDM-A检测到的分类群集合有很大的重叠,而LDM-UR检测到的分类群集合中有很多(94个)与其他任何集合都不重叠,作者认为这些可能是由于文库大小混杂导致的假阳性结果

编辑​

结论

作者在文中提出了两种有效的LDM扩展方法LDM-A和LDM-F(R),它们分别使用不同的F-statisc计算方法。

LDM-A将分子和分母的残差平方和分别进行平均,取比值。而LDM-F(R)则对R次稀释重复的F-statisc进行平均。

根据测试结果,作者建议使用LDM-A而不是LDM-F(R),因为它有以下优点:(i) 不需要选择稀释重复次数;(ii) 在功效以及对于检测个别分类群的敏感性方面比LDM-F(R)更强;(iii) 计算效率更高

注:作者已将该方法构建为R包,可使用’devtools::install_github("yijuanhu/LDM", build_vignettes=TRUE)’安装。

// Tips

在比这篇文章迟些发表的”A comprehensive evaluation of microbial differential abundance analysis methods: current status and potential solutions.”文章中提到,LDM方法虽然在统计方面有最好的功效,但在强成分效应存在的情况下,其对假阳性控制并不好

该文章对多种差异分析方法做了比较评估。虽然它引用的文章是”Testing hypotheses about the microbiome using the linear decomposition model (LDM).”,这时的LDM方法还未进行上述的扩展。但我们仍然推荐阅读,以提供不同的视角

参考文献:

Hu YJ, Lane A, Satten GA. A rarefaction-based extension of the LDM for testing presence-absence associations in the microbiome. Bioinformatics. 2021 Jul 19;37(12):1652-1657. 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/616919.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SAP OData(三)Query Option

Query option是指客户端在获取EntitySet的URL中后缀的一些指令,在第一篇第四小节我们已经见识了一部分Query指令。在下面表中列出了最重要的QueryOption。注意指令在URL中必须小写。 Operation Query Option Filtering and projecting $filter and $select Sort…

thinkphp6实现简单定时任务

thinkphp6实现定时任务 创建定时任务文件定义指令编写Test.php代码运行测试 创建定时任务文件 Test类名根据自己的需要修改 php think make:command Test testcommand文件夹在app目录下没有需要自己创建 运行上面的命令后会在command下 多一个Test.php文件 定义指令 在conf…

Java内存模型之原子性

文章目录 1.什么是原子性2.Java中的原子操作有哪些3.long和double的原子性4.原子操作 原子操作 ! 原子操作 1.什么是原子性 一系列的操作,要么全部执行成功,要么全部不执行,不会出现执行一半的情况,是不可分割的。 注意&#x…

探索SQL性能优化之道:实用技巧与最佳实践

SQL性能优化可能是每个数据库管理员和开发者在日常工作中必不可少的一个环节。在大数据时代,为确保数据库系统的响应速度和稳定性,掌握一些实用的SQL优化技巧至关重要。 本文将带着开发人员走进SQL性能优化的世界,深入剖析实用技巧和最佳实践…

深度学习笔记(四)——TF2构建基础网络常用函数+简单ML分类网络实现

文中程序以Tensorflow-2.6.0为例 部分概念包含笔者个人理解,如有遗漏或错误,欢迎评论或私信指正。 截图和程序部分引用自北京大学机器学习公开课 TF2基础常用函数 1、张量处理类 强制数据类型转换: a1 tf.constant([1,2,3], dtypetf.floa…

装机必看:电脑Bios里的CSM兼容模块是啥?打开有啥用?

前言 最近朋友装了一台新的电脑,用的i5-13490f的CPU。但是由于预算有限,手边只有一块GTX650ti,没办法,只好先这么用着了。 谁知道出现了个大问题:电脑开机居然没办法显示。 由于电脑所有的配件基本上都是全新的&…

随身WiFi选购要点!从此不再踩坑!高性价比高口碑随身wifi推荐,随身WiFi哪个牌子最好用

一、买随身WiFi注意事项 1.随身WiFi常见的芯片高通、马维尔和中兴微,其中高通芯片大部分都是报废手机拆下来的二手芯片,价格相对来说比较低,那种一二十块的随身WiFi,常用这种,优点便宜,缺点设备发烫&#…

视频转码:掌握mp4视频格式转FLV视频的技巧,视频批量剪辑方法

在多媒体时代,视频格式的转换成为一种常见的需求。把MP4格式转换为FLV格式,FLV格式的视频文件通常具有较小的文件大小,同时保持了较好的视频质量。批量剪辑视频的方法能大大提高工作效率。下面来看云炫AI智剪如何进行MP4到FLV的转码&#xff…

轻量化的yolov8部署到安卓Android手机端

一、pytorch环境配置和yolov8源码安装 首先在电脑上需要配置好pytorch环境,和yolov8源码的下载 然后针对yolov8做自己的轻量化改进 二、下载Android Studio和ncnn-android-yolov8 1. Android Studio官网链接: 下载 Android Studio 和应用工具 - And…

企业数据中台整体介绍及建设方案:文件全文51页,附下载

关键词:数据中台解决方案,数据治理,数据中台技术架构,数据中台建设内容,数据中台核心价值 一、什么是数据中台? 数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,…

面试算法119:最长连续序列

题目 输入一个无序的整数数组,请计算最长的连续数值序列的长度。例如,输入数组[10,5,9,2,4,3],则最长的连续数值序列是[2,3,4,5],因此…

2024年前端面试中JavaScript的30个高频面试题之中级知识

基础知识 高级知识 13. 什么是闭包?闭包的用例有哪些? 闭包是一个功能,它允许函数捕获定义该函数的环境(或保留对作用域中变量的访问)即使在该作用域已经关闭后。 我们可以说闭包是函数和词法环境的组合,其中定义了该函数。 换句话说,闭包为函数提供了访问自己的作用域、…

爬虫利器一览

前言 爬虫(英文:spider),可以理解为简单的机器人,如此一个“不为名利而活,只为数据而生,目标单纯,能量充沛,不怕日晒雨淋,不惧寒冬酷暑”的家伙,…

Casper Labs 与 IBM Consulting 合作,AI透明度、审计能力的新方案

​ “全新解决方案,旨在帮助企业更有效地管理训练数据,这些数据由不同的组织通过生成式人工智能系统产生” 企业区块链软件和服务提供商 Casper Labs 与 IBM Consulting 共同宣布,它们将联手推出新的解决方案,以帮助客户在其人工…

VSCode 搭建Java开发环境

笔者使用最多的语言是C,也使用过不少其它语言,像Erlang,Python,Lua,C#等等,目前项目中在使用Go,但是没使用过Java。最近看到C#夺冠,首次荣获 TIOBE 年度编程语言,同时也看…

拯救者y9000p安装linux、windows双系统。

首先需要准备启动盘 我用的是Win32DiskImager来做的。资源使用的是ubuntu-20.04.6-desktop-amd64.iso。别用低版本,失败很多次之后的教训。 磁盘管理-磁盘分区-右键-压缩卷 这边分区出来之后,不要分配。安装时候会自动分配的。 重启之后F2进去BIOS设置…

使用ArduinoMqttClient库连接阿里云,并实现发送接收数据(ESP8266)

文章目录 引言一、MQTT理论部分二、使用MQTT.fx接入物联网设备三、使用ESP8266连接阿里云四、参考例程 引言 阿里云物联网平台的接入方式有很多种,从阿里云提供的开发文档可以看到,支持的接入协议有MQTT、HTTPS、CoAP、JT/808、GB/32960协议等等&#x…

数据库悲观锁 select for update的详解

一 作用 1.1 结论 在mysql中,select ... for update 仅适用于InnoDB,且必须在事务块中才能生效。Innodb引擎默认是行锁。 Select .... from where .... for update 如果在where的查询条件字段使用了【主键|索引】,则此命令上行锁。否…

2024,传统鞋服的“高端梦”该醒了

文 | 螳螂观察 作者 | 图霖 “一千块都不要的波司登,宝贝们还不冲吗?” 入夜,一位身着羽绒服的美女主播在灯火通明的直播间正声嘶力竭地反复呐喊。 一群不知是托还是真实消费者的用户在评论区敲出自己的身高体重,想从主播那得…

【计算机组成原理】IEEE 754 标准定义的浮点数表示格式

IEEE 754 IEEE 754是一种由美国电气和电子工程师协会(IEEE)制定的标准,用于定义浮点数的表示和运算。这个标准定义了浮点数的格式、舍入规则、特殊值的处理以及算术操作的执行方式。 IEEE 754浮点数标准主要定义了两种浮点数格式&#xff1…