论文阅读(八):结构方程模型用于研究数量遗传学中的因果表型网络

1.论文链接:Structural Equation Models for Studying Causal Phenotype Networks in Quantitative Genetics

摘要:

表型性状可能在它们之间发挥因果作用。例如,农业物种的高产可能会增加某些疾病的易感性,相反,疾病的发生率可能会对产量产生负面影响。同样,转录组可能是植物和动物的生殖状态或发育阶段的函数,这也可能取决于其他生理变量。描述这种相互关系的表型网络的知识可用于预测复杂系统的行为,例如,疾病、生长和繁殖等复杂性状的生物学途径。本章综述了结构方程模型及相关技术在数量遗传学中表型性状间因果关系研究中的应用。它讨论了遗传因素如何混淆因果关系的搜索,以及如何系谱和基因组信息可以用来控制这种混淆效应,并帮助因果推理。

关键词:结构方程模型,数量遗传学,因果表型

表型性状可能在它们之间发挥因果作用。例如,农业物种的高产可能会增加某些疾病的易感性,相反,疾病的发生率可能会对产量产生负面影响。同样,转录组可能是植物和动物的生殖状态或发育阶段的函数,这也可能取决于其他生理变量。描述这种相互关系的表型网络的知识可用于预测复杂系统的行为,例如,疾病、生长和繁殖等复杂性状的生物学途径。本章回顾了结构方程模型(SEM)和相关技术在数量遗传学中研究表型性状间因果关系的应用。它还讨论了遗传因素如何混淆因果关系的搜索,以及如何使用系谱和基因组信息来控制这种混淆效应并帮助因果推理。

8.1介绍

表型性状可能在它们之间发挥因果作用。例如,农业物种的高产可能会增加某些疾病的易感性,相反,疾病的发生率可能会对产量产生负面影响。同样,转录组可能是植物和动物的生殖状态或发育阶段的函数,这也可能取决于其他生理变量。描述这种相互关系的表型网络的知识允许预测复杂系统的行为,与疾病、生长和繁殖相关的复杂性状的生物学途径。

结构方程模型(SEM)可用于研究多变量系统(如遗传基因组学、系统生物学和数量遗传学中的多性状模型)中表型之间的递归和同步关系。因此,SEM可以对性状之间的关系做出与传统多性状模型不同的解释,其中所有关系都由随机变量之间的对称线性关联(例如协方差和相关性)表示。

本章综述了扫描电镜和相关技术在多表型研究中的应用。此外,它还讨论了如何利用DNA多态性和谱系信息来辅助因果推理,通过利用孟德尔随机化的概念,并通过解释混淆的遗传效应。本章的组织结构如下。在第8.2节中,回顾了数量遗传学中常用的用于研究多性状的经典线性混合效应模型。接下来,在第8.3节中,混合模型被扩展以适应使用结构方程模型的表型性状之间的函数关系。在第8.4节中,提出了一种通用的数据驱动方法来搜索表型因果关系,在第8.5节中,讨论了如何利用基因组信息来帮助因果推断,以及如何使用系谱或分子标记数据来减轻与多效多基因效应相关的混淆效应。最后,提供了一个带有结论性意见的最后部分。

8.2数量遗传学中的经典线性混合效应模型

混合模型为数据分析提供了一种灵活的工具,其中响应围绕具有随机偏离的一些平均值进行聚类,使得同一聚类中的观测之间存在自然的依赖性,例如,家庭成员的遗传学研究。在数量遗传学中,特别是在动物和植物育种应用中,混合模型通常用于估计环境效应,遗传参数和与相关个体测量的表型性状相关的方差分量。它们在这一领域的受欢迎程度来自于它们处理复杂谱系、不平等家庭规模、世代重叠、性别限制性状、选择性交配和自然或阿尔蒂社会选择的灵活性[29,15]。在本节中,我们将简要回顾混合模型,并讨论它们在动物(和植物)育种中的一些应用。

8.3混合效应结构方程模型

8.4表型因果关系的数据驱动搜索

8.4.1总体概述

正如[12],[52]和[46]所指出的,混合效应SEM在数量遗传学中的应用并不像经典的MTAM那样简单。使用前一种模型意味着至少要应对两个额外的挑战:(1)模型参数的可识别性,以及(2)因果结构的选择。

如前所述,MTAMs被认为是饱和模型,这意味着它们有足够的色散参数来完美地消除任何联合分布。混合效应SEM的一个特征是它潜在地呈现了也与MTAM有关的每一个离散参数,但是为了表示表型之间的因果关联的大小,增加了更多的参数,这是协变的额外来源。这一特性导致模型过度识别,因此根据SEM的参数加载情况,它们的估计量可能无法从似然函数中识别。出于这个原因,模型限制对于SEM是必要的。这可以通过不同的方式来实现,从贝叶斯分析中使用适当的先验分布的参数收缩到模型中涉及的变量之间的一些条件独立性的假设[12,48]。

如果有任何利益的因果解释的SEM被tetted,那么所应用的限制必须反映先验的因果知识/假设。如前所述,最常见的参数限制是将SEM的残差协方差矩阵视为对角线,这对于设置非循环SEM是一个足够的限制。图8.3说明了图8.2所示结构的这种限制。幸运的是,这种限制反映了一些方法所采用的因果假设,这些方法解决了在数量遗传学中实施SEM的第二个挑战:寻找因果结构。接下来提供对问题和执行该搜索的方法的理论基础的概括描述。

如前所述,SEM是在因果结构上有条件地呈现的,因此建立一个表达变量之间因果关系的模型需要选择这样的结构中的先验结构。这种选择可能是复杂的,因为结构的空间通常太大,即使在研究几个性状时也不允许进行详尽的比较。此外,随着研究的性状数量的增加,其数量也会爆炸性地增长[42]。在随后的混合效应SEM的应用中[12],这种选择通常是基于先验知识/信念做出的,这可能被认为是对可能结构集的次优探索。尽管如此,已经开发了一些算法,以允许基于多变量样本和一组因果关系假设的因果关系理论[31,44]进行这种探索。在这里,我们专注于寻找非循环因果结构。接下来定义了一些术语来支持所涉及的概念的表达。

在Pearl [31]之后,具有非循环因果结构和独立残差的SEM等因果模型被称为马尔可夫模型。因果马尔可夫条件指出,马尔可夫因果模型诱导满足马尔可夫相容性的分布,这保证了因果结构和联合分布之间的连接,允许对结构进行数据驱动的搜索。这样的条件意味着假设不存在因果地影响分析变量集合中的两个或更多个变量的变量,这些变量不在集合中,即,因果关系假设[44]。这些概念是必要的,以保证因果结构中的每一个d-分离都被认为是抽样分布中稳定的条件独立性。因果关系假设通常被认为是一个强有力的假设,但这同样适用于具有独立残差的SEM,这是SEM应用的流行模型限制。此外,在大多数这些应用中,假设已知的因果结构,如果使用搜索算法,则情况并非如此。

搜索算法的其他典型假设是忠实性(由于参数值的不可能组合而不存在不稳定的条件独立性),整个人群的同质因果结构和正确的统计决策[44]。

8.4.2搜索算法

8.5遗传学应用中的因果结构推断

8.5.1作为工具变量的基因型信息

IC算法和上面讨论的相关方法适用于许多不同的背景下,以进一步我们对变量之间的函数关系和因果关系的理解。特别是在遗传学的背景下,这样的算法和方法也可以贝内于分子生物学知识,即信息(以及因果效应)从基因到表型的流动。此外,正如托马斯和孔蒂[45]所指出的,分离天然存在的等位基因变体的遗传随机化实验群体可以为推断变量之间的因果关系网络提供基础,如遗传位点(或基因),生理表型和疾病状态。特别是,在减数分裂期间发生的等位基因的随机化(通常称为孟德尔随机化)提供了类似于随机化实验设计的设置[36]。

在这种背景下,许多作者利用孟德尔随机化的概念来探索表型性状之间的因果关系。例如,[38]提出了一种方法来推断因果路径,涉及三个变量:特定基因的表达,特定基因座上的遗传多态性和复杂性状(例如,疾病特征)。考虑了三种可能的结构,它们被称为因果模型、反应模型和独立模型。提出了一种基于似然性的因果模型选择方法,该方法使用条件相关测量来确定数据最支持的三个变量之间的关系。然而,他们的程序仅限于简单的基因表型网络与三个节点,集中在识别基因的cathet-reactive间隔。

Schadt方法的扩展[38]由Li等人提出。[26],他提出了一种SEM方法来分析多位点,多性状遗传数据,以及它们之间的不同潜在因果关系。他们的方法包括五个步骤,从一系列数量性状基因座(QTL)基因组扫描开始,对每个个体表型进行边缘扫描,然后是使用一个性状作为协变量进行的条件基因组扫描。无条件扫描和有条件扫描结果之间的比较可以首次洞察表型之间的因果关系。第三步是指构建初始路径模型及其相应的SEM表示。在路径模型构建之后,通过比较预测和观察到的协方差矩阵以及对单个路径系数进行显著性检验来评估它们的优度。最后,通过提出和评估替代模型来执行额外的步骤来重新构建模型,这些替代模型是通过在初始模型中添加或删除边缘或通过反转边缘的因果方向来生成的。

Chaibub Neto等人[1]也使用QTL信息定位连接表型的边缘,提出了一种包括两个主要步骤的方法。首先,使用无向依赖图[42]或从Spirtes等人的PC算法导出的骨架构建关联网络。[44]。其次,使用对数比值比(LOD)得分检验来确定连接一对表型,条件QTL的表型。作者使用模拟研究评估了他们的方法的性能,表明它可以恢复网络边缘并以高速率正确推断其因果方向。

Chaibub Neto等人[1]提出的方法依赖于有关影响感兴趣表型性状的QTL的可靠信息的可用性。然而,如Chaibub Neto等人[2]所讨论的,传统的QTL定位方法基于单性状分析,其中没有考虑表型之间的网络结构。这种单性状分析可以检测直接影响每个表型的QTL,以及具有间接效应的QTL(相对于所分析的性状集),其直接影响所分析的特定表型上游的表型。因此,传统的QTL作图方法忽略了表型网络,导致表型的遗传结构估计不佳,这可能会妨碍关于表型之间因果关系的正确推断。

鉴于传统QTL分析和表型网络重建方法的这一缺点,Chaibub等人[2]提出了一种同时推断因果表型网络及其相关遗传结构的方法。他们的方法是基于联合建模表型和QTL使用齐次条件高斯回归模型和模型等效性的图形标准。利用减数分裂过程中等位基因随机化的概念和基因型与表型的单向关系来推断具有表型因果效应的QTL。伴随着,表型之间的因果关系推断探索QTL节点,这可能使得有可能区分表型网络,否则将分布等效。

8.5.2多基因混杂效应的解释

在前一节中讨论的表型网络重建方法依赖于关于影响表型的QTL的信息,或者依赖于遗传标记信息的可用性,用于关于表型网络和遗传结构的联合推断。然后,QTL被用作推定网络上的亲本节点,促进对网络其余部分的推断,例如建立表型性状之间的因果关系。

然而,即使遗传标记信息不可用,SEM相关技术仍然可以用于数量遗传学研究表型性状之间的功能关系。如第8.3节所述,混合效应模型设置中的SEM适应通常应用于数量遗传学[12],此后许多研究不同物种和表型性状的研究人员都应用了SEM。然而,在这样的应用中,因果结构被假定为先验已知的(例如,[7,20]),或者仅比较使用一些现有知识选择的几个推定结构(例如,[3、4、48、51])。尽管如此,可以认为,即使没有关于QTL的信息,也可以使用数据驱动的算法来推断(至少部分地)表型性状之间的因果关系,该算法搜索因果结构,如第8.4节所示。

这方面的一个困难,正如Valente等人所指出的。[46],在混合效应SEM中(如Gianola和Sorensen [12]所提出的),观察到的性状之间的关联不仅可以通过它们之间的因果联系来解释,而且可以通过遗传原因来解释,即使残差被假设为独立的。因此,考虑独立残差不足以保证因果结构与表型联合分布之间的联系。在这种情况下考虑的未观察到的相关遗传效应可能会混淆因果结构搜索,如果一个人试图执行它的基础上的联合分布的表型。

8.6总结

虽然SEM可以被解释为一个因果模型,因此它可以用来表达表型性状之间的因果关系,但SEM的因果结构可能无法正确反映模型性状之间的实际因果关系。此外,通过研究观测数据,推断因果结构是一项比仅仅通过建立多变量模型来描述数据的联合分布要困难得多的任务。在这种情况下,只有当人们愿意接受因果假设时,应用IC算法和相关技术才可以被认为是因果结构推断。如果假设被认为是太强,这样的算法仍然可以应用于探索空间的因果结构的SEM构造与对角残差协方差矩阵。尽管如此,后者的应用仍然可能产生有趣和有用的结果。一些因果学习并不需要所有上述假设。以Valente等人[47]获得的图8.4所示的结构为例。即使人们不愿意假设因果关系,也可以根据因果马尔可夫条件并通过确认有关35天体重的时间序列信息,第一个鸡蛋的年龄和鸡蛋产量的因果影响。此外,这些方法的应用程序是有用的因果关系的假设为随后的研究和调查的发电机。然后,可以使用其他研究中收集的额外数据来支持或驳回这些假设,或者可以通过受控干预进行实验测试。然而,在许多情况下,由于逻辑或伦理约束,随机实验是不可行的,因此观察数据是关于所研究系统的唯一可用信息。在这种情况下,SEM和因果搜索工具,如IC算法是方便的。

特别是在遗传学和基因组学研究中,因果推理受到孟德尔随机化概念的帮助[45],其中等位基因变体在减数分裂期间随机分配给合子,并最终从父母传递到O spring,类似于随机实验设计。将SEM相关方法应用于多性状QTL分析和基因定位,不仅通过打破不同因果结构之间的统计等效性来改善对表型之间因果关系的推断,而且还提高了检测能力和估计精度,并具有区分QTL对每个性状的直接和间接遗传效应的额外优势[2]。此外,在遗传学研究中,可以使用例如基因敲除或敲低技术来最终测试推定的致病突变。除了DNA多态性信息和关于基因或QTL的知识可以用作表型网络重建中的亲本节点之外,转录组、代谢组和蛋白质组等多层大规模组学数据的联合分析当然可以提供额外的信息并增强推断因果表型关系的能力,尽管它也带来了另一个统计、计算、数据挖掘的挑战[22]此外,结构和功能数据,如基因序列、基因定位、转录结合位点、基因本体(GO)和代谢途径等,也可用于验证和测试推定的基因和表型网络[22]。这些数据也可以用作先验信息来帮助网络推理,与它已经用于其他组学应用(如微阵列数据)的方式相同[37]。

SEM还应用于系谱信息可用但QTL或任何基因组信息不可用的情况[12]。如前所述,这种建模方法允许对性状之间的关系进行不同的解释,相对于传统上用于动物育种的标准多性状模型。在经典模型中,所有的关系都被认为是性状之间的对称线性关联。在大多数混合效应SEM的应用中,先验信念被用作指定因果结构的基础,或者用于选择使用传统模型选择技术进行比较的几个结构。或者,可以在混合模型和定量遗传学的背景下对递归因果结构进行更广泛的数据驱动搜索[46]。为了控制遗传效应,这是在这种情况下寻找非循环因果结构所必需的,[46,47]应用了经典的单因素加性遗传模型,该模型涉及从谱系信息构建的关系矩阵A。通过使用高密度分子标记数据(例如,SNP基因型)。在这种情况下,可以采用遗传价值预测方法,例如贝叶斯回归技术[11]或核方法[5]。

总之,SEM应用程序提供了额外的见解,并可能提出更丰富的表达的关系相比,标准模型的多个性状。它允许对多个性状上的多个基因座的多效和异质遗传效应进行特异性表征,以及表型之间的因果关系,可用于预测复杂系统的行为,例如,疾病特征背后的生物学途径。更具体地说,对于畜牧业应用,关于数量性状遗传分析中表型网络的知识可能会改善外部干预的预测,这可能会导致更有效的育种计划,并有助于涉及农场管理和兽医实践的决策。

参考文献

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/67487.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode | 不同路径

一个机器人位于一个 m x n 网格的左上角 (起始点在下图中标记为 “Start” )。 机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角(在下图中标记为 “Finish” )。 问总共有多少条不同的路径? 示例 1…

C++的类Class

文章目录 一、C的struct和C的类的区别二、关于OOP三、举例:一个商品类CGoods四、构造函数和析构函数1、定义一个顺序栈2、用构造和析构代替s.init(5);和s.release();3、在不同内存区域构造对象4、深拷贝和浅拷贝5、构造函数和深拷贝的简单应用6、构造函数的初始化列…

Excel 技巧21 - Excel中整理美化数据实例,Ctrl+T 超级表格(★★★)

本文讲Excel中如何整理美化数据的实例,以及CtrlT 超级表格的常用功能。 目录 1,Excel中整理美化数据 1-1,设置间隔行颜色 1-2,给总销量列设置数据条 1-3,根据总销量设置排序 1-4,加一个销售趋势列 2&…

Leetcode 131 分割回文串(纯DFS)

131. 分割回文串https://leetcode.cn/problems/palindrome-partitioning/https://leetcode.cn/problems/palindrome-partitioning/ 给你一个字符串 s,请你将 s 分割成一些子串,使每个子串都是 回文串 。返回 s 所有可能的分割方案。 示例 1&#xff1a…

关于安卓greendao打包时报错问题修复

背景 项目在使用greendao的时候,debug安装没有问题,一到打包签名就报了。 环境 win10 jdk17 gradle8 项目依赖情况 博主的greendao是一个独立的module项目,项目目前只适配了java,不支持Kotlin。然后被外部集成。greendao版本…

一文讲解Java中的BIO、NIO、AIO之间的区别

BIO、NIO、AIO是Java中常见的三种IO模型 BIO:采用阻塞式I/O模型,线程在执行I/O操作时被阻塞,无法处理其他任务,适用于连接数比较少的场景;NIO:采用非阻塞 I/O 模型,线程在等待 I/O 时可执行其…

分布式系统架构怎么搭建?

分布式系统架构 互联网企业的业务飞速发展,促使系统架构不断变化。总体来说,系统架构大致经历了单体应用架构—垂直应用架构—分布式架构—SOA架构—微服务架构的演变,很多互联网企业的系统架构已经向服务化网格(Service Mesh&am…

数据库备份、主从、集群等配置

数据库备份、主从、集群等配置 1 MySQL1.1 docker安装MySQL1.2 主从复制1.2.1 主节点配置1.2.2 从节点配置1.2.3 创建用于主从同步的用户1.2.4 开启主从同步1.2.4 主从同步验证 1.3 主从切换1.3.1 主节点设置只读(在192.168.1.151上操作)1.3.2 检查主从数…

代码随想录_栈与队列

栈与队列 232.用栈实现队列 232. 用栈实现队列 使用栈实现队列的下列操作: push(x) – 将一个元素放入队列的尾部。 pop() – 从队列首部移除元素。 peek() – 返回队列首部的元素。 empty() – 返回队列是否为空。 思路: 定义两个栈: 入队栈, 出队栈, 控制出入…

AJAX综合案例——图书管理

黑马程序员视频地址: AJAX-Day02-10.案例_图书管理AJAX-Day02-10.案例_图书管理_总结_V1.0是黑马程序员前端AJAX入门到实战全套教程,包含学前端框架必会的(ajaxnode.jswebpackgit),一套全覆盖的第25集视频&#xff0c…

【编译原理实验二】——自动机实验:NFA转DFA并最小化

本篇适用于ZZU的编译原理课程实验二——自动机实验:NFA转DFA并最小化,包含了实验代码和实验报告的内容,读者可根据需要参考完成自己的程序设计。 如果是ZZU的学弟学妹看到这篇,那么恭喜你,你来对地方啦! 如…

【redis进阶】分布式锁

目录 一、什么是分布式锁 二、分布式锁的基础实现 三、引入过期时间 四、引入校验 id 五、引入lua 六、引入 watch dog (看门狗) 七、引入 Redlock 算法 八、其他功能 redis学习🥳 一、什么是分布式锁 在一个分布式的系统中,也会涉及到多个节点访问同一…

Blazor-@bind

数据绑定 带有 value属性的标记都可以使用bind 绑定&#xff0c;<div>、<span>等非输入标记&#xff0c;无法使用bind 指令的&#xff0c;默认绑定了 onchange 事件&#xff0c;onchange 事件是指在输入框中输入内容之后&#xff0c;当失去焦点时执行。 page &qu…

洛谷P3383 【模板】线性筛素数

题目链接&#xff1a;P3383 【模板】线性筛素数 - 洛谷 | 计算机科学教育新生态 题目难度&#xff1a;普及一 题目分析&#xff1a;本题是模板题&#xff0c;用到了线性筛法&#xff0c;其中原理是保证范围内的每个合数都被删掉&#xff08;在 bool 数组里面标记为非素数…

STM32标准库移植RT-Thread nano

STM32标准库移植RT-Thread Nano 哔哩哔哩教程链接&#xff1a;STM32F1标准库移植RT_Thread Nano 移植前的准备 stm32标准库的裸机代码&#xff08;最好带有点灯和串口&#xff09;RT-Thread Nano Pack自己的开发板 移植前的说明 本人是在读学生&#xff0c;正在学习阶段&a…

JVM--类加载器

概念 类加载器&#xff1a;只参与加载过程中的字节码获取并加载到内存中的部分&#xff1b;java虚拟机提供给应用程序去实现获取类和接口字节码数据的一种技术&#xff0c;也就是说java虚拟机是允许程序员写代码去获取字节码信息 类加载是加载的第一步&#xff0c;主要有以下三…

ECMAScript 6语法

1.ES6简介 ECMAScript 6&#xff08;简称ES6&#xff09;是于2015年6月正式发布的JavaScript语言的标准&#xff0c;正式名为ECMAScript 2015&#xff08;ES2015&#xff09;。它的目标是使得JavaScript语言可以用来编写复杂的大型应用程序&#xff0c;成为企业级开发语言 。 …

联想Y7000+RTX4060+i7+Ubuntu22.04运行DeepSeek开源多模态大模型Janus-Pro-1B+本地部署

直接上手搓了&#xff1a; conda create -n myenv python3.10 -ygit clone https://github.com/deepseek-ai/Janus.gitcd Januspip install -e .pip install webencodings beautifulsoup4 tinycss2pip install -e .[gradio]pip install pexpect>4.3python demo/app_januspr…

FastAPI + GraphQL + SQLAlchemy 实现博客系统

本文将详细介绍如何使用 FastAPI、GraphQL&#xff08;Strawberry&#xff09;和 SQLAlchemy 实现一个带有认证功能的博客系统。 技术栈 FastAPI&#xff1a;高性能的 Python Web 框架Strawberry&#xff1a;Python GraphQL 库SQLAlchemy&#xff1a;Python ORM 框架JWT&…

微服务入门(go)

微服务入门&#xff08;go&#xff09; 和单体服务对比&#xff1a;里面的服务仅仅用于某个特定的业务 一、领域驱动设计&#xff08;DDD&#xff09; 基本概念 领域和子域 领域&#xff1a;有范围的界限&#xff08;边界&#xff09; 子域&#xff1a;划分的小范围 核心域…