【基于R语言群体遗传学】-16-中性检验Tajima‘s D及连锁不平衡 linkage disequilibrium (LD)

Tajima's D Test

已经开发了几种中性检验,用于识别模型假设的潜在偏差。在这里,我们将说明一种有影响力的中性检验,即Tajima's D(Tajima 1989)。Tajima's D通过比较数据集中的两个𝜃 = 4N𝜇估计值来工作。我们已经推导出了𝜃is,等于平均成对杂合性(average pairwise heterozygosity),当我们讨论共祖时(也称为Tajima的估计器)。当考虑DNA序列集合中的等位基因或SNP总数以及将它们联合到共同祖先的共祖树内包含的预期世代数时,可以得出另一种推导。这被称为Watterson的𝜃估计器或𝜃W(Yong 2019)。正如我们在共祖中所展示的,n个谱系的预期共祖时间是:

一组n个初始谱系到一个单一祖先的所有共祖时间的总和是:

在每次共祖事件之间的步骤中,有i + 1个谱系可能发生突变。因此,当考虑一段时间内所有谱系可能产生的等位基因数量时,我们乘以i + 1:

我们将树上所有谱系的总时间乘以每代突变率𝜇,得到我们期望在n个DNA序列样本中的等位基因总数,而4N是一个常数,所以我们可以将其放在求和之外

其中S是序列集合中SNP的数量。这可以重新排列以从SNP的数量估计𝜃W=4N𝜇:

请注意,Watterson的𝜃估计器需要了解一组谱系的共祖,但这是在1975年发表的,当时还没有发表超过两个谱系的共祖(Kingman 1982)。Tajima's D是平均成对杂合性𝜃估计值与从样本中SNP数量估计的𝜃之间的差异,除以该差异的预期方差的平方根:

而:

这看起来有点乱,但在各种位置反复出现两个不同的n求和,只需要计算一次然后填入。这可以用以下代码计算(平均成对差异和S也可以从数据集中计算,但为了简洁起见,我们在这里省略了)。 

Tajima's D是用来评估一个种群中中性突变(即没有自然选择影响的突变)的假设是否成立。它通过比较两个不同的估计器来衡量种群的遗传多样性和种群规模的变化,我们通过R语言实现:
 

# Calculates Tajima’s D# 平均成对差异,用于估计theta_IS
theta_IS <- 2.8# 数据集中的SNP数量
S <- 16# 采样的等位基因拷贝数
n <- 20# 初始化求和变量
i1_sum <- 0.0# 循环计算i1的和,这是Watterson's theta的一部分
for(i in 2:n-1){i1_sum <- i1_sum + 1/i
}# 计算Watterson's theta,它是基于序列多态性的一个种群规模的估计器
theta_W <- S / i1_sum# 初始化第二个求和变量
i2_sum <- 0.0# 循环计算i2的和,用于后续计算
for(i in 2:n-1){i2_sum <- i2_sum + 1/i^2
}# 计算期望值e1,它是Tajima's D公式中的项
e1 <- ((n+1)/(3*(n-1)) - 1/i1_sum) / i1_sum# 计算期望值e2,它也是Tajima's D公式中的项
e2 <- (2*(n^2+n+3)/(9*n*(n-1)) - (n+2)/(n*i1_sum) + i2_sum/i1_sum^2) / (i1_sum^2 + i2_sum)# 计算Tajima's D值,它衡量的是theta_IS和theta_W之间的标准化差异
(D <- (theta_IS - theta_W) / sqrt(e1*S + e2*S*(S-1)))

前三个变量将根据您的数据进行调整。在这个例子中,返回的D = -1.409。大于或小于2的D被认为是显著的;然而,实际的p值是通过模拟确定的。D的正值表示中间频率等位基因过多,这可能是由于人口减少或平衡选择,因为这两种情况都会延长人口历史较老部分的共祖事件时间。在更大的种群中,有更多的祖先可供选择,共祖是一种罕见的事件,并会膨胀𝜃IS,因为相对于𝜃W,较老的谱系在后代中以更高的频率共享。这种负D表示稀有频率等位基因过多(共祖的最近尖端被放大;它们对S和𝜃W的贡献比对平均成对差异的贡献更多,因为它们很稀有),这表明人口扩张、选择性清除或对有害等位基因的低效净化选择。关键是要计算多个位点的D值,并寻找异常值以标记假定选择候选者。人口统计学效应,如人口规模的变化,应该影响基因组中的所有位点,而选择(通常被认为)在其影响上是位点特异性的。还有许多其他的中性检验,如HKA检验(Hudson等人,1987)、McDonald-Kreitman检验(McDonald和Kreitman,1991)、Fay和Wu的H(Fay和Wu,2000)以及dN/dS比率(Yang和Bielawski,2000)。其中许多也利用了物种之间发生的遗传变化,它们都有各自的优点和缺点。

linkage disequilibrium (LD)

群体遗传学的一个独特性质,在进化博弈论等类似领域中并未发现,即不同位点甚至不同染色体上的等位基因可以“链接”(尽管并不总是与经典遗传学中的重组图谱同义),并且比随机预期更频繁地一起遗传。 连锁不平衡(LD)的程度由𝒟量化,不要与Tajima的D混淆。考虑两个位点:一个具有A/a多态性,另一个具有B/b多态性。我们对于跨位点一起遗传的等位基因之间的关联感到好奇。使用概率的乘法规则,我们期望AB单倍型(pAB)的频率是两个等位基因频率pApB的乘积,如果它们是独立遗传的话。这两者之间的差异由𝒟量化,作为连锁不平衡的一种度量。

根据AB单倍型是过量还是不足,𝒟可以是正数或负数(或者如果你从ab单倍型任意计算𝒟,符号会改变)。𝒟也可以从所有单倍型频率计算得出。

为了说明,假设我们有一个包含两个SNP的单倍型频率的小型数据集。一个是A/G多态性,另一个具有C/T等位基因:

让我们关注A-C单倍型。A等位基因的频率是0.57,C等位基因的频率是0.65

遗传漂变、种群结构和强选择是推动𝒟偏离零的力量。在大种群中,预测𝒟随时间呈指数衰减轨迹返回到零,就像在小种群中遗传漂变下的杂合性一样:

其中r是感兴趣的位点对之间预期的重组分数。这可以用来估计单倍型的年龄。最后,即使对于在不同染色体上独立分配的位点,𝒟也需要时间衰减。哈代-温伯格基因型可以在一代中恢复,但过去的事件对LD有持续影响,这可以用来推断更远的过去的过程,如种群中不再存在的种群结构。 当从实际数据集计算𝒟时,双重杂合子是不明确的。假设我们有一个个体的C/T,A/G SNP集合。C等位基因与第二个位置的A还是G等位基因相关联?通常我们不知道。但是,不明确的单倍型频率为我们提供了关于解决双重杂合子可能方式的信息。如果C-G单倍型非常常见,而C-A单倍型很少见,那么这表明C/T,A/G个体可能具有C-G/T-A单倍型。使用这种方法计算𝒟太繁琐,无法手工完成。 幸运的是,这正是EM算法发挥作用的地方。Kalinowski和Hedrick(2001)使用大角羊(Ovis canadensis)数据集(Boyce等人,1997)来估计LD。这个物种很罕见,样本量很小,所以我们需要从可用的数据中获得尽可能多的信息。 以下R代码实现了Kalinowski和Hedrick(2001)给出的方程式。它从猜测相等的单倍型频率和𝒟 = 0开始。然后它更新这个猜测,并迅速达到最大似然解𝒟 ≈0.0779和na-B单倍型频率基本为零。

# 定义各个复合基因型的频率
AABB <- 2  # 两个位点都是纯合子AABB的个体数量
AaBB <- 0  # 一个位点是杂合子,另一个是纯合子AaBB的个体数量
aaBB <- 0  # 一个位点是纯合子aa,另一个是纯合子BB的个体数量
AABb <- 0  # 第一个位点是纯合子AA,第二个位点是杂合子Bb的个体数量
AaBb <- 1  # 两个位点都是杂合子AaBb的个体数量(双杂合子)
aaBb <- 0  # 第一个位点是纯合子aa,第二个位点是杂合子Bb的个体数量
AAbb <- 1  # 第一个位点是纯合子AA,第二个位点是纯合子bb的个体数量
Aabb <- 0  # 第一个位点是杂合子Aa,第二个位点是纯合子bb的个体数量
aabb <- 0  # 两个位点都是纯合子aabb的个体数量# 使用上述输入运行函数‘Dcalc’
Dcalc(AABB, AaBB, aaBB, AABb, AaBb, aaBb, AAbb, Aabb, aabb)

𝒟与用于衡量线性相关性的统计相关系数(皮尔逊)“r”有关。让我们使用ℛ表示相关系数,以避免将其与重组分数r混淆。𝒟2除以所有等位基因频率的乘积等于ℛ^2。

此外,奇怪的是,如果我们将ℛ2乘以采样的染色体总数(如果我们观察n个二倍体个体,通常为2n),那么我们就会得到一个具有一个自由度的𝜒2统计量:

然而,这并不令人惊讶。在如此小的样本量下,即使LD非常强,检测偏差的能力也非常有限。最后,我们希望指出,EM算法是一种“爬山”算法,它找到一个局部最大似然峰值。可能存在其他峰值,可以使用MCMC方法来处理这个问题,并更全面地探索复杂的似然表面。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/43383.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

spark shuffle写操作——UnsafeShuffleWriter

PackedRecordPointer 使用long类型packedRecordPointer存储数据。 数据结构为&#xff1a;[24 bit partition number][13 bit memory page number][27 bit offset in page] LongArray LongArray不同于java中long数组。LongArray可以使用堆内内存也可以使用堆外内存。 Memor…

秋招突击——7/9——字节面经

文章目录 引言正文八股MySQL熟悉吗&#xff1f;讲一下MySQL索引的结构&#xff1f;追问&#xff1a;MySQL为什么要使用B树&#xff1f;在使用MySQL的时候&#xff0c;如何避免索引失效&#xff1f;讲一下MySQL的事物有哪几种特征&#xff1f;MySQL的原子性可以实现什么效果&…

【区块链+跨境服务】粤澳健康码跨境互认系统 | FISCO BCOS应用案例

2020 年突如其来的新冠肺炎疫情&#xff0c;让社会治理体系面临前所未见的考验&#xff0c;如何兼顾疫情防控与复工复产成为社会 各界共同努力的目标。区块链技术作为传递信任的新一代信息基础设施&#xff0c;善于在多方协同的场景中发挥所长&#xff0c;从 而为粤澳两地的疫情…

CSS关于居中的问题

文章目录 1. 行内和块级元素自身相对父控件居中1.1. 块级元素相对父控件居中1.2. 行内元素相对于父控件居中 2. 实现单行文字垂直居中3. 子绝父相实现子元素的水平垂直居中3.1. 方案一3.1.1. 示例 3.2. 方案二3.2.1. 示例 3.3. 方案三(推荐)3.3.1. 示例 3.4. 方案四(了解一下) …

AI大模型知识点大梳理_ai大模型的精度以下哪项描述的准确

AI大模型是什么 AI大模型是指具有巨大参数量的深度学习模型&#xff0c;通常**包含数十亿甚至数万亿个参数。**这些模型可以通过学习大量的数据来提高预测能力&#xff0c;从而在自然语言处理、计算机视觉、自主驾驶等领域取得重要突破。 AI大模型的定义具体可以根据参数规模…

短信验证码研究:公开的短信验证码接口、不需要注册的短信验证码接口

短信验证码研究&#xff1a;公开的短信验证码接口、不需要注册的短信验证码接口 0 说明 本文提供了一个短信验证码接口&#xff0c;主要用于以下场景&#xff1a; 1、用于开发调试 2、用于申请验证码困难的企业和个人 3、用于短信验证码认证还没有通过&#xff0c;但是着急…

DBeaver操作MySQL无法同时执行多条语句的解决方法

DBeaver选择数据库连接&#xff0c;在【驱动属性】中将allowMultiQueries允许执行多条语句置为True

泰迪智能科技大数据实验室产品-实训管理平台介绍

高校大数据实验室通常配备有先进的计算机硬件和软件工具&#xff0c;以及专门的数据库和分析平台&#xff0c;以便研究人员和学生能够进行复杂的数据处理、分析和解释。主要利用大数据技术进行科学研究、技术开发和人才培养。 泰迪智能科技实训管理平台作为教学核心&#xff0c…

JS进阶-构造函数

学习目标&#xff1a; 掌握构造函数 学习内容&#xff1a; 构造函数 构造函数&#xff1a; 封装是面向对象思想中比较重要的一部分&#xff0c;js面向对象可以通过构造函数实现的封装。 同样的将变量和函数组合到了一起并能通过this实现数据的共享&#xff0c;所不同的是借助…

小程序需要进行软件测试吗?小程序测试有哪些测试内容?

在如今移动互联网快速发展的时代&#xff0c;小程序已成为人们生活中不可或缺的一部分。然而&#xff0c;面对日益增长的小程序数量和用户需求&#xff0c;小程序的稳定性和质量问题日益突显。因此&#xff0c;对小程序进行软件测试显得尤为重要。 近期的一项调查显示&#xf…

【架构】分布式与微服务架构解析

分布式与微服务架构解析 一、分布式1、什么是分布式架构2、为什么需要分布式架构3、分布式架构有哪些优势&#xff1f;4、分布式架构有什么劣势&#xff1f;5、分布式架构有哪些关键技术&#xff1f;6、基于分布式架构如何提高其高性能&#xff1f;7、如何基于架构提高系统的稳…

【工具】咸鱼小助手,一款咸鱼之王辅助工具

转载请注明出处&#xff1a;小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你&#xff0c;欢迎[点赞、收藏、关注]哦~ Github&#xff1a;咸鱼之王的自动化脚本&#xff0c;自动答题、爬塔、领资源等 下载&#xff1a;(密码:9u22) 咸鱼小助手 文档&#xff1a;腾讯文档 视…

软考《信息系统运行管理员》-3.2信息系统设施运维的环境管理

3.2信息系统设施运维的环境管理 1 计算机机房的选址要求 电子计算机机房地理位置 选择水源充足&#xff0c;电子比较稳定可靠&#xff0c;交通通信方便&#xff0c;自然环境清洁的地点要远离产生粉尘、油烟、有害气体以及生产或存储具有腐蚀性、易燃、易爆物品的工厂、仓库、…

3d模型选不中任何东西是什么原因?---模大狮模型网

在进行3D模型设计过程中&#xff0c;有时会遇到无法选择模型中的任何元素的问题。这种情况可能会影响设计师的工作效率和体验&#xff0c;因此了解问题的原因以及如何解决是至关重要的。本文将探讨在3D建模中遇到无法选中模型元素的原因及解决方法。 一、问题原因分析 无法选中…

07浅谈大语言模型可调节参数tempreture

浅谈temperature 什么是temperature&#xff1f; temperature是大预言模型生成文本时常用的两个重要参数。它的作用体现在控制模型输出的确定性和多样性&#xff1a; 控制确定性&#xff1a; temperature参数可以控制模型生成文本的确定性&#xff0c;大部分模型中temperatur…

医疗器械网络安全 | 漏洞扫描、渗透测试没有发现问题,是否说明我的设备是安全的?

尽管漏洞扫描、模糊测试和渗透测试在评估系统安全性方面是非常重要和有效的工具&#xff0c;但即使这些测试没有发现任何问题&#xff0c;也不能完全保证您的医疗器械是绝对安全的。这是因为安全性的评估是一个多维度、复杂且持续的过程&#xff0c;涉及多个方面和因素。以下是…

数模打怪(一)之层次分析法

一、什么是层次分析法 层次分析法&#xff08;AHP&#xff09;主要用于解决评价类问题&#xff08;可打分&#xff09; 比如哪种方案更好、哪位运动员更优秀等 二、层次分析法的三个步骤 1、建立层次结构 分析题目&#xff0c;找出评价类问题的三要素&#xff1a; &#x…

android13 设置左右分屏修改为单屏幕,应用分屏改为单屏

1.前言 android13中,系统设置变成,左边是一级菜单,右侧是二级菜单, 这样跟我们以前android7/8/9的布局是不一样的,我们需要将它修改为一级菜单,点进去才是二级菜单这种。 效果如下 2.系统设置实现分析 它这里使用的是google新出的embedding activity, 相关的知识这里…

从重庆元宇宙国风秀看未来元宇宙发展趋势

2024年2月24日&#xff0c;为纪念梅兰芳先生诞辰130周年&#xff0c;以“新国风东方美”为主题的【承华灵境】元宇宙国风秀在重庆市人民大礼堂发布。这场活动将中国经典艺术与数字化技术融合&#xff0c;呈现了一场新国风东方美学的跨越时空人文科技之旅&#xff0c;其中的重点…

最后纪元Last Epoch可以通过什么搬砖 游戏搬砖教程

来喽来喽&#xff0c;最后纪元&#xff0c;一款《最后纪元》是一款以获得战利品为基础的暗黑风格动作RPG游戏&#xff0c;玩家将从2281年的毁灭时代追溯到由女神Eterra创造的世界&#xff0c;通过多个时代与黑暗的命运对抗&#xff0c;找到拯救世界的方式。游戏有五种职业&…