【基于R语言群体遗传学】-6-表型计算等位基因频率、最大似然估计方法

到目前为止,我们主要讨论了等位基因和基因型频率,以及我们如何可以从一个推断出另一个。但是,如果我们不知道等位基因频率,只知道种群中存在哪些表型呢?如果我们足够幸运,知道哪些表型对应哪些基因型,我们可以很容易地估计等位基因频率!

前面的内容可以先看我之前的博客内容:群体遗传学_tRNA做科研的博客-CSDN博客

从表型计算等位基因频率

让我们考虑不同的血型作为一个简单的例子。人类通常只能有四种主要的血型:A、B、AB和O。这些血型中的每一个都对应于带有等位基因a、b或i的某种基因型:我们通过下表看一下不同血型对应的基因型

血型ABOAB
基因型aa或者aibb或者bi只能是ii只能是ab

假设我们感兴趣的是找出a、b和i等位基因的比例。我们将使用先前确定的样本个体的血型(表型)(Nikolic等人,2010)我们样本中的表型比例可以通过将每种血型的数量除以个体总数(N)来找到:

AB <- 5
A <- 30
B <- 7
O <- 36
(N <- AB + A + B + O)
A/N
#[1] 0.3846154
B/N
#[1] 0.08974359
AB/N
#[1] 0.06410256
O/N
#[1] 0.4615385

所以,大约38%的样本具有A型血表型,约9%为B型血,仅约6%为AB型血,而大约46%为O型血。这似乎并没有告诉我们太多关于a、b和i等位基因本身的总体频率,但找到表型比例是一个很好的第一步。还记得基于哈代-温伯格比例的预期基因型计算吗?我们已经知道O型血只能有ii基因型,根据哈代-温伯格预测,我们期望ii基因型的数量应该是基础i等位基因频率的平方值(p²i)。因此,假设的i等位基因频率(pi)就是ii基因型总比例的平方根:

(Pi <- sqrt(O/N))

请注意,我们只是从关注O型血表型开始,虽然A型和B型血表型也包含一定比例的i等位基因作为ai和bi杂合子,但我们理论上预期的ii纯合子数量不会受到另外两个等位基因“隐藏”i等位基因作为杂合子这一事实的影响。

请记住,我们假设哈代-温伯格假设的所有条件都在起作用(例如,等位基因的完全随机关联),因此理论比例仍然成立。因此,现在至少我们知道在我们的样本中,i等位基因的预期等位基因频率约为68%。这为我们开始计算a和b等位基因的频率提供了一个起点。我们可以在这里建立同样的方程,看看我们如何得到基因型aa、ai(A型血表型)和ii(O型血表型)的所有个体的频率。 因此,如果我们想求解我们的血型等位基因频率的方程,我们再次假设它是由哈代-温伯格比例正确表示的,我们需要pa以及pi。我们通过计算A型和O型的所有情况的基因型频率进行计算推导:

可以推为:

并且因为我们知道这个值仅仅是样本中A型和O型血型的总比例,我们可以使用我们已经收集到的表型值来找到它。

这样我们就从表型数据中计算得到了a的等位基因频率,同样的方式,我们也可以得到b的等位基因频率:我们通过R语言进行计算

(Pa <- sqrt((A+O)/N)-Pi)
(Pb <- sqrt((B+O)/N)-Pi)

现在我们把三个基因频率进行加和:

Pa + Pb + Pi
#[1] 0.9829837

我们发现合起来是一个不足1的数,但是很接近1

问题在于,表型频率与真正的哈代-温伯格预测相比略有偏差,我们在解决等位基因频率时,没有充分考虑到这种“张力”,而是独立于整体逐步进行的。为了帮助说明,这里是我们基于等位基因频率估计得出的AB杂合子的预测数量。 在哈代-温伯格原理下,如果等位基因频率分别为p和q,则AB血型的预期频率应该是2pq。然而,如果实际观察到的AB血型频率与这个预期值有所偏差,这可能表明存在一些违反哈代-温伯格原理假设的条件,比如非随机交配、自然选择、基因漂变或突变等。 当我们分别独立地计算每个等位基因频率时,我们可能没有充分考虑这些因素对整体等位基因频率分布的影响。因此,尽管我们可以使用表型频率来估计等位基因频率,但如果这些频率不完全符合哈代-温伯格平衡的预期,我们的估计就可能不够准确。 为了更全面地考虑这些“张力”,我们可能需要采用更复杂的统计方法或模型,这些方法能够同时考虑所有等位基因和表型频率之间的关系,以及可能影响这些频率的其他遗传和进化因素。这样,我们才能更准确地理解和解释观察到的遗传变异,并在必要时调整我们的等位基因频率估计。

最大似然估计

N*2*Pa*Pb
#[1] 2.368042

然而,观察到的数量是这个值的两倍多。我们可以做得更好,编写一个算法来修改这些估计值,使其基于整个观察数据集的同时达到最大似然解。 在这种情况下,最大似然估计(MLE)是一种非常有用的方法。MLE的目标是找到一组参数值,使得在给定这些参数值的情况下,观察到当前数据集的概率最大化。在遗传学中,这意味着我们要找到一组等位基因频率,使得观察到的表型频率最有可能出现。 为了实现这一点,我们可以构建一个似然函数,该函数将观察到的表型频率与由特定等位基因频率预测的表型频率之间的差异作为输入。然后,我们可以使用优化算法(如梯度下降法)来调整等位基因频率,直到似然函数达到最大值。 这个过程通常涉及到以下几个步骤:

1. 根据观察到的表型频率初始化等位基因频率的估计值。

2. 构建似然函数,该函数衡量在给定当前等位基因频率估计值的情况下,观察到的表型频率出现的概率。

3. 使用优化算法(如梯度下降法)调整等位基因频率估计值,以最大化似然函数。

4. 重复步骤3,直到似然函数收敛到一个最大值,或者达到预定的迭代次数。

通过这种方式,我们可以得到一组更准确的等位基因频率估计值,这些估计值能够更好地反映整个数据集的信息,而不仅仅是单独的表型频率。这种方法有助于我们更准确地理解和解释遗传数据,特别是在表型频率不完全符合哈代-温伯格平衡预期的情况下,我们进行一个简单的例子,更为精准及复杂的例子看下面一节。

# 安装并加载必要的包
if (!requireNamespace("MASS", quietly = TRUE))install.packages("MASS")
library(MASS)# 定义似然函数
likelihood <- function(freqs, obs_freqs) {p_A <- freqs[1]^2 + 2 * freqs[1] * freqs[3]p_B <- freqs[2]^2 + 2 * freqs[2] * freqs[3]p_AB <- 2 * freqs[1] * freqs[2]p_O <- freqs[3]^2# 计算似然值like <- prod(dbinom(obs_freqs, rep(1, length(obs_freqs)), c(p_A, p_B, p_AB, p_O)))return(like)
}# 观察到的表型频率
obs_freqs <- c(0.38, 0.09, 0.06, 0.46)# 初始化等位基因频率估计值
initial_freqs <- c(0.3, 0.2, 0.5)# 使用优化算法寻找最大似然解
opt_freqs <- optim(par = initial_freqs, fn = likelihood, obs_freqs = obs_freqs, method = "BFGS")$par# 输出结果
print(opt_freqs)

期望值最大化算法(expectation maximization algorithm)

算法是一个大多数人熟悉但难以轻易定义的术语。这个词实际上来源于九世纪数学家Muh .ammad ibn Mūsā al-Khwārizmı(拉丁化的al-Khwārizmı被称为“Algorismus”)的名字,他也给我们带来了“代数”这个词(阿拉伯语中的al-jabr意味着“重新连接”或“完成”)。一个非常简单的定义是,算法就是一系列按特定顺序执行的操作。算法在大多数定量学科中非常标准,最近机器学习的算法类型已被应用于群体遗传学推断。机器学习最近在许多数据分析领域成为了一个热门话题,并经常被视为一种全新的方法。然而,许多传统使用的方法与机器学习的概念完全相同;也就是说,不断更新信息以得出更准确的结论。其中一种实现这一目标的方法被称为期望最大化(EM)算法。 之前,在我们的血型示例中,我们能够计算出在给定样本大小并假设我们处于哈代-温伯格平衡的情况下,我们会预期看到哪些基因型。

# 计算基因型频率 Paa
Paa <- A * (Pa^2 / (Pa^2 + 2 * Pa * Pi))
# 输出 Paa 的值
print(Paa)# 计算基因型频率 Pai
Pai <- A * (2 * Pa * Pi / (Pa^2 + 2 * Pa * Pi))
# 输出 Pai 的值
print(Pai)# 计算基因型频率 Pbb
Pbb <- B * (Pb^2 / (Pb^2 + 2 * Pb * Pi))
# 输出 Pbb 的值
print(Pbb)# 计算基因型频率 Pbi
Pbi <- B * (2 * Pb * Pi / (Pb^2 + 2 * Pb * Pi))
# 输出 Pbi 的值
print(Pbi)# 计算基因型频率 Pii,这里直接赋值为常数O
Pii <- O
# 输出 Pii 的值
print(Pii)# 计算基因型频率 Pab,这里直接赋值为常数AB
Pab <- AB
# 输出 Pab 的值
print(Pab)

现在我们可以通过哈代温伯格频率重新推算等位基因频率:

# 计算Pa的值
Pa <- ((2 * Paa) + Pai + Pab) / (2 * N)
Pa# 计算Pb的值
Pb <- ((2 * Pbb) + Pbi + Pab) / (2 * N)
Pb# 计算Pi的值
Pi <- ((2 * Pii) + Pai + Pbi) / (2 * N)
Pi

再通过我们重新计算的等位基因频率去反推基因型频率:
 

# 计算Paa的值
Paa <- A * (Pa^2 / (Pa^2 + 2 * Pa * Pi))
Paa# 计算Pai的值
Pai <- A * (2 * Pa * Pi / (Pa^2 + 2 * Pa * Pi))
Pai# 计算Pbb的值
Pbb <- B * (Pb^2 / (Pb^2 + 2 * Pb * Pi))
Pbb# 计算Pbi的值
Pbi <- B * (2 * Pb * Pi / (Pb^2 + 2 * Pb * Pi))
Pbi

然后我们可以一次又一次地重新估计等位基因频率,直到我们收敛到等位基因频率的最大似然值。

现在我们可以开始重新编写实际的函数来帮助我们进行最大似然估计。

# 清除工作空间
rm(list = ls())# 初始化变量
# AB: AB血型个体数量
# A: A血型个体数量
# B: B血型个体数量
# O: O血型个体数量
# N: 总个体数量
# Pi: O血型基因频率
# Pa: A血型基因频率
# Pb: B血型基因频率
# Pi0, Pa0, Pb0: 上一次迭代的基因频率
# counter: 迭代次数
AB <- 5
A <- 30
B <- 7
O <- 36
N <- AB + A + B + O
Pi <- sqrt(O / N)
Pa <- sqrt((A + O) / N) - Pi
Pb <- sqrt((B + O) / N) - Pi
Pi0 <- 0
Pa0 <- 0
Pb0 <- 0
counter <- 0# 定义EM函数
# 该函数使用期望最大化(EM)算法来估计基因频率
EM <- function(Pi, Pa, Pb){# 当基因频率的变化小于一定阈值时停止迭代while((round(Pi0, 12) != round(Pi, 12)) ||(round(Pa0, 12) != round(Pa, 12)) ||(round(Pb0, 12) != round(Pb, 12))){Pi0 <- PiPa0 <- PaPb0 <- Pb# 根据上一次迭代的基因频率计算新的基因频率Paa <- A * (Pa0^2 / (Pa0^2 + 2 * Pa0 * Pi0)) # A血型个体的AA基因型频率Pai <- A * (2 * Pa0 * Pi0 / (Pa0^2 + 2 * Pa0 * Pi0)) # A血型个体的AO基因型频率Pbb <- B * (Pb0^2 / (Pb0^2 + 2 * Pb0 * Pi0)) # B血型个体的BB基因型频率Pbi <- B * (2 * Pb0 * Pi0 / (Pb0^2 + 2 * Pb0 * Pi0)) # B血型个体的BO基因型频率Pii <- O # O血型个体的OO基因型频率Pab <- AB # AB血型个体的AB基因型频率# 更新基因频率Pa <- ((2 * Paa) + Pai + Pab) / (2 * N)Pb <- ((2 * Pbb) + Pbi + Pab) / (2 * N)Pi <- ((2 * Pii) + Pai + Pbi) / (2 * N)# 增加迭代次数counter <- counter + 1}# 返回最终的基因频率和迭代次数return(c(paste("Pi =", Pi, ", Pa =", Pa, ", Pb=", Pb, ", Number of loops =", counter)))
}# 调用EM函数
EM(Pi, Pa, Pb)
c(Pi, Pa, Pb) # Our initial estimates

 可以得到估计完后和为1。

即使我们有任意的起始等位基因频率,比如pi = pa = pb = 1/3,算法仍然应该快速收敛到这些相同的值。到目前为止,我们主要关注的是固定时间点的数据集,并且主要是将等位基因频率的样本与基于无限大的理论种群的预测进行比较。在下一篇博客中,我们将开始研究有限种群以及随时间变化的等位基因频率。

谢谢大家的点赞关注收藏!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/40957.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一键安装部署,在 Ubuntu 服务器上快速搭建基于 Ghost CMS的网站

我们在上一篇内容中讲过&#xff0c;如何使用 Helm 在 Kubernetes 集群上安装 WordPress&#xff0c;创建高可用性网站。而这次我们将基于另一个流行的内容管理系统 Ghost CMS 在 DigitalOcean 云主机进行建站。 Ghost 也是开源的内容管理系统&#xff08;CMS&#xff09;&…

C#知识|项目的实施过程及通用三级架构的搭建笔记

哈喽,你好啊,我是雷工! 01 项目需求分析 根据与需求方沟通,分析需求,一般都有需求分析师来进行项目需求收集与分析。 根据需求文档进行项目功能设计。 02 框架的选择 ①小项目可以根据需求选择两层或三层结构。 ②中型大型项目,至少需要三层架构和其他架构的组合。 03 框…

Spring学习03-[Spring容器核心技术IOC学习进阶]

IOC学习进阶 Order使用Order改变注入顺序实现Ordered接口&#xff0c;重写getOrder方法来改变自动注入顺序 DependsOn使用 Lazy全局设置-设置所有bean启动时候懒加载 Scopebean是单例的&#xff0c;会不会有线程安全问题 Order 可以改变自动注入的顺序 比如有个animal的接口&a…

NEMU模拟器的gdb调试和指令调试

NEMU模拟器的gdb调试和指令调试 1 通过gdb调试NEMU1.1 编译NEMU1.2 gdb调试 2 通过NEMU调试指令 关于如何编译NEMU&#xff0c;以及编译MySBIBenOS固件&#xff0c;运行等前置知识&#xff0c;可参考 《NEMU模拟器源码编译与使用》。 1 通过gdb调试NEMU 1.1 编译NEMU 当我使…

E2.【C语言】练习:static部分

#include <stdio.h> int sum(int a) {int c 0;static int b 3;c 1;b 2;return (a b c); } int main() {int i;int a 2;for (i 0; i < 5;i){printf("%d ", sum(a));} } 求执行结果 c是auto类变量(普通的局部变量)&#xff0c;自动产生&#xff0c…

Windows 11 操作无法完成(错误 0x00000709)。

这里写自定义目录标题 环境错误一错误二错误三重点 环境 共享端&#xff1a;Win11 专业版 23H2 本地端&#xff1a;Win11 专业版 23H2 错误一 操作无法完成(错误 0x00000709)。 再次检查打印机名称&#xff0c;并确保打印机已连接到网络。 解决&#xff1a; 组策略设置 打开…

sql查询 只取某字段重复数据中的一条

一. 前提条件 某表的主键由两个字段A、B构成&#xff08;或者更多&#xff09;&#xff0c;任何其中一个字段都可能具有重复的数据。 需要只取字段A所有重复数据中的一条构成查询结果&#xff0c;也就是字段A取到所有的可能取值且无重复。 二. 方法一&#xff08;where ... …

Appium环境搭建,华为nova8鸿蒙系统(包括环境安装,环境配置)(一)

1.安装代码工具包 appium python client pip install appium-python-client 2.安装JDK 参考链接: ant+jmeter+jenkins从0实现持续集成(Windows)-CSDN博客 3.下载并安卓SDK 下载地址:AndroidDevTools - Android开发工具 Android SDK下载 Android Studio下载 Gradle下载…

香橙派AIpro初体验:搭建无线随身NAS

文章目录 引言2. 香橙派 AIPro概述3. 开发准备3.0 烧录镜像3.1 需要准备的硬件3.2 需要准备的软件3.3 启动并连接香橙派 AIPro3.3.1 初始化启动香橙派 AIPro3.3.2 无线连接香橙派 AIPro3.3.3.3 VNC连接香橙派 AIPro 3.4 设置固定ip3.4.1 设置开机自动连接WIFI3.4.1 设置香橙派 …

松下Panasonic机器人维修故障原因

松下机器人伺服电机是许多工业自动化设备的关键组成部分。了解如何进行Panasonic工业机械臂电机维修&#xff0c;对于确保设备正常运行至关重要。 【松下焊接机器人维修案例】【松下机器人维修故障排查】 一、常见松下工业机械手伺服电机故障及原因 1. 过热&#xff1a;过热可…

【BUUCTF-PWN】6-jarvisoj_level0

64位&#xff0c;开启了NX保护 运行效果如下&#xff1a; main函数&#xff1a; vulnerable_function()函数 buf变量长度为128&#xff0c;但是read可以读入0x200长度的字符&#xff0c;存在栈溢出&#xff0c;需要覆盖的长度为0x808 寻找后门函数 这里可以直接用栈…

计算机的错误计算(二十一)

摘要 两个不相等数相减&#xff0c;差为0&#xff1a; ? 在计算机的错误计算&#xff08;十九&#xff09;中&#xff0c;高中生小明发现本应为0的算式结果不为0. 今天他又发现对本不为0的算式&#xff0c;计算机的输出为0. 在 Python 中计算 &#xff1a; 则输出为0. 若用 C…

Android-卷积神经网络(Convolutional Neural Network, CNN)

一个复杂且在Android开发中常见的算法是图像处理中的卷积神经网络(Convolutional Neural Network, CNN)。CNN被广泛用于图像识别、物体检测和图像分割等任务,其复杂性在于需要处理大量的图像数据、复杂的神经网络结构和高效的计算。 1. 卷积操作(Convolution) 数学原理:…

CSS学习(三大特性 盒子模型)

目录 Emmet语法 1.快速生成HTML结构语法 2.快速生成CSS样式语法 CSS的复合选择器 后代选择器 子选择器 并集选择器 伪类选择器 链接伪类选择器 focus伪类选择器 CSS的三大特性 层叠性 继承性 优先级 CSS盒子模型 组成 边框 边框 内边距 外边距 块级盒子水…

7_1_SVPWM概述

1、SPWM 正弦脉宽调制法&#xff08;SPWM&#xff09;是将每一正弦周期内的多个脉冲作自然或规则的宽度调制&#xff0c;使其依次调制出相当于正弦函数值的相位角和面积等效于正弦波的脉冲序列&#xff0c;形成等幅不等宽的正弦化电流输出。 通过调整占空比使等效电流近似为正弦…

classin视频下载提取为mp4教程

最近在上classin网课&#xff0c;无奈网课视频要过期了&#xff0c;所以想保存下来&#xff01; 下面介绍提取的教程 我们可以绕过最开始的握手&#xff0c;就是先播放了一段时间后&#xff0c;再打开抓包&#xff0c;回到Classin播放后&#xff0c;就可以获得网课链接了 直接打…

软考-系统架构设计师[九年]上岸感想

2016年就开始参系统架构设计师的考试了&#xff0c;经历七次考试终于成功上岸&#xff0c;分享下自己这么多次考试失败的经验&#xff0c;希望大家可以少踩坑&#xff0c;一次通过考试 重点 如果你不想继续读下去&#xff0c;看完这段就行。 1.一定要知道最新的考试范围&…

Java通过GeoLite2-City.mmdb 进行IP信息查询地理定位和经纬度筛选。

引入依赖 <dependency><groupId>com.maxmind.geoip2</groupId><artifactId>geoip2</artifactId><version>4.2.0</version> </dependency>下载数据文件&#xff1a;https://download.lin2ur.cn/GeoLite2/ package com.cqclo…

【spring MVC的执行流程】

SpringMVC可以说是Servlet的封装&#xff0c;屏蔽了Servlet的很多细节&#xff0c;比如Servlet再获取参数的时候需要不停地getParameter,现在只要在SpringMVC方法定义对应的JavaBean&#xff0c;只要属性和参数名一致&#xff0c;SpringMVC就可以帮我们实现将参数封装到JavaBea…

【Linux】目录和文件的权限意义

现在我们知道了Linux系统内文件的三种身份&#xff08;拥有者、用户组与其他人&#xff09;&#xff0c;知道每种身份都有三种权限&#xff08;rwx&#xff09;&#xff0c;也知道能够使用chown、chgrp、chmod修改这些权限与属性&#xff0c;当然&#xff0c;利用IS-l去查看文件…