基因组学系列3:基因分型Phasing与单倍型参考序列HRC

1. 基因分型Phasing概念

基因分型,也称为基因定相、单倍体分型、单倍体构建等,即将一个二倍体(或多倍体)基因组上的等位基因(或杂合位点)正确定位到父亲或母亲的染色体上,最终使得来自同一亲本的等位基因能排列在同一条染色体上

二代测序是将序列混在一起进行测序,通过比对到参考基因组,检测存在哪些变异以及变异的基因型(Genotype),但无法直接区分序列是母源还是父源,只有通过基因分型才能判断亲本来源。

2. 基因分型的方法

家系分型和LD分型常用的工具有BeagleShapeit,都包含了家系分型和LD分型模块。

2.1 家系分型

家系分型是目前构建单倍型最准确的方法,家系样本越多,分型效果越好,缺点就是需要家系Trio样本,对于无法获取家系样本时则无法完成分型,并对于父亲、母亲和子女都是杂合的位点无法进行分型(大约占总变异位点的1/5)。

2.2 LD分型

利用群体中大量无血缘关系的个体,根据LD(连锁不平衡)原理和数据模型,推断群体中每个个体的单倍型方法。通过人群频率大于5%的变异存在的LD block(Tajima’s D > 0.5)长度大多为50kbp-60kbp,block的长度在不同人种中不相同,非洲人由于更古老因此姐妹染色单体发生重组的次数会更多,LD block相比于其他人种长度更短。由于LD block的存在,因此可以利用数学模型(如HMM算法)反推出个体的单倍型。

LD分型精度受到群体的影响,对于人群频率大于5%的变异分型效果很好,但对于罕见变异和低频变异(<1%)的效果较差,因此很难获得个体完整的单倍型。

2.3 物理分型

一条reads/一对reads或克隆上存在的碱基必定来自同一条染色体,每个片段就是单倍体的局部,将局部连接为整体即可完成Phasing。物理分型不需要家系数据,无需借助LD关系,仅依赖自身的测序数据,就可以完成Phasing。物理分型依赖于reads上的杂合SNP位点作为区分标记,由于人类基因组杂合SNP之间的距离大约为1.5kpb,因此需要长序列的测序技术(三代PacBio、ONT和华大Long Fragment Read-LFR等)获取测序数据。

3. 遗传解读中的应用

在遗传解读时,需要获取基因突变位点的相位后,才能更好地判断突变是否会产生对应的表型。当一个等位基因的一个拷贝发生了变异(例如LOF,功能缺失或缺失等),由于存在另一个拷贝,基因表达可能不会受到影响,从而不具有表型,只有当两个拷贝都发生变异时,才影响基因的表达从而产生表型。

4. 人类单倍型参考序列Reference Consortium(HRC)

基因型推断(Imputation)

需要单倍型参考序列集作为基础数据,在全基因组关联分析GWAS中是必要的环节,参考基因序列的质量直接影响了后续基因型-表型关联分析的结果。

HRC是一个大型的人类单倍型参考序列,合并了多个项目的测序数据。全基因组SNP微阵列芯片获得样本基因型后,可使用该单倍型参考基因组进行基因型的推断(或称为填充)和定相,GWAS研究中运用较为常见。截止到2024年7月,HRC包含了64,976个人类单倍型和39,235,157个SNP。相比于1000G、UK10K数据库,采用HRC单倍型数据库基因型填充的准确率更高

准确率比较

目前提供网页版的免费的基因型推断和定相服务-Sanger Imputation,网址如下:
https://www.sanger.ac.uk/tool/sanger-imputation-service/

基因型推断的工具网站:
https://imputation.sanger.ac.uk/

sanger网站需要上传VCF或23andMe格式的GWAS数据,预定相可选择EAGLE2或SHAPEIT 2,基因型推断PBWT算法,参考panels可选择1000 Genomes Phase 3, UK10K和 the Haplotype Reference Consortium。

https://imputationserver.sph.umich.edu/

Imputation

HRC 只公开了部分数据提供下载,通过Request Access下载,链接如下:

https://ega-archive.org/datasets/EGAD00001002729

HRC DATA

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/41010.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

相亲交友APP系统婚恋交友社交软件开发语音视频聊天平台定制开发-婚恋相亲交友软件平台介绍——app小程序开发定制

互联网飞速发展的时代&#xff0c;相亲交友软件成为了许多年轻人首选的相亲方式&#xff0c;越来越多的单身男女希望在婚恋交友软件平台上寻找灵魂伴侣&#xff0c;相亲交友软件因此具有很高的市场价值。 多客婚恋相亲交友系统是一款定位高端&#xff0c;到手就能运营的成熟婚恋…

软件测评中心▏软件验收测试方法和测试内容简析

在当今数字化转型的浪潮下&#xff0c;软件验收测试变得越来越重要。软件验收测试&#xff0c;顾名思义&#xff0c;是对软件进行验收的过程中进行的一项测试。它用于确保软件在满足需求、达到预期效果后才能正式交付给客户使用。软件验收测试是一项全面、系统的测试过程&#…

sublime 3 背景和字体颜色修改

sublime 4 突然抽风&#xff0c;每次打开都显示 “plugin_host-3.3 has exited unexpectedly, some plugin functionality won’t be available until Sublime Text has been restarted” 一直没调好&#xff0c;所以我退回到sublime 3了。下载好了软件没问题&#xff0c;但是一…

Zabbix 配置grafana对接

zabbix对接grafana简介 Zabbix与Grafana对接可以实现更加丰富和美观的数据可视化&#xff0c;可以让您利用Grafana强大的可视化功能来展示Zabbix收集的数据。 zabbix插件的两种安装方式 使用grafana-cli 命令进行安装在grafana管理页面中进入Administration/Plugins and dat…

在RT-Thread-Studio中添加arm_math库

1.在CMSIS\Lib\GCC中找到对应的库&#xff0c;如本文使用的libarm_cortexM4lf_math.a。将库拷贝到工程&#xff0c;并做如下图设置。搜索路径为库文件在项目中的实际位置。 2.将CMSIS\DSP\Include下的文件复制到工程目录中&#xff0c;并添加包含路径 3.添加宏定义&#xff0c…

QTreeWidget的简单使用

使用 QTreeWidget 实现复杂树控件功能的详细教程_treewidget 加控件-CSDN博客 #ifndef MAINWINDOW_H #define MAINWINDOW_H#include <QMainWindow> #include <QTreeWidget> namespace Ui { class MainWindow; }class MainWindow : public QMainWindow {Q_OBJECTpu…

阿里巴巴Arthas分析调优JVM实战及常量池详解

目录 一、阿里巴巴Arthas详解 Arthas使用场景 Arthas命令 Arthas使用 二、GC日志详解 如何分析GC日志 CMS G1 GC日志分析工具 三、JVM参数汇总查看命令 四、Class常量池与运行时常量池 字面量 符号引用 五、字符串常量池 字符串常量池的设计思想 三种字符串操作…

freemarker生成pdf,同时pdf插入页脚,以及数据量大时批量处理

最近公司有个需求&#xff0c;就是想根据一个模板生成一个pdf文档&#xff0c;当即我就想到了freemarker这个远古老东西&#xff0c;毕竟freemarker在模板渲染方面还是非常有优势的。 准备依赖&#xff1a; <dependency><groupId>org.springframework.boot</gr…

【IDEA】maven如何进行文件导入,配置并打包

一&#xff0c;介绍、安装 1、maven介绍 maven是一个Java世界中&#xff0c;构建工具。 核心功能&#xff1a; (1) 管理依赖&#xff1a; 管理文件运行的顺序逻辑依赖关系。对配置文件&#xff0c;进行构建和编译。其也是在调用jdk&#xff0c;来进行编译打包工作。 (2) 打…

JavaScript中的原型和原型链

一、原型&#xff1a;每个函数都有prototype属性&#xff0c;称之为原型&#xff0c;这个属性也是个对象所以也称之为原型对象。 1.原型可以放一些属性和方法&#xff0c;供实例对象使用。 <body><script>const arr new Array(1,3,5,7,6)document.getElementByI…

Go语言--延迟调用defer、获取命令行参数、局部变量以及全局变量

延迟调用defer 关键字 defer 用于延迟一个函数或者方法(或者当前所创建的匿名函数)的执行。注意&#xff0c;defer语句只能出现在函数或方法的内部。 defer 语句经常被用于处理成对的操作&#xff0c;如打开、关闭、连接、断开连接、加锁、释放锁。通过defer 机制&#xff0…

NASA——quarius(水瓶座) L3 网格化 1 度年土壤湿度,第 5 版

Aquarius L3 Gridded 1-Degree Annual Soil Moisture V005 水瓶座 L3 网格化 1 度年土壤湿度&#xff0c;第 5 版 简介 该数据集包含美国国家航空航天局&#xff08;NASA&#xff09;科学应用卫星&#xff08;SAC-D&#xff09;上的宝瓶座被动微波辐射计得出的第 3 级网格化…

SLAM 精度评估

SLAM 精度的评估有两个最重要的指标&#xff0c;即绝对轨迹误差&#xff08;ATE&#xff09;和相对位姿误差&#xff08;RPE&#xff09;的 均方根误差&#xff08;RMSE&#xff09;: 绝对轨迹误差:直接计算相机位姿的真实值与 SLAM 系统的估计值之间的差值&#xff0c;首先将…

交换机基本原理

文章目录 前言一、交换机的转发行为二、交换机的转发原理1.MAC地址表2.交换机初始状态3.学习MAC地址4.ARP协议5.交换机转发数据帧6.目标主机回复 三、华为交换机基本命令1.VRP视图分层2.命令行补全3.命令行帮助4.配置设备名称5.命令等级6.用户界面7.配置console认证8.配置用户界…

python-Django项目:图书后台管理系统

具体操作&#xff1a;请参考 Django项目&#xff1a;图书后台管理系统

运维锅总详解计算机缓存

本文从OSI模型中的每一层缓存介绍、常见开源中间件缓存举例、TCP/IP协议栈中的缓存机制、操作系统中的缓存、访问缓存数据的时间范围统计等方面对计算机中的缓存进行详细介绍。希望对您有所帮助&#xff01; 一、OSI模型中的每一层缓存 1. 物理层&#xff08;Physical Layer&…

自动化立体仓库出入库能力及堆垛机节拍

导语 大家好&#xff0c;我是社长&#xff0c;老K。专注分享智能制造和智能仓储物流等内容。 新书《智能物流系统构成与技术实践》人俱乐部 完整版文件和更多学习资料&#xff0c;请球友到知识星球【智能仓储物流技术研习社】自行下载 自动化立体仓库的出入库能力、堆垛机节拍以…

掌握电路交换与分组交换:计算机网络的核心技术

计算机网络是现代信息社会的基石&#xff0c;而交换技术是实现网络通信的核心。本文将详细介绍两种典型的交换方式&#xff1a;电路交换和分组交换&#xff0c;帮助基础小白快速掌握这两种技术的基本概念和区别。 什么是电路交换&#xff1f; 电路交换&#xff08;Circuit Swi…