基因组学系列3:基因分型Phasing与单倍型参考序列HRC

1. 基因分型Phasing概念

基因分型,也称为基因定相、单倍体分型、单倍体构建等,即将一个二倍体(或多倍体)基因组上的等位基因(或杂合位点)正确定位到父亲或母亲的染色体上,最终使得来自同一亲本的等位基因能排列在同一条染色体上

二代测序是将序列混在一起进行测序,通过比对到参考基因组,检测存在哪些变异以及变异的基因型(Genotype),但无法直接区分序列是母源还是父源,只有通过基因分型才能判断亲本来源。

2. 基因分型的方法

家系分型和LD分型常用的工具有BeagleShapeit,都包含了家系分型和LD分型模块。

2.1 家系分型

家系分型是目前构建单倍型最准确的方法,家系样本越多,分型效果越好,缺点就是需要家系Trio样本,对于无法获取家系样本时则无法完成分型,并对于父亲、母亲和子女都是杂合的位点无法进行分型(大约占总变异位点的1/5)。

2.2 LD分型

利用群体中大量无血缘关系的个体,根据LD(连锁不平衡)原理和数据模型,推断群体中每个个体的单倍型方法。通过人群频率大于5%的变异存在的LD block(Tajima’s D > 0.5)长度大多为50kbp-60kbp,block的长度在不同人种中不相同,非洲人由于更古老因此姐妹染色单体发生重组的次数会更多,LD block相比于其他人种长度更短。由于LD block的存在,因此可以利用数学模型(如HMM算法)反推出个体的单倍型。

LD分型精度受到群体的影响,对于人群频率大于5%的变异分型效果很好,但对于罕见变异和低频变异(<1%)的效果较差,因此很难获得个体完整的单倍型。

2.3 物理分型

一条reads/一对reads或克隆上存在的碱基必定来自同一条染色体,每个片段就是单倍体的局部,将局部连接为整体即可完成Phasing。物理分型不需要家系数据,无需借助LD关系,仅依赖自身的测序数据,就可以完成Phasing。物理分型依赖于reads上的杂合SNP位点作为区分标记,由于人类基因组杂合SNP之间的距离大约为1.5kpb,因此需要长序列的测序技术(三代PacBio、ONT和华大Long Fragment Read-LFR等)获取测序数据。

3. 遗传解读中的应用

在遗传解读时,需要获取基因突变位点的相位后,才能更好地判断突变是否会产生对应的表型。当一个等位基因的一个拷贝发生了变异(例如LOF,功能缺失或缺失等),由于存在另一个拷贝,基因表达可能不会受到影响,从而不具有表型,只有当两个拷贝都发生变异时,才影响基因的表达从而产生表型。

4. 人类单倍型参考序列Reference Consortium(HRC)

基因型推断(Imputation)

需要单倍型参考序列集作为基础数据,在全基因组关联分析GWAS中是必要的环节,参考基因序列的质量直接影响了后续基因型-表型关联分析的结果。

HRC是一个大型的人类单倍型参考序列,合并了多个项目的测序数据。全基因组SNP微阵列芯片获得样本基因型后,可使用该单倍型参考基因组进行基因型的推断(或称为填充)和定相,GWAS研究中运用较为常见。截止到2024年7月,HRC包含了64,976个人类单倍型和39,235,157个SNP。相比于1000G、UK10K数据库,采用HRC单倍型数据库基因型填充的准确率更高

准确率比较

目前提供网页版的免费的基因型推断和定相服务-Sanger Imputation,网址如下:
https://www.sanger.ac.uk/tool/sanger-imputation-service/

基因型推断的工具网站:
https://imputation.sanger.ac.uk/

sanger网站需要上传VCF或23andMe格式的GWAS数据,预定相可选择EAGLE2或SHAPEIT 2,基因型推断PBWT算法,参考panels可选择1000 Genomes Phase 3, UK10K和 the Haplotype Reference Consortium。

https://imputationserver.sph.umich.edu/

Imputation

HRC 只公开了部分数据提供下载,通过Request Access下载,链接如下:

https://ega-archive.org/datasets/EGAD00001002729

HRC DATA

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/41010.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

相亲交友APP系统婚恋交友社交软件开发语音视频聊天平台定制开发-婚恋相亲交友软件平台介绍——app小程序开发定制

互联网飞速发展的时代&#xff0c;相亲交友软件成为了许多年轻人首选的相亲方式&#xff0c;越来越多的单身男女希望在婚恋交友软件平台上寻找灵魂伴侣&#xff0c;相亲交友软件因此具有很高的市场价值。 多客婚恋相亲交友系统是一款定位高端&#xff0c;到手就能运营的成熟婚恋…

软件测评中心▏软件验收测试方法和测试内容简析

在当今数字化转型的浪潮下&#xff0c;软件验收测试变得越来越重要。软件验收测试&#xff0c;顾名思义&#xff0c;是对软件进行验收的过程中进行的一项测试。它用于确保软件在满足需求、达到预期效果后才能正式交付给客户使用。软件验收测试是一项全面、系统的测试过程&#…

sublime 3 背景和字体颜色修改

sublime 4 突然抽风&#xff0c;每次打开都显示 “plugin_host-3.3 has exited unexpectedly, some plugin functionality won’t be available until Sublime Text has been restarted” 一直没调好&#xff0c;所以我退回到sublime 3了。下载好了软件没问题&#xff0c;但是一…

半导体光电

《半导体光电》创刊于1976年&#xff0c;是由中国电子科技集团公司主管、重庆光电技术研究所&#xff08;中国电子科技集团公司第四十四研究所&#xff09;主办的中文科技期刊。本刊国内外公开发行&#xff0c;经过四十余年的发展已经成为我国光电子专业领域有代表性的刊物。 …

Zabbix 配置grafana对接

zabbix对接grafana简介 Zabbix与Grafana对接可以实现更加丰富和美观的数据可视化&#xff0c;可以让您利用Grafana强大的可视化功能来展示Zabbix收集的数据。 zabbix插件的两种安装方式 使用grafana-cli 命令进行安装在grafana管理页面中进入Administration/Plugins and dat…

2024.7.4学习日报

1、ppt前三章 5日计划 1、至少做到实验 2、java

css中文字书写方向

writing-mode 是 CSS 中的一个属性&#xff0c;用于设置文本、内联元素、表格单元格和表格列的书写方向、文本排列以及块流方向。以下是对 writing-mode 属性的详细介绍&#xff1a; 1. 语法和值 语法&#xff1a;writing-mode: horizontal-tb | vertical-rl | vertical-lr |…

在RT-Thread-Studio中添加arm_math库

1.在CMSIS\Lib\GCC中找到对应的库&#xff0c;如本文使用的libarm_cortexM4lf_math.a。将库拷贝到工程&#xff0c;并做如下图设置。搜索路径为库文件在项目中的实际位置。 2.将CMSIS\DSP\Include下的文件复制到工程目录中&#xff0c;并添加包含路径 3.添加宏定义&#xff0c…

Memcached缓存预热深度解析:加速应用性能的秘诀

Memcached缓存预热深度解析&#xff1a;加速应用性能的秘诀 在高性能计算环境中&#xff0c;Memcached作为一种广泛使用的分布式内存缓存系统&#xff0c;其缓存预热机制对于提升应用性能至关重要。缓存预热可以减少系统启动时的延迟&#xff0c;避免缓存未命中&#xff0c;从…

2806. 取整购买后的账户余额

2806. 取整购买后的账户余额 题目链接&#xff1a;2806. 取整购买后的账户余额 代码如下&#xff1a; class Solution { public:int accountBalanceAfterPurchase(int purchaseAmount) {return 100-(purchaseAmount5)/10*10;} };

QTreeWidget的简单使用

使用 QTreeWidget 实现复杂树控件功能的详细教程_treewidget 加控件-CSDN博客 #ifndef MAINWINDOW_H #define MAINWINDOW_H#include <QMainWindow> #include <QTreeWidget> namespace Ui { class MainWindow; }class MainWindow : public QMainWindow {Q_OBJECTpu…

阿里巴巴Arthas分析调优JVM实战及常量池详解

目录 一、阿里巴巴Arthas详解 Arthas使用场景 Arthas命令 Arthas使用 二、GC日志详解 如何分析GC日志 CMS G1 GC日志分析工具 三、JVM参数汇总查看命令 四、Class常量池与运行时常量池 字面量 符号引用 五、字符串常量池 字符串常量池的设计思想 三种字符串操作…

墨烯的语言技术栈-C语言基础-005

在VS的安装路径下有一个文件: newcfile.cpp的文件 在VS工程中创建新的.c或者.cpp文件的时候,都是拷贝newcfile.cpp这个文件的! everything工具中 有一个newcfile.cpp 然后打开文件路径在newcfile.cpp 添加#define _CRT_SECURE_NO_WARNINGS替换即可 五.变量的作用域(局部变量…

freemarker生成pdf,同时pdf插入页脚,以及数据量大时批量处理

最近公司有个需求&#xff0c;就是想根据一个模板生成一个pdf文档&#xff0c;当即我就想到了freemarker这个远古老东西&#xff0c;毕竟freemarker在模板渲染方面还是非常有优势的。 准备依赖&#xff1a; <dependency><groupId>org.springframework.boot</gr…

【IDEA】maven如何进行文件导入,配置并打包

一&#xff0c;介绍、安装 1、maven介绍 maven是一个Java世界中&#xff0c;构建工具。 核心功能&#xff1a; (1) 管理依赖&#xff1a; 管理文件运行的顺序逻辑依赖关系。对配置文件&#xff0c;进行构建和编译。其也是在调用jdk&#xff0c;来进行编译打包工作。 (2) 打…

JavaScript中的原型和原型链

一、原型&#xff1a;每个函数都有prototype属性&#xff0c;称之为原型&#xff0c;这个属性也是个对象所以也称之为原型对象。 1.原型可以放一些属性和方法&#xff0c;供实例对象使用。 <body><script>const arr new Array(1,3,5,7,6)document.getElementByI…

Go语言--延迟调用defer、获取命令行参数、局部变量以及全局变量

延迟调用defer 关键字 defer 用于延迟一个函数或者方法(或者当前所创建的匿名函数)的执行。注意&#xff0c;defer语句只能出现在函数或方法的内部。 defer 语句经常被用于处理成对的操作&#xff0c;如打开、关闭、连接、断开连接、加锁、释放锁。通过defer 机制&#xff0…

NASA——quarius(水瓶座) L3 网格化 1 度年土壤湿度,第 5 版

Aquarius L3 Gridded 1-Degree Annual Soil Moisture V005 水瓶座 L3 网格化 1 度年土壤湿度&#xff0c;第 5 版 简介 该数据集包含美国国家航空航天局&#xff08;NASA&#xff09;科学应用卫星&#xff08;SAC-D&#xff09;上的宝瓶座被动微波辐射计得出的第 3 级网格化…

SLAM 精度评估

SLAM 精度的评估有两个最重要的指标&#xff0c;即绝对轨迹误差&#xff08;ATE&#xff09;和相对位姿误差&#xff08;RPE&#xff09;的 均方根误差&#xff08;RMSE&#xff09;: 绝对轨迹误差:直接计算相机位姿的真实值与 SLAM 系统的估计值之间的差值&#xff0c;首先将…