如何认识泛基因组?从单一到多元?

近年来,随着多种动植物参考基因组的不断公布及同种不同个体植物基因组间的相互比较,人们逐渐认识到单一参考基因组不能代表物种内的多样性,在此基础上泛基因组概念应运而生。随着三代测序技术的发展,泛基因组的研究迎来了黄金发展期,以“Pan-genome”为关键词在PubMed上进行检索,近10年已有1544篇文献发表。

图1 近10年PubMed上已发表的泛基因组文章统计

本次,小编为大家分享一篇2023年发表的综述,该文献对泛基因组的起源发展、分析方法、重点关注研究内容以及真核生物泛基因组发展研究内容进行了概述,同时重点关注家畜泛基因组的分析,泛基因组结合长读长测序和多组学将有助于解决大片段SVs及其与驯化动物主要经济性状的关系,为动物驯化、进化和育种提供更好的见解。

Ps. 以下内容是小编从文献中筛选的部分结果,篇幅较长,大概需花费10分钟的阅读时间,如需阅读原文,可在文末找到原文下载链接。

图片

1、泛基因组的研究基础

测序技术的进步为真核生物泛基因组的研究提供了数据基础和技术支持(图1)。NGS测序极大地提高了单通量和高通量检测基因组变异的能力,然而,NGS由于短读长缺陷,对复杂基因组的检测能力较低。相比之下,以PacBio技术为代表的TGS在高通量基础上读长高达80 kb,极大地提高了基因组复杂区域和大SVs的检测和分析能力,但其应用目前受到其成本昂贵和缺乏生物信息学数据分析软件的限制。此外,合成长读长测序技术(SLR)被广泛应用于细胞测序,其测序成本和错误发生率均低于TGS。

随着这些测序技术的发展,动植物基因组相继被组装,越来越多的基因组达到了染色体组装水平,以家畜为例,如图2所示,组装得到的contig N50达到20Mb以上,最大值在92Mb以上,具有极高的基因组连续性和完整性。通过对大量数据的比较,已经鉴定出了一系列与主要经济价值性状相关的基因组变异和分子标记,相应的一些基因组以及基因组变异数据库应运而生,如山羊基因组数据库、牛基因组数据库以及GGVD、PigVar和BGVD等

图片

图2 测序技术的发展和特点

图片

图3 目前畜禽主要基因组的研究现状

2、泛基因组的概念起源

自从测序技术出现以来,已经产生了许多不同的细菌基因组。理论上,这些基因组中的一个或多个可以用来描述一个物种,但是需要多少个基因组才能完全描述一个细菌物种的问题还没有得到解决。2005年,Tettelin等人通过比较8种不同细菌菌株的基因组,探讨了这一问题,并首次提出了用泛基因组来定义特定细菌物种的概念。泛基因组包含一个核心基因组(存在于所有菌株中的基因)和一个非必要的基因组(在一个或多个菌株中缺失的基因和每个菌株特有的基因),同时包括大量共有序列、结构变异(SV)和小变异(SNP、InDel)的集合

结构变异(Structural variations,简称SVs)是遗传多样性的重要来源,对基因组的影响比起SNP更大,与许多表型变异和环境适应有关。其中,插入缺失变异(presence/absence variants,PAVs)是SV一种主要类型,过去由于短读长测序的限制,PAVs很难被高效挖掘和鉴定,是未被广泛挖掘的“隐藏”的基因组变异。

图片

图4 结构变异SV

3、泛基因组构建的四种经典方法

构建真核生物泛基因组的方法主要有4种,迭代组装(iterative mapping and assembly)、map-to-pan、从头组装(de novo assembly)、以及图形泛基因组(graph-based assembly)。这四种方法各有优缺点,具体可见表1。相比之下,前两种方法更适合于短读长数据集的分析,可以满足大规模基因组数据分析的需要。后两种方法在重要性状控制基因和SVs的精确定位方面具有明显的优势,因为它们更关注de novo基因组组装的数量和质量。图形化泛基因组近年来由于其能够精确地收集和呈现基因组中遗传变异的空间信息而越来越受到广泛应用。

表1 四种泛基因组构建方法的比较

图片

4、泛基因组研究的重点与应用

整体而来,泛基因组学主要有三个研究方面,具体可参见图3。

  • 首先,泛基因组最基本的研究重点是核心基因组和可变基因组的特征。包括评估泛基因组大小、核心基因组大小、核心和可变基因组结构,以及进行组成比较。

  • 其次,确定和鉴定基因分型变异的过程是另一个关键方面,如结合系统发育分析、全基因组关联研究(GWAS)和RNA-seq数据,识别特殊变异,定位重要的功能基因,并研究SVs对基因表达的影响。

  • 同时基于SV数据集,可以进一步探索染色体进化、群体基因组组织和物种驯化背后的遗传机制,加强对疾病、目标性状育种和功能生物学的研究。

  • 此外,泛基因组研究的一个关键组成部分是检查新发现的基因的生物学功能。泛基因组可以识别通常属于非核心基因组的非参考序列,并可能对生物体的丰度具有重要意义。因此,分析它们在个体间的分布及其所包含基因的功能,可以更好地了解物种对极端环境的适应能力。

图片

图5 概述了泛基因组学的构建方法、研究领域和应用

5、真核生物泛基因组发展

真核生物的泛基因组与原核生物的泛基因组有所不同,因为它们的基因组表现出很大的差异。大多数细菌基因组由大约1000bp的短蛋白质编码序列组成,而由于内含子和基因间区域的存在,真核生物的基因组至少比细菌基因组大10000倍。由于测序技术、成本和基因组复杂性等限制,真核泛基因组研究的开始时间晚于原核泛基因组。直到2009年,基于人类基因组计划和多重参考基因组组装的完成,泛基因组学才被应用于人类基因组学研究。动物和植物的泛基因组研究直到2013年才逐步开展(图6)。

图片

图6 真核生物泛基因组发展概述

5.1 人类泛基因组

对人类泛基因组学的研究是验证泛基因组能够有效挖掘个体特异性序列,从而扩大现有参考基因组范围的一个很好的例子。2009年,Li等人比较了亚洲人和非洲人的基因组,发现大约5Mb的特殊序列独立于人类参考基因组。这项研究首次提出了“人类泛基因组”(人类群体中所有DNA序列的非冗余集合)的概念。在对486名中国人的泛基因组分析中,鉴定出276Mb的新序列,平均包含46.646Mb的共同序列(至少由2个个体共享)。

图片

图7 人类泛基因组的研究综述

5.2 植物泛基因组研究

植物泛基因组的研究表明,泛基因组学以不同亲缘关系、区域和表型的材料为研究对象,可以全面探索不同类型的SVs,促进植物育种进程(图8)。植物泛基因组的概念在2007年发表的“转座因子和植物泛基因组”被提出。2014年,Li等人通过比较7个大豆基因组,发表了植物的第一个泛基因组。泛基因组与作物农艺性状的抗病、有利、选择压力以及gCNVs和PAVs等变异的关系已经在一些物种中进行了探索,这是植物泛基因组研究的一个重大进展,它将植物表型与大型大片段SVs(PAV-GWAS、CNV-GWAS和SV-GWAS)联系起来,打破了SNP-GWAS先前的局限性,加快了对作物重要性状的遗传基础的理解。

图片

图8 在过去四年中出现的植物泛基因组

5.3 动物泛基因组

针对动物泛基因组发表的文章数量远低于植物,主要与突变的产生和群体遗传过程有关。迄今为止,动物的泛基因组主要使用大规模的比较基因组来揭示动物基因组中的变异,或寻找与动物起源、进化和表型相关的特异性表达基因。

5.4 家畜泛基因组

由于其地理位置和畜禽驯化方式的特殊性,理想样本采集的差异性有所增加。因此,家畜动物泛基因组研究有所放缓。其中,猪是首个成为泛基因组学研究对象的物种。在现有的案例中,发现的新序列比例为1.3%至14.9%(图9),其中包含大量具有重要生物学功能的基因。这些基因的富集主要与各种物种的免疫反应有关,表明家畜可以通过这些基因提高抵抗力,更好地适应寒冷、高温等极端环境。此外,通过对不同WGS数据的验证,泛基因组参考模型具有更好的SV识别能力。从这个参考模型中识别出的许多SV与家畜或家禽的重要生物学表型以及驯化改良有关。基于泛基因组构建的SV集合和新的序列变异打破了长期以来使用snp和indels进行遗传检查的限制,为剖析世界畜禽品种遗传结构提供了另一种策略。

图9 畜禽泛基因组研究综述

6家畜泛基因组研究中的挑战

目前对畜禽的泛基因组研究主要集中在基因组的编码区,而且泛转录组研究也很缺乏,只对少数物种进行了研究。此外,ncRNA和线粒体DNA也是研究种群的历史进化、选择和遗传分化的重要资源。性染色体是如何进化的也是一个值得探索的问题。这些方面在目前的研究中尚未报道。未来的畜禽泛基因组研究可以包括非编码区DNA、RNA和线粒体DNA的研究。T2T等新的基因组技术将使探索畜禽性染色体的复杂结构成为可能,这将为其进化的理论范式带来新的认识。

图片

图10 未来畜禽泛基因组研究的模型概述。未来,家畜泛基因组研究应综合结合TGS和NGS数据

凌恩专注于高通量测序技术,提供多种类型的动植物基因组科研服务相关服务项目,包括动植物基因组de novo、全基因组重测序、简化基因组、全基因组关联分析(GWAS)、BSA、遗传图谱构建等,还可以提供基因组数据构建服务,让数据后期利用更加便利!

参考文献

A review of the pangenome: how it afects our understanding of genomic variation, selection and breeding in domestic animals? Journal of Animal Science and Biotechnology,2023.

How the pan-genome is changing crop genomics and improvement. Genome Biology, 2021.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/58046.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android Activity 启动模式

Standard 启动模式 页面跳转顺序 MainActivity -> StandardActivity -> StandardActivity -> StandardActivity 页面栈 示例图 任务栈中只存在MainActivity时 任务栈中存在MainActivity、StandardActivity MainActivity -> StandardActivity MainActivity…

使用freemarker实现在线展示文档功能开发,包括数据填充

首先,在这个独属于程序员节日的这一天,祝大家节日快乐【求职的能找到心仪的工作,已经工作的工资翻倍】。 ---------------------------------------------------------------回到正文-----------------------------------------------------…

合约门合同全生命周期管理系统:企业合同管理的数字化转型之道

合约门合同全生命周期管理系统:企业合同管理的数字化转型之道 1. 引言 在现代企业中,合同管理已经不再是简单的文件存储和审批流程,而是企业合规性、风险管理和业务流程的关键环节之一。随着企业规模的扩大和合同数量的增加,传统…

web3.0 开发实践

优质博文:IT-BLOG-CN 一、简介 Web3.0也称为去中心化网络,是对互联网未来演进的一种概念性描述。它代表着对现有互联网的下一代版本的设想和期望。Web3.0的目标是通过整合区块链技术、分布式系统和加密技术等新兴技术,构建一个更加去中心化…

双非本秋招成功入职小米软开

大家好,我是程序员阿药。最近有位同学说用了这个刷题工具,入职小米软开了,推荐给大家。 简介 微学时光是一款专为计算机专业学生和IT行业求职者设计的面试刷题小程序,它汇集了丰富的计算机面试题和知识点,旨在帮助用…

Linux CentOS7下创建SFTP服务器

本文详细介绍了在Linux CentOS上部署安全文件传输协议(SFTP)服务器的全过程。SFTP基于SSH(安全壳层协议)提供文件传输服务,继承了SSH的安全特性,如数据加密、完整性验证和服务器认证等,确保数据…

速来!未发表!DTW-Kmeans-Transformer-BiLSTM组合模型!时序聚类+状态识别!

速来!未发表!DTW-Kmeans-Transformer-BiLSTM组合模型!时序聚类状态识别! 目录 速来!未发表!DTW-Kmeans-Transformer-BiLSTM组合模型!时序聚类状态识别!效果一览基本介绍程序设计参考…

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-25

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-25 0. 前言 大语言模型在很多领域都有成功的应用,在本期计算机前沿技术进展研究介绍中,我们将带来一篇用大语言模型进行诺贝尔文学作品分析的论文。虽然有一定趁最近诺贝尔奖热潮的意味&…

【STM32 Blue Pill编程实例】-OLED显示HC-SR04超声波测距结果

OLED显示HC-SR04超声波测距结果 文章目录 OLED显示HC-SR04超声波测距结果1、HC-SR04超声波传感器介绍2、硬件准备及接线模块配置3.1 定时器配置3.2 OLED I2C接口配置3.3 HC-SR04引脚配置4、代码实现在本文中,我们将 HC-SR04 超声波传感器与 STM32 Blue Pill 开发板结合使用,并…

stm32单片机个人学习笔记12(DMA直接存储器存取)

前言 本篇文章属于stm32单片机(以下简称单片机)的学习笔记,来源于B站教学视频。下面是这位up主的视频链接。本文为个人学习笔记,只能做参考,细节方面建议观看视频,肯定受益匪浅。 STM32入门教程-2023版 细…

Java最全面试题->数据库/中间件->RocketMQ面试题

文章目录 RocketMQ多个MQ如何选型?RocketMQ组成部分有哪些?RocketMQ消费模式有几种?消息重复消费如何解决?RocketMQ如何保证消息的顺序消费?RocketMQ如何保证消息不丢失?RocketMQ如何实现分布式事务?RocketMQ的消息堆积如何处理?RocketMQ 下边是我自己整理的面试题,基…

FreeRTOS的事件组

实时嵌入式系统必须对事件做出响应。FreeRTOS允许将事件传递给任务。此类功能的示例包括信号量和队列,两者都具有以下属性: 它们允许任务在“阻塞”状态下等待单个事件发生。  当事件发生时,它们会取消阻塞单个任务——取消阻塞的任务是等待…

【论文阅读】Tabbed Out: Subverting the Android Custom Tab Security Model

论文链接:Tabbed Out: Subverting the Android Custom Tab Security Model | IEEE Conference Publication | IEEE Xplore 总览 “Tabbed Out: Subverting the Android Custom Tab Security Model” 由 Philipp Beer 等人撰写,发表于 2024 年 IEEE Symp…

Pulsar mq 设置延迟消息模式 pulsar mq 发送延迟消息 pulsar如何发送消费延时消息

1. 本文使用spring 提供的pulsarTemplate. 内部对于pulsar client 封装了一层 2.生产者为: String fingerprint UUID.randomUUID().toString();# 可修改TimeUnit 改为小时,天。 pulsarTemplate.newMessage(fingerprint).withTopic("dddd")…

闯关leetcode——222. Count Complete Tree Nodes

大纲 题目地址内容 解题代码地址 题目 地址 https://leetcode.com/problems/count-complete-tree-nodes/description/ 内容 Given the root of a complete binary tree, return the number of the nodes in the tree. According to Wikipedia, every level, except possibl…

设计模式基础概念(行为模式):责任链模式(Chain Of Responsibility)

概述 责任链模式是一种行为设计模式, 允许你将请求沿着处理者链进行发送。 收到请求后, 每个处理者均可对请求进行处理, 或将其传递给链上的下个处理者。 该模式建议你将这些处理者连成一条链。 链上的每个处理者都有一个成员变量来保存对于…

小小猫棒onu替换家用光猫,薅运营商带宽羊毛,突破1000M

小小猫棒onu 一、总体步骤 1 记录原来光猫信息 主要包括SN,ploam密码,loid、loid密码、 mac、上网的vlan id等 一般gpon采用SN、ploam密码、SNploam密码三种中的一种认证方式 一般Epon采用loid(逻辑id)、mac、loid mac三种中…

【Unity 实用工具篇】 | UGUI 循环列表 SuperScrollView,快速上手使用

前言 【Unity 实用工具篇】 | UGUI 循环列表 SuperScrollView,快速上手使用一、UGUI ScrollRect拓展插件:SuperScrollView1.1 介绍1.2 效果展示1.3 使用说明及下载 二、SuperScrollView 快速上手使用2.1 LoopListView22.2 LoopGridView2.3 LoopStaggered…

【Java并发编程】信号量Semaphore详解

一、简介 Semaphore(信号量):是用来控制同时访问特定资源的线程数量,它通过协调各个线程,以保证合理的使用公共资源。 Semaphore 一般用于流量的控制,特别是公共资源有限的应用场景。例如数据库的连接&am…

Spring Boot框架下租房管理系统的设计与实现

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统,它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等,非常…