Telomere-to-telomere reference genome for Panax ginseng highlights the evolution of saponin biosynthesis
人参的端粒到端粒参考基因组揭示皂苷生物合成的进化
摘要
人参(Panax ginseng)是中药的代表性植物之一,并在全球范围内广泛使用,其中三萜皂苷——人参皂苷是最重要的有效成分。人参是一个异源四倍体,具有复杂的遗传背景,这使得其代谢进化的研究颇具挑战性。在本研究中,我们组装了一个端粒到端粒的人参参考基因组,总大小为3.45 Gb,包含24条染色体和77,266个蛋白编码基因。此外,该参考基因组被划分为两个亚基因组,分别命名为亚基因组A和亚基因组B。亚基因组A包含更多的基因,而亚基因组B具有普遍的表达优势,这表明人参的亚基因组经历了不对称的基因丢失和偏向性的基因表达。两个亚基因组约在607万年前分化,亚基因组B与越南五加(Panax vietnamensis var. fuscidiscus)表现出最近的亲缘关系。比较基因组学揭示了与人参皂苷生物合成相关的基因家族在两个亚基因组中均有扩增。此外,串联重复和近端重复在皂苷生物合成中起到了关键作用。我们还筛选了先前研究中鉴定的功能基因,发现这些基因中的一些位于亚基因组间共线区域内,但具有不同的功能,揭示了人参亚基因组和皂苷生物合成途径的不平衡进化。我们的研究为未来人参的遗传研究、育种计划以及人参皂苷的生物合成提供了重要的资源。
引言
人参(Panax ginseng)是最重要的药用植物之一,主要生长于包括中国、韩国、俄罗斯和日本在内的东北亚地区,同时少量种植于北美 [1]。据古代中医经典《神农本草经》记载,人参的多年生根作为传统药材已有数千年的使用历史,同时也被用作功能性食品和饮料,具有增强体力和免疫功能的作用 [2]。在人参的漫长历史中,长期以来主要通过野外采集获取,而栽培始于约500年前,自那时起人参育种和品种的形成逐渐展开 [3, 4]。由于人参生长周期较长,其基因组为多倍体且表型模糊,使得人参育种仍处于初级阶段,并在农业应用中表现出种质资源不稳定的特点。
参考基因组为功能基因研究、进化分析和育种提供了重要信息。然而,目前只有少数药用植物被测序并组装成高质量的基因组 [5, 6]。测序技术的创新为更多高质量药用植物基因组的组装提供了可能 [7, 8]。使用第二代测序技术(Illumina平台),已有两个初步的人参基因组数据库发布,其N50值分别为22 kb和569 kb [9, 10]。在我们之前的研究中,利用纳米孔平台获得了更高质量的人参基因组(ginseng v1.0),其N50值为19.75 Mb [11]。然而,仍有一些未填补的基因组空缺区域。基于超长读长测序技术和高质量组装工具,有望解决这些未知区域 [12]。进一步组装端粒到端粒(T2T)的人参参考基因组,将为人参进化、功能基因研究及育种提供更强大的研究基础。
许多药用植物为多倍体,与普通农作物和园艺植物相比,研究难度更大。在之前的研究中,基于荧光原位杂交(FISH)技术,人参PgDel2元件信号表现出偏向于48条染色体中的24条,同时独特的基因探针显示染色体上的信号位置存在差异,综合证据支持人参为异源四倍体 [13]。异源四倍体是由两个或多个不同二倍体物种通过杂交和染色体加倍形成的。尽管染色体加倍事件在物种多样性和环境适应性增强中具有益处,但在异源多倍体形成的早期阶段,为了在一个细胞核内协调不同祖先二倍体物种的基因组,多倍体基因组会经历基因丢失、基因分化甚至染色体减少,从而趋于更加类似二倍体的状态 [14, 15]。以往研究表明,异源多倍体中通常存在亚基因组优势现象,其中一个亚基因组通常表现出更多的基因、更高的基因表达水平和更低的基因分化 [16–18]。例如,在多倍体棉花(Gossypium hirsutum)亚基因组中,等位基因重组促进了生态适应和纤维进化 [19];在小麦(Triticum aestivum)亚基因组中,快速基因组变化和同源基因抑制导致了二倍体化的发生 [20]。阐明人参亚基因组之间的差异将有助于其功能和进化研究。
与其他药用植物一样,人参具有复杂的代谢物,其中三萜皂苷(人参皂苷)是最重要的一类有效化合物。在人参中可能存在超过100种皂苷,但其中大多数的合成途径尚未被阐明。人参皂苷的结构为C30主链,并在不同位点发生氧化和糖基化修饰。人参主要累积三种类型的皂苷:人参二醇型(PPD)、人参三醇型(PPT)和齐墩果酸型(OA) [21]。人参皂苷通过三阶段的途径合成 [22, 23]。在第一阶段,糖酵解产物乙酰辅酶A作为主要供体,通过中间代谢物甲瓦龙酸(MVA)合成异戊二烯焦磷酸(IPP)和二甲烯丙基焦磷酸(DMAPP)。第二阶段,异戊二烯焦磷酸合酶和萜烯环化酶将IPP和DMAPP转化为2,3-环氧角鲨烯。在第三阶段,2,3-环氧角鲨烯经历复杂的修饰,包括羟基化、环化和糖基化。
由环氧角鲨烯环化酶(OSCs)、细胞色素P450单加氧酶(CYP450s)和糖基转移酶(glycosyltransferases)催化的合成途径,形成达玛烷型和齐墩果烷型人参皂苷。尽管皂苷生物合成途径已经部分被阐明,但仍有许多上游和下游酶未被完全解析。例如,3-羟基-3-甲基戊二酸单酰辅酶A还原酶(PgHMGR1 [24])是生成通用萜类前体DMAPP和IPP的关键酶;法呢基焦磷酸合酶(PgFPS [25])参与C15主链的形成;角鲨烯合酶(PgSS1 [26])和角鲨烯环氧化酶(PgSQE1 [27])则负责2,3-环氧角鲨烯的生物合成(这是三萜的通用前体)。随后,由四种环氧角鲨烯环化酶(OSCs)引导代谢路径分支:PNY1 [28] 和 PNY2 [29] 是β-香树脂醇合酶;PNA [30] 和 PgDDS [31] 是达玛二醇合酶,分别导致齐墩果烷型和PPT或PPD型人参皂苷的形成。进一步的氧化修饰由三个CYP450基因完成:CYP716A52 [32] 负责β-香树脂醇的28-羟基化;CYP716A53v2 [33] 负责6-羟基化生成PPT;CYP716A47 [34] 负责12-羟基化生成PPD。此外,已鉴定了12个糖基转移酶,如PgUGT94Q2参与3-糖基化,UGTpg101 [35] 参与6-糖基化,其余糖基转移酶通过转移糖基产生二糖或三糖修饰。然而,更多的糖基化修饰仍需进一步研究 [21, 36]。许多参与同一代谢途径的生物合成基因在植物基因组中形成了代谢基因簇(MGC),特别是针对三萜皂苷 [22, 23]。例如,在丹参(Salvia miltiorrhiza)中也发现了皂苷的MGC,但在迄今为止的人参研究中尚未检测到。
在本研究中,我们组装了端粒到端粒的人参参考基因组。基于该T2T参考基因组,我们研究了人参基因组的系统发育和进化,并分析了亚基因组之间的不对称基因丢失和偏向性基因表达。值得注意的是,与串联重复(TD)和近端重复(PD)相关的基因在皂苷合成中起到了重要作用。我们进一步探索了亚基因组间皂苷合成基因的分化,并鉴定了与皂苷合成相关的基因簇。该参考基因组增强了我们对异源四倍体人参皂苷生物合成进化的理解,并为人参的遗传研究和育种提供了支持。
结果
人参参考基因组的组装与注释
我们的人参基因组通过多种测序平台的数据进行组装,包括约140G的HiFi长读长数据、约250G的Oxford Nanopore Technologies (ONT) 读长数据、约140G的Illumina成对读长数据,以及约700G的Hi-C短读长数据。首先使用HiFi长读长数据和Hi-C短读长数据组装初始人参染色体。随后,通过TGS-GapCloser工具 [37] 进行初步的缺口填补,剩余的缺口通过基于图谱的缺口填补工具(Graph-Based Gap Filling, GBGF) [38] 进一步填补,共填补了286个缺口(图S1,见在线补充材料)。最后使用Illumina读长数据对基因组进行了抛光处理。
最终组装的基因组由24条连续序列(contigs)组成,contig N50值为147.37 Mb(图1B;图S2和表S1,见在线补充材料)。
图1:人参的形态特征与基因组概览
A:人参 (Panax ginseng) 的形态特征概览。
B:人参基因组特征:Circos图从外圈到内圈依次表示染色体级的伪染色体,蓝色圆点表示端粒,绿色圆点表示着丝粒(I),Copia元件密度(II),Gypsy元件密度(III),转座元件(TE)密度(IV),基因密度(V),GC含量(VI),以及通过弯曲线连接的基因共线性(VII)。
组装后的基因组大小为3.45 Gb,GC含量为34.71%,均高于人参v1.0版本 [11](表1)。质量评估结果显示QV值为41.86,K-mer完整性为97.4025%,Benchmarking Universal Single-Copy Ortholog(BUSCO)的完整性为99.3%(表1)。这些结果与已发表的端粒到端粒基因组(如草莓 [39] 和葡萄 [40])一致。为了进一步验证T2T人参参考基因组的准确性,我们将RNA-seq双端读长数据映射到基因组,映射率达到94%–98%。
为验证人参基因组的端粒和着丝粒是否完整,我们分别使用quarTeT [41]和T2Tools (https://github.com/sc-zhang/T2Tools) 进行端粒和着丝粒预测,结果显示人参基因组共有48个端粒和24个着丝粒(图1和表1;图S3和表S1、S2,见在线补充材料)。除了传统的端粒序列 (AAACCCT)n 之外,人参基因组还在染色体1(Chr01)上检测到一种特殊的端粒序列 (AAATTTT)n。
总之,我们成功组装了一个端粒到端粒的人参参考基因组。
* P. ginseng* vT2T | P. ginseng v1.0 | |
---|---|---|
Genome size (Gb) | 3.45 | 3.36 |
GC content (%) | 34.71 | 34.25 |
Number of contigs | 24 | 425 |
N50 contig length (Mb) | 147.37 | 19.75 |
Number of protein-coding genes | 77 266 | 65 913 |
Repeat sequence content (%) | 83.12 | 79.61 |
LTR content (%) | 74.93 | 76.53 |
Gypsy content (%) | 47.07 | 46.9 |
Copia content (%) | 5.64 | 5.35 |
Number of telomeres | 48 | \ |
Number of centromeres | 24 | \ |
Quality value (QV) | 41.86 | \ |
K-mer completeness (%) | 97.4 | \ |
Complete genome BUSCO (%) | 99.3 | \ |
Complete gene prediction BUSCO (%) | 98.4 | 95.14 |
LTR Assembly Index (LAI) | 8.71 | 7.13 |
对参考基因组的转座元件(TEs)注释显示,人参基因组中83.17%的序列为重复序列,与玉米基因组中观察到的比例相似 [42]。其中,长末端重复元件(LTRs)是最丰富的重复序列,占人参基因组的74.93%。在这些LTR中,LTR/Gypsy和LTR/Copia分别占基因组的47.07%和5.64%(表1;表S3,见在线补充材料)。重复序列在染色体上的分布不均匀,且在染色体末端含量较低(图1B)。人参基因组的LTR装配指数(LAI)估计为8.71,相较于之前的版本有所提高(表1)。
人参基因组注释通过结合ab initio预测、基于同源性搜索以及RNA-seq数据完成。最终注释结果显示,人参基因组中共鉴定出77,266个蛋白编码基因,其完整性(根据BUSCO评估)为98.4%,高于之前版本(表1)。基因在染色体上的密度分布不均匀,更多的基因集中在染色体的末端(图1B)。在注释后,我们发现286个填补的缺口中,13个位于端粒区域,1个位于着丝粒,22个位于蛋白编码基因区域,250个位于重复序列区域(图S1,见在线补充材料)。
人参的系统基因组学与进化
鉴于人参是一种异源四倍体植物 [13],我们基于13个K-mer的聚类方法,将人参的染色体划分为两个亚基因组(图S4A,见在线补充材料),并显示良好的协方差(图1B)。亚基因组A的大小为1.94 Gb,注释基因40,550个;亚基因组B的大小为1.51 Gb,注释基因36,716个。我们对两个亚基因组的LTR-RTs(长末端重复反转录转座元件)插入时间进行了估算,发现亚基因组A的插入时间早于亚基因组B(图S4B,见在线补充材料)。这一亚基因组特异性LTR-RTs插入时间的差异表明我们的亚基因组分类方法是合理的。
为了研究人参及其亚基因组的进化历史,我们构建了两种系统发育树(图2A;图S5,见在线补充材料)。第一棵树包括五加科植物,如刺五加(Eleutherococcus senticosus)、楤木(Aralia elata)、滇人参(Panax stipuleanatus)、越南五加(Panax vietnamensis var. fuscidiscus)、三七(Panax notoginseng)、西洋参(Panax quinquefolius)、竹节参(Panax japonicus)、人参(P. ginseng),以及葡萄(Vitis vinifera)、莴苣(Lactuca sativa)和胡萝卜(Daucus carota)。结果显示,人参与竹节参关系最近,大约在6.74百万年前分化(图S5,见在线补充材料)。
为了进一步追踪人参异源四倍体的起源,我们排除了五加属中的四倍体物种(西洋参和竹节参),并基于人参的两个亚基因组与其他八个物种构建了进化树。结果显示,人参亚基因组B与越南五加(P. vietnamensis var. fuscidiscus)关系最近,约在4.98百万年前分化;而亚基因组A约在6.07百万年前与越南五加、三七及亚基因组B的共同祖先分离(图2A)。
图2:人参及其他物种的比较基因组分析
A:十种物种的系统发育树。基因家族的扩张和收缩分别以红色和绿色标出。节点上的数字表示物种分化的时间(单位:百万年前,MYA)。
B:亚基因组A和亚基因组B(Sub-A_Sub-B),亚基因组A(Sub-A)和亚基因组B(Sub-B)的同义替换率(Ks)分布。
C:24条染色体间共线性关系的点阵图。黄色框表示染色体重排。
亚基因组的基因家族扩张与收缩
亚基因组A中有3380个基因家族扩张,5358个基因家族收缩;亚基因组B中有2344个基因家族扩张,5971个基因家族收缩。对亚基因组A和B的基因家族进行了KEGG富集分析,结果显示亚基因组A和B中扩张的基因家族均与倍半萜和三萜的生物合成相关。此外,亚基因组A中扩张的基因家族还与细胞色素P450相关,这表明亚基因组A和B中的基因家族特异性扩张可能丰富了三萜皂苷的种类(图S6,见在线补充材料)。
全基因组复制(WGD)事件分析
为研究人参进化过程中发生的全基因组复制(WGD)事件,我们分析了人参两个亚基因组中同源基因的Ks分布(图2B)。亚基因组A和B都表现出两个明显的峰值,分别位于0.35–0.38和1.37–1.48,表明两个人参亚基因组共享了两次全基因组复制事件。这些事件具体包括核心真双子叶植物中共享的γ-WGT事件以及谱系特异性的pg-β事件,与之前的研究一致 [11]。亚基因组A和B之间的同源基因的Ks分布在约0.03处显示了一个特定峰值,但这个峰值在单独的亚基因组A或B中不存在,这表明两个亚基因组之间已经发生分化,其分化时间约为6.07百万年前(图2A和B)。
染色体共线性和重排分析
对同源染色体的共线性分析揭示了三种明显的共线性模式(图2C)。首先,亚基因组间的对应染色体之间(如Chr11A和Chr11B,Chr08A和Chr08B)显示出显著的共线性,这表明它们的染色体结构在其进化历史中从一个共同祖先分化而来且保持相对完整。此外,在亚基因组内还观察到显著的共线性,例如Chr11B与Chr08B,Chr11A与Chr08A,说明两个亚基因组都经历过一次WGD事件。此外,通过点阵图分析发现,Chr10B与Chr04A和Chr10A共变,Chr12B与Chr10A和Chr12A共变,这表明亚基因组内部发生了染色体重排,进一步揭示了人参亚基因组的分化进化轨迹。
尽管亚基因组之间的同源染色体表现出清晰的共线性,但它们的染色体大小差异显著。因此,我们对亚基因组间的同源染色体进行了比较分析,并发现了大量结构变异,包括227个倒位、10,867个易位和5354个重复(图S7和表S4,见在线补充材料)。特别是在一些染色体区域(如Chr01、Chr02和Chr09),发现了伴随缺失的特别大的倒位区域(图S7,见在线补充材料)。这些结构变异可能导致了亚基因组A和B之间染色体长度的差异。这些结构变异的鉴定为人参亚基因组进化分化过程中的动态变化提供了宝贵的见解(图S7,见在线补充材料)。此外,这些变异为其对生物功能潜在影响的研究提供了初步信息。
亚基因组A和B经历了不对称的基因丢失和偏向性的基因表达
在人参参考基因组中,亚基因组A和B之间的功能基因分布尚未完全了解。目前仍不清楚它们是否经历了不对称的基因丢失、表现出基因表达的偏向性、经历特定的自然选择,或者与其他异源多倍体植物中的观察结果具有相似性 [43, 44]。为了解答这些问题,我们对亚基因组A和B的基因组成、表达模式和遗传多样性进行了比较分析。
作为基因功能的关键指标,在特定亚基因组中基因丢失会导致具有某些蛋白质结构域的基因数量减少。我们比较了亚基因组A和B之间Pfam结构域及其对应基因的数量。在24条染色体上的77,266个基因中,有69,242个基因(占89.62%)包含4788个Pfam结构域。这表明,与各自亚基因组中的总基因数量相比,这些Pfam结构域相关基因的数量在两亚基因组之间存在显著差异,Fisher精确检验的P值小于0.05。图3A显示,3.15%(151/4788)和2.90%(139/4788)的Pfam结构域分别特异性存在于亚基因组A和B中,突出了基因功能的差异。
此外,亚基因组A和B中保留的屏边三七(P. stipuleanatus)同源基因数量也表现出显著差异(P值 = 0.03417),如图3B所示。这进一步证明了基因丢失发生在亚基因组分化之后。
图3 人参基因组的亚基因组显性现象
A. 比较亚基因组间每个Pfam中的基因数量。“A特有”:仅在亚基因组A中,“B特有”:仅在亚基因组B中,“A = B”:无显著差异,“A ≠ B”:亚基因组A和B之间显著不同。
B. 亚基因组间染色体同源基因数量的差异。将Panax stipuleanatus(三七)作为外群。采用Wilcoxon检验(双侧假设)。箱线图显示中位数、上下四分位数和四分位距(IQR)。箱体表示四分位距,竖线指示0.25和0.75分位数,中位数由箱内的线条表示。
C. 亚基因组同源基因的不均等表达。基于10个RNA-seq数据集,将基因分为三个表达水平:高表达、中表达和低表达。
D. 三种表达水平下的共线基因对的比例。“A > B”:亚基因组A中表达更高,“A < B”:亚基因组B中表达更高(P值> 0.05,| logFC | < 1)。
E. 亚基因组A和B各染色体基因对的Ka/Ks比值。箱线图显示中位数、上下四分位数和四分位距(IQR)。箱体表示四分位距,竖线指示0.25和0.75分位数,中位数由箱内的线条表示。使用Kruskal–Wallis检验进行显著性检验。染色体间显示显著差异(双尾Student’s t检验,P < 0.001)。
我们研究了与屏边三七同源的人参基因的表达谱。基于RNA测序数据中的总读数,将基因分为三类表达水平:高、中、低表达。为了比较各组在亚基因组同源染色体之间的分布,基于每个亚基因组的同源基因总数,分析其百分比。值得注意的是,我们观察到亚基因组A和B的同源基因在中等表达组中没有差异。然而,在低表达组中,亚基因组B中的同源基因比例低于亚基因组A。而在高表达组中,亚基因组B中的同源基因比例高于亚基因组A(图3C)。因此,亚基因组A和B的基因表达可能存在显著差异。
我们通过配对t检验评估了来自每个亚基因组的同源基因的表达水平。通过分析10个转录组数据集,检查了差异表达基因对。在分析的总共33,426对同源基因对中,大多数(71.32%,23,839/33,426)显示出两亚基因组间相似的表达模式。然而,13.71%的基因对(4,583/33,426)在亚基因组A中显著表达更高,而14.97%的基因对(5,004/33,426)在亚基因组B中显著表达更高(图3D)。这表明亚基因组A和B的基因表达存在偏倚。
我们对每个亚基因组中高表达基因进行了功能富集分析。结果显示,这些基因集中在不同的生物通路中。例如,在亚基因组A中显著高表达的基因富集于蛋白质分解代谢过程(GO:0030163)、蛋白质磷酸酶及其相关蛋白中。而亚基因组B中显著高表达的基因富集于化学刺激的细胞反应(GO:0070887)、小分子代谢过程(GO:0044281)和代谢途径(图S8,见在线补充材料)。这些结果表明,同源基因对的差异表达可能并非随机。
杂交在驱动进化过程中起着关键作用,研究杂交后两个亚基因组之间的选择压力差异是必要的。为此,我们对12对染色体在亚基因组A和B之间的Ka/Ks值(非同义/同义替代率)进行了比较分析。结果显示,所有染色体的Ka/Ks值均低于1,表明两个亚基因组均经历了纯化选择。然而,进一步检查发现,除了染色体04外,亚基因组B的其余染色体普遍经历了比亚基因组A更严格的纯化选择(图3E)。
不同类型的基因重复促进了人参三萜皂苷生物合成基因的繁荣发展
我们在亚基因组A中鉴定出共37,186个重复基因,在亚基因组B中鉴定出33,235个重复基因,这些基因被分为五种类型:分散重复(DSD)基因(亚基因组A占37.82%,B占33.34%)、全基因组重复(WGD)基因(亚基因组A占29.95%,B占33.90%)、转位重复(TRD)基因(亚基因组A占24.25%,B占24.13%)、串联重复(TD)基因(亚基因组A占3.93%,B占4.68%),以及近端重复(PD)基因(亚基因组A占4.05%,B占3.96%)(图S9,详见在线补充材料)。
通过比较两亚基因组中不同重复基因组的Ks和Ka/Ks值,发现它们在整体上基本一致(图4A和B)。此外,在比较不同重复模式时,我们观察到DSD、TD和PD基因的Ks值较其他类型更低(图4B),表明这些基因属于相对较新的重复事件。此外,PD基因表现出较高的Ka/Ks比值(图4A),这表明它们经历了更为宽松的纯化选择。类似的结论也在之前关于当归(Angelica sinensis) [45]和樟树(Cinnamomum camphora) [46]的研究中得到了证实。
图4 基因重复与进化
(A) 不同类型基因重复产生的基因对的Ka/Ks比值。(B) 不同类型基因重复产生的基因对的Ks值。DSD:分散重复;PD:近端重复;TD:串联重复;TRD:转位重复;WGD:全基因组重复。箱线图显示中位数、上下四分位数和四分位距(IQR)。箱体表示四分位距,竖线指示第0.25和第0.75分位数,中位数由箱内的线条表示。
(C) GO富集分析结果。(D) KEGG富集分析结果。富集项的P值<0.05。气泡的颜色表示富集项的统计显著性,气泡的大小表示基因的数量。
为了探究重复基因的功能富集,我们对不同类型基因重复进行GO和KEGG分析(图4C和D),结果显示亚基因组A和B之间存在一定差异。首先,亚基因组A的GO富集结果显示,PD和TD基因富集于多种代谢物的生物合成过程,如萜类、类黄酮及糖基转移酶活性(GO:0016757)。TRD基因主要富集于多糖代谢过程(GO:0005976),而WGD基因富集于黄酮类生物合成过程(GO:0051553)。其次,亚基因组B的GO富集结果表明,PD和TD基因富集于次级代谢物生物合成过程(GO:0044550)和类黄酮生物合成过程(GO:0016114)。此外,TD基因富集于萜类生物合成过程(GO:0016114),PD基因富集于糖基转移酶活性(GO:0016757)。TRD基因则主要富集于糖基转移酶活性(GO:0016757)和多糖代谢过程(GO:0005976)。
从亚基因组A和B的KEGG富集结果来看,新形成的DSD、PD和TD基因富集于倍半萜和三萜生物合成途径,而PD和TD基因富集于细胞色素P450。总体而言,这些结果表明基因重复显著丰富了人参中重要代谢物的生物合成基因。其中,近期形成的TD和PD基因在植物次级代谢物,尤其是三萜皂苷生物合成中的作用尤为关键。
为了进一步探讨TD和PD基因在三萜皂苷生物合成中基因扩展的作用,我们分析了位于代谢通路下游的OSC、CYP450和UGT基因。结果显示,7.14%(2/28)和10.71%(3/28)的OSC基因被分类为TD和PD基因;在CYP450基因中,17.09%(94/550)和21.45%(118/550)的基因在TD和PD过程中扩展;在UGT基因中,16.12%(44/273)和19.05%(52/273)的基因被归类为TD和PD基因。
在参与人参皂苷生物合成的功能性催化基因中,UGT基因作为导致皂苷多样化的主要因素之一,被检测为TD或PD基因。例如,UGT71A29 (pg_10003783)和pg_10003803、pg_10003804;UGTPg45 (pg_1002165)和pg_1002163;UGTPg100 (pg_11010095)以及pg_11010100、pg_11010101;UGT71A27 (pg_4003612)和pg_4003638通过PD生成;而UGTPg101 (pg_10003758)和pg_10003757;UGT94Q2 (pg_5001060)和pg_5001061通过TD生成。这些结果进一步支持了基因重复在进化过程中推动人参三萜皂苷生物合成的假设。
人参皂苷的生物合成途径
人参皂苷的生物合成涉及超过20个催化步骤,其中的关键酶包括负责骨架形成的鲨烯合酶(Squalene Synthase, SS)和2,3-环氧鲨烯环化酶(Oxidosqualene Cyclase, OSC),以及修饰酶如细胞色素P450(CYP450)和糖基转移酶(UGT)[21]。通过基因功能注释和blastp分析,我们在本次人参参考基因组中成功鉴定出23个直接参与皂苷生物合成途径的关键酶基因,并记录了其基因功能[48–50](图5A)。我们详细描述了这些基因的各个催化步骤,并深入研究了它们在14个人参组织及4个不同年份人参根中的表达模式。结果发现,CYP450和UGT基因主要在根部,尤其是根茎中高表达(图5B)。
图5 人参三萜皂苷生物合成途径的代谢通路与热图
A. 人参三萜皂苷生物合成途径的代谢通路。 B. 人参三萜皂苷生物合成途径中相关基因的表达热图。其中,ginsengroot_5/12/18/25y分别表示5年、12年、18年和25年生的人参根。 C. 同源基因的染色体定位图及催化反应类型。UGT基因以红色字体表示,CYP450基因以绿色字体表示。
人参皂苷的生物合成酶在亚基因组之间也表现出差异。我们发现,位于不同代谢途径步骤的多个同源基因存在于亚基因组的共线区(图5C)。例如,Chr3A上的Pg_5501060 (UGT94Q2)和Chr3B上的pg_12000859 (UGT94Q13)是亚基因组的同源基因。然而,Pg_5501060 (UGT94Q2)在PPD部分中负责F2的3-Glc到3-Glc-Glc的糖基化,生成Rd [47];而pg_12000859 (UGT94Q13)在PPT部分中对Rh1和Rg1的6-Glc进行糖基化,生成Rf和20-O-Glc-Rf [48](图5C)。此外,Chr02A上的Pg_4003612 (UGT71A27)在Chr02B上有两个对应基因:pg_10002758 (UGTPg101)和pg_10002783 (UGT71A29),它们也具有多样化功能。这三种酶都可以在20-C上添加葡萄糖基,而pg_10002758 (UGTPg101)还具有在6-C上添加葡萄糖基的附加功能,pg_10002783 (UGT71A29)则可以在20-O-Glc上进一步添加葡萄糖基 [35, 47, 49]。
我们在人参中发现了28个OSC基因、273个UGT基因和550个CYP450基因(图S9,详见在线补充材料)。此外,通过对OSC、UGT和CYP450基因的染色体定位分析,我们在人参中鉴定出13个三萜皂苷合成基因簇,这些基因簇位于靠近染色体端粒的区域。值得注意的是,这些基因簇中有12个在两亚基因组上呈对称分布,尽管亚基因组之间酶基因的拷贝数有所不同(图S10和S11,详见在线补充材料)。
讨论
由于药用植物的驯化历史较短,它们的遗传背景通常较为混乱,这使得基因组挖掘变得具有挑战性。在本研究中,我们组装了一个3.45 Gb的端粒到端粒人参参考基因组,BUSCO完整性为99.3%,包括48个端粒和24个着丝粒(表1)。该参考基因组有助于阐明人参属的异倍四倍体进化以及基因组进化过程中皂苷生物合成途径中的基因变异,这将指导人参的进一步驯化,以增强其药用效果。
基于系统发育基因组学分析,我们概述了人参进化的情景。祖先的真双子叶基因组经历了两次基因组加倍事件,即γ-WGT(核心真双子叶共享)和Pg-β(谱系特有重复),从而形成了具有12条染色体的祖先人参基因组。人参的两个亚基因组来源于这一祖先人参基因组,并在大约607万年前分化。亚基因组B与越南人参(P. vietnamensis var. fuscidiscus)关系更近,而亚基因组A则是越南人参(P. vietnamensis var. fuscidiscus)、三七(P. notoginseng)和亚基因组B的外群(图2)。这些结果表明,人参应当起源于这两个不同物种之间的杂交,类似于多倍体小麦(T. aestivum)的形成[20]。
多倍体通常会经历亚基因组重建,不同亚基因组中的基因会偏向性地表达[43, 44]。与亚基因组B相比,亚基因组A的大小较大,而亚基因组B的基因数较少。亚基因组A和B中特有的Pfam结构域(分别为151和139个)表明人参亚基因组中的结构域分布可能存在差异。尽管两个亚基因组显示出良好的共线性(图1),它们的详细结构存在变异,如倒位和缺失。亚基因组A中低表达基因更多,而亚基因组B中高表达基因更多。表明在亚基因组A中具有较高表达的同源基因数目(4,583)低于亚基因组B中具有较高表达的基因数目(5,004)。两个亚基因组的Ka/Ks值均小于1,表明这两个亚基因组经历了净化选择(图3)。
基因复制是新基因形成和植物特有天然产物提供的主要动力。Ka/Ks分析显示,DSD、TD和PD基因相对较近才形成,特别是PD基因经历了更为宽松的净化选择(图4)。值得注意的是,PD和TD增加了三萜皂苷合成途径基因的拷贝数,其中约35.16%(96/273)的UGT基因属于PD或TD,包括六个已被功能验证的基因。OSCs和CYP450s也经历了复制,OSCs中7.14%为PD,10.71%为TD,CYP450s中17.09%为PD,21.45%为TD,这表明PD和TD在皂苷生物合成中的关键作用。
通过这个新的参考基因组版本,我们还发现了具有多样化功能的亚基因组特有基因。来自相应亚基因组的共线性基因可能在 ginsenoside 生物合成途径中发挥不同的作用。所有这些证据表明,两个亚基因组都经历了功能多样化,这可能有利于人参的生存和繁殖[34]。我们还发现了基因组中几个可能涉及皂苷生物合成的代谢基因簇,进一步的实验研究是必要的。
总之,我们为异倍四倍体人参组装了一个端粒到端粒的参考基因组,探索了多倍体化、亚基因组优势和天然产物皂苷 ginsenosides 生物合成之间的关系。我们相信,这一黄金基因组将对人参种质选择具有重要作用,并推动药用植物育种的进一步发展。
材料与方法
基因组测序与组装
采自中国吉林省丹东市的人参作为测序材料。使用新鲜根部进行DNA提取和测序。
通过hifiasm [50]组装了HiFi长读。使用RagTag [51]将组装的contig与参考基因组(ginsengv1.0)进行初步定位和排序。随后,使用Juicer [52]和3D-DNA [53] v180114管道进行Hi-C支架构建。通过使用Juicebox Assembly Tools(https://github.com/aidenlab/Juicebox)进行手动调整和错误修正,生成了染色体级别的人参基因组。使用Oxford Nanopore Technologies(ONT)读取(SRR16036174–213)并通过NextDenovo [54]进行修正。修正后的ONT读取用于基因组的第一轮缺口填充,采用TGS-gapcloser [37]进行。剩余的缺口通过基于图的缺口填充(GBGF)[38]进一步填补。最后,使用Merfin [55]对基因组进行修饰。使用基准通用单拷贝直系同源基因(BUSCO [56] v5.2.2)和LTR组装指数(LAI [57])评估染色体级别基因组的组装质量。
基因组注释
通过EDTA [58] v1.9.4管道识别可移动元件。通过Geta管道(https://github.com/chenlianfu/geta)预测编码基因结构,结合ab initio预测、同源蛋白和转录组数据(SRA登录号:SRR16036220–29,SRR13131364–405,SRR2952867–84)。使用eggnog-mapper [59] v5.0.2对人参蛋白进行功能注释。使用quarTeT [41]和T2Tools(https://github.com/sc-zhang/T2Tools)预测端粒和着丝粒。使用SubPhaser [60]将人参基因组分为亚基因组A和B。
系统发育分析
使用OrthoFinder [61] v2.5.5识别平行基因和直系同源基因,并推断11种植物物种之间的物种树:E. senticosus [62],A. elata [63],P. stipuleanatus [11],P. vietnamensis var. fuscidiscus [64],P. notoginseng [65],P. quinquefolius [11],P. japonicus [11],P. ginseng,V. vinifera [66],L. sativa [67],和D. carota [68]。物种树作为输入,使用PAML [69]软件包中的MCMCTree程序估算分化时间。多个来自TimeTree(TimeTree :: The Timescale of Life)的化石时间被用于时间校准。基于上述11种植物物种的时间树,通过CAFE5 [70]推断基因家族的扩展和收缩。
同源分析
使用BLASTP识别物种内部及物种间的同源基因,使用MCscanX [71]基于这些识别的同源基因定义同源性区块。计算平行和直系同源基因对的Ks密度,使用WGDI [72],并利用WGDI生成同源性点图。使用SyRI [73]检测亚基因组之间的结构变异。
基因复制鉴定
利用DupGen Finder [74] v1.12,对人参中的复制基因进行分类,分为五类:WGD、TD、PD、TRD和DSD。随后,在这些重复基因类别中的基因进行GO和KEGG分析,使用R包clusterProfiler [71] v4.0。使用KaKs_Calculator [75]计算Ka(非同义突变率)和Ks(同义突变率)的值。
基因表达与功能分析
原始RNA-seq数据(SRR16036220–29,SRR13131364–405,SRR2952867–84)通过FASTp [76] v0.20.1进行过滤。随后,过滤后的数据通过HISAT2 [77] v2.1.0与人参基因组对齐,并使用StringTie [78] v2.1.3b进行转录本组装和基因表达分析。