有关KEGG的分析在很多已发表的论文中都十分常见,涉及到的方向也很广泛,比如:代谢组、表观组、转录组等等。通常得到相关的基因集或者代谢物后,我们都希望能够快速了解它们的蛋白功能和涉及的调控机制,从而进一步锁定接下来关注的核心基因。
KEGG富集分析就是一种很好的手段。该分析方法是由Kanehisa实验室(Kanehisa Laboratories)在1995年开发。
什么是KEGG数据库?
KEGG(Kyoto Encyclopedia of Genes and Genomes)是一个包含生物信息学数据库和相关工具的综合性资源,旨在帮助研究人员理解生物系统的功能和组成。KEGG数据库包含了多种生物信息学数据,包括基因组、代谢途径、疾病和药物等信息。主要包括以下几个部分:
1
基因组数据库:
包括已知生物物种的基因组序列和注释信息。
2
代谢途径数据库:
包括生物体内代谢途径的图谱和相关基因、蛋白质等信息。
3
疾病数据库:
包括与基因和代谢途径相关的疾病信息。
4
药物数据库:
包括与基因和代谢途径相关的药物信息。
KEGG数据库还提供了一系列工具和资源,如KEGG Pathway,KEGG BRITE,KEGG Orthology等,帮助我们进行生物信息学分析和研究。
进入KEGG官网的页面后我们可以看到便捷搜索框、简介与引用、KEGG子库列表以及各种分析工具等。其中,KEGG PATHWAY会是我们要重点关注的部分,点击进入后首先会看到pathway的一级分类。目前可以分为七大类,分别为:
1
代谢途径(Metabolic Pathways):
包括碳水化合物代谢、脂类代谢、氨基酸代谢、核苷酸代谢等。
2
遗传信息处理( Genetic Information Processing):
包括转录、翻译、DNA 复制、修复等。
3
环境信息处理( Environmental Information Processing):
包括信号转导、细胞周期、细胞凋亡等。
4
细胞过程(Cellular Processes):
包括细胞结构、细胞运动、细胞分裂等。
5
有机系统(Organismal Systems):
包括免疫系统、内分泌系统、循环系统、消化系统、排泄系统、神经系统等。
6
人类疾病(Human Diseases):
包括各种人类疾病的相关基因和蛋白质信息。
7
药物开发(Drugs Development):
包括各种药物的作用机制和代谢途径等信息。
除此之外,页面的下方我们也可以看到更为详细的分类。KEGG目前一共有三级分类,我们常说的富集通路为第三级分类。
说到这里,大家可能会问到不同的编号有什么含义呢?或者他们的区别在哪里?
其实每个通路都由一个五位数字标识,后跟以下任意一个:map,ko,ec,rn和三字母或四字母生物代码,它们分别代表五种通路类型:
-
map编号:代表reference pathway,根据已有的知识绘制的、概括的、详尽的具有一般参考意义的代谢图。一个点同时表示一个基因,这个基因编码的酶或这个酶参加的反应
-
org编号:物种特异性通路,这里就是将K编号基因(直系同源基因,后面会介绍)换为每个物种中对应的基因
-
ko编号:KO通路中的点表示直系同源基因
-
ec编号:EC通路中的点表示相关的酶
-
rn编号:化学反应通路中的点只表示该点参与的某个反应、反应物及反应类型
这五种前缀其实都是同一张通路图,只不过高亮显示的内容不同。要注意的是KEGG各个通路并非完全独立的,而是存在着普遍的联系。而且KEGG通路的联系一般不是单纯的上下游关系,更多是重叠交错的关系。在转录组、表观组研究中我们最常见的是map编号和ko编号。
了解完KEGG数据库的基本界面信息,我们再来认识下KEGG注释结果和富集分析结果。以下是富集分析后最常见的两种文件格式。
KEGG注释结果文件
与富集分析不同,KEGG注释是基于基因本身比对数据库后给出对应的K号,K号表示基因,每个号代表的是所有物种的一个同源基因。
以“K00410”为例,通过K号的搜索也能查找到对应的通路图。
Entry、Symbol、Name为基本信息;Pathway表示相关的map通路,点击map号可显示对应通路图;Module表示包含这个KO条目的KEGG模块,点击链接后在模块map中相应的KO矩形会被标记为红色;Brite代表了遵循KEGG通路层次结构的KO系统的分级分类,以及BRITE数据库中的其他分类;Other DBs链接到KEGG REACTION,以及COG,GO和其他分类系统;Genes表示KEGG组织中属于这个KO组的基因;Reference、Authors、Title、Journal 为该通路图的参考文献信息。
KEGG富集分析的结果文件
通过目的基因集和背景文件,完成富集分析后我们会得到下方格式的结果文件。
ID :KEGG pathway ID
Description :KEGG Pathway ID 的描述
GeneRatio :本次富集实验注释到该 KEGG Pathway 的基因数/本次富集实验注释到 KEGG Pathway 数据库的基因总数
BgRatio :基因组中能注释到该KEGG Pathway的基因数/基因组中能注释到 KEGG Pathway数据库的基因总数
pvalue :富集P value (本表格中保留 3 位小数)
p.adjust :校正后的P value (本表格中保留 3 位小数)
qvalue :富集Q value (本表格中保留 3 位小数)
geneID :富集的基因名称
Count :富集的基因个数
一般来说,通过Description列对于通路的描述可以快速锁定与研究目的相关的通路和基因。但有些通路的简单描述可能并不能满足老师的需求,此时就需要我们关注ID,即结果第一列的KEGG map号,“00190”=“map00190”。
这里我们以map00190为例,通过KEGG官网输入map号再Search可以得到更为详尽的map通路信息。
-
关于导航栏:
-
scale拉动可以调节右侧图片大小
-
用来通过ID或别名搜索map中对象,并可显示基因对应的ko号
-
可通过多个ID 和KEGG标识符搜索map中对象
-
按照模块选择代谢途径
-
光标移至图中任意圆圈显示对应的C number/化合物,方框显示ko number/基因名称,圆角矩形显示的是另外的通路图。
注:图中我们可以标注出感兴趣的蛋白、mRNA或者酶等等,标注后的图片点击上方Download即可下载。点击“Change pathway type”可切换每种通路类型以及对物种进行选择。
KEGG通路图本质是一副线框图,即由点和线构成的基因-代谢物关系图。图中的方框、箭头、圆圈等也分别代表着不同的含义,关系类型可以分为蛋白-蛋白互作关系,基因表达关系和酶-酶关系。要注意的是KEGG通路图之间并非孤立的,而是常常会标注该通路中的基因或代谢物来自或流向其它相关的通路。
富集分析常见结果图
使用KEGG数据库分析后,结果如何可视化呢?这里有些例子供大家参考。
......
其中大部分图通过爱基百客云平台即可实现无代码完成,真正的小白福音,欢迎咨询哦~
相关教程:富集分析不求人,零代码可视化GO/KEGG分析结果