生物信息学 GO、KEGG

文章目录

  • 北大
    • 基因本体论
    • 分子通路KEGG
    • GO注释
    • 分子通路鉴定
  • 关于同源 相似性

b站链接:北大课程
概述了当前生物信息学领域中几个重要的概念和工具,介绍基因本体论(Gene Ontology, GO)、分子通路知识库KEGG(Kyoto Encyclopedia of Genes and Genomes)以及分子通路鉴定和GO注释的过程。
首先从北京大学生物信息学团队的研究工作讲起,解释了基因本体论的框架,它是一套用于表示基因产品属性的控制词汇表。然深入探讨了KEGG数据库如何系统地整合了生物化学通路和分子交互网络的信息。此外,还探讨了GO注释的重要性,它是指将基因本体论的术语分配给基因产品以描述其特性的过程。文章解释了分子通路的鉴定如何帮助科学家理解复杂的生物学过程和疾病机理。

北大

基因本体论

当时不同的生物测序,同源基因对不上,于是大家商讨着确定一套体系

  1. 在信息科学中,ontology 是对特定领域的概念和概念之间关系的一种规范描述。它通常使用共享词汇来定义领域内的概念类型、属性以及这些概念之间的关系。简单来说,它是一种数据模型,用于组织和整合信息,使其可查询、可分析。
  2. 在哲学中,ontology 是研究存在本质、变化、实在性以及存在的基本类别及其相互关系的领域。它探讨了现实和存在的基础框架以及如何理解世界的本质。

  1. 通信(Communication): 本体可以帮助确保不同团队或不同学科领域之间的无歧义沟通。举例来说,在各种基因组项目中,不同研究组对基因功能的注释可能各不相同。使用本体,这些注释可以统一标准化,确保所有人对同一术语有相同理解。
  2. 计算(Computation): 本体使知识可以以计算机可处理的形式表示,这意味着文献和数据可以结构化,使得计算机程序能够自动执行分析。例如,研究人员可以编写程序来查询和分析基因或蛋白质的功能,这一过程由本体中定义的结构化知识支持。
  3. 模式发现(Discovery of Patterns): 本体还可以用来发现更大规模的模式和关联。例如,研究人员可以通过本体来识别涉及特定基因集的更广泛的功能分类或代谢途径,从而提供一个从局部到整体的视角。这就像从鸟瞰视角看问题,而不仅仅是从地面水平视角看问题。

  • Gene Ontology (GO)
    • 从刚开始的三家,到现在有二十多家机构参与

  • 三个部分

这张幻灯片介绍了基因本体论(Gene Ontology, GO)中的三个主要类别:

  1. 分子功能(Molecular Function):指的是基因产品(如蛋白质)的基本活动或任务,比如特定的生化活动。例如,某个蛋白质可能具有碳水化合物结合的功能或ATP酶活性。
  2. 生物过程(Biological Process):涉及多个分子功能的集合,这些集合合作实现某个宽泛的生物目标或目的,如细胞分裂(有丝分裂)或嘌呤代谢。
  3. 细胞组分(Cellular Component):特定的细胞位置或复杂体,如亚细胞结构、位置或大分子复合体。这可能包括核、端粒或RNA聚合酶II整体等。
  • 使用基因本体论(Gene Ontology, GO)来描述与色素形成(pigmentation)相关的生物过程的一个例子
    • GO提供了一个用于描述基因功能和相关生物学特性的标准化词汇。
    • 这个系统中,生物过程、分子功能和细胞组分是通过有向无环图(Directed Acyclic Graph, DAG)的形式展现的,其中节点表示GO术语,而边表示这些术语之间的关系。

在这个例子中,每个方框代表一个GO术语,这些术语描述了色素形成的不同方面,例如:

  • 色素形成过程
  • 发育期间的色素形成调控
  • 色素代谢过程

箭头表示的是不同术语之间的关系,比如某个过程是另一个过程的一部分,或者一个过程是另一个过程的调控(正调控或负调控)。GO的这种层级结构和术语间的关系有助于研究人员精确地描述和理解基因产物的功能和它们在生物学中的作用。

  • 如何将像上面的图**(有向无环图)**存储进电脑

  • 几种存储格式

    • OBO File Format

      • [Term]
      • id
      • name
      • Namespace(三大类)
      • def
      • synonym 同义词 简称
      • Is_a 从属于哪些更大的类别
    • XML

      • Go:term
        • go:accession
        • go:name
        • go:synonym
        • go:definition
        • go:isa
        • Go:dbxref. 其他数据库如果也存在,就给出其他数据库的链接

  • 三种relationship
    • is a
    • part of
    • regulates
  • 这样的推断规则就让计算机比较方便的处理

  • 目前的GO的规模(2018年)

可以在官网搜索

分子通路KEGG

Main types of biological pathways:

  • Metabolic pathways:添加原材料(食物和氧气),转化成产品(能量、生长和维修所需的分子)并分配到身体的各个部分。
  • Gene regulation pathways:根据外界/自身的情况,调节哪些基因多表达一些,哪些少表达一些。
    • 确定哪些工厂(基因)应当在什么时候开工,生产多少商品(蛋白质和RNA)
  • Signal transduction pathways:信号转导
    • 帮助城市的各个部分(细胞)根据收到的消息(信号分子)做出反应,调整各自的活动

最完善的是代谢相关的通路

  • 每一个pathway也会链到其他的pathway

  • 重要的就是interactions

    • PPI
    1. 磷酸化(Phosphorylation):一个蛋白质(酶)向另一个蛋白质添加磷酸基团,通常导致被磷酸化的蛋白质活性的增加或减少。
    2. 去磷酸化(Dephosphorylation):磷酸基团从蛋白质上移除,这个过程通常是由另一类酶执行的,可以逆转磷酸化的效果。
    3. 泛素化(Ubiquitination):将泛素(一种小蛋白质)附加到目标蛋白质上,通常标记蛋白质进行降解。
    4. 糖基化(Glycosylation):添加糖基团到蛋白质上,这可以影响蛋白质的稳定性、位置和功能。
    5. 甲基化(Methylation):添加甲基团到蛋白质上,这种修改可以影响蛋白质的活性或相互作用。
    6. 激活(Activation):使蛋白质变得活跃或增强其活性。
    7. 抑制(Inhibition):降低蛋白质的活性或完全停止其功能。
    8. 间接效应(Indirect effect):一个蛋白质对另一个蛋白质产生的非直接作用,比如通过影响一个中间分子。
    9. 状态变化(State change):蛋白质状态的改变,例如从不活跃状态到活跃状态。
    10. 结合/联合(Binding/Association):两个或多个蛋白质形成稳定的复合物。
    11. 解离(Dissociation):蛋白质复合物的分离。
    12. 复合物(Complex):两个或多个蛋白质通过结合形成的稳定结构。
    • Gene expression relations
    • 酶之间的反应
  • KEGG Pathway File

    • KGML格式

  • KEGG Orthology (KO)
    • KEGG的一个数据库,存储“KO”号
    • 主要是对于不同物种中具有相似功能基因的标识符,更多的是针对基因
    • KO 提供了一个标准化的方法来标识和分类这些基因和蛋白质,并将它们与 KEGG Pathways 中描述的特定生物化学过程相关联。
      • 每个 KO 都是一个编码特定分子功能的基因或蛋白质的集合,在不同物种中,执行相同功能的基因或蛋白质会被分配相同的 KO 编号。
      • 在 KEGG Pathways 的上下文中,可以使用 KO 来标识途径中涉及的特定基因或蛋白质,这有助于跨物种比较途径成分。这种关联是双向的:一个特定的 KO 可能参与多个不同的途径,而一个途径可能涉及多个不同的 KO。

KO vs GO

  • 基因本体论(Gene Ontology, GO):GO 为基因产品(主要是蛋白质)的功能提供了一个结构化的、动态更新的控制词汇。GO 将基因产品的功能描述为属于三个不同领域的属性:生物过程(biological process)、分子功能(molecular function)和细胞组分(cellular component)。GO 更多关注单个基因产品的特定功能,以及它们在细胞内外的位置。
  • KEGG:KEGG 关注的是基因产品参与的整体生物化学途径和网络。KEGG 提供了对这些网络的图形表示,强调了不同基因和蛋白质如何协同工作,影响生物学功能。KO 系统是 KEGG 用来标准化和整合这些信息的方式,侧重于跨物种的功能比较。

GO注释

  • 通过实验证据,并且人工review过的

  • 通过计算分析,并通过人工review的

  1. ISO (Inferred from Sequence Orthology): 这是当一个基因产品的功能被推断出与其他已知功能的基因产品有序列同源性时使用的。通常涉及比较进化上相关物种之间的基因。
  2. ISA (Inferred from Sequence Alignment): 通过序列比对的方法推断功能。如果一个未知功能的蛋白质与已知功能的蛋白质序列对齐,那么未知蛋白质可能具有类似的功能。
  3. ISM (Inferred from Sequence Model): 通过比对特定的序列模式或序列特征,如保守域或基序,预测功能。
  4. ISS (Inferred from Sequence or Structural Similarity): 当一个基因产品由于序列或结构相似性被推断具有某种功能时使用。这可以基于序列比对或三维结构的比较。
  5. IGC (Inferred from Genomic Context): 根据基因在基因组中的位置来推断功能,例如在同一操作单元中的基因,或基因的邻近性,可能参与相同的代谢途径或生物过程。
  6. IBA (Inferred from Biological aspect of Ancestor): 当一个功能从一个祖先物种中推断出来,并且被认为在当前物种中仍然存在时使用。
  7. IBD (Inferred from Biological aspect of Descendant): 如果一个功能可以在下游的物种中观察到,并且这种功能被推断在共有的祖先物种中存在,就会使用这种方法。
  8. RCA (Inferred from Reviewed Computational Analysis): 功能推断是基于经过审查的计算分析,可能涉及多种生物信息学工具和方法。
  9. IKR (Inferred from Key Residues): 相反的推断,如果序列差不多,但是缺少了关键的残基,那么就排除该序列具有该功能
  10. IRD (Inferred from Rapid Divergence): 当一个基因或蛋白质与已知的功能相似,但序列发生了快速演变,使其在某些位置有显著差异,可能指示功能上的差异化时使用。
  • 通过计算分析但没有人工review
  • 其他奇怪的
    • 就是说一些没有足够的证据的注释,比如作者在论文中提了一嘴这样
  • 这是一个关于不同物种注释类型的数据统计
    • 可以看出水果的话,大部分都是实验得到的和经过人工review注释,计算机推测的比较少
    • 而对于猪的话,就是计算机推测的还没经过人工review的占比比较大

分子通路鉴定

当时老师课题组的一个工作

  1. 给基因注释上通路(有时候能注释到8 90% 有时候一半都不到)

  • KO
    • 存储了KEGG里pathway的表
    • 存储了KEGG里KO的表
    • 存储了KO对应pathway的表
  • Gene
    • 存储了gene对应pathway的表 (推理出的)
    • 存储了ko对应gene的表(推理出的)
    • 存储了genes的信息

大概的思路,是query的gene序列,跟KEGG 里的genes做blast,相似度高的,进行一个mapping。就是query对应到KEGG里的gene的KO,然后再从KO对应到pathway

  1. 哪些通路是sigificant的

很多时候由于实验,数据是带有噪声的,即数据中存在由测量误差、实验条件或其他非相关生物学过程导致的变异,因此需要统计方法来确定哪些结果是真正具有生物学意义的。

  • Most frequent pathway

  • Most enriched pathway 通路富集

    • 对于某一个通路(一个一个看),
    • 研究的一个基因组中,所有能注释到的基因称为“background”
    • 评估自己实验条件下的这些基因在通路中的概率,跟background中所有基因落在通路中的概率,比较这二者,算p值
  • 其实就是一个抽样问题,用超几何分布来算p值

多假设检验矫正 FDR矫正

因为前面是一个一个通路去做检测的,所以每个通路判断的误差累计起来还是不容忽视的,所以这里进行一个多假设检验的矫正

如果这个期望小于0.05,那么认为是比较有生物学意义的

有三类分析方法,这里只介绍了第一种,并且给出了一些分析软件

关于同源 相似性

homology

Ortholog直系同源:不同物种的相同功能序列,来自历史上同个祖先

paralog旁系同源:同个物种,发生复制

同源性往往具有相似性,所以我们常常会根据相似性去推断同源性

相似性矩阵

  • 对于氨基酸
    • PAM矩阵
    • BLOSUM矩阵

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/770813.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

纯前端调用本机原生Office实现Web在线编辑Word/Excel/PPT,支持私有化部署

在日常协同办公过程中,一份文件可能需要多次重复修改才能确定,如果你发送给多个人修改后再汇总,这样既效率低又容易出错,这就用到网页版协同办公软件了,不仅方便文件流转还保证不会出错。 但是目前一些在线协同Office…

go的for循环应该这么用

目录 目录 一:介绍 1: for流程控制 2:for-range流程控制 二:实例展示 1://按照一定次数循环 2://无限循环 3: //循环遍历整数、各种容器和通道 4:遍历通道 5://指针数组循环 6&…

Pillow教程05:NumPy数组和PIL图像的相互转化

---------------Pillow教程集合--------------- Python项目18:使用Pillow模块,随机生成4位数的图片验证码 Python教程93:初识Pillow模块(创建Image对象查看属性图片的保存与缩放) Pillow教程02:图片的裁…

SpringBoot 文件上传(三)

之前讲解了如何接收文件以及如何保存到服务端的本地磁盘中: SpringBoot 文件上传(一)-CSDN博客 SpringBoot 文件上传(二)-CSDN博客 这节讲解如何利用阿里云提供的OSS(Object Storage Service)对象存储服务保存文件。…

vite5+vue3+ import.meta.glob动态导入vue组件

import.meta.glob 是 Vite 提供的一个特殊功能,它允许你在模块范围内动态地导入多个模块。这在处理大量的文件,如组件、页面或其他模块时特别有用,特别是当你需要根据某些条件或模式来动态加载它们时。 1.创建需要动态导入的组件目录 假设你…

设计模式—观察者模式与发布订阅

观察者设计模式 观察者设计模式(Observer Design Pattern)是一种常用的软件设计模式,它是一种行为型模式。该模式用于定义对象之间的一种一对多的依赖关系,当一个对象的状态发生改变时,所有依赖于它的对象都将得到通知…

FTP 文件传输服务

FTP连接 控制连接:TCP 21,用于发送FTP命令信息 数据连接:TCP 20,用于上传、下载数据 数据连接的建立类型: 主动模式:服务端从 20 端口主动向客户端发起连接 被动模式:服务端在指定范围…

flask_restful数据解析

参数验证也叫参数解析 Flask-Restful 插件提供了类似 WTForms 来验证提交的数据是否合法 的包,叫做 reqparse 。 # Flask_RESTFUl数据解析 from flask import Flask,render_template from flask_restful import Api,Resource from flask_restful.reqparse import …

项目3-留言板

1.创建项目 记得将project type改为maven 将需要的包引入其中 更改版本号 引入MYSQL相关包记得进行配置!!! spring:datasource:url: jdbc:mysql://127.0.0.1:3306/mycnblog?characterEncodingutf8&useSSLfalseusername: rootpassword:…

用redis lua脚本实现时间窗分布式限流

需求背景: 限制某sql在30秒内最多只能执行3次 需求分析 微服务分布式部署,既然是分布式限流,首先自然就想到了结合redis的zset数据结构来实现。 分析对zset的操作,有几个步骤,首先,判断zset中符合rangeS…

使用JMeter进行梯度压测

使用JMeter进行梯度压测 梯度压测配置如下: 使用线程:5,然后循环5000次,共2.5万个样本使用线程:10,然后循环5000次,共5万个样本使用线程:15,然后循环5000次,共7.5万个样本使用线程:20&#xff…

Redis中的事件

事件 概述 Redis服务器是一个事件驱动程序:服务器需要处理以下两类事件: 1.文件事件(file event):Redis服务器通过套接字与客户端(或者其他Redis服务器)进行连接,而文件事件就是服务器对套接字操作的抽象。服务器与客户端(或者其他服务器)的通信会产生相应的文件…

上位机图像处理和嵌入式模块部署(qmacvisual自定义插件代码分析)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 qmacvisual里面的第三方插件主要由两部分组成,一部分是ExtensionLibrary,也就是插件的容器,这个是官方提供的&a…

【机器学习】贝叶斯上篇(详解)

深入理解贝叶斯学习:核心原理及应用全解析 在机器学习的领域内,贝叶斯学习作为一种强大的框架,使我们能够在不确定性条件下进行预测和决策。贝叶斯学习源于托马斯贝叶斯的工作,提供了一种概率论的学习方法,与传统的频…

荟萃分析R Meta-Analyses 3 Effect Sizes

总结 效应量是荟萃分析的基石。为了进行荟萃分析,我们至少需要估计效应大小及其标准误差。 效应大小的标准误差代表研究对效应估计的精确程度。荟萃分析以更高的精度和更高的权重给出效应量,因为它们可以更好地估计真实效应。 我们可以在荟萃分析中使用…

软考高级架构师:MVP 架构概念和例题

作者:明明如月学长, CSDN 博客专家,大厂高级 Java 工程师,《性能优化方法论》作者、《解锁大厂思维:剖析《阿里巴巴Java开发手册》》、《再学经典:《Effective Java》独家解析》专栏作者。 热门文章推荐&am…

Spring - AOP/事务 实现原理

AOP 基本概念 官方文档: Aspect Oriented Programming with Spring Spring AOP supports the following AspectJ pointcut designators (PCD) for use in pointcut expressions: within - limits matching to join points within certain types (simply the exec…

Visual Studio项目编译和运行依赖第三方库的项目

1.创建项目,这里创建的项目是依赖于.sln的项目,非CMake项目 2.添加第三方库依赖的头文件和库文件路劲 3.添加第三方依赖库文件 4.项目配置有2个,一个是Debug,一个是Release,如果你只配置了Debug,编译和运行…

Unity 视频组件 VideoPlayer

组件添加: 在自己定义的组件下(例如:Panel) 点击 Inspector 面板中的 AddComponent ,输入“VideoPlayer”。 资源 这里 视频资源有两种形式,第一种是 VideoClip ,需要将视频文件拖拽到该属性字段…

喜报 | 聚合科技荣获江苏省数字经济学会科学技术奖

近日,江苏省数字经济学会公布了2023年度江苏省数字经济学会科学技术奖获奖名单。本次在全省范围内共评选出科学技术进步奖、科学技术创新奖、优秀成果奖获奖项目共计19项。“聚合数据资产服务API平台”凭借其前沿的创新性和优秀的应用前景成功获得科学技术创新奖二等…