Molecular signatures database (MSigDB) 3.0

文献翻译和解读(解读在最后)

摘要

动机: 良好注释的基因集代表了生物学过程的全貌,对于大规模基因组数据的有意义和深入解读至关重要。分子特征数据库(MSigDB)是最广泛使用的此类基因集资源库之一。

结果: 我们报告了数据库的新版本——MSigDB 3.0的发布,包含超过6700个基因集,全面修订了经典通路集合和来自出版物的实验特征,增强了注释并对网站进行了升级。

可用性和实施: MSigDB可在以下网站免费下载,供非商业用途使用:GSEA | MSigDB

1. 引言

微阵列和其他高通量基因组技术通常产生大量潜在有趣的基因列表,这些列表并不总是容易解释的。鉴于协调表达的基因集合的重要性,我们的开创性论文(Mootha et al., 2003)首次引入了基因集合富集分析(GSEA),用于发现与人类2型糖尿病相关的代谢通路。GSEA和其他分析性富集工具通过优先排列的生物学特征列表来总结基因组数据。正如最近对68种富集工具的调查所强调的那样,它们严重依赖于“后端注释数据库”(Huang et al., 2009)。这些数据库通常聚焦于特定的知识领域或注释过程。例如,基因本体(GO)(Ashburner et al., 2000)代表了一种用于描述单个基因产物的受控术语层次结构,而TRANSFAC(Matys et al., 2006)存储关于转录因子结合位点的信息。越来越多的数据库从文献中报告的基因表达特征中获取集合,这些数据库包括SignatureDB(Shaffer et al., 2006)、GeneSigDB(Culhane et al., 2009)、CCancer(Dietmann et al., 2010)以及L2L和LOLA(Cahan et al., 2007)。

**分子特征数据库(MSigDB)**与这些资源有几个显著不同之处:(i)MSigDB显式设计用于为富集分析方法提供基因集,因此它与我们的GSEA软件(Subramanian et al., 2005)无缝集成。(ii)MSigDB涵盖了更广泛的基因集来源和类型,包括从原始研究出版物中提取的特征,以及从GO、KEGG(Kanehisa and Goto, 2000)、TRANSFAC和L2L等专门资源中衍生的完整集合。(iii)MSigDB的基因集既通过手动策划,也通过自动计算方法获取,而其他数据库则更侧重其中一种方法。(iv)最后,MSigDB包含了最多的基因集合。

最初发布的MSigDB数据库(2005年与GSEA软件一起发布)包含1325个基因集。相比之下,MSigDB 3.0版本(2010年9月发布)包含6769个基因集以及更丰富的注释。本文将更详细地描述MSigDB 3.0版本中的基因集和附带的在线资源。

2. 结果

基因集合: MSigDB 3.0中的基因集根据其来源分为五个集合:

  • C1:位于同一染色体或细胞遗传带上的基因。
  • C2:代表经典通路的基因集合(包括由Reactome贡献的430个新集合)(Matthews et al., 2009),以及来自786篇科学出版物的化学和遗传扰动对应的集合。
  • C3:在其启动子(转录因子目标)或3' UTR(微RNA目标)序列中共享顺式调控基序的基因集合。
  • C4:通过对大规模基因表达数据的计算分析定义的共同表达模块集。
  • C5:与GO术语对应的基因集合。

表1展示了MSigDB自初次发布以来的集合和数据库的增长(参见在线发布说明)。

基因集注释: 每个MSigDB基因集是一个基因列表,包含相关的注释和指向外部资源的链接。MSigDB主要关注人类基因集合,然而,我们也包含一些模型生物的基因集合,基因集注释包括有机体的识别信息。我们使用HUGO基因符号,并且自版本3.0起,使用人类Entrez基因ID作为通用标识符。这些Entrez ID是唯一且稳定的,可以轻松映射到各种其他标识符,并且与GenBank的核酸和蛋白质序列资源原生集成。我们还保留了基因集来源中使用的任何原始标识符。所有集合都有唯一的数据库标识符和名称,并包括简短和详细的描述。其他注释依赖于基因集的类型。链接到外部资源的注释尤为重要,因为它们使研究人员能够将基因集置于特定研究的背景中,并促进后续实验的决策。

来自出版物的基因集合具有最丰富的注释。这些注释包括出版物的PubMed ID、来自同一出版物的其他基因集的指向,以及现在还包括提取基因集的具体表格或图形的详细信息。对于版本3.0,我们更新了这些基因集的名称,使其更加描述性且标准化,同时将附带的简要描述改为更统一和一致的格式。版本3.0还引入了其他注释功能,包括指向基因表达综合体(GEO)(Barrett et al., 2009)和ArrayExpress(Parkinson et al., 2009)中源数据集的链接。经典通路集合包括指向源网站上路径的链接。

文件格式: MSigDB基因集文件可以下载为纯文本和XML格式。纯文本文件包含简单的基因集成员列表,而XML文件还包括注释。为了确保GSEA结果的可重复性,旧版本的MSigDB文件始终可用。请注意,使用我们GSEA软件的用户无需下载MSigDB文件,因为该工具会直接自动检索基因集。

3. MSigDB在线资源

在版本3.0中,我们更新了MSigDB网站。该网站首次在2007年7月推出,允许用户查看注释过的基因集,并执行简单的搜索和分析任务。每个基因集及其所有注释都展示在一个单独的网页上(见图1)。嵌入的超链接将注释连接到相应的外部资源,包括PubMed、GEO和ArrayExpress、PubChem以及Entrez Gene。

MSigDB网站允许用户通过搜索注释中的关键字来查找基因集。在线分析工具使用户能够:(i)计算基因集之间的重叠;(ii)查看基因集在参考表达数据集中的热图;(iii)按基因家族对基因进行分类。基因家族提供了通过将基因集合中的成员分组到少数几个有意义的类别中,快速查看基因集的方式。我们更新了基因家族,现在它们包括:癌基因、抑癌基因、易位癌基因、转录因子、蛋白激酶、同源域蛋白、细胞分化标志物以及细胞因子/生长因子。

详细分析解读:

1. 基因集的概念

在基因组学中,基因集(Gene Set) 是一组具有某些共同特征的基因。这些基因通常参与同一生物学过程、信号通路或疾病过程。例如,某些基因可能在癌症细胞的增殖过程中共同发挥作用,或者它们可能被同一个转录因子调控。

这些基因集在生物学研究中非常有用,因为它们能够帮助研究人员理解基因之间的关系以及它们如何共同作用。例如,如果研究人员发现一组基因在某种疾病中被异常表达,可能表明这些基因与该疾病有关。

2. MSigDB数据库

MSigDB(Molecular Signatures Database)是一个包含大量基因集的数据库。它提供了从不同来源获得的基因集,包括:

  • 经典通路(Canonical pathways),这些是已知的、经过验证的基因路径,例如与细胞周期、DNA修复等生物过程相关的通路。
  • 实验签名(Experimental signatures),这些是通过实验获得的基因集,可能代表某些特定条件下基因的表达模式。例如,某些基因集可能表示细胞在特定药物处理下的反应。
  • 转录因子目标(Transcription factor targets),这些基因集代表由特定转录因子调控的基因。

3. MSigDB 3.0版本的更新

在MSigDB的版本3.0中,数据库的内容和功能得到了显著改进:

  • 基因集数量增加:MSigDB 3.0版本包含超过6700个基因集,远多于之前版本的基因集数量。
  • 经典通路和实验签名的修订:更新了经典通路集合和来自文献的实验签名,使其更加全面和准确。
  • 增强的注释:每个基因集都进行了详细的注释,提供了更多的背景信息。例如,基因集现在包括从特定出版物中的表格或图形中提取的信息。
  • 网站升级:MSigDB的官方网站得到了升级,新增了搜索和分析工具,用户可以更容易地浏览和分析基因集。

4. MSigDB的使用

MSigDB数据库可以用于很多不同类型的生物学研究,特别是在基因表达分析中。例如,基因集富集分析(Gene Set Enrichment Analysis, GSEA) 是一种常用的分析方法,它通过检测一组基因是否在一个特定的生物学条件下被显著表达,来揭示潜在的生物学过程或路径。GSEA分析可以帮助研究人员发现隐藏在大规模基因表达数据中的生物学模式。

计算机背景的学生如何理解?
  1. 数据的结构与分析:你可以将基因集看作是一个有多个基因的列表,每个基因列表代表某个生物学过程或信号通路。这些基因集是通过手动注释和自动计算方法得到的,类似于构建一个数据集,通过不同的方式来分类数据。

  2. 数据库和文件格式:MSigDB提供了纯文本XML格式的文件下载。文本文件中列出了基因的成员,而XML文件除了列出基因成员外,还包含注释信息。XML文件结构化的数据使得它更适合计算机处理和自动化分析。

  3. Web界面和工具:MSigDB提供了一个在线网站,供研究人员浏览基因集和进行基本的分析。你可以通过网站提供的工具进行基因集间的重叠计算、热图显示、按基因家族分类等操作,这些功能对于数据挖掘和进一步的生物学分析非常有用。

5. 数据库的应用场景

  • 基因表达分析:比如在癌症研究中,通过比较癌症细胞与正常细胞中的基因表达,研究人员可以利用MSigDB中的基因集发现哪些通路或生物学过程在癌症中被改变。
  • 疾病机制研究:通过分析不同基因集在疾病中的表达变化,研究人员可以发现与疾病相关的潜在生物标志物。
  • 药物靶点发现:药物的作用往往通过调控特定的基因集或通路来实现。通过分析药物处理后的基因表达变化,研究人员可以使用MSigDB中的通路信息来识别潜在的药物靶点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/60774.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Hadoop】【hdfs】【大数据技术基础】实验三 HDFS 基础编程实验

实验三: HDFS Java API编程实践 实验题目 HDFS Java API编程实践 实验目的 熟悉HDFS操作常用的Java API。 实验平台 操作系统:Linux Hadoop版本:2.6.0或以上版本 JDK版本:1.6或以上版本 Java IDE:Eclipse 实验…

Flowable 构建后端服务(后端以及数据库搭建) Flowable Modeler 设计器搭建(前端)

案例地址&#xff1a;xupengboo-flowable-example Flowable 构建后端服务&#xff08;后端以及数据库搭建&#xff09; 以 Spring Boot 项目为例&#xff1a; 引入 Flowable 必要依赖。 <!-- flowable 依赖 --> <dependency><groupId>org.flowable</gr…

2022 年 9 月青少年软编等考 C 语言二级真题解析

目录 T1. 统计误差范围内的数思路分析 T2. 全在其中思路分析 T3. Lab 杯思路分析 T4. 有趣的跳跃思路分析 T5. 反反复复思路分析 T1. 统计误差范围内的数 统计一个整数序列中与指定数字 m m m 误差范围小于等于 x x x 的数的个数。 时间限制&#xff1a;1 s 内存限制&#…

ssm114基于SSM框架的网上拍卖系统的设计与实现+vue(论文+源码)_kaic

摘 要 随着科学技术的飞速发展&#xff0c;各行各业都在努力与现代先进技术接轨&#xff0c;通过科技手段提高自身的优势&#xff0c;商品拍卖当然也不能排除在外&#xff0c;随着商品拍卖管理的不断成熟&#xff0c;它彻底改变了过去传统的经营管理方式&#xff0c;不仅使商品…

智慧农业的前世今生

智慧农业是将现代信息技术与传统农业相结合的新型农业生产方式&#xff0c;其发展历程如下&#xff1a; 20世纪70年代末&#xff0c;以美国为代表的欧美国家率先开始农业信息化、智能化的应用研究&#xff0c;以农业专家系统为代表的农业信息化应用开始在农业生产领域萌芽。我…

BERT模型核心组件详解及其实现

摘要 BERT&#xff08;Bidirectional Encoder Representations from Transformers&#xff09;是一种基于Transformer架构的预训练模型&#xff0c;在自然语言处理领域取得了显著的成果。本文详细介绍了BERT模型中的几个关键组件及其实现&#xff0c;包括激活函数、变量初始化…

Transformer中的算子:其中Q,K,V就是算子

目录 Transformer中的算子 其中Q,K,V就是算子 一、数学中的算子 二、计算机科学中的算子 三、深度学习中的算子 四、称呼的由来 Transformer中的算子 其中Q,K,V就是算子 “算子”这一称呼源于其在数学、计算机科学以及深度学习等多个领域中的广泛应用和特定功能。以下是…

ElementPlus el-upload上传组件on-change只触发一次

ElementPlus el-upload上传组件on-change只触发一次 主要运用了:on-exceed方法 废话不多说&#xff0c;直接上代码 <el-uploadclass"avatar-uploader"action"":on-change"getFilesj":limit"1":auto-upload"false"accep…

厦大南洋理工最新开源,一种面向户外场景的特征-几何一致性无监督点云配准方法

导读 本文提出了INTEGER&#xff0c;一种面向户外点云数据的无监督配准方法&#xff0c;通过整合高层上下文和低层几何特征信息来生成更可靠的伪标签。该方法基于教师-学生框架&#xff0c;创新性地引入特征-几何一致性挖掘&#xff08;FGCM&#xff09;模块以提高伪标签的准确…

Conda环境与Ubuntu环境移植详解

Conda环境与Ubuntu环境移植详解 在计算机科学中&#xff0c;环境迁移是一项常见的任务&#xff0c;特别是对于使用Anaconda等工具进行数据科学和机器学习的开发人员。迁移环境不仅能够帮助开发者在不同设备间无缝切换&#xff0c;还能确保项目依赖的一致性&#xff0c;从而避免…

【深度学习基础】PyCharm anaconda PYTorch python CUDA cuDNN 环境配置

这里写目录标题 PyCharm 安装anaconda安装PYTorch安装确定python版本CUDA安装cuDNN安装检验环境是否配置成功参照:PyCharm 安装 官网下载 anaconda安装 官网下载 :https://www.anaconda.com/download 配置环境变量,增加 D:\WorkSoftware\Install\Anaconda3 D:\WorkSoftw…

生产环境中AI调用的优化:AI网关高价值应用实践

随着越来越多的组织将生成式AI引入生产环境&#xff0c;他们面临的挑战已经超出了初步实施的范畴。如果管理不当&#xff0c;扩展性限制、安全漏洞和性能瓶颈可能会阻碍AI应用的推广。实际问题如用户数据的安全性、固定容量限制、成本管理和延迟优化等&#xff0c;需要创新的解…

Redis 概 述 和 安 装

安 装 r e d i s: 1. 下 载 r e dis h t t p s : / / d o w n l o a d . r e d i s . i o / r e l e a s e s / 2. 将 redis 安装包拷贝到 /opt/ 目录 3. 解压 tar -zvxf redis-6.2.1.tar.gz 4. 安装gcc yum install gcc 5. 进入目录 cd redis-6.2.1 6. 编译 make …

SpringBoot 2.2.10 无法执行Test单元测试

很早之前的项目今天clone现在&#xff0c;想执行一个业务订单的检查&#xff0c;该检查的代码放在test单元测试中&#xff0c;启动也是好好的&#xff0c;当点击对应的方法执行Test的时候就报错 tip&#xff1a;已添加spring-boot-test-starter 所以本身就引入了junit5的库 No…

Dubbo 3.2 源码导读

Dubbo 是一个高性能的 Java RPC 框架&#xff0c;广泛用于构建分布式服务。Dubbo 3.2 版本引入了一些新的特性和改进&#xff0c;是一个值得深入研究的版本。以下是对 Dubbo 3.2 源码的导读&#xff0c;帮助你理解其架构和设计。 1. 源码获取 从 GitHub 上获取 Dubbo 3.2 的源…

[项目代码] YOLOv5 铁路工人安全帽安全背心识别 [目标检测]

YOLOv5是一种单阶段&#xff08;one-stage&#xff09;检测算法&#xff0c;它将目标检测问题转化为一个回归问题&#xff0c;能够在一次前向传播过程中同时完成目标的分类和定位任务。相较于两阶段检测算法&#xff08;如Faster R-CNN&#xff09;&#xff0c;YOLOv5具有更高的…

Flutter:Widget生命周期

StatelessWidget&#xff1a;无状态部件的生命周期 import package:flutter/material.dart;void main() {runApp(App()); }class App extends StatelessWidget {overrideWidget build(BuildContext context) {return MaterialApp(home: MyHomePage(title: MyHome),);} }class M…

SIM Jacker攻击分析

简介&#xff1a; 2019年9月12日&#xff0c;AdaptiveMobile Security公布了一种针对SIM卡ST Browser的远程攻击方式&#xff1a;Simjacker。攻击者使用普通手机发送特殊构造的短信即可远程定位目标&#xff0c;危害较大 。sim卡的使用在手机上的使用非常普遍&#xff0c;所以…

Python 操作 Elasticsearch 全指南:从连接到数据查询与处理

文章目录 Python 操作 Elasticsearch 全指南&#xff1a;从连接到数据查询与处理引言安装 elasticsearch-py连接到 Elasticsearch创建索引插入数据查询数据1. 简单查询2. 布尔查询 更新文档删除文档和索引删除文档删除索引 批量插入数据处理分页结果总结 Python 操作 Elasticse…

【linux】centos7 换阿里云源

相关文章 【linux】CentOS 的软件源&#xff08;Repository&#xff09;学习-CSDN博客 查看yum配置文件 yum的配置文件通常位于/etc/yum.repos.d/目录下。你可以使用以下命令查看这些文件&#xff1a; ls /etc/yum.repos.d/ # 或者 ll /etc/yum.repos.d/备份当前的yum配置文…