Molecular signatures database (MSigDB) 3.0

文献翻译和解读(解读在最后)

摘要

动机: 良好注释的基因集代表了生物学过程的全貌,对于大规模基因组数据的有意义和深入解读至关重要。分子特征数据库(MSigDB)是最广泛使用的此类基因集资源库之一。

结果: 我们报告了数据库的新版本——MSigDB 3.0的发布,包含超过6700个基因集,全面修订了经典通路集合和来自出版物的实验特征,增强了注释并对网站进行了升级。

可用性和实施: MSigDB可在以下网站免费下载,供非商业用途使用:GSEA | MSigDB

1. 引言

微阵列和其他高通量基因组技术通常产生大量潜在有趣的基因列表,这些列表并不总是容易解释的。鉴于协调表达的基因集合的重要性,我们的开创性论文(Mootha et al., 2003)首次引入了基因集合富集分析(GSEA),用于发现与人类2型糖尿病相关的代谢通路。GSEA和其他分析性富集工具通过优先排列的生物学特征列表来总结基因组数据。正如最近对68种富集工具的调查所强调的那样,它们严重依赖于“后端注释数据库”(Huang et al., 2009)。这些数据库通常聚焦于特定的知识领域或注释过程。例如,基因本体(GO)(Ashburner et al., 2000)代表了一种用于描述单个基因产物的受控术语层次结构,而TRANSFAC(Matys et al., 2006)存储关于转录因子结合位点的信息。越来越多的数据库从文献中报告的基因表达特征中获取集合,这些数据库包括SignatureDB(Shaffer et al., 2006)、GeneSigDB(Culhane et al., 2009)、CCancer(Dietmann et al., 2010)以及L2L和LOLA(Cahan et al., 2007)。

**分子特征数据库(MSigDB)**与这些资源有几个显著不同之处:(i)MSigDB显式设计用于为富集分析方法提供基因集,因此它与我们的GSEA软件(Subramanian et al., 2005)无缝集成。(ii)MSigDB涵盖了更广泛的基因集来源和类型,包括从原始研究出版物中提取的特征,以及从GO、KEGG(Kanehisa and Goto, 2000)、TRANSFAC和L2L等专门资源中衍生的完整集合。(iii)MSigDB的基因集既通过手动策划,也通过自动计算方法获取,而其他数据库则更侧重其中一种方法。(iv)最后,MSigDB包含了最多的基因集合。

最初发布的MSigDB数据库(2005年与GSEA软件一起发布)包含1325个基因集。相比之下,MSigDB 3.0版本(2010年9月发布)包含6769个基因集以及更丰富的注释。本文将更详细地描述MSigDB 3.0版本中的基因集和附带的在线资源。

2. 结果

基因集合: MSigDB 3.0中的基因集根据其来源分为五个集合:

  • C1:位于同一染色体或细胞遗传带上的基因。
  • C2:代表经典通路的基因集合(包括由Reactome贡献的430个新集合)(Matthews et al., 2009),以及来自786篇科学出版物的化学和遗传扰动对应的集合。
  • C3:在其启动子(转录因子目标)或3' UTR(微RNA目标)序列中共享顺式调控基序的基因集合。
  • C4:通过对大规模基因表达数据的计算分析定义的共同表达模块集。
  • C5:与GO术语对应的基因集合。

表1展示了MSigDB自初次发布以来的集合和数据库的增长(参见在线发布说明)。

基因集注释: 每个MSigDB基因集是一个基因列表,包含相关的注释和指向外部资源的链接。MSigDB主要关注人类基因集合,然而,我们也包含一些模型生物的基因集合,基因集注释包括有机体的识别信息。我们使用HUGO基因符号,并且自版本3.0起,使用人类Entrez基因ID作为通用标识符。这些Entrez ID是唯一且稳定的,可以轻松映射到各种其他标识符,并且与GenBank的核酸和蛋白质序列资源原生集成。我们还保留了基因集来源中使用的任何原始标识符。所有集合都有唯一的数据库标识符和名称,并包括简短和详细的描述。其他注释依赖于基因集的类型。链接到外部资源的注释尤为重要,因为它们使研究人员能够将基因集置于特定研究的背景中,并促进后续实验的决策。

来自出版物的基因集合具有最丰富的注释。这些注释包括出版物的PubMed ID、来自同一出版物的其他基因集的指向,以及现在还包括提取基因集的具体表格或图形的详细信息。对于版本3.0,我们更新了这些基因集的名称,使其更加描述性且标准化,同时将附带的简要描述改为更统一和一致的格式。版本3.0还引入了其他注释功能,包括指向基因表达综合体(GEO)(Barrett et al., 2009)和ArrayExpress(Parkinson et al., 2009)中源数据集的链接。经典通路集合包括指向源网站上路径的链接。

文件格式: MSigDB基因集文件可以下载为纯文本和XML格式。纯文本文件包含简单的基因集成员列表,而XML文件还包括注释。为了确保GSEA结果的可重复性,旧版本的MSigDB文件始终可用。请注意,使用我们GSEA软件的用户无需下载MSigDB文件,因为该工具会直接自动检索基因集。

3. MSigDB在线资源

在版本3.0中,我们更新了MSigDB网站。该网站首次在2007年7月推出,允许用户查看注释过的基因集,并执行简单的搜索和分析任务。每个基因集及其所有注释都展示在一个单独的网页上(见图1)。嵌入的超链接将注释连接到相应的外部资源,包括PubMed、GEO和ArrayExpress、PubChem以及Entrez Gene。

MSigDB网站允许用户通过搜索注释中的关键字来查找基因集。在线分析工具使用户能够:(i)计算基因集之间的重叠;(ii)查看基因集在参考表达数据集中的热图;(iii)按基因家族对基因进行分类。基因家族提供了通过将基因集合中的成员分组到少数几个有意义的类别中,快速查看基因集的方式。我们更新了基因家族,现在它们包括:癌基因、抑癌基因、易位癌基因、转录因子、蛋白激酶、同源域蛋白、细胞分化标志物以及细胞因子/生长因子。

详细分析解读:

1. 基因集的概念

在基因组学中,基因集(Gene Set) 是一组具有某些共同特征的基因。这些基因通常参与同一生物学过程、信号通路或疾病过程。例如,某些基因可能在癌症细胞的增殖过程中共同发挥作用,或者它们可能被同一个转录因子调控。

这些基因集在生物学研究中非常有用,因为它们能够帮助研究人员理解基因之间的关系以及它们如何共同作用。例如,如果研究人员发现一组基因在某种疾病中被异常表达,可能表明这些基因与该疾病有关。

2. MSigDB数据库

MSigDB(Molecular Signatures Database)是一个包含大量基因集的数据库。它提供了从不同来源获得的基因集,包括:

  • 经典通路(Canonical pathways),这些是已知的、经过验证的基因路径,例如与细胞周期、DNA修复等生物过程相关的通路。
  • 实验签名(Experimental signatures),这些是通过实验获得的基因集,可能代表某些特定条件下基因的表达模式。例如,某些基因集可能表示细胞在特定药物处理下的反应。
  • 转录因子目标(Transcription factor targets),这些基因集代表由特定转录因子调控的基因。

3. MSigDB 3.0版本的更新

在MSigDB的版本3.0中,数据库的内容和功能得到了显著改进:

  • 基因集数量增加:MSigDB 3.0版本包含超过6700个基因集,远多于之前版本的基因集数量。
  • 经典通路和实验签名的修订:更新了经典通路集合和来自文献的实验签名,使其更加全面和准确。
  • 增强的注释:每个基因集都进行了详细的注释,提供了更多的背景信息。例如,基因集现在包括从特定出版物中的表格或图形中提取的信息。
  • 网站升级:MSigDB的官方网站得到了升级,新增了搜索和分析工具,用户可以更容易地浏览和分析基因集。

4. MSigDB的使用

MSigDB数据库可以用于很多不同类型的生物学研究,特别是在基因表达分析中。例如,基因集富集分析(Gene Set Enrichment Analysis, GSEA) 是一种常用的分析方法,它通过检测一组基因是否在一个特定的生物学条件下被显著表达,来揭示潜在的生物学过程或路径。GSEA分析可以帮助研究人员发现隐藏在大规模基因表达数据中的生物学模式。

计算机背景的学生如何理解?
  1. 数据的结构与分析:你可以将基因集看作是一个有多个基因的列表,每个基因列表代表某个生物学过程或信号通路。这些基因集是通过手动注释和自动计算方法得到的,类似于构建一个数据集,通过不同的方式来分类数据。

  2. 数据库和文件格式:MSigDB提供了纯文本XML格式的文件下载。文本文件中列出了基因的成员,而XML文件除了列出基因成员外,还包含注释信息。XML文件结构化的数据使得它更适合计算机处理和自动化分析。

  3. Web界面和工具:MSigDB提供了一个在线网站,供研究人员浏览基因集和进行基本的分析。你可以通过网站提供的工具进行基因集间的重叠计算、热图显示、按基因家族分类等操作,这些功能对于数据挖掘和进一步的生物学分析非常有用。

5. 数据库的应用场景

  • 基因表达分析:比如在癌症研究中,通过比较癌症细胞与正常细胞中的基因表达,研究人员可以利用MSigDB中的基因集发现哪些通路或生物学过程在癌症中被改变。
  • 疾病机制研究:通过分析不同基因集在疾病中的表达变化,研究人员可以发现与疾病相关的潜在生物标志物。
  • 药物靶点发现:药物的作用往往通过调控特定的基因集或通路来实现。通过分析药物处理后的基因表达变化,研究人员可以使用MSigDB中的通路信息来识别潜在的药物靶点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/60774.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Hadoop】【hdfs】【大数据技术基础】实验三 HDFS 基础编程实验

实验三: HDFS Java API编程实践 实验题目 HDFS Java API编程实践 实验目的 熟悉HDFS操作常用的Java API。 实验平台 操作系统:Linux Hadoop版本:2.6.0或以上版本 JDK版本:1.6或以上版本 Java IDE:Eclipse 实验…

ssm114基于SSM框架的网上拍卖系统的设计与实现+vue(论文+源码)_kaic

摘 要 随着科学技术的飞速发展,各行各业都在努力与现代先进技术接轨,通过科技手段提高自身的优势,商品拍卖当然也不能排除在外,随着商品拍卖管理的不断成熟,它彻底改变了过去传统的经营管理方式,不仅使商品…

Transformer中的算子:其中Q,K,V就是算子

目录 Transformer中的算子 其中Q,K,V就是算子 一、数学中的算子 二、计算机科学中的算子 三、深度学习中的算子 四、称呼的由来 Transformer中的算子 其中Q,K,V就是算子 “算子”这一称呼源于其在数学、计算机科学以及深度学习等多个领域中的广泛应用和特定功能。以下是…

厦大南洋理工最新开源,一种面向户外场景的特征-几何一致性无监督点云配准方法

导读 本文提出了INTEGER,一种面向户外点云数据的无监督配准方法,通过整合高层上下文和低层几何特征信息来生成更可靠的伪标签。该方法基于教师-学生框架,创新性地引入特征-几何一致性挖掘(FGCM)模块以提高伪标签的准确…

生产环境中AI调用的优化:AI网关高价值应用实践

随着越来越多的组织将生成式AI引入生产环境,他们面临的挑战已经超出了初步实施的范畴。如果管理不当,扩展性限制、安全漏洞和性能瓶颈可能会阻碍AI应用的推广。实际问题如用户数据的安全性、固定容量限制、成本管理和延迟优化等,需要创新的解…

Redis 概 述 和 安 装

安 装 r e d i s: 1. 下 载 r e dis h t t p s : / / d o w n l o a d . r e d i s . i o / r e l e a s e s / 2. 将 redis 安装包拷贝到 /opt/ 目录 3. 解压 tar -zvxf redis-6.2.1.tar.gz 4. 安装gcc yum install gcc 5. 进入目录 cd redis-6.2.1 6. 编译 make …

SpringBoot 2.2.10 无法执行Test单元测试

很早之前的项目今天clone现在,想执行一个业务订单的检查,该检查的代码放在test单元测试中,启动也是好好的,当点击对应的方法执行Test的时候就报错 tip:已添加spring-boot-test-starter 所以本身就引入了junit5的库 No…

[项目代码] YOLOv5 铁路工人安全帽安全背心识别 [目标检测]

YOLOv5是一种单阶段(one-stage)检测算法,它将目标检测问题转化为一个回归问题,能够在一次前向传播过程中同时完成目标的分类和定位任务。相较于两阶段检测算法(如Faster R-CNN),YOLOv5具有更高的…

SIM Jacker攻击分析

简介: 2019年9月12日,AdaptiveMobile Security公布了一种针对SIM卡ST Browser的远程攻击方式:Simjacker。攻击者使用普通手机发送特殊构造的短信即可远程定位目标,危害较大 。sim卡的使用在手机上的使用非常普遍,所以…

【linux】centos7 换阿里云源

相关文章 【linux】CentOS 的软件源(Repository)学习-CSDN博客 查看yum配置文件 yum的配置文件通常位于/etc/yum.repos.d/目录下。你可以使用以下命令查看这些文件: ls /etc/yum.repos.d/ # 或者 ll /etc/yum.repos.d/备份当前的yum配置文…

AI 写作(八)实战项目一:自动写作助手(8/10)

一、项目背景与需求分析 (一)写作需求的多样化 在互联网普及的今天,人们对写作的需求呈现出前所未有的多样化态势。无论是学术论文、新闻报道,还是社交媒体的动态更新、网络小说的创作,都离不开高质量的写作。以学术研…

微信小程序内嵌h5页面(uniapp写的),使用uni.openLocation无法打开页面问题

1.问题 微信小程序内嵌h5页面(uniapp写的),使用uni.openLocation打开地图页面后,点击该页面下方“到这里”按钮,显示无法打开。如下图: 3.解决方案 在内嵌h5中不使用uniapp的api打开地图,而在h5页面事件处理程序中去跳转新的小程序页面,在该新页面去使用微信小程序…

SpringCloud核心组件(五)

文章目录 Gateway一. 概述简介1. Gateway 是什么2. 什么是网关?3.Gateway 和 Nginx 两个网关的区别什么是流量入口? 4.Gateway 能干嘛5.gateway 三大核心概念6.运行方式 二. 入门案例a.创建gateway模块,在pom.xml中引入依赖b.创建启动类GatewayApplicat…

1+X应急响应(网络)系统备份:

系统备份: 系统备份概述: 备份种类: 灾难恢复等级划分: 执行一次备份: 创建备份计划: 恢复备份:

Python学习26天

集合 # 定义集合 num {1, 2, 3, 4, 5} print(f"num:{num}\nnum数据类型为:{type(num)}") # 求集合中元素个数 print(f"num中元素个数为:{len(num)}") # 增加集合中的元素 num.add(6) print(num) # {1,2,3,4,5,6} # 删除…

git撤销、回退某个commit的修改

文章目录 撤销某个特定的commit方法 1:使用 git revert方法 2:使用 git rebase -i方法 3:使用 git reset 撤销某个特定的commit 如果你要撤销某个很早之前的 commit,比如 7461f745cfd58496554bd672d52efa8b1ccf0b42,可…

《译文》2024年11月数维杯国际大学生数学建模挑战赛题目

# 赛题正式发布 2024年第十届数维杯国际大学生数学建模挑战赛顺利开赛,竞赛开始时间为北京时间2024年11月15日09:00至北京时间2024年11月19日09:00,共计4天,竞赛题目正式发布,快来一起围观,你认为今年的哪个题目更具有…

LabVIEW 使用 Snippet

在 LabVIEW 中,Snippet(代码片段) 是一个非常有用的功能,它允许你将 一小段可重用的代码 保存为一个 图形化的代码片段,并能够在不同的 VI 中通过拖放来使用。 什么是 Snippet? Snippet 就是 LabVIEW 中的…

【苍穹外卖】学习日志-day1

目录 nginx 反向代理介绍 nginx 的优势 提高访问速度 负载均衡 保证后端服务安全 高并发静态资源 Swagger 生成 API 文档 Swagger 的使用方式 导入knife4j的maven坐标 在配置类中加入knife4j相关配置 设置静态资源映射 通过注解控制生成的接口文档 项目技术点 Token 模式 MD5 加…

Java poi 模板导出Word 带图片

Java poi 模板导出Word 带图片 重点&#xff01;&#xff01;&#xff01; 官方文档&#xff1a;https://deepoove.com/poi-tl/#_maven 最终效果 模板 其实内容都在官方文档里写的非常明白了 我这里只是抛砖引玉。 Maven依赖 <poi.version>4.1.2</poi.version>…