GEO的表达矩阵的探针ID转换成基因名称教程

GEO的表达矩阵的探针ID转换成基因名称教程

前情回顾

根据GSE id自动下载处理GEO数据(必须要运行的模块)

该模块的运行窗口截图

358d1b3daf0a151a738ac67a3d7b9062.jpeg

该模块的教程

  1. 知乎地址:根据GEO的GSE数据集编号自动下载和处理GEO数据教程: https://zhuanlan.zhihu.com/p/708053447

该根据GSE id自动下载处理GEO数据的GEO下载模块的常见问题答疑详解

GEO的数据集格式多种多样,使用该模块下载GEO数据集最好的情况下得到的结果是什么样的?

最好的结果就是下图这样,直接通过该模块点击下载后,会得到下面这些下载提取整理好的文件:

  1. 一次性得到注释好基因名称的表达矩阵文件,如GSE61763_exp_matrix.csv,GSE61763_exp_matrix.rds
  2. 得到样本的注释信息文件: 如GSE61763_sample_info.csv,
  3. 得到从GPL soft注释文件中提取到的基因探针跟基因名称的对应关系的两列数据文件,如GPL191197.soft.gz.gene_anno_sub.tsv文件
  4. 得到了使用表达矩阵,基因注释信息,样本注释信息等数据构建的ExpressionSet对象格式文件,如GSE61763_eset.rds 文件

8def3ae824a86208b2d3fc63fdff974e.jpeg

结果文件列表

GEO的数据集格式多种多样,使用该模块下载GEO数据集第二好的情况下得到的结果是什么样的?遇到这种情况该怎么处理?

00726ff2a9a7ccf742a9fbe17499a6bf.jpeg

  1. 提取到了GEO数据集的表达矩阵文件,如GSE20842_exp_matrix0.csv,GSE20842_exp_matrix0.rds
  2. 得到样本的注释信息文件: 如GSE20842_sample_info.csv,
  3. 得到了使用表达矩阵,探针信息,样本注释信息等数据构建的ExpressionSet对象格式文件,如GSE20842_eset.rds文件

但是这个表达矩阵有个问题就是,行名不是基因名称,而是探针名称,所以我对这个文件名称做了一些修饰,如果文件名后缀是exp_matrix0.csv,那么这样的表达矩阵里面基本上是没有注释好基因名称,需要在手动下载一下GEO的GPL文件从GPL文件中提取出基因的注释信息再跟表达矩阵合并,这样的处理作为我也有详细的处理教程来教大家怎么做

18dd1011a6968284e4b60acd77e53747.jpeg

如果文件后缀就是exp_matrix.csv,那么就是已经成功把基因名称提取出来并整合到表达矩阵中了。对于没有基因名称只有基因探针的表达矩阵,可以用下面这两个模块进行处理:

d9a3e00e0640ff826afb5e35ef50363b.jpeg

69ea04b08920b92497491813ed0d549f.jpeg

基因探针soft.gz注释文件下载

GPL背景知识介绍

在基因表达数据分析中,了解特定的基因探针平台(GPL)的注释信息是非常重要的。`GEO`,或者称为`Gene Expression Omnibus`,是一个存储高通量基因表达数据(如微阵列和次世代测序数据)的公共数据库,由美国国立生物技术信息中心(NCBI)管理。每个数据集通常与一个或多个探针平台相关联,这些平台在GEO中被指定为GPL(Gene Expression Omnibus Platform)。

GEO的GPL(Gene Expression Omnibus Platform)

在GEO中,每个基因探针平台被赋予一个唯一的GPL编号。GPL描述了用于测量基因表达的技术和方法,包括探针的设计、制造信息以及探针与基因(或转录本)之间的对应关系。这些信息对于正确解释基因表达数据至关重要。

主要内容包括:

1. **平台描述**:

- **制造商**:如Affymetrix, Illumina, Agilent等。

- **技术类型**:如微阵列芯片、次世代测序。

- **探针特征**:探针数量、探针覆盖的生物体(如人类、小鼠等)。

2. **探针注释**:

- **探针ID**:每个探针在平台上的唯一标识。

- **探针位置信息**:探针在基因组或转录组上的具体位置。

- **靶标基因**:每个探针旨在检测的基因或转录本。

- **相关序列**:探针的核苷酸序列。

3. **访问和使用**:

- **GPL访问编号**:如GPL570。

- **数据集示例**:与该平台相关的GEO数据集编号(如GSE号)。

- **下载和查询**:用户可以通过NCBI的GEO查询界面查询特定平台的注释数据。

为什么探针注释重要?

- **精确的生物学解释**:正确的探针到基因的映射确保了实验结果的生物学解释的准确性。

- **数据比较**:统一的探针注释允许不同实验数据间的有效比较。

- **研究复现**:详细的平台注释信息帮助其他研究者复现和验证实验结果。

理解GEO的GPL信息有助于研究人员有效利用公共基因表达数据

基因探针soft.gz注释文件的自动下载

根据GSE id自动下载处理GEO数据(必须要运行的模块)

该模块的运行窗口截图

259bf165e17b2a327a21177183ef1694.jpeg

该模块运行的结果文件

1c0460ac42e6e06f33f51d2d067b5e99.jpeg

GSE61763数据集的GPL平台编号是GPL19197,在运行该模块执行完成后,会自动下载出GPL191197.soft.gz或GSE61763_family.soft.gz这样的探针注释文件。

GPL探针soft.gz注释文件的手动下载

如果有的时候使用上面的自动下载模块没有下载到GPLXXX.soft.gz或GSEXXX_family.soft.gz注释文件,我们也可以使用手动下载模块来下载GPL的注释文件

a68501e008f448a6f18353b065ed4906.jpeg

16b6fda01e5afeceacf0d103d55de594.jpeg

从gpl注释文件中提取出基因注释

教学教程视频

从gpl注释文件中提取出基因注释:https://www.bilibili.com/video/BV15w4m1q7Dw/

运行窗口

da233c23c40fa256a1e8cdc7804517dd.jpeg

运行完成提取到的注释结果

627881615d1d909d60a663ab194c5e43.jpegffa0313cacc0f8469ca2a29dcf67457c.jpeg

将提取的基因注释信息跟表达矩阵合并

该部分的教学视频

将提取的基因注释信息跟表达矩阵合并:https://www.bilibili.com/video/BV12f421Q7nK/

窗口截图展示

e69913f05807c2a7c3beb0adce739ff8.jpeg

参数注释信息解释

func_anno__file: 提取出的基因注释信息文件

func_anno__id__col:基因注释文件中基因id的列名

func_anno__gene__col:基因注释文件中gene_symbol所在的列名

func_exp__id__col:表达文件中的索引列

nested_function:是否嵌套函数

run_file_path:表达数据文件所在的路径

run_read_file:是否要读取文件

run_add_save_file_prefix:是否要添加结果保存文件的前缀

提交

参数给出的默认值

func_anno__file:D:/omics_tools/demo_data/res_dir/renal_cancer/GSE61763/GPL19197.soft.gz.total_gene_anno_sub.tsv ;

func_anno__id__col: ID ;

func_anno__gene__col: gene_symbol ;

func_exp__id__col: V1 ;

nested_function: TRUE ;

run_file_path: D:/omics_tools/demo_data/res_dir/renal_cancer/GSE61763/GSE61763_gsm_tar_after_norm_exp_matrix.csv ;

run_read_file: FALSE ;

run_add_save_file_prefix: FALSE

运行中的信息展示

分析正在执行中,请稍后, 运行结果保存的目录位置为: D:/omics_tools/demo_data/res_dir/renal_cancer/GSE61763\res_dir; 运行结果日志保存的路径为: D:/omics_tools/demo_data/res_dir/renal_cancer/GSE61763\res_dir\GSE61763_gsm_tar_after_norm_exp_matrix_last_final_run_res_log.csv

表达数据集的内容展示

D:/omics_tools/demo_data/res_dir/renal_cancer/GSE61763/GSE61763_gsm_tar_after_norm_exp_matrix.csv

3b73d26333e255c74c061a51c71c2cc3.jpeg

基因注释文件信息

e658aab13811236c03d4e62ac491ffb1.jpeg

运行完成的信息显示

执行已完成,运行结果保存的目录位置为: D:/omics_tools/demo_data/res_dir/renal_cancer/GSE61763\res_dir; 分析结果日志保存的路径为: D:/omics_tools/demo_data/res_dir/renal_cancer/GSE61763\res_dir\GSE61763_gsm_tar_after_norm_exp_matrix_last_final_run_res_log.csv

运行完成的结果展示

0c8fde4e0096476f4e336fafe7ebd005.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/871075.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大模型最新黑书:基于GPT-3、ChatGPT、GPT-4等Transformer架构的自然语言处理 PDF

今天给大家推荐一本丹尼斯罗斯曼(Denis Rothman)编写的关于大语言模型&#xff08;LLM&#xff09;权威教程<<大模型应用解决方案> 基于GPT-3、ChatGPT、GPT-4等Transformer架构的自然语言处理>&#xff01;Google工程总监Antonio Gulli作序&#xff0c;这含金量不…

观察者模式的实现

引言&#xff1a;观察者模式——程序中的“通信兵” 在现代战争中&#xff0c;通信是胜利的关键。信息力以网络、数据、算法、算力等为底层支撑&#xff0c;在现代战争中不断推动感知、决策、指控等各环节产生量变与质变。在软件架构中&#xff0c;观察者模式扮演着类似的角色…

最小二乘算法的解

最小二乘法&#xff08;Least Squares&#xff09;是一种用于寻找线性回归模型的最佳拟合直线的标准方法。它通过最小化数据点与拟合直线之间的平方差来找到最佳拟合的线性模型。 线性回归模型 假设我们有一组数据点 (xi,yi)&#xff0c;线性回归模型的目标是找到系数 w 和截…

css预编译器--sass

Sass Sass 提供了 变量&#xff08;variables&#xff09;、嵌套规则&#xff08;nested rules&#xff09;、 混合&#xff08;mixins&#xff09;、 函数&#xff08;functions&#xff09;&#xff0c;目前我使用最多的还是变量和嵌套规则&#xff0c;貌似目前css也支持嵌套…

2024年高职物联网实验室建设及物联网实训平台整体解决方案

随着物联网技术的蓬勃发展&#xff0c;其在各行业的应用日益广泛&#xff0c;对具备物联网专业技能的高素质人才需求也急剧增加。为了满足这一市场需求&#xff0c;高职院校作为技能型人才培养的重要阵地&#xff0c;亟需加强物联网专业的建设。本文旨在提出《2024年高职物联网…

一个开源完全免费的无损视频或音频的剪切/裁剪/分割/截取和视频合并工具

大家好&#xff0c;今天给大家分享一款致力于成为顶尖跨平台FFmpeg图形用户界面应用的软件工具LosslessCut。 LosslessCut是一款致力于成为顶尖跨平台FFmpeg图形用户界面应用的软件工具&#xff0c;专为实现对视频、音频、字幕以及其他相关媒体资产的超高速无损编辑而精心打造。…

【邀请函】庭田科技邀您第五届中国国际复合材料科技大会

第五届中国国际复合材料科技大会暨第七届国际复合材料产业创新成果技术展示&#xff08;ICIE7-新疆&#xff09;将于7月25-27日在新疆乌鲁木齐-国际会展中心举行。上海庭田信息科技有限公司将携多款仿真模拟软件亮相本次大会&#xff0c;诚挚欢迎各位到场咨询了解&#xff01; …

Hadoop3:动态扩容之新增一台机器的初始化工作

一、需求描述 给Hadoop集群动态扩容一个节点 那么&#xff0c;这个节点是全新的&#xff0c;我们需要做哪些准备工作&#xff0c;才能将它融入集群了&#xff1f; 二、初始化配置 1、修改IP和hostname vim /etc/sysconfig/network-scripts/ifcfg-ens33 vim /etc/hostname2、…

微信小程序---npm 支持

一、构建 npm 目前小程序已经支持使用 npm 安装第三方包&#xff0c;但是这些 npm 包在小程序中不能够直接使用&#xff0c;必须得使用小程序开发者工具进行构建后才可以使用。 为什么得使用小程序开发者工具需要构建呢❓ 因为 node_modules 目录下的包&#xff0c;不会参与…

K8S标签与标签选择器

文章目录 一、标签1、简介2、为什么需要标签3、标签命名规范3.1、标签名3.2、标签的value 4、标签的基本操作4.1、创建标签4.1.1、资源清单方式4.1.2、命令行方式 4.2、查看标签4.2.1、查看刚才打标的两个pod4.2.2、通过标签过滤查询4.2.3、将标签显示在输出结果中 4.3、添加标…

如何利用大模型提高金融合规场景的工作效率?

金融是强监管行业&#xff0c;遵守法律法规、行业标准和内部政策是金融行业的基本要求。在强监管合规环境下&#xff0c;金融机构需要降低合规风险并提升服务质量。 人工审核效率低、成本高&#xff0c;且存在主观性导致的风险。过去&#xff0c;金融机构基于规则和NLP模型构建…

ATC 2024 | 快手开源大模型长序列训练加速技术,性能大幅超越 SOTA 方案

导读 在深度学习领域&#xff0c;训练大型语言模型&#xff08;LLMs&#xff09;一直是一项极具挑战性的任务&#xff0c;它不仅需要巨大的计算资源&#xff0c;同时对内存的消耗也非常巨大。近期&#xff0c;快手大模型团队提出了创新的方法&#xff0c;包括感知流水并行的激…

单元测试Mockito笔记

文章目录 单元测试Mockito1. 入门1.1 什么是Mockito1.2 优势1.3 原理 2. 使用2.0 环境准备2.1 Mock1) Mock对象创建2) 配置Mock对象的行为(打桩)3) 验证方法调用4) 参数匹配5) 静态方法 2.2 常用注解1) Mock2) BeforeEach 与 BeforeAfter3) InjectMocks4) Spy5) Captor6) RunWi…

数据分析——Python网络爬虫(四){正则表达式}

爬虫库的使用 爬虫的步骤正则表达式正则表达式的流程正则表达式的使用括号的使用管道匹配问号匹配星号匹配加号匹配花括号匹配用点-星匹配所有字符跨行匹配findall方法其他常用字符匹配 例子正则表达式在线测试 爬虫的步骤 #mermaid-svg-zSQSbTxUEex051NQ {font-family:"t…

“汇聚全球智慧·引领未来科技”2024南京人工智能展会

南京&#xff0c;这座古老而又现代的城市&#xff0c;自古以来便是江南繁华的代名词。如今&#xff0c;随着科技的飞速发展&#xff0c;南京再次站在了时代的潮头&#xff0c;以其深厚的历史底蕴和不断创新的科技力量&#xff0c;成为了全球瞩目的焦点。而在即将到来的2024年&a…

数学建模--数据统计类赛题分析~~神经网络引入

1.缺失值的处理 &#xff08;1&#xff09;像在下面的这个表格里面&#xff0c;这个对于缺失的数据&#xff0c;我们需要分情况进行分析&#xff0c;如果这个数据就是一个数值型的数据&#xff0c;我们可以使用平均值进行处理&#xff1b; &#xff08;2&#xff09;对于这个…

用python识别二维码(python实例二十三)

目录 1.认识Python 2.环境与工具 2.1 python环境 2.2 Visual Studio Code编译 3.识别二维码 3.1 代码构思 3.2 代码实例 3.3 运行结果 4.总结 1.认识Python Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。 Python 的设计具有很强的可读性&…

MongoDB教程(三):mongoDB用户管理

&#x1f49d;&#x1f49d;&#x1f49d;首先&#xff0c;欢迎各位来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里不仅可以有所收获&#xff0c;同时也能感受到一份轻松欢乐的氛围&#xff0c;祝你生活愉快&#xff01; 文章目录 引言一、MongoD…

线性代数|机器学习-P23梯度下降

文章目录 1. 梯度下降[线搜索方法]1.1 线搜索方法&#xff0c;运用一阶导数信息1.2 经典牛顿方法&#xff0c;运用二阶导数信息 2. hessian矩阵和凸函数2.1 实对称矩阵函数求导2.2. 线性函数求导 3. 无约束条件下的最值问题4. 正则化4.1 定义4.2 性质 5. 回溯线性搜索法 1. 梯度…

【正点原子i.MX93开发板试用连载体验】录音小程序采集语料

本文最早发表于电子发烧友论坛&#xff1a;【新提醒】【正点原子i.MX93开发板试用连载体验】基于深度学习的语音本地控制 - 正点原子学习小组 - 电子技术论坛 - 广受欢迎的专业电子论坛! (elecfans.com) 接下来就是要尝试训练中文提示词。首先要进行语料采集&#xff0c;这是一…