转录组和基因芯片GSE数据RAW.tar压缩包下载和多样本整合处理教程

转录组和基因芯片GSE数据集的RAW.tar压缩包下载和多样本整合处理教程

GSEXXX_RAW.tar压缩包手动下载解压

前情回顾

关于OmicsTools根据GSE编号自动下载和提取GEO表达数据

根据GSE编号自动下载和提取GEO表达数据的窗口截图

194ab2fb5c5a9929dfec85340bd6680e.jpeg

自动下载和提取整理到结果文件

14858920cfc14a8af877d975be4d1ef6.jpeg

该模块的分析教程

GEO中有很多GSE数据集可以直接用数据集的GSE编号直接下载提取到表达矩阵,这种数据集的下载处理我也出了一期教程,该教程的链接地址为: https://zhuanlan.zhihu.com/p/708053447

该教程的网页示意图如下:

f82834fabd13751b158fdfc4e2230420.jpeg

关于OmicsTools根据GSE编号自动下载和提取GEO表达数据适用的场景和不适用的场景

series_matrix.txt.gz文件体积太小,用OmicsTools自动下载模块无法提取出表达矩阵

但是对于GEO平台没有给出一个有效的series_matrix表达矩阵,使用OmicsTools的自动下载模块或者GEOquery R包都是没法直接下载提取到数据集的基因表达矩阵的,比如给的该series_matrix的表达矩阵文件大小只有几KB,这种情况下的series_matrix里基本上是没有基因表达矩阵数据的,文件大小太小了,一个有效的series_matrix.txt.gz文件大小应该在1M以上,这样的文件里才可能有有效的基因表达矩阵内容。我们以GSE206758这个数据集来跟大家解释一下,这样的Series_matrix.txt.gz文件,为啥提取不到基因表达矩阵?

f037b1c001e4df5170b300f31276ceee.jpeg

bf84de968e7b9c0e1ac1b5dd24ac052b.jpeg

可以看到这里的series_matrix.txt.gz表达矩阵文件只有几KB大小,直接点击上面有蓝色下划线的series_matrix文件名我们就能直接下载到这样的series_matrix矩阵文件,在下载完后,我在解压一下这个gz文件给大家看看里面有没有表达矩阵内容可以被获取。

5f52fde24d121b33b71650fae46e4b73.jpeg

这里的series_matrix.txt.gz下载解压后的内容如下:

b8df29a9c41611bd01f0a2aba11869cc.jpeg

可以看到这里面除了有一些数据集的注释信息外,是基本上没有任何表达矩阵的数据存在的,所以这种情况是无法自动提取出数据集的基因表达矩阵的。

series_matrix.txt.gz文件体积太小,用OmicsTools自动下载模块可以提取出表达矩阵

而对于更大一点的series_matrix.txt.gz的矩阵文件,是可以用我们的OmicsTools生信软件自动下载提取出基因表达矩阵的,以GSE61763数据集为例:

0bcf28f13dbe4a6d8ae67e50b7c8b016.jpeg

我们看到GSE61763的series_matrix矩阵的文件有7.3M,这个就比前面的那种几KB的文件大的多了,一般这种稍大的series_matrix文件我们都是能直接提取出表达矩阵的。

8d94f6fbb91b9add0a8a98c825f53c06.jpeg

我们看到这个GSE61763数据集的series_matrix的压缩包下载后是7.3M,解压后是21M,也是比较大的文件了。

我们解压后用excel表打开并看看里面的内容:

f5c127c5be83971fb71cd0acbd1d5252.jpeg

可以看到,像GSE61763这样更大一些的series_matrix表达矩阵,里面除了前面一些行的注释信息外,还包括了每个样本的表达数据信息,这样的series_matrix矩阵就会被我的OmicsTools根据GSE数据集编号自动下载和提取出数据集的基因表达矩阵的。

对于series_matrix.txt.gz文件太小,没有有效的表达数据情况的下载和处理讲解

对于GEO平台上托管的很多GSE数据集而言,一般对于series_matrix.txt.gz文件太小,没有有效的表达数据情况,都会在该GSE数据集的网页下方有表达文件的下载链接,虽然文件名可能千奇百怪,各种各样,一般我们都可以手动下载这些文件后,对这些文件进行进一步的处理,来提取出这些文件的表达矩阵。

而是在GEO网页中给了一个GSEXXX_RAW.tar压缩包的这种或是在GEO中给了一个FPKM表达矩阵文件或counts表达文件的这类,用我的OmicsTools生信电脑软件的自动下载模块是没法直接下载到文件和提取出表达矩阵的,这类文件都是需要手动下载的。

从GEO中手动直接下载到表达矩阵文件的情况

93c0e79257a3d033bd848a134bbf62ea.jpeg

从GEO中手动GSEXXX_RAW.tar压缩包文件的情况

2058c44adc8311ab0738688bd99f08a5.jpeg

鉴于如果GEO网页中能直接下载到一个表达矩阵的文件的情况比较简单,不需要过多处理,今天重点跟大家讲的是GEO中很多时候需要下载一个GSEXXX_RAW.tar压缩包,并对该压缩包进行解压和合并每个GSM样本的表达数据成一个表达矩阵这种更复杂的情况。

GEO中的GSEXXX_RAW.tar压缩包手动下载解压

GSEXXX_RAW.tar压缩包手动下载

01012dc6ecc833a4ada5f530541fb096.jpeg

GSEXXX_RAW.tar压缩包的解压

以GSE228854数据集为例,我们下载到了GSE228854_RAW.tar压缩包后,需要把压缩包里面的子文件都解压到一个GSE228854_RAW目录下,目录内是每个GSM样本的表达数据的单个文件,注意,大家一定要这样进行解压操作,就是不要直接把GSE228854_RAW.tar中的文件都解压到当前目录,而是解压到GSE228854_RAW目录下,这样用OmicsTools进行分析的时候会更容易识别和读取和执行。

把GSE228854_RAW.tar压缩包正确解压好的文件示意图如下:

452a143dec9cf3d05ad01a2e260a2ef2.jpeg

对GSEXXX_RAW.tar解压后的GSEXXX_RAW目录下RNAseq测序数据的多样本的合并处理

教学视频教程

RNAseq测序数据目录下多样本的合并处理: https://www.bilibili.com/video/BV1p7421o7nX/

参数解释

func_gene__name__col: 基因id所在的列

func_value__col__position: 表达值所在的列

func_select__strs: 对含有该字符串的样本进行整合

nested_function: 是否嵌套函数

run_file_path: 要进行数据处理的文件路径

run_read_file: 是否要读取文件,默认是FALSE

run_add__res__dir: 是否要给出保存文件的前缀,默认是TRUE

提交(提交按钮,点击后会运行该分析)

参数已经给出的默认值

func_gene__name__col: Geneid ;

func_value__col__position: 7 ;

func_select__strs: MM ;

nested_function: TRUE ;

run_file_path: D:/omics_tools/demo_data/GSE206758_RAW/ ;

run_read_file: FALSE ;

run_add__res__dir: TRUE

D:/omics_tools/demo_data/GSE206758_RAW/目录下的文件信息

8f0fbda6e216c5a5b59ac2c6918daccc.jpeg

运行状态显示

执行中,请稍后, 运行结果保存的目录位置为: D:/omics_tools/demo_data\res_dir; 分析结果日志保存的路径为: D:/omics_tools/demo_data\res_dir\GSE206758_RAW_last_final_run_res_log.csv

窗口截图

ad63ba823794623ef4a6b00b73d49532.jpeg

运行完成的显示信息

执行已完成,运行结果保存的目录位置为: D:/omics_tools/demo_data\res_dir; 分析结果日志保存的路径为: D:/omics_tools/demo_data\res_dir\GSE206758_RAW_last_final_run_res_log.csv

运行完的结果展示

运行完产生的文件

7434eb6c73ea6865c2aa369cc6670821.jpeg

合并的表达矩阵结果

2e5b0efe02ec00c6fb207c75aa21fef0.jpeg

对GSEXXX_RAW.tar解压后的GSEXXX_RAW目录下CEL芯片数据的多样本的合并处理

该部分的视频教学教程

CEL芯片数据目录下多样本的合并处理: https://www.bilibili.com/video/BV1Bm421N7kK/

D:/omics_tools/demo_data/GSE228854_RAW/ 下的文件内容

b1775e56af302e06290117fd98c9445d.jpeg

运行窗口展示

caa3566c0739579e8cfb6a7a9a00e330.jpeg

参数解释

func_method : CEL芯片标准处理的方法

nested_function: 是否嵌套函数

run_file_path:要进行数据处理的文件路径

run_read_file: 是否要读取文件,默认是FALSE

run_add__res__dir: 是否要给出保存文件的前缀,默认是TRUE

提交

参数已经给出的默认值:

func_method: rma ;

nested_function: TRUE ;

run_file_path: D:/omics_tools/demo_data/GSE228854_RAW/ ;

run_read_file: FALSE ;

run_add__res__dir: TRUE

运行状态显示内容

执行中,请稍后, 运行结果保存的目录位置为: D:/omics_tools/demo_data\res_dir; 分析结果日志保存的路径为: D:/omics_tools/demo_data\res_dir\GSE228854_RAW_last_final_run_res_log.csv

运行完成状态显示内容:

执行已完成,运行结果保存的目录位置为: D:/omics_tools/demo_data\res_dir; 分析结果日志保存的路径为: D:/omics_tools/demo_data\res_dir\GSE228854_RAW_last_final_run_res_log.csv

运行完成的结果文件

c3d1ccfb3cba2970d9df7a880dcaec94.jpeg

查看RNA降解情况

9c4393dc062bcb36495eb64eb14ced80.jpeg

未标准化前原始数据的数据质量展示

c8566055c6990215d4054f84cefd8e17.jpeg

14ae44c1bfbb063822fc5db23a122f11.jpeg

取log2的结果

811a472932929dd23ef0fe4bf71be9fe.jpeg

9e05e186c16409567c1595c2ddb427bd.jpeg

归一化处理后的结果

bf2ad9a40a32b59de7a5ab9adee61167.jpegc1b9712ddb863e1c8568c6c37b5c873a.jpeg

样本整合后的表达矩阵

39d0ffaffc9416a83facd427ca602936.jpeg

对GSEXXX_RAW.tar解压后的GSEXXX_RAW目录下非CEL芯片数据的多样本的合并处理

该部分的教学视频教程

非CEL芯片数据目录下多gsm样本的合并处理: https://www.bilibili.com/video/BV1Yy411b7Uy/

参数解释

func_data__source: 芯片检测平台来源

func_gse__id: GSE数据集编号

nested_function:是否嵌套函数

run_file_path:要进行数据处理的文件路径

run_read_file:是否要读取文件,默认是FALSE

run_add__res__dir:是否要给出保存文件的前缀,默认是TRUE

提交

参数给定的默认值:

func_data__source: agilent ;

func_gse__id: GSE209929 ;

nested_function: TRUE ;

run_file_path: D:/omics_tools/demo_data/GSE209929_RAW/ ;

run_read_file: FALSE ;

run_add__res__dir: TRUE

运行窗口

8a3dc05827e2719e52ef0b676b5f3d6d.jpeg

D:/omics_tools/demo_data/GSE209929_RAW/目录中的文件内容

08f7ee41a134519788ccc4f61f8ccbc3.jpeg

运行中的状态信息

分析正在执行中,请稍后, 运行结果保存的目录位置为: D:/omics_tools/demo_data\res_dir; 运行结果日志保存的路径为: D:/omics_tools/demo_data\res_dir\GSE209929_RAW_last_final_run_res_log.csv

运行完成的状态信息

执行已完成,运行结果保存的目录位置为: D:/omics_tools/demo_data\res_dir; 分析结果日志保存的路径为: D:/omics_tools/demo_data\res_dir\GSE209929_RAW_last_final_run_res_log.csv

运行完成的结果展示

结果文件列表

a4ac7892f07834b41a91fef5f6f037bb.jpeg

未标准化前的表达数据分布

a2629e2fa3a4b6f7216e0f58b3c867fe.jpege07f40d4ffaa316b007bde13c784176f.jpeg

标准化之后的数据分布

c39d80bdf7e4b8c6b5aa2e6718f7d05a.jpeg180e0b516375ad807f66ac5849a17711.jpeg

标准化后整合的表达矩阵

f1bfb25abfe0f7ab395781e29cbdb688.jpeg

对GSEXXX_RAW.tar解压后的GSEXXX_RAW目录下RCC芯片数据的多样本的合并处理

该部分的教学视频教程

RCC芯片数据目录下多样本的合并处理: https://www.bilibili.com/video/BV1LJ4m1g7Pq/

参数详解

func_raw_data_dir:RCC芯片样本数据所在的RAW目录

nested_function: 是否嵌套函数

run_file_path: 要进行数据处理的文件路径

run_read_file: 是否要读取文件,默认是FALSE

run_add__res__dir: 是否要给出保存文件的前缀,默认是TRUE

提交

参数的默认值

func_raw_data_dir: D:/omics_tools/demo_data/GSE236951_RAW/ ;

nested_function: TRUE ;

run_file_path: D:/omics_tools/demo_data/rcc_sample_info.csv ;

run_read_file: FALSE ;

run_add__res__dir: TRUE

运行窗口展示

f8507b572d5624180452e0d099a0c7a4.jpeg

D:/omics_tools/demo_data/GSE236951_RAW/中的文件内容

91a0e032fa77ce82456983dbc0753068.jpeg

D:/omics_tools/demo_data/rcc_sample_info.csv中的文件内容

458bda89cf39b4006cb7d7a770b6b21b.jpeg

运行状态显示信息

执行中,请稍后, 运行结果保存的目录位置为: D:/omics_tools/demo_data\res_dir; 分析结果日志保存的路径为: D:/omics_tools/demo_data\res_dir\rcc_sample_info_last_final_run_res_log.csv

运行完成显示信息

执行已完成,运行结果保存的目录位置为: D:/omics_tools/demo_data\res_dir; 分析结果日志保存的路径为: D:/omics_tools/demo_data\res_dir\rcc_sample_info_last_final_run_res_log.csv

运行结果文件列表

2440d8a19a68d9ba3eee174c99bedc47.jpeg

多样本整合标准化后的表达矩阵

cb15912ee12068896385b8572561a17b.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/45245.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

天环公益首发原创开发进度网站 带后台

天环公益计划首发原创开发进度网站 带后台 后台地址是:admin.php 后台没有账号密码 这个没有数据库 有能力的可以自己改 源码下载:https://download.csdn.net/download/m0_66047725/89520358 更多资源下载:关注我。

区分modbus tcp和tcp/ip

Modbus 对某些人来说,这听起来可能很复杂,也很令人费解,但是一旦你了解了它的工作原理,那就是一个特别简单的过程。MODBUS 这是一种请求和响应协议。MODBUS 主站将发起请求,从站将响应错误或请求信息。这就是 modbus 简…

通俗易懂,幽默诙谐,《IP 核芯志》让逻辑设计思想摆脱枯燥的标签(可下载)

在科技的广袤星空中,数字逻辑设计宛如一颗璀璨的明星,闪耀着智慧与创造的光芒。而在这光芒的深处,IP 核芯则是那关键的能量源泉,驱动着无数创新的浪潮。 《IP 核芯志——数字逻辑设计思想》犹如一座灯塔,照亮了我们在…

Java | Leetcode Java题解之第229题多数元素II

题目&#xff1a; 题解&#xff1a; class Solution {public List<Integer> majorityElement(int[] nums) {HashMap<Integer, Integer> cnt new HashMap<Integer, Integer>();for (int i 0; i < nums.length; i) {if (cnt.containsKey(nums[i])) {cnt.…

Python 核心编程

Python 核心编程 1. 数据类型1.1 整型 int1.2 浮点数 float1.3 布尔类型 bool1.4 字符串 str1.5 列表 list1.6 元组 tuple1.7 集合 set1.8 字典 dict 2. 逻辑结构、文件操作2.1 分支结构和三元表达2.2 循环和遍历2.3 目录和路径2.4 文件操作 3. 函数、类、异常处理3.1 函数3.2 …

JS爬虫实战之极验四代

极验四代滑块验证码 一、目标网站说明二、流程步骤1. 逆向步骤一般分为&#xff1a;2. 接口确认1- 确认流程2- 获取verify的参数3- 构建requests验证verify的参数4- 锁定secode参数的作用 ok&#xff0c;让我们去获取verify接口中的响应&#xff01;&#xff01;&#xff01; 3…

java算法day12

java算法day12 199二叉树的右视图637二叉树的层平均值515 在每个树行中找最大值429 N叉树的层序遍历116 填充每个节点的下一个右侧节点指针 199 二叉树的右视图 这题还是层序遍历的板子&#xff0c;但是在处理上略有差异 这个题我一开始的想法就有误&#xff0c;因为我一开始…

基于PID控制器的双容控制系统matlab仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 4.1PID控制器的基本原理 4.2双容水箱系统的数学模型 5.完整工程文件 1.课题概述 基于PID控制器的双容控制系统matlab仿真&#xff0c;仿真输出PID控制下的水位和流量两个指标。 2.系统仿真结果 &…

Nginx七层(应用层)反向代理:SCGI代理scgi_pass篇

Nginx七层&#xff08;应用层&#xff09;反向代理 SCGI代理scgi_pass篇 - 文章信息 - Author: 李俊才 (jcLee95) Visit me at CSDN: https://jclee95.blog.csdn.netMy WebSite&#xff1a;http://thispage.tech/Email: 291148484163.com. Shenzhen ChinaAddress of this art…

ENSP防火墙

实验拓扑图 需求&#xff1a; ENSP的配置&#xff1a; 防火墙&#xff1a; 交换机&#xff1a; 华为防火墙的配置&#xff1a; 接口配置&#xff1a; 安全区域&#xff1a; 安全策略&#xff1a; 办公区访问DMZ&#xff1a; 生产区访问DMZ&#xff1a; 游客区只能访问门户网…

[人工智能]对未来建筑行业的影响

作者主页: 知孤云出岫 目录 引言1. 人工智能在建筑行业的应用场景1.1 设计阶段1.2 施工阶段1.3 运营和管理 2. 关键技术2.1 机器学习2.2 计算机视觉2.3 自然语言处理2.4 大数据分析 3. 实际案例分析3.1 案例1&#xff1a;利用GAN生成建筑设计方案3.2 案例2&#xff1a;利用计算…

操作User表的CRUD增删改查(二):修改和删除

文章目录 修改运行发现数据库数据没有添加进去 修改 int u session.update(s, new User(1,"xiaoxiao",18));运行发现数据库数据没有添加进去 运行发现数据库没有添加进去数据&#xff0c;原因是默认是手动添加的&#xff0c;需要修改。 有两种方法然后再重新运行&a…

如何ssh远程Windows电脑

参考&#xff1a;https://www.jianshu.com/p/1321b46b40ee 上述教程中&#xff0c;直接根据微软的教程进行openssh安装 遇到的问题 远程windows电脑需要具备什么条件&#xff1f; 需要Windows电脑上安装了openssh server 远程Windows电脑的话&#xff0c;用户怎么创建&…

教育与社会的发展

生产力与教育的关系 政治经济制度与教育的关系 文化和人口与教育的关系

whereis命令是 Linux 和类 Unix 系统中的一个命令行工具,用于定位二进制程序、源代码和手册页(man pages)的位置

文章目录 1、whereis2、实例 1、whereis whereis 命令是 Linux 和类 Unix 系统中的一个命令行工具&#xff0c;用于定位二进制程序、源代码和手册页&#xff08;man pages&#xff09;的位置。当你想要快速找到某个程序或命令的安装位置时&#xff0c;whereis 命令会非常有用。…

YOLOv10改进 | 添加注意力机制篇 | 添加LSKAttention大核注意力机制助力极限涨点

一、本文介绍 在这篇文章中&#xff0c;我们将讲解如何将LSKAttention大核注意力机制应用于YOLOv10&#xff0c;以实现显著的性能提升。首先&#xff0c;我们介绍LSKAttention机制的基本原理&#xff0c;它主要通过将深度卷积层的2D卷积核分解为水平和垂直1D卷积核&#xff0…

方便好用的C#.Net万能工具库Masuit.Tools

文章目录 简介开发环境安装使用特色功能示例代码1. 检验字符串是否是Email、手机号、URL、IP地址、身份证号等2.硬件监测(需要管理员权限&#xff0c;仅支持Windows&#xff0c;部分函数仅支持物理机模式)3.html的防XSS处理&#xff1a;4.整理Windows系统的内存&#xff1a;5.任…

如何搭建互联网医院系统源码?医疗陪诊APP开发实战详解

今天&#xff0c;小编将为大家讲解如何搭建一个完整的互联网医院系统源码&#xff0c;并介绍医疗陪诊APP的开发实战。 一、互联网医院系统的架构设计 搭建一个完整的互联网医院系统&#xff0c;需要从架构设计开始。一个典型的互联网医院系统通常包含以下几个核心模块&#xf…

PyTorch人脸检测

新书速览|PyTorch深度学习与企业级项目实战-CSDN博客 人脸检测解决的问题是确定一幅图上有没有人脸&#xff0c;而人脸识别解决的问题是这张脸是谁的。可以说人脸检测是人脸识别的前期工作。这里介绍Dlib库&#xff0c;它提供了Python接口&#xff0c;里面有人脸检测器&#x…

线程安全(二)synchronized 的底层实现原理、锁升级

目录 一、基础使用1.1 不加锁的代码实现1.2 加锁的代码实现二、实现原理2.1 synchronized 简介2.2 对象监控器(Monitor)2.3 加锁过程第一步:判断 Owner 指向第二步:进入 EntryList 阻塞第三步:主动进入 WaitSet 等待三、锁升级3.1 对象的内存结构3.2 Mark Word 对象头3.3 …