转录组和基因芯片GSE数据集的RAW.tar压缩包下载和多样本整合处理教程
GSEXXX_RAW.tar压缩包手动下载解压
前情回顾
关于OmicsTools根据GSE编号自动下载和提取GEO表达数据
根据GSE编号自动下载和提取GEO表达数据的窗口截图
自动下载和提取整理到结果文件
该模块的分析教程
GEO中有很多GSE数据集可以直接用数据集的GSE编号直接下载提取到表达矩阵,这种数据集的下载处理我也出了一期教程,该教程的链接地址为: https://zhuanlan.zhihu.com/p/708053447
该教程的网页示意图如下:
关于OmicsTools根据GSE编号自动下载和提取GEO表达数据适用的场景和不适用的场景
series_matrix.txt.gz文件体积太小,用OmicsTools自动下载模块无法提取出表达矩阵
但是对于GEO平台没有给出一个有效的series_matrix表达矩阵,使用OmicsTools的自动下载模块或者GEOquery R包都是没法直接下载提取到数据集的基因表达矩阵的,比如给的该series_matrix的表达矩阵文件大小只有几KB,这种情况下的series_matrix里基本上是没有基因表达矩阵数据的,文件大小太小了,一个有效的series_matrix.txt.gz文件大小应该在1M以上,这样的文件里才可能有有效的基因表达矩阵内容。我们以GSE206758这个数据集来跟大家解释一下,这样的Series_matrix.txt.gz文件,为啥提取不到基因表达矩阵?
可以看到这里的series_matrix.txt.gz表达矩阵文件只有几KB大小,直接点击上面有蓝色下划线的series_matrix文件名我们就能直接下载到这样的series_matrix矩阵文件,在下载完后,我在解压一下这个gz文件给大家看看里面有没有表达矩阵内容可以被获取。
这里的series_matrix.txt.gz下载解压后的内容如下:
可以看到这里面除了有一些数据集的注释信息外,是基本上没有任何表达矩阵的数据存在的,所以这种情况是无法自动提取出数据集的基因表达矩阵的。
series_matrix.txt.gz文件体积太小,用OmicsTools自动下载模块可以提取出表达矩阵
而对于更大一点的series_matrix.txt.gz的矩阵文件,是可以用我们的OmicsTools生信软件自动下载提取出基因表达矩阵的,以GSE61763数据集为例:
我们看到GSE61763的series_matrix矩阵的文件有7.3M,这个就比前面的那种几KB的文件大的多了,一般这种稍大的series_matrix文件我们都是能直接提取出表达矩阵的。
我们看到这个GSE61763数据集的series_matrix的压缩包下载后是7.3M,解压后是21M,也是比较大的文件了。
我们解压后用excel表打开并看看里面的内容:
可以看到,像GSE61763这样更大一些的series_matrix表达矩阵,里面除了前面一些行的注释信息外,还包括了每个样本的表达数据信息,这样的series_matrix矩阵就会被我的OmicsTools根据GSE数据集编号自动下载和提取出数据集的基因表达矩阵的。
对于series_matrix.txt.gz文件太小,没有有效的表达数据情况的下载和处理讲解
对于GEO平台上托管的很多GSE数据集而言,一般对于series_matrix.txt.gz文件太小,没有有效的表达数据情况,都会在该GSE数据集的网页下方有表达文件的下载链接,虽然文件名可能千奇百怪,各种各样,一般我们都可以手动下载这些文件后,对这些文件进行进一步的处理,来提取出这些文件的表达矩阵。
而是在GEO网页中给了一个GSEXXX_RAW.tar压缩包的这种或是在GEO中给了一个FPKM表达矩阵文件或counts表达文件的这类,用我的OmicsTools生信电脑软件的自动下载模块是没法直接下载到文件和提取出表达矩阵的,这类文件都是需要手动下载的。
从GEO中手动直接下载到表达矩阵文件的情况
从GEO中手动GSEXXX_RAW.tar压缩包文件的情况
鉴于如果GEO网页中能直接下载到一个表达矩阵的文件的情况比较简单,不需要过多处理,今天重点跟大家讲的是GEO中很多时候需要下载一个GSEXXX_RAW.tar压缩包,并对该压缩包进行解压和合并每个GSM样本的表达数据成一个表达矩阵这种更复杂的情况。
GEO中的GSEXXX_RAW.tar压缩包手动下载解压
GSEXXX_RAW.tar压缩包手动下载
GSEXXX_RAW.tar压缩包的解压
以GSE228854数据集为例,我们下载到了GSE228854_RAW.tar压缩包后,需要把压缩包里面的子文件都解压到一个GSE228854_RAW目录下,目录内是每个GSM样本的表达数据的单个文件,注意,大家一定要这样进行解压操作,就是不要直接把GSE228854_RAW.tar中的文件都解压到当前目录,而是解压到GSE228854_RAW目录下,这样用OmicsTools进行分析的时候会更容易识别和读取和执行。
把GSE228854_RAW.tar压缩包正确解压好的文件示意图如下:
对GSEXXX_RAW.tar解压后的GSEXXX_RAW目录下RNAseq测序数据的多样本的合并处理
教学视频教程
RNAseq测序数据目录下多样本的合并处理: https://www.bilibili.com/video/BV1p7421o7nX/
参数解释
func_gene__name__col: 基因id所在的列
func_value__col__position: 表达值所在的列
func_select__strs: 对含有该字符串的样本进行整合
nested_function: 是否嵌套函数
run_file_path: 要进行数据处理的文件路径
run_read_file: 是否要读取文件,默认是FALSE
run_add__res__dir: 是否要给出保存文件的前缀,默认是TRUE
提交(提交按钮,点击后会运行该分析)
参数已经给出的默认值
func_gene__name__col: Geneid ;
func_value__col__position: 7 ;
func_select__strs: MM ;
nested_function: TRUE ;
run_file_path: D:/omics_tools/demo_data/GSE206758_RAW/ ;
run_read_file: FALSE ;
run_add__res__dir: TRUE
D:/omics_tools/demo_data/GSE206758_RAW/目录下的文件信息
运行状态显示
执行中,请稍后, 运行结果保存的目录位置为: D:/omics_tools/demo_data\res_dir; 分析结果日志保存的路径为: D:/omics_tools/demo_data\res_dir\GSE206758_RAW_last_final_run_res_log.csv
窗口截图
运行完成的显示信息
执行已完成,运行结果保存的目录位置为: D:/omics_tools/demo_data\res_dir; 分析结果日志保存的路径为: D:/omics_tools/demo_data\res_dir\GSE206758_RAW_last_final_run_res_log.csv
运行完的结果展示
运行完产生的文件
合并的表达矩阵结果
对GSEXXX_RAW.tar解压后的GSEXXX_RAW目录下CEL芯片数据的多样本的合并处理
该部分的视频教学教程
CEL芯片数据目录下多样本的合并处理: https://www.bilibili.com/video/BV1Bm421N7kK/
D:/omics_tools/demo_data/GSE228854_RAW/ 下的文件内容
运行窗口展示
参数解释
func_method : CEL芯片标准处理的方法
nested_function: 是否嵌套函数
run_file_path:要进行数据处理的文件路径
run_read_file: 是否要读取文件,默认是FALSE
run_add__res__dir: 是否要给出保存文件的前缀,默认是TRUE
提交
参数已经给出的默认值:
func_method: rma ;
nested_function: TRUE ;
run_file_path: D:/omics_tools/demo_data/GSE228854_RAW/ ;
run_read_file: FALSE ;
run_add__res__dir: TRUE
运行状态显示内容
执行中,请稍后, 运行结果保存的目录位置为: D:/omics_tools/demo_data\res_dir; 分析结果日志保存的路径为: D:/omics_tools/demo_data\res_dir\GSE228854_RAW_last_final_run_res_log.csv
运行完成状态显示内容:
执行已完成,运行结果保存的目录位置为: D:/omics_tools/demo_data\res_dir; 分析结果日志保存的路径为: D:/omics_tools/demo_data\res_dir\GSE228854_RAW_last_final_run_res_log.csv
运行完成的结果文件
查看RNA降解情况
未标准化前原始数据的数据质量展示
取log2的结果
归一化处理后的结果
样本整合后的表达矩阵
对GSEXXX_RAW.tar解压后的GSEXXX_RAW目录下非CEL芯片数据的多样本的合并处理
该部分的教学视频教程
非CEL芯片数据目录下多gsm样本的合并处理: https://www.bilibili.com/video/BV1Yy411b7Uy/
参数解释
func_data__source: 芯片检测平台来源
func_gse__id: GSE数据集编号
nested_function:是否嵌套函数
run_file_path:要进行数据处理的文件路径
run_read_file:是否要读取文件,默认是FALSE
run_add__res__dir:是否要给出保存文件的前缀,默认是TRUE
提交
参数给定的默认值:
func_data__source: agilent ;
func_gse__id: GSE209929 ;
nested_function: TRUE ;
run_file_path: D:/omics_tools/demo_data/GSE209929_RAW/ ;
run_read_file: FALSE ;
run_add__res__dir: TRUE
运行窗口
D:/omics_tools/demo_data/GSE209929_RAW/目录中的文件内容
运行中的状态信息
分析正在执行中,请稍后, 运行结果保存的目录位置为: D:/omics_tools/demo_data\res_dir; 运行结果日志保存的路径为: D:/omics_tools/demo_data\res_dir\GSE209929_RAW_last_final_run_res_log.csv
运行完成的状态信息
执行已完成,运行结果保存的目录位置为: D:/omics_tools/demo_data\res_dir; 分析结果日志保存的路径为: D:/omics_tools/demo_data\res_dir\GSE209929_RAW_last_final_run_res_log.csv
运行完成的结果展示
结果文件列表
未标准化前的表达数据分布
标准化之后的数据分布
标准化后整合的表达矩阵
对GSEXXX_RAW.tar解压后的GSEXXX_RAW目录下RCC芯片数据的多样本的合并处理
该部分的教学视频教程
RCC芯片数据目录下多样本的合并处理: https://www.bilibili.com/video/BV1LJ4m1g7Pq/
参数详解
func_raw_data_dir:RCC芯片样本数据所在的RAW目录
nested_function: 是否嵌套函数
run_file_path: 要进行数据处理的文件路径
run_read_file: 是否要读取文件,默认是FALSE
run_add__res__dir: 是否要给出保存文件的前缀,默认是TRUE
提交
参数的默认值
func_raw_data_dir: D:/omics_tools/demo_data/GSE236951_RAW/ ;
nested_function: TRUE ;
run_file_path: D:/omics_tools/demo_data/rcc_sample_info.csv ;
run_read_file: FALSE ;
run_add__res__dir: TRUE
运行窗口展示
D:/omics_tools/demo_data/GSE236951_RAW/中的文件内容
D:/omics_tools/demo_data/rcc_sample_info.csv中的文件内容
运行状态显示信息
执行中,请稍后, 运行结果保存的目录位置为: D:/omics_tools/demo_data\res_dir; 分析结果日志保存的路径为: D:/omics_tools/demo_data\res_dir\rcc_sample_info_last_final_run_res_log.csv
运行完成显示信息
执行已完成,运行结果保存的目录位置为: D:/omics_tools/demo_data\res_dir; 分析结果日志保存的路径为: D:/omics_tools/demo_data\res_dir\rcc_sample_info_last_final_run_res_log.csv