Galaxy平台上的文件称为数据集(Dataset),如果将多个文件组合在一起,则形成数据集合(Dataset collection)。
上传文件后,可以通过工具将文件构建成数据集合。具体操作可以参考前面介绍转录组流程的文章:
上传数据,轻松分析 | 云上转录组标准分析流程使用指南
构建数据集合的工具有下图所示的4种:
Build Dataset List,将多个文件组合成一个列表,每行一个数据集。
Build Dataset Pair,将一对双端测序数据组合成一个数据集对。
Build List of Dataset Pairs,将多个样本的双端测序数据构建成数据集对列表,每行一个数据集对。
Build Collection from Rules,在一个表格工具中,通过各种规则,将数据构建成数据集合。
有了数据集合之后,还有许多工具对数据集合进行操作,以下是这些工具的简要介绍。
Apply rules
这个工具允许用户将现有的 Galaxy 数据集合的元数据处理为表格数据,应用一系列规则,并生成一个新的集合。
Build list
从单个数据集或集合构建一个新的列表集合。
Collapse Collection into single dataset in order of the collection
将列表集合合并为一个单一文件数据集,可以选择包含数据集名称或合并共同的标题行。
Duplicate file to collection
通过将输入数据集重复N次(其中N是用户指定的整数),创建一个任意大小的集合。
Extract dataset
根据位置或标识符从集合中提取数据集。
Extract element identifiers of a list collection
该工具接受一个列表类型的集合,并生成一个文本数据集作为输出,其中包含集合中所有数据集的元素标识符。
Filter collection
使用文件中提供的列表,从集合中过滤元素。
Filter empty datasets
从集合中移除空元素。
该工具接受一个数据集合并过滤(移除)空数据集。这对于继续多样本分析很有用,因为下游工具要求数据集具有内容。
Filter failed datasets
从集合中移除错误(红色)的数据集。
该工具接受一个数据集合并过滤(移除)处于失败(红色)状态的数据集。这对于在多个样本分析中继续进行时,当一个或多个样本在某个时刻失败时非常有用。
Flatten collection
将嵌套集合展平为简单列表。
该工具接受嵌套集合,例如列表的列表或数据集对的列表,并从输入生成一个扁平化的列表。它有效地“展平”了层次结构。集合标识符被合并在一起(默认使用“_”),以创建扁平化结果中的新集合标识符。
Merge collections
接受两个或更多集合,并从它们创建一个单一的集合。
Relabel identifiers
使用提供的文件中的标识符,更改集合中数据集的标识符。
Sort collection
按字母顺序、数字顺序或使用提供的文件中预定的顺序对数据集合进行排序。
Split by group
给定单个输入数据集,该工具根据指定列中的唯一值将文件拆分。
Split file to dataset collection
该工具将由记录组成的数据集拆分为集合中的多个数据集。记录可以是一行、一个FASTA序列(标题+序列)、一个FASTQ序列(标题+序列+质量值)等。重要的属性是记录要么具有特定的长度(例如,FASTQ有4行),要么可以通过正则表达式指定新记录的开始/结束,例如,对于行可以使用 ".",对于FASTA可以使用">."。
Tag elements
向集合元素添加标签(包括名称(name:)和组(group:)标签)。
Unzip Unzip a file
解压包含各种类型文件的文件夹。如果要求保留多个文件,则输出将是一个包含压缩文件或tar存档中的所有文件的集合。
Unzip collection
将配对集合“解压缩”为两个简单的数据集集合(数据集的列表)。
给定一个包含正向和反向读取的配对集合,该工具将把它“解压缩”成两个分别包含正向和反向读取的集合。
Zip collections
接受两个集合并将它们构建成一个配对集合。
如果您有一个仅包含正向读取的集合和一个仅包含反向读取的集合,这个工具将把它们“压缩”到一起,形成一个简单的配对集合。例如,给定两个包含正向和反向读取的集合,它们可以被“压缩”成一个单一的配对集合:
关于简说基因
生信平台
Galaxy中国(UseGalaxy.cn)致力于打造中国人的云上生物信息基础设施。大量在线工具免费使用。无需安装,用完即走。活跃的用户社区,随时交流使用心得。
生信分析
我们能够承接所有 NGS 组学数据分析业务,包括但不限于 WGS / WES / RNA-seq 等。基因组组装、注释,以及各种重测序业务都可以与简说基因合作。
生信培训
简说基因的生信培训班,荣获学员的一致好评。如果你也对生物信息学感兴趣,欢迎来跟简说基因,学真生信。
联系方式
QQ交流群(免费):925694514
微信交流群(免费):加微信好友,邀请入群
客服微信:usegalaxy