Galaxy生信云平台:集合操作工具大全

Galaxy平台上的文件称为数据集(Dataset),如果将多个文件组合在一起,则形成数据集合(Dataset collection)。

上传文件后,可以通过工具将文件构建成数据集合。具体操作可以参考前面介绍转录组流程的文章:

上传数据,轻松分析 | 云上转录组标准分析流程使用指南

构建数据集合的工具有下图所示的4种:

84d10849cdcd9b271bf06b2c8afde1ea.png

  1. Build Dataset List,将多个文件组合成一个列表,每行一个数据集。

  2. Build Dataset Pair,将一对双端测序数据组合成一个数据集对。

  3. Build List of Dataset Pairs,将多个样本的双端测序数据构建成数据集对列表,每行一个数据集对。

  4. Build Collection from Rules,在一个表格工具中,通过各种规则,将数据构建成数据集合。

有了数据集合之后,还有许多工具对数据集合进行操作,以下是这些工具的简要介绍。

Apply rules

这个工具允许用户将现有的 Galaxy 数据集合的元数据处理为表格数据,应用一系列规则,并生成一个新的集合。

Build list

从单个数据集或集合构建一个新的列表集合。

942bfd223eed31f6cd7a317f23dbd921.png

Collapse Collection into single dataset in order of the collection

将列表集合合并为一个单一文件数据集,可以选择包含数据集名称或合并共同的标题行。

Duplicate file to collection

通过将输入数据集重复N次(其中N是用户指定的整数),创建一个任意大小的集合。

Extract dataset

根据位置或标识符从集合中提取数据集。

Extract element identifiers of a list collection

该工具接受一个列表类型的集合,并生成一个文本数据集作为输出,其中包含集合中所有数据集的元素标识符。

Filter collection

使用文件中提供的列表,从集合中过滤元素。

Filter empty datasets

从集合中移除空元素。

该工具接受一个数据集合并过滤(移除)空数据集。这对于继续多样本分析很有用,因为下游工具要求数据集具有内容。

2059e7b06cb7af5b2c29e6cf9cc1821e.png

Filter failed datasets

从集合中移除错误(红色)的数据集。

该工具接受一个数据集合并过滤(移除)处于失败(红色)状态的数据集。这对于在多个样本分析中继续进行时,当一个或多个样本在某个时刻失败时非常有用。

cd08b29f02b8b3e65629846006db82f8.png

Flatten collection

将嵌套集合展平为简单列表。

该工具接受嵌套集合,例如列表的列表或数据集对的列表,并从输入生成一个扁平化的列表。它有效地“展平”了层次结构。集合标识符被合并在一起(默认使用“_”),以创建扁平化结果中的新集合标识符。

38700e32fc477a630781405fb4f97180.png

Merge collections

接受两个或更多集合,并从它们创建一个单一的集合。

Relabel identifiers

使用提供的文件中的标识符,更改集合中数据集的标识符。

Sort collection

按字母顺序、数字顺序或使用提供的文件中预定的顺序对数据集合进行排序。

Split by group

给定单个输入数据集,该工具根据指定列中的唯一值将文件拆分。

Split file to dataset collection

该工具将由记录组成的数据集拆分为集合中的多个数据集。记录可以是一行、一个FASTA序列(标题+序列)、一个FASTQ序列(标题+序列+质量值)等。重要的属性是记录要么具有特定的长度(例如,FASTQ有4行),要么可以通过正则表达式指定新记录的开始/结束,例如,对于行可以使用 ".",对于FASTA可以使用">."。

Tag elements

向集合元素添加标签(包括名称(name:)和组(group:)标签)。

Unzip Unzip a file

解压包含各种类型文件的文件夹。如果要求保留多个文件,则输出将是一个包含压缩文件或tar存档中的所有文件的集合。

Unzip collection

将配对集合“解压缩”为两个简单的数据集集合(数据集的列表)。

给定一个包含正向和反向读取的配对集合,该工具将把它“解压缩”成两个分别包含正向和反向读取的集合。

d4bb3f0ebccdd79ffbd7c186a1a395e4.png

Zip collections

接受两个集合并将它们构建成一个配对集合。

如果您有一个仅包含正向读取的集合和一个仅包含反向读取的集合,这个工具将把它们“压缩”到一起,形成一个简单的配对集合。例如,给定两个包含正向和反向读取的集合,它们可以被“压缩”成一个单一的配对集合:

05550f5b664055a7b9540ffc2647ee65.png

关于简说基因

  • 生信平台

    Galaxy中国(UseGalaxy.cn)致力于打造中国人的云上生物信息基础设施。大量在线工具免费使用。无需安装,用完即走。活跃的用户社区,随时交流使用心得。

  • 生信分析

    我们能够承接所有 NGS 组学数据分析业务,包括但不限于 WGS / WES / RNA-seq 等。基因组组装、注释,以及各种重测序业务都可以与简说基因合作。

  • 生信培训

    简说基因的生信培训班,荣获学员的一致好评。如果你也对生物信息学感兴趣,欢迎来跟简说基因,学真生信

  • 联系方式

    QQ交流群(免费):925694514

    微信交流群(免费):加微信好友,邀请入群

    客服微信:usegalaxy

a764afc3a1b0389cf8a365d615bbc58f.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/713413.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

后台组件体系

从今天开始进入更细粒度说明。后台微服务是由组件构成的。平台的开发理念是为甲方打造一个生态环境。安装实施时为客户安装私仓来管理组件。开发微服务时鼓励拆分为组件。开发新功能时,先看有没有相关组件,有的话就在pom.xml文件(不要问我这个…

OpenDDS中避免订阅发布同一主题时的自环现象(适用于所有DDS)

目录 1、摘要2、理解"自反传输"2、解决方案2.1、使用 DataReaderListener 进行过滤3.2、使用 Partition 进行隔离3.3、 使用不同的 Topic 总结 1、摘要 在 OpenDDS 中,同时订阅并发布同一主题会导致自环现象,即接收到自己发送的消息。本文介绍…

Day10:基础入门-HTTP数据包Postman构造请求方法请求头修改状态码判断

目录 数据-方法&头部&状态码 案例-文件探针 案例-登录爆破 工具-Postman自构造使用 思维导图 章节知识点: 应用架构:Web/APP/云应用/三方服务/负载均衡等 安全产品:CDN/WAF/IDS/IPS/蜜罐/防火墙/杀毒等 渗透命令:文件…

最新消息:英特尔宣布成立全新独立运营的FPGA公司——Altera

今天,英特尔宣布成立全新独立运营的FPGA公司——Altera(2015年6月Intel以 167 亿美元的价格,收购FPGA厂商Altera)。首席执行官Sandra Rivera和首席运营官Shannon Poulin分享展示其在超过550亿美元的市场中保持领先性的战略规划&am…

什么是端点安全以及如何保护端点

什么是端点安全 端点是指可以接收信号的任何设备,是员工使用的一种计算设备,用于保存公司数据或可以访问 Internet。端点的几个示例包括:服务器、工作站(台式机和笔记本电脑)、移动设备、虚拟机、平板电脑、物联网、可…

一【初识EMC】

在作为硬件行业相关从业者,经常接触到EMC相关问题,下面来简单介绍下EMC相关方面的知识 文章目录 前言一、生活中的EMC现象?二、EMC是什么三、EMC的三要素四、EMI与EMS的评估方式1.RE2.CE3.HAR4.FLICKER5.Rs6.CS7.ESD8.EFT9.DIP10.PMS11.surge…

Zookeeper3:客户端命令

文章目录 客户端命令连接服务端Zookeeper客户端内置命令 ls - 节点信息 客户端命令 连接服务端Zookeeper //客户端连接服务端zookeeper 默认连的本机2181端口的zookeeper cd /opt/module/zookeeper-3.9.1/bin && sh zkCli.sh//客户端连接远程服务端zookeeper cd /op…

【小尘送书-第十一期】编程的基石,开发的核心:《算法秘籍》

大家好,我是小尘,欢迎你的关注!大家可以一起交流学习!欢迎大家在CSDN后台私信我!一起讨论学习,讨论如何找到满意的工作! 👨‍💻博主主页:小尘要自信 &#x1…

R语言简介|你对R语言了解多少?

R语言是一种专门用于统计计算和图形展示的开源编程语言,它在数据科学领域有着广泛的应用。下面对R语言的环境、基础语法及注释进行解释: R语言环境 安装与配置 安装R语言通常可以从官方站点下载对应操作系统的安装包,如Windows、Linux、ma…

lotus worker停止接单

worker停止接单 会做完当前的任务 lotus-worker set --enabledfalse# lotus-worker --worker-repo/worker01 set --enabledfalse DEPRECATED: This command will be removed in the future# lotus-worker --worker-repo/worker01 info Enabled: false参考 worker停止接单

如何使用GAP-Burp-Extension扫描潜在的参数和节点

关于GAP-Burp-Extension GAP-Burp-Extension是一款功能强大的Burp扩展,该工具在getAllParams扩展的基础上进行了升级,该工具不仅可以帮助广大研究人员在安全审计过程中扫描潜在的参数,而且还可以搜索潜在的链接并使用这些参数进行测试&#…

零基础如何快速入门伦敦金交易

伦敦金交易是金融市场中备受关注的一种投资方式。对于想要学习如何炒伦敦金并快速开始交易的人来说,本文将为您提供一份全面而详细的指南。无论您是初学者还是有经验的交易者,本文都将帮助您了解伦敦金交易的基本知识,并提供一些实用的技巧和…

安卓与鸿蒙的区别

安卓和鸿蒙是两个不同的操作系统。下面是它们的一些区别: 1. 公司:安卓是由谷歌开发的操作系统,而鸿蒙是由华为开发的操作系统。 2. 开放性:安卓是开放源代码的操作系统,可以由各种手机制造商进行定制和使用。鸿蒙也…

协议-http协议-基础概念03-http状态码-http特点-http性能-压缩和分块传输-范围请求

参考来源: 极客时间-透视HTTP协议(作者:罗剑锋); 01-状态码分类 开头的 Version 部分是 HTTP 协议的版本号,通常是HTTP/1.1,用处不是很大。后面的 Reason 部分是原因短语,是状态码的简短文字描述&#xff…

04锁机制-分布式锁

一句话导读 分布式锁是一种在分布式系统中实现对共享资源的访问控制的锁机制,它可以确保在不同的节点上只有一个线程能够获取锁,从而避免了分布式环境下的并发访问问题 目录 一句话导读 一、什么是分布式锁 二、实现分布式锁的方式 1.基于数据库实现…

【Redis】高级特性 - 发布和订阅

文章目录 1. 发布/订阅模式概述2. 在Redis中使用发布/订阅模式2.1 发布消息2.2 订阅频道2.3 接收消息 3. 示例演练3.1 启动两个Redis客户端3.2 发布者发布消息3.3 订阅者接收消息 4. 取消订阅5. 发布/订阅模式的优势结语 在Redis的学习中,发布/订阅(Pub/…

每周一算法:双向广搜

题目链接 字符串变换 题目描述 已知有两个字串 A , B A,B A,B,及一组字串变换的规则(至多 6 6 6个规则): A 1 → B 1 A_1→B_1 A1​→B1​ A 2 → B 2 A_2→B_2 A2​→B2​ … 规则的含义为:在 A A A中的子串 A 1 A_1 A1​…

pytorch统计属性

目录 1.normal2. mean, sum, min, max, prod3.argmin, argmax4. topk kthvalue5. compare 1.normal torch.normal(mean, std, *, generatorNone, outNone) → Tensor返回一个张量,其中的每个元素随机来自独立的标准正态分布。这些分布具有给定的均值和标准差。 参数…

Linux 内核获取函数size

方式一:通过objdump -t直接从目标文件中获取函数size #objdump -t file_unread.o | grep hook 0000000000000030 l F .text 000000000000012f hook_vfs_read0000000000000030 l F .text 000000000000012f hook_vfs_read各个字段说明 0000000000000030&#x…

【cmu15445c++入门】(13)C++的std::promise

一、说明 std::promise 是C11并发编程中常用的一个类&#xff0c;常配合std::future使用。其作用是在一个线程t1中保存一个类型typename T的值&#xff0c;可供相绑定的std::future对象在另一线程t2中获取 二、代码 #include <chrono> #include <future> #includ…