生物信息学中的可重复性研究

科学就其本质而言,是累积渐进的。无论你是使用基于网络的还是基于命令行的工具,在进行研究时都应保证该研究可被其他研究人员重复。这有利于你的工作的累积与进展。在生物信息学领域,这意味着如下内容。

  • 工作流应该有据可查。这可能包括在电脑中保留文本文档以便复制和粘贴复杂命令、网址或其他形式的数据。许多人选择保留传统的手写的实验笔记本,但是现在越来越需要同时保存某些形式的电子记录。

  • 为了方便你的工作,存储在计算机上的信息应被妥善整理。可参考文献:Noble, W.S. 2009. A quick guide to organizing computational biology projects. PLos Computational Biology

  • 数据应该可被他人使用,特别是存储高通量数据的存储库。 这方面的鸽子包括NCBI的Gene Expression Omnibus (GEO)和Sequence Read Archive (SRA)、ArrayExpress 和 EBI 的European Nucleotide Archive (ENA)。

    如果期刊没有特别要求,现在可以将数据上传到 GSA (Genome Sequence Archive)。如果是敏感的遗传资源数据,可能只能上传到GSA。

  • 元数据和数据一样同等重要。元数据是指数据集相关的信息。对于一个已被测序的细菌基因组而言,元数据可能包括该细菌被分离的位置信息、培养条件,以及它是否致病等信息。在一个关于人类大脑的基因表达的研究中,元数据可能包括死后采样时间 、性别、疾病表型和RNA分离方法等。元数据为统计分析提供关键信息,使研究者可以探索各种参数对结果的影响。

  • 所使用的数据库应做好记录。由于数据库的内容可随时间改变所以记录版本号和获取日期非常重要。

  • 软件应做好记录。对于已被认可的软件包,应提供版本号。进一步记录使用软件的具体步骤,可使他人能够独立重复你所做的分析。为了共享软件,许多研究人员使用如GitHub等软件存储库。

    我一般使用 Git 来管理项目的源代码以及相关文档。可以参考我之前写的一篇 Git 最佳实践的文章。生物信息基础:实用Git命令,掌握这些就够了

c818bf2d8fe59a30a4134eb77113e5bb.png

Galaxy 生信云平台(UseGalaxy.CN)的重要特色就是可重复性研究,它解决了如下问题:

  • 工作流有据可查。分析过程所有步骤都有记录,可重复。

  • Galaxy有非常科学的管理数据生命周期的流程。数据从上传,到分析以及存档,都尽最大可能为用户提供优质的使用体验。

  • 数据分析所使用的软件和数据库版本,以及相关参数,都记录在案,便于重复研究。

  • 数据分析的相关步骤、参数以及数据等,都可以与他人分享。可以设置指定人员可见,或者通过分享链接可见以及所有人可见。

参考资料:《生物信息学与功能基因组学》P11

关于简说基因

  • 生信平台

    Galaxy中国(UseGalaxy.cn)致力于打造中国人的云上生物信息基础设施。大量在线工具免费使用。无需安装,用完即走。活跃的用户社区,随时交流使用心得。

  • 生信培训

    简说基因的生信培训班,荣获学员的一致好评。如果你也对生物信息学感兴趣,欢迎来跟简说基因,学真生信

  • 生信分析

    我们能够承接所有 NGS 组学数据分析业务,包括但不限于 WGS / WES / RNA-seq 等。基因组组装、注释,以及各种重测序业务都可以与简说基因合作。

55df01ab8542741ce5991421d120801c.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/609801.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux 压力测试 AB ApacheBench

ab的简介 ab是apachebench命令的缩写。 ab是apache自带的压力测试工具。ab非常实用,它不仅可以对apache服务器进行网站访问压力测试,也可以对或其它类型的服务器进行压力测试。比如nginx、tomcat、IIS等 ab的原理 ab的原理:ab命令会创建多…

ros架构

ROS(Robot Operating System)是一个灵活的、分布式的系统架构,用于构建机器人软件。它由一系列工具、库和约定组成,提供了一套通用的功能和通信机制,以支持机器人系统的开发、部署和运行。 ROS架构主要包括以下几个核心…

C++面试宝典第17题:找规律填数

题目 仔细观察下面的数字序列,找到规律,并填写空白处的数字。 (1)1, 2, 4, 7, 11, 16, __ (2)-1, 2, 7, 28, __, 126 (3)6, 10, 18, 32, 57, __ (4)19, 6, 1, 2, 11, __ (5)2, 3, 5, 7, 11, __ (6)1, 8, 9, 4, __, 1/6 (7)1, 2, 3, 7, 16, __, 321 (8)1, 2, …

linux异常情况,排查处理中

登录客户环境后,发现一个奇怪情况如下图,之前也遇到过,直接fuser -ck /backup操作的话,主机将会重启,因数据库运行中,等待停机维护时间,同时也在想办法不重启的情况下解决该问题 [rootdb ~]# f…

git撤销提交到本地的commit

有些时候,当我们提交代码到本地后,突然发现因为某些原因需要撤销提交本地的代码。 就比如我,因为代码写错了分支,已经提交到本地了,而我需要取消,并且还要把代码搞得另外的分支上。 提交前: …

SpiderFlow爬虫平台 前台RCE漏洞复现(CVE-2024-0195)

0x01 产品简介 SpiderFlow是新一代爬虫平台,以图形化方式定义爬虫流程,以流程图的方式定义爬虫,不写代码即可完成爬虫,是一个高度灵活可配置的爬虫平台。 0x02 漏洞概述 SpiderFlow爬虫平台src/main/java/org/spiderflow/controller/FunctionController.java文件的Functi…

【elfboard linux开发板】11. 版本管理和修改设备树流程(点亮LED)

1. 版本管理 1.1 初始化git仓库 git init 生成一个.git 目录 git config --global user.name 用户名 git config --global user.email 邮箱 1.2 查看.gitignore vim .gitignore 1.3 添加删除到缓存区 git status 查看状态 git add 文件名 git rm 文件名 1.4 提交当前记录 …

【AI视野·今日Robot 机器人论文速览 第七十期】Thu, 4 Jan 2024

AI视野今日CS.Robotics 机器人学论文速览 Thu, 4 Jan 2024 Totally 17 papers 👉上期速览✈更多精彩请移步主页 Daily Robotics Papers Many-Objective-Optimized Semi-Automated Robotic Disassembly Sequences Authors Takuya Kiyokawa, Kensuke Harada, Weiwei …

canvas绘制路径之 beginPath() 和 closePath()

查看专栏目录 canvas示例教程100专栏,提供canvas的基础知识,高级动画,相关应用扩展等信息。canvas作为html的一部分,是图像图标地图可视化的一个重要的基础,学好了canvas,在其他的一些应用上将会起到非常重…

《Shader开发实战》-笔记

一、初识游戏图形 1、什么是渲染? 渲染实际上就是创建图像的过程,在渲染过程中创建的图像被称为渲染或者帧,该图像(帧)以每秒多次在计算机屏幕上进行呈现,即帧率。 负责渲染图像(帧&#xff09…

【Redis】非关系型数据库之Redis的主从复制、哨兵和集群高可用

目录 一、主从复制、哨兵、集群的区别 二、主从复制 2.1主从复制的作用 2.2主从复制的原理 2.3主从复制的实操 步骤一:环境准备 步骤二:安装Redis以及配置文件修改 Redis的主从配置文件都一样 步骤四:验证主从复制 三、哨兵 3.1哨兵…

linux(ubuntu)中drontab定时器命令详解

linux(ubuntu)中drontab定时器命令详解 crontab 是一个用于创建、编辑和管理用户的定时任务的命令,它可以让用户在指定的时间自动执行指定的命令或脚本。 基本语法 -e:编辑用户的 crontab 文件;-l:列出用…

4.MapReduce 序列化

目录 概述序列化序列化反序例化java自带的两种Serializable非Serializable hadoop序例化实践 分片/InputFormat & InputSplit日志 结束 概述 序列化是分布式计算中很重要的一环境,好的序列化方式,可以大大减少分布式计算中,网络传输的数…

Docker实战09|使用AUFS包装busybox

前几篇文章中,重点讲解了如何实现构建容器,需要回顾的小伙伴可以看以下文章: 《Docker实战06|深入剖析Docker Run命令》《Docker实战07|Docker增加容器资源限制》《Docker实战08|Docker管道及环境变量识别…

YOLOv8改进 | 主干篇 | 12月最新成果UniRepLknet特征提取网络(附对比试验效果图)

一、本文介绍 本文给大家带来的改进机制是特征提取网络UniRepLknet,其也是发表于今年12月份的最新特征提取网络,该网络结构的重点在于使用Dilated Reparam Block和大核心指导原则,强调了高效的结构进行通道间通讯和空间聚合,以及使用带扩张的小核心进行重新参数化,该网络…

自动化生产线-采用工业机器人比人工有哪些优势?

工业机器人相对于人工具有一些显著的优势,这些优势使它们在制造和生产领域得到广泛应用。以下是工业机器人相对于人工的一些主要优势: 1、精度和一致性: 机器人可以执行高精度的操作,确保产品的质量和规格一致,而且不容…

CSS渐变透明

文章目录 一、前言1.1、MDN 二、实现2.1、源码2.2、线上源码 三、最后 一、前言 使用场景:在做两个元素的连接处的UI适配时,图片的颜色不能保证一定跟背景颜色或者是主色调保持一致时,会显得比较突兀。 1.1、MDN MDN的文档,点击【…

​如何在iOS手机上查看应用日志

引言 在开发iOS应用过程中,查看应用日志是非常重要的一项工作。通过查看日志,我们可以了解应用程序运行时的状态和错误信息,帮助我们进行调试和排查问题。本文将介绍两种方法来查看iOS手机上的应用日志,并提供相应的操作步骤。 …

基于Github官方教程的快速入门学习

GitHub 是一个用于版本控制和协作的代码托管平台。 它允许您和其他人随时随地协同处理项目。 创建仓库 在任何页面的右上角,使用 下拉菜单选择“新建存储库”。 之后会进入创建仓库的界面,需要我们进行如下操作: 写仓库的名字写对于本仓库…

无失真编码之算术编码的python实现——数字图像处理

原理 无失真编码中的算术编码是一种用于将输入数据进行高效压缩的方法,同时保留了原始数据的完整性。 算术编码的实现过程如下: 数据分段:首先,将要进行编码的数据划分为一个个符号或字符。每个符号可以是文本中的一个字母、一幅…