提交高通量测序原始数据到 SRA --- 操作流程

写在前面

由于最近在提交课题数据到 NCBI 数据库,整理了相关笔记。本着自己学习、分享他人的态度,分享学习笔记,希望能对大家有所帮助。推荐先按顺序阅读往期内容:
1. 提交高通量测序数据到 GEO --- 说明书


目录

  • 1 注册 NCBI 账号
  • 2 准备要上传的原始数据
  • 3 填写数据信息
    • 3.1 填写提交者信息
    • 3.2 填写一般信息
    • 3.3 填写项目信息
    • 3.4 填写样本类型
    • 3.5 填写样本属性
    • 3.6 填写 SRA Metadata
    • 3.7 上传文件
    • 3.8 检查并提交

在发表文章之前往往需要将高通量测序的数据上传到 NCBI 数据库。上传的数据可以分为两类:① Raw data(fastq文件)通常上传到 SRA、② Processed data(counts matrix、RDS 等)通常上传到 GEO。本文详细介绍提交高通量测序 raw data 到 SRA 的操作流程。

1 注册 NCBI 账号

首先需要登陆https://www.ncbi.nlm.nih.gov/account/注册一个 NCBI 账号,NCBI 支持用各种第三方账户进行注册:

alt

2 准备要上传的原始数据

新建一个文件夹,将所有需要上传的样本的原始数据放置到同一个文件中:

alt

3 填写数据信息

进入 NCBI 首页(https://www.ncbi.nlm.nih.gov/),按如下操作:① 选择 SRA、② 点击 Search、③ 点击 Submit to SRA、④ 点击 New submission

alt
alt
alt
3.1 填写提交者信息(SUBMITTER)

第一项要填写提交者信息,按要求填写即可,注意*为必填选项,填写完成后点击 Continue。

alt
3.2 填写一般信息(GENERAL INFO)

第二项要填写一般信息,如果是第一次提交 BioProject 和 BioSample 都选择 NO,Release data 建议选择靠后一些的日期,避免数据过早发布,后续可以根据课题进展修改。填写完成后点击 Continue。

alt
3.3 填写项目信息(PROJECT INFO)

第三项要填写项目信息,填写项目标题、项目描述,如果是第一次提交选择 NO 即可,其他部分选填,填写完成后点击 Continue。

alt
3.4 填写样本类型(BIOSAMPLE TYPE)

第四项要填写样本类型,比如小鼠样本,就选择 Model organism or animal,其他样本在选项中找到对应类型即可,填写完成后点击 Continue。

alt
3.5 填写样本属性(BIOSAMPLE ATTRIBUTES)

第五项要填写样本属性,可以选择使用内置表格编辑器,或下载Excel和TSV模板填写后上传。

alt

以下载的Excel表格为例:

alt

绿色为必填项(必须全部填写)蓝色为选填项(至少选填一个)黄色为可选项(可以空着)。如果任何选项的信息在你的研究中没有涉及,可以填写 "not collected"、"not applicable"、"missing"。你也可以添加任意数量的自定义选项来完整描述你的样本信息。可以将鼠标悬停在选填名称上以查看定义,或者查看 https://www.ncbi.nlm.nih.gov/biosample/docs/attributes/

填写完成后点击 Choose file 上传,然后点击 Continue。

3.6 填写 SRA Metadata(SRA METADATA)

第六项要填写 SRA Metadata,同样可以选择使用内置表格编辑器,或下载Excel模板填写后上传。

alt

以下载的Excel表格为例:

alt

注意黄色列有下拉菜单,可让从下拉菜单中进行选择。蓝色为必填项绿色为可选项。每一个选项的填写要求如下:

  • sample_name:样本名称,应该与前一个表格(BIOSAMPLE ATTRIBUTES)中的 sample_name 项名称相同。
  • library_ID:文库ID,必须是唯一的,不能重复。
  • title:数据集的简短描述,格式为 {methodology} of {organism}: isample info},例如 RNA-Seq of mus musculus: adult female spleen。
  • library_strategy:文库策略,如 RNA-Seq。
  • library_source:文库来源,如 GENOMIC。
  • library_selection:文库选择,如 PCR。
  • library_layout:文库设计,single 或 paired。
  • platform:测序平台,如 ILLUMINA。
  • instrument_model:仪器型号,如 Illumina NovaSeq 6000。
  • design_description:设计说明,用于创建测序文库的方法的自由格式描述,简短的"材料和方法"部分。
  • filetype:文件类型,如 fastq。
  • filename:文件名,如 Sample1_R1_001.fq.gz。
  • filename2:文件名2,如双端测序的第二个文件 Sample1_R2_001.fq.gz。
  • assembly:组装,仅当您提交针对 NCBI 组装的 BAM 文件时需要,请提供 NCBI 名称或注册号(例如GRCH37)。
  • fasta_file:fasta 文件,仅当您提交针对 NCBI 组装的 BAM 文件时需要,提供比对过程中使用的自定义组装 fasta 文件的名称(例如 Mouse.fasta)。

填写完成后点击 Choose file 上传,然后点击 Continue。

3.7 上传文件(FILES)

第七项要上传文件。

alt

注意事项:

  • 上传的每个文件必须在上一步的 SRA metadata 中列出。如果您要上传 tar 存档,请列出每个文件名,而不是存档名称。
  • 所有文件都应使用不包含任何敏感信息的唯一文件名,因为文件名会公开显示。
  • 文件可以使用 gzipbzip2 进行压缩,并且可以以 tar 存档的形式提交,但不需要存档或压缩文件。 不要使用 zip!

可以通过三种方式上传文件:

  • Web 浏览器上传,通过 HTTP 或 Aspera Connect 插件,但是如果您要上传超过 10 GB 或超过 300 个文件,请勿使用 Web 浏览器 HTTP 上传。
  • FTP 或 Aspera 命令行上传,提交的所有文件必须上传到一个文件夹中。
  • AWS or GCP bucket

由于原始数据通常很大,一般存储在 Linux 服务器中,因此我这里使用 Aspera 命令行上传。Aspera 提供跨越洲际距离的快速上传连接,上传速度可达 100Mb/s

上传步骤:

  1. 下载并安装 Aspera Connect 软件,下载链接: https://www.ibm.com/products/aspera/downloads
  2. 下载 key file,下载链接: https://submit.ncbi.nlm.nih.gov/preload/aspera_key/
  3. 使用以下 Aspera 命令行上传文件: ascp -i <path/to/key_file> -QT -l100m -k1 -d <path/to/folder/containing files> subasp@upload.ncbi.nlm.nih.gov:uploads/tigerzheng1998_gmail.com_M11M5vYX
    其中 <path/to/key_file> 必须是绝对路径,例如: /home/keys/aspera.openssh<path/to/folder/containing files> 需要指定包含所有要上传的文件的本地文件夹。

上传成功后,点击 Select preload folder 选择上传的文件夹,然后提交。

注意:上传的文件至少需要 10 分钟才能在 Select preload folder 中可供选择。请在创建文件夹后 30 天内完成提交。如果您上传文件但未提交,它们将在文件夹创建后 30 天自动删除。

3.8 检查并提交(REVIEW & SUBMIT)

第八项,检查前面填写的内容,如果没有问题点击 Submit 提交。

alt

提交后等待 NCBI 审核,SRA 编号可能需要一些时间才能处理完成,一般 24 小时之内能够完成。如果审核长时间没有完成,可以发邮件给 NCBI 询问。如果提交显示下面三项都通过了,就表明数据上传成功了。

alt

--------------- 结束 ---------------

注:本文为个人学习笔记,仅供大家参考学习,不得用于任何商业目的。如有侵权,请联系作者删除。

alt

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/49456.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C++】关联容器探秘:Map与Multimap详解

目录 1.映射类 map 0. 引入 pair&#xff1a; 1.定义 2.插入 3. 遍历 4.❗operator[]的实现 5. 插入 运用 2.Multimap 类 0. 引入&#xff1a;不去重的 Multi 1. Multimap 不支持 Operator[] 2. Multimap 的删除 1.映射类 map 0. 引入 pair&#xff1a; 在C中&…

1 go语言环境的搭建

本专栏将从基础开始&#xff0c;循序渐进&#xff0c;由浅入深讲解Go语言&#xff0c;希望大家都能够从中有所收获&#xff0c;也请大家多多支持。 查看相关资料与知识库 专栏地址:Go专栏 如果文章知识点有错误的地方&#xff0c;请指正&#xff01;大家一起学习&#xff0c;…

软件测试---测试需求分析

课程目标 什么是软件测试需求 软件测试需求的必要性 如何对软件测试需求进行分析&#xff08;重点&#xff09; 课程补充 灰度测试&#xff08;基于功能&#xff09;&#xff1a;先发布部分功能&#xff0c;然后看用户的反馈&#xff0c;再去发布另外一部分的功能更新。 A/B测…

运筹学笔记

计算的时间问题&#xff01;计算机解决了计算量的问题&#xff01; 计算机的发展对运筹学研究起到了极大的促进作用。 运筹学的一个特征之一是它常常会考虑寻求问题模型的最佳解决方案&#xff08;称为最优解&#xff09;。 没有人能成为运筹学所有方面的专家。 分析学越来越流…

C++学习笔记04-补充知识点(问题-解答自查版)

前言 以下问题以Q&A形式记录&#xff0c;基本上都是笔者在初学一轮后&#xff0c;掌握不牢或者频繁忘记的点 Q&A的形式有助于学习过程中时刻关注自己的输入与输出关系&#xff0c;也适合做查漏补缺和复盘。 本文对读者可以用作自查&#xff0c;答案在后面&#xff0…

国内微短剧系统平台抖音微信付费小程序app开发源代码交付

微短剧作为当下热门的内容&#xff0c;结合抖音平台的广泛用户基础&#xff0c;开发微短剧付费小程序APP具有显著的市场潜力&#xff0c;用户对于短剧内容的需求旺盛&#xff0c;特别是在言情、总裁、赘婿等热门题材方面&#xff0c;接下来给大家普及一下微短剧小程序系统。 顺…

rce漏洞-ctfshow(50-70)

Web51 if(!preg_match("/\;|cat|flag| |[0-9]|\\$|\*|more|less|head|sort|tail|sed|cut|tac|awk|strings|od|curl|\|\%|\x09|\x26/i", $c)){ system($c." >/dev/null 2>&1"); } Nl&#xff0c;绕过tac&#xff0c;cat&#xff0c;绕…

Pytest进阶之fixture的使用(超详细)

目录 Fixture定义 Fixture使用方式 作为参数使用 Fixture间相互调用(作为参数调用) 作为conftest.py文件传入 Fixture作用范围Scope function class module session Fixture中params和ids Fixture中autouse Fixture中Name 总结 pytest fixture 是一种用来管理测试…

回溯算法(相关解题):

求子集序列&#xff1a; 解题思路&#xff1a; 已知原集合的数据位数为N&#xff0c;则可以通过二进制比对原来集合&#xff0c;二进制位为1则输出集合上的该位数据&#xff0c;为0则空&#xff0c;二进制的01排序规律与子集的输出一致由集合的位数可以判断出二进制的范围 0 ~…

P3-AI产品经理-九五小庞

AI产品的数据流向 美团外卖&#xff0c;实时只能调度 美团28分钟送达需求的分析 AI产品常用的算法 常用算法 常见的AI算法解析 自然语言生成NLG语音识别&#xff1a;科大讯飞&#xff0c;通义千问 虚拟现实机器学习平台 决策管理系统生物特征识别技术 RPA(机器人流程自动…

UE4-光照重建

当我们拉入新的光源和模型到我们的场景中后&#xff0c;会产生这样的情况&#xff1a; Preview:预览 表示此时由于光照物体所产生的阴影都是预览级别的并不是真正的效果。 方法一&#xff1a; 或者也可以在世界大纲中选中我们的光源&#xff0c;然后将我们的光源改变为可以…

判断字符串,数组方法

判断字符串方法 在JavaScript中&#xff0c;可以使用typeof操作符来判断一个变量是否为字符串。 function isString(value) {return typeof value string; } 判断数组 在JavaScript中&#xff0c;typeof操作符并不足以准确判断一个变量是否为数组&#xff0c;因为typeof会…

《昇思25天学习打卡营第25天|第27天》

今天是学习的第二十七天&#xff0c;今天学习的是应用实践篇中计算机视觉中ShuffleNet图像分类。 从对ShuffleNet网络介绍开始学习&#xff0c;模型架构&#xff08;Pointwise Group Convolution&#xff0c;Channel Shuffle&#xff0c;ShuffleNet模块&#xff0c;构建Shuffl…

# Redis 入门到精通(九)-- 主从复制(1)

Redis 入门到精通&#xff08;九&#xff09;-- 主从复制&#xff08;1&#xff09; 一、redis 主从复制 – 主从复制简介 1、互联网“三高”架构 高并发高性能高可用 2、你的“Redis”是否高可用&#xff1f; 1&#xff09;单机 redis 的风险与问题 问题1.机器故障  现…

C++ 鼠标轨迹API【神诺科技SDK】

一.鼠标轨迹模拟简介 传统的鼠标轨迹模拟依赖于简单的数学模型&#xff0c;如直线或曲线路径。然而&#xff0c;这种方法难以捕捉到人类操作的复杂性和多样性。AI大模型的出现&#xff0c;使得神诺科技 能够通过深度学习技术&#xff0c;学习并模拟更自然的鼠标移动行为。 二.…

java之对称字符串以及如何优化(链式编程)

import java.util.Scanner;public class ScannerDemo12 {public static void main(String[] args) {Scanner sc new Scanner(System.in);System.out.println("请输入一个字符串");String str sc.next();//链式编程StringBuilder sbnew StringBuilder();sb.append(s…

国内大陆地区huggingface连接不上的解决方案

简介 本文主要介绍国内大陆地区huggingface连接不上的解决方案,希望能对学习大模型的同学们有所帮助。 1. 背景 最近有不少同学反应无法正常下载huggingface的模型文件,亲自尝试使用git clone下载huggingface上的大模型文件时,也同样无法正常下载,以Meta-Llama-3-8B为例…

数据结构之判断完全二叉树详解与示例(C,C++)

文章目录 一、判断完全二叉树的思路二、C语言实现三、C语言实现四、总结 完全二叉树是一种特殊的二叉树&#xff0c;它满足以下两个条件&#xff1a; 每一层&#xff08;除了最后一层&#xff09;都被严格地填充了节点。 最后一层的节点都尽可能地靠左对齐。 本文将详细介绍如…

微服务(网关路由)

目录 一&#xff1a;网关路由 1&#xff1a;认识网关 2&#xff1a;快速入门 2.1&#xff1a;创建项目 2.2&#xff1a;引入依赖 2.3&#xff1a;启动类 2.4&#xff1a;路由配置 2.5&#xff1a;测试 3&#xff1a;路由过滤 二&#xff1a;网关登录校验 1&…

58、主从复制数据库+读写分离

mysql的主从复制和读写分离&#xff08;面试问原理&#xff09; mysql的主从复制和读写分离&#xff1a; 主从复制 面试必问 主从复制的原理。 读写分离&#xff0c;MHA 一、主从复制 1.1、主从复制的模式&#xff1a; 1、mysql的默认模式&#xff1a; 异步模式&#xf…