提交高通量测序处理数据到 GEO --- 操作流程

写在前面

由于最近在提交课题数据到 NCBI 数据库,整理了相关笔记。本着自己学习、分享他人的态度,分享学习笔记,希望能对大家有所帮助。推荐先按顺序阅读往期内容:
1. 提交高通量测序数据到 GEO --- 说明书
2. 提交高通量测序原始数据到 SRA --- 操作流程


目录

  • 1 注册 NCBI 账号
  • 2 准备要上传的数据
    • 2.1 Raw data files
    • 2.2 Processed data files
    • 2.3 Metadata spreadsheet
  • 3 上传数据

在发表文章之前往往需要将高通量测序的数据上传到 NCBI 数据库。上传的数据可以分为两类:① Raw data(fastq文件)通常上传到 SRA、② Processed data(counts matrix、RDS 等)通常上传到 GEO。本文详细介绍提交高通量测序 Processed data 到 GEO 的操作流程。

在进行操作之前,强烈建议先阅读我之前的推文:《提交高通量测序数据到 GEO --- 说明书》。里面详细介绍了要准备的文件和格式要求。

1 注册 NCBI 账号

首先需要登陆https://www.ncbi.nlm.nih.gov/account/注册一个 NCBI 账号,NCBI 支持用各种第三方账户进行注册:

alt

2 准备要上传的数据

进入 NCBI 首页(https://www.ncbi.nlm.nih.gov/),按如下操作:① 选择 GEO DataSets、② 点击 Search、③ 点击 Submit to GEO、④ Submit high-throughput sequencing

alt
alt
alt

可以看到需要准备以下数据:1. Metadata spreadsheet、2. Processed data files、3. Raw data files

alt
2.1 Raw data files

Raw data 是测序数据的 fastq 文件,可以将 raw data 提交给 GEO,也可以直接提交给 SRA。但是 raw data 往往非常大,按照 GEO 推荐的 FileZilla 软件上传非常的慢,因此推荐用 Aspera 命令行直接将 raw data 上传到 SRAAspera 提供跨越洲际距离的快速上传连接,上传速度可达 100Mb/s

关于如何将 raw data 上传到 SRA,可以查看我之前的推文:《提交高通量测序原始数据到 SRA --- 操作流程》

alt
2.2 Processed data files

Processed data 一般为比对后生成的 count matrix 文件。比如我这里为单细胞测序数据比对后的 cell-gene 矩阵的 csv 文件:

alt
2.3 Metadata spreadsheet

Metadata 是指有关研究、样本、方法以及对 processed data 和 raw data 文件名的引用的描述性信息。GEO 中提供了两种模板,由于我这里选择将 raw data 提交到 SRA,因此选择 "Download metadata spreadsheet with SRA accessions"。

alt
2.3.1 STUDY

STUDY 部分介绍研究的整体概况。STUDY 部分提供的信息将在公共网页上的 GEO Series(GSE record)中显示。

alt
  • title:标题,可以是发表文章的标题。
  • summary(abstract):摘要,可以是发表文章的摘要。
  • experimental design:实验设计,描述 submission 中包括的样本类型,已经实验条件和变量。包括分析什么类型样本、是否包括复制、是否有对照和/或参考样本等。不包括 protocols/methods。可以参照 EXAMPLE sheets 填写。
  • contributor:作者,例如 Yixin, Wang,每个作者都在单独的一行上。
  • supplementary file:补充文件,如果您提交的 processed data 文件对应于多个样本。例如:fpkms_allsamples.txt。该文件应该具有与 metadata SAMPLES 中的唯一描述符匹配的唯一列名(例如,"library name")。single-cell submissions 除外。
  • BioProject:BioProject accession,例如:PRJNA123456
2.3.2 SAMPLES

SAMPLES 部分是对样本的描述。SAMPLES 部分提供的信息将在公共网页上的 GEO Samples(GSM records)中显示。

注意:*为必填项,**为至少选择一项填写

alt
alt
  • library name:文库名称,必须唯一,如 Sample1、Sample2...
  • title:样本名称,必须唯一,建议使用以下约定: [biomaterial][condition(s)][replicate number],例如: Muscle, exercised,60min, rep2
  • organism:物种,如 Mus musculus
  • BioSample:BioSample accessions,如 SAMN123456
  • SRA Experiment or Run:SRX/SRR accessions,如 SRR123456
  • tissue:组织,如 Distal colon
  • cell line:细胞系,如 C3H 10T1/2
  • cell type:细胞类型,如 mesenchymal stem cells
  • genotype:基因型,如 WT、KDM4D knockdown
  • treatment:处理,如 adipogenic differentiation
  • molecule:分子类型,选择以下之一:total RNA、polyA RNA、cytoplasmic RNA、nuclear RNA、genomic DNA、protein、other
  • single or paired-end:测序类型,选择 single 或 paired-end
  • instrument model:仪器型号,如 Illumina NovaSeq 6000。
  • description:描述信息,可选的,其他选项中没有提供的额外信息。或者,如果您提交的矩阵包含多个样品的 processed data (例如,所有 RNA-Seq 样品的 Counts.txt),请在此处列出矩阵列名称。
  • processed data file:包含 processed data 的文件的确切名称。例如:HeLa_H3K4me3.bw。可以为多个样本列出相同的处理文件。如果一个样本存在多个处理文件,则可以包括多个 'processed data file' 列。
2.3.3 PROTOCOLS

PROTOCOLS 部分是对实验方法的描述。PROTOCOLS 部分提供的信息将出现在每个 GEO Sample(GSM record)中。

alt
  • growth protocol:可选项,描述在提取前用于培养或维持生物体或细胞的条件。
  • treatment protocol:可选项,描述在提取制备之前对生物材料进行的处理。
  • extract protocol:必填项,描述用于提取和准备待测序材料的方法。
  • library construction protocol:必填项,描述文库构建方法。
  • library strategy:必填项,描述每个文库的测序技术,如 RNA-Seq。
  • data processing step:必填项,提供有关如何生成 processed data 文件的详细信息。步骤可能包括:基本调用软件、版本、参数;数据过滤步骤;Read 比对软件版本、参数;额外的处理软件(例如,peak-calling, abundancemeasurement)、版本、参数;等。
  • genome build/assembly:必填项,UCSC或NCBI基因组构建号(例如,hg18、mm9、human NCBI genome build 36 ...),或用于 read 比对的参考序列。
  • processed data files format and content:必填项,对于每种 processed data 文件类型,提供格式和内容的描述。如 Tab-separated values files and matrix files。
2.3.4 MD5 Checksums

在填写完 Metadata 页面后,还需要在 MD5 Checksums 页面填写所有 processed data 文件的 MD5 校验码。checksums 可以使用以下方法计算:

  • Unix: md5sum <file>
  • OS X: md5 <file>
  • Windows: Windows Command Processor (cmd): certutil -hashfile <file> MD5

这里以 Windows 上命令行为例:

打开 cmd,输入以下命令:certutil -hashfile "F:\path\Sample1_expression_matrix.csv" MD5

alt

将文件名和生成的MD5码填入表格:

alt

3 上传数据

点击 Transfer files 开始上传数据。

alt

进入后可以看到上传数据的个人空间地址,以及 FTP 服务器账号和密码。

alt

下载 GEO 推荐的第三方文件传输软件 FileZila Client,下载地址:https://filezilla-project.org/download.php?show_all=1

下载后按下图操作:① 输入主机地址、用户名、密码;② 点击快速连接;③ 输入个人空间地址;④ 找到需上传文件地址;⑤ 将需上传文件拖拽到此处

alt

可以看到上传速度非常慢(0.5Mb/s),需要等待很长时间。这也是为什么不推荐将原始 fastq 文件上传到 GEO。荐用 Aspera 命令行直接将 fastq 文件上传到 SRA,上传速度可达 100Mb/s

数据上传完成之后,上传 metadata 文件:

alt

选择前面填写的 metadata Excel 文件,选择发布日期,然后点 Submit 提交。

alt

一般提交后一天内就会收到邮件,看到 GEO 编号,状态为 resolved,就表示数据提交成功了。邮件中还提供了后续如何更改信息,以及更改发布日期的相关连接。

alt

--------------- 结束 ---------------

注:本文为个人学习笔记,仅供大家参考学习,不得用于任何商业目的。如有侵权,请联系作者删除。

alt

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/49817.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于机器学习的二手房价格分析与预测设计与实现

概述 随着西安房地产市场的不断发展和变化&#xff0c;对二手房价格的准确预测变得至关重要。本研究旨在利用机器学习技术对西安市二手房价格进行深入分析与预测&#xff0c;通过对原始数据进行数据预处理和特征提取&#xff0c;以构建有效的预测模型。通过数据分析和可视化&a…

LabVIEW学习-LabVIEW处理带分隔符的字符串从而获取数据

带分隔符的字符串很好处理&#xff0c;只需要使用"分隔符字符串至一维字符串数组"函数或者"一维字符串数组至分隔符字符串"函数就可以很轻松地处理带分隔符地字符串。 这两个函数所在的位置为&#xff1a; 函数选板->字符串->附加字符串函数->分…

第13周 简历职位功能开发与Zookeeper实战

第13周 简历职位功能开发与Zookeeper实战 本章概述1. Mysql8窗口函数over使用1.1 演示表结构与数据1.2 案例1:获取男女总分数1.3 案例2****************************************************************************************本章概述 1. Mysql8窗口函数over使用 参考案例…

从零开始学习机器学习,掌握AI未来的关键!

从零开始学习机器学习 1. 介绍1.1 人工智能&#xff08;AI&#xff09;概述1.2 机器学习在人工智能中的应用1.3 机器学习基础概念 2. 监督学习2.1 什么是监督学习2.2 回归分析2.3 分类问题2.4 模型评估和选择 3. 无监督学习3.1 什么是无监督学习3.2 聚类算法3.3 降维技术 4. 深…

Elasticsearch 7.x入门学习-Java API操作

1 创建项目 在idea开发工具中创建Maven项目 修改 pom 文件&#xff0c;增加 Maven 依赖关系 <dependencies><dependency><groupId>org.elasticsearch</groupId><artifactId>elasticsearch</artifactId><version>7.8.0</versi…

C语言 | Leetcode C语言题解之第268题丢失的数字

题目&#xff1a; 题解&#xff1a; /* 求和运算 */ /* 对[0,n]求和, 减去数组每个元素, 得出丢失的元素 */ int missingNumber(int* nums, int numsSize){int i;int sum numsSize;for (i 0; i < numsSize; i) {sum i - nums[i];}return…

每天五分钟计算机视觉:目标检测模型从RCNN到Fast R-CNN的进化

本文重点 前面的课程中,我们学习了RCNN算法,但是RCNN算法有些慢,然后又有了基于RCNN的Fast-RCNN,Fast R-CNN是一种深度学习模型,主要用于目标检测任务,尤其在图像中物体的识别和定位方面表现出色。它是R-CNN系列算法的一个重要改进版本,旨在解决R-CNN中计算量大、速度慢…

python-阶乘和(赛氪OJ)

题目描述 求Sn​1!2!3!4!5!⋯n!的值&#xff0c;其中 &#x1d45b;n 是一个数字。输入格式&#xff1a; 输入一个整数 n。输出格式&#xff1a; 输出对应的 Sn​。 样例输入输出样例输入 5样例输出 153数据范围 对于 100% 的数据&#xff0c;保证1≤n≤20。来源/分类&#xff…

接口自动化测试框架实战-4-日志方法封装

上一小节我们讲解了文件读写方法的封装方法&#xff0c;本小节我们完成一下框架日志的封装方法。 首先我们讲解一下日志封装和日志记录有哪些用处&#xff1f; 更加方便的设置日志的格式和输出方式全局方法可以各个类/函数中都能统一调用分类记录接口用例执行日志&#xff0c…

【CPS出版】2024年智能计算与数据分析国际学术会议(ICDA 2024,9月6日-8)

为探讨数据科学和计算智能领域的关键问题&#xff0c;促进相关交流&#xff0c;2024年智能计算与数据分析国际学术会议&#xff08;ICDA 2024)将于2024年9月6日-8日在中国青岛召开。 本届会议拟邀请数据分析和计算智能领域的顶级专家、学者和产业界优秀人才&#xff0c;围绕当前…

【C语言】指针大小知多少 ?一场探寻C语言深处的冒险 !

目录 C语言中指针的大小1. 指针大小的基本概念1.1 32位系统1.2 64位系统 2. 指针大小示例2.1 32位系统输出2.2 64位系统输出 3. 指针大小与数据类型无关示例输出示例 4. 跨平台的指针大小示例输出示例 5. 关键点总结5.1 指针大小与平台关系5.2 跨平台编程注意事项 6. 指针大小示…

【QAC】Dashboard服务端如何配置

【更多软件使用问题请点击亿道电子官方网站】 1、 文档目标 解决Dashboard服务端如何配置的问题。 2、 问题场景 客户想使用Dashboard&#xff0c;Dashboard服务端如何配置。 3、软硬件环境 1、软件版本&#xff1a;HelixQAC23.04 2、机器环境&#xff1a;Windows 64bit 3…

arthas在idea和docker中的应用

基于IDEA工具使用 1&#xff0c;安装arthas插件 安装之后重启&#xff0c;然后再代码区域右键如果可以看到如下菜单选项&#xff0c;则说明安装成功 2&#xff0c;pom文件中配置arthas相关jar包 <!-- https://mvnrepository.com/artifact/com.taobao.arthas/arthas-pack…

解决小程序web-view两个恶心问题

&#x1f9d1;‍&#x1f4bb; 写在开头 点赞 收藏 学会&#x1f923;&#x1f923;&#x1f923; 1.web-view覆盖层问题 问题由来 web-view 是一个 web 浏览器组件&#xff0c;可以用来承载网页的容器&#xff0c;会自动铺满整个页面。 所以这得多恶心。。。不仅铺满&…

机会性加密技术:网络安全的新趋势

在当今数字化时代&#xff0c;网络安全已成为各行各业不可忽视的重要议题。随着网络攻击手段的不断演进&#xff0c;传统的加密方式已难以满足复杂多变的安全需求。机会性加密技术&#xff08;Opportunistic Encryption&#xff0c;简称OE&#xff09;&#xff0c;作为一种新兴…

基于微信小程序的健康饮食系统/健康饮食管理系统

摘 要 随着信息技术和网络技术的飞速发展&#xff0c;人类已进入全新信息化时代&#xff0c;传统管理技术已无法高效&#xff0c;便捷地管理信息。为了迎合时代需求&#xff0c;优化管理效率&#xff0c;各种各样的小程序应运而生&#xff0c;各行各业相继进入信息管理时代&…

[Vulnhub] Acid-Reloaded SQLI+图片数据隐写提取+Pkexec权限提升+Overlayfs权限提升

信息收集 IP AddressOpening Ports192.168.101.158TCP:22,33447 $ nmap -p- 192.168.101.158 --min-rate 1000 -sC -sV Not shown: 65534 closed tcp ports (conn-refused) PORT STATE SERVICE VERSION 22/tcp open ssh OpenSSH 6.7p1 Ubuntu 5ubuntu1.3 (Ubuntu Lin…

前端面试宝典【Javascript篇】【2】

欢迎来到《前端面试宝典》&#xff0c;这里是你通往互联网大厂的专属通道&#xff0c;专为渴望在前端领域大放异彩的你量身定制。通过本专栏的学习&#xff0c;无论是一线大厂还是初创企业的面试&#xff0c;都能自信满满地展现你的实力。 核心特色&#xff1a; 独家实战案例…

jackson序列化(jackson codec)

Jackson 是一个用于 Java 平台的开源 JSON 库&#xff0c;它提供了灵活且高效的方式来处理 JSON 数据的序列化(Java对象 → JSON字符串)和反序列化(JSON 字符串→ Java对象)。 以下是 Jackson 的一些主要特点和功能&#xff1a; 高性能&#xff1a;Jackson 通过使用基于流的处理…

国内环境,怎么做开源才能兼顾生存和情怀?

回答一个朋友提的问题—— 在国内&#xff0c;开源怎么做呢&#xff1f;老夫结合自己多年在开源和商业领域的经历与见闻聊聊。 首先来说&#xff0c;毋庸置疑&#xff0c;开源是对传统的商业模式的一种颠覆&#xff0c;它以一种免费开放的姿态赢得了Hacker群体的心&#xff0c…