如何下载SRA存放在AWS的原始数据

通常,我们都是利用prefetch从NCBI上获取数据,然后用fasterp-dump/fastq-dump 转成fastq。但遗憾的SRA的数据是原数据的有损压缩,比如说我19年参与发表的文章里单细胞数据上传的是3个文件,但是当时的faster-dump/fastq-dump只能拆出2份(目前可以顺利拆出三份)。

但在https://trace.ncbi.nlm.nih.gov/Traces/index.html?view=run_browser&display=metadata 搜索SRR8485805是可以看到我上传的三个原始数据。

然而这些数据存放位置以S3开头,无法直接下载,必须需要通过Cloud Data Delivery的方式进行获取。

为什么,我们需要下载原始数据呢?

  • 一些比对后的BAM,转成SRA后,可能就只能得到单端测序,而不是原来的双端
  • PacBio HiFi测序输出的bam包含的编号信息,是纠错是必须的,不能损失
  • 一些10x数据可能从sra解压缩成fastq后会出现问题

因此,有些时候,我们就需要获取最原始的作者的上传文件了。

创建Amazon的AWS账号

为了使用Cloud Data Deliver,我们你需要创建一个账号:https://aws.amazon.com/cn/cli/ 【需要一张信用卡用于支付账单】。在注册时候时候选择语音播报,我发现短信发送太慢了。

注:Amazon 的AWS如果90天不用,账号就会被停用,然后你就得重新创建账号。

最后一步,选择基本支持-免费(能省就省)

在AWS的控制台中(console.aws.amazon.com),选择存储的S3服务。

之后,我们创建一个存储桶。

大部分参数都保持默认,只需要修改两个配置,存桶的名称必须唯一,地区必须是美国的N. Virginia 。

创建成功后,就可以回到NCBI这一边。

NCBI创建数据传输请求

通过https://www.ncbi.nlm.nih.gov/Traces/cloud-delivery/访问NCBI的云数据传递服务(这个服务是需要你登录NCBI)。

然后,我们需要选择我们需要获取的数据,通过https://www.ncbi.nlm.nih.gov/Traces/study/ 可以检索你需要的数据,例如SRR8485805。勾选需要传输的数据后,点击Deliver Data。

接着是关键的第二部,我们需要输入Bucket name,让NCBI给我们生成一个策略。

拿到这个策略后,我们需要访问https://s3.console.aws.amazon.com/s3/buckets,选择我们之前创建的桶

选择权限,并点击存储桶策略的编辑

然后将粘贴NCBI上复制的语句,并保存更改即可。

最后勾选,你需要获取的数据,点击Deliver data。

需要注意的是AWS的存储服务时收费的,它的定价页面见https://aws.amazon.com/cn/s3/pricing/

数据发起请求和请求完成,你都会在你登录账号对应的邮箱中收到邮件。

数据下载

获取数据之后,就可以从S3上下载数据了。

在此之前,我们需要先创建一个安全凭证。

之后从https://docs.amazonaws.cn/cli/latest/userguide/getting-started-install.html获取你对应平台的软件

例如Linux的安装方式如下(以非root权限安装)

curl "https://awscli.amazonaws.com/awscli-exe-linux-x86_64.zip" -o "awscliv2.zip"
unzip awscliv2.zip
./aws/install -u -i ~/.local -b ~/.local/bin
# 安装成功的提示信息
You can now run: /home/xzg/.local/bin/aws --version

用密钥配置aws,

aws configure

后续,就可以上传和下载数据了,例如把数据传到aws

aws s3 cp app.R s3://xzg-aws-ncbi
# upload: ./app.R to s3://xzg-aws-ncbi/app.R
# 查看档期数据
aws s3 ls s3://xzg-aws-ncbi
2023-07-15 10:39:29     521416 app.R

运行数据获取命令

# 命令形式如下
aws s3 cp --recursive s3://<bucket>/<folder> <local_folder>
# copy我从NCBI后去数据
aws s3 cp --recursive s3://xzg-aws-ncbi/SRR17027125  SRR17027125

当然,你也可以选择在AWS的S3网页端进行下载。

下载速度基本上不受限,只跟你家里的带宽有关。

可能的问题: An error occurred (RequestTimeTooSkewed) when calling the PutObject operation: The difference between the request time and the current time is too large

这可能是服务器的上时间偏差太大了 ,用chronyd矫正下(root权限)

chronyd -q 'server 0.pool.ntp.org iburst'

费用

分为两个部分:

  • 存储上,标准的S3是每个月,前50T每 GB 0.023 USD,差不多是2毛钱1G

传输上:

  • 传入不要钱
  • 每月前 100GB 传出至互联网的数据,所有 AWS 服务和区域加总计算(中国和 GovCloud 区域除外)。
  • 前10TB 每 GB 0.09 USD, 差不多是7毛钱1G

假设,你传了200G,不考虑免费额度,在带宽上花费140,然后存储是每天一块多(不需要的数据赶紧删,省钱)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/4851.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【ArcGIS Pro二次开发】(46):要素类从上到下、从左到右排序

要素类经过编辑之后&#xff0c;【OBJECTID】字段会变得不规律。应部分网友要求&#xff0c;做了这个从上到下、从左到右排序的工具。 不过后来在ArcGIS Pro中发现了一个【排序】工具&#xff0c;已经可以完美实现这个功能需求&#xff0c;发现自己做了个白工。 不过做了不能白…

Ghost Buster Pro for mac(快速清理卸载的应用残存文件)

Ghost Buster Pro for mac可从您已卸载的应用程序中查找并删除文件。该应用程序速度快如闪电&#xff0c;可立即释放内存。 许多应用程序都安装在计算机上&#xff0c;但它们通常只会在您的计算机上停留很短的时间。每个应用程序都会创建文件&#xff0c;但删除应用程序不会删…

若依字典使用

若依字典使用 此文章使用的若依是大于3.7.0版本的 JS文件配置 main.js中引入全局变量和方法 import DictData from /components/DictData DictData.install()DictData.js配置 可以从DictData.js中看出在install方法中调用了字典查询接口&#xff0c;在install方法中可以做…

前端 | (五)CSS三大特性及常用属性 | 尚硅谷前端html+css零基础教程2023最新

学习来源&#xff1a;尚硅谷前端htmlcss零基础教程&#xff0c;2023最新前端开发html5css3视频 文章目录 &#x1f4da;CSS三大属性&#x1f407;层叠性&#x1f407;继承性&#x1f407;优先级 &#x1f4da;CSS常用属性&#x1f407;像素的概念&#x1f407;颜色的表示⭐️表…

火狐安卓版支持油猴了!后面将支持更多扩展插件

日前火狐浏览器每夜构建版的安卓版已经带来了更多扩展程序支持&#xff0c;这其中就包括大名鼎鼎的油猴扩展程序。本次火狐浏览器每夜构建版更新新增五款扩展程序支持&#xff0c;并且按照谋智基金会说法还会支持更多的扩展程序。 下载地址&#xff1a;https://ftp.mozilla.org…

WEB:FlatScience

背景知识 sql注入 SQLite数据库知识 SQLite3注入方法 题目 用dirsearch进行扫描&#xff0c;下面几个关键目录&#xff1a;robots.txt&#xff0c;login.php&#xff0c;admin.php&#xff0c;剩下的目录就是一些pdf格式的论文了 一个一个访问并查看源代码&#xff0c;在查看l…

windows下安装consul、springboot整合consul

Spring Cloud Consul通过自动配置和绑定到Spring Environment和其他Spring编程模型习语&#xff0c;为Spring Boot应用程序提供Consul集成。通过一些简单的注解&#xff0c;可以快速启用和配置应用程序内的常用模式&#xff0c;并使用Hashicorp的Consul构建大型分布式系统。提供…

检测到错误页面web应用服务器版本信息泄露

详细描述 Web服务器未能正确处理异常请求导致Web服务器版本信息泄露&#xff0c;攻击者收集到服务器信息后可进行进一步针对性攻击。 解决办法 临时修复建议如下&#xff1a; 1、关闭web服务器错误提示。 2、关闭运行平台的错误提示。 3、建立错误机制&#xff0c;不要把真实…

MySQL八股学习总览-from 小林coding

MySQL八股学习总览-from 小林coding MySql执行流程连接MySQL服务器查询缓存解析SQL执行SQL预处理器优化器执行器 MySql执行流程 连接MySQL服务器 经过如下的命令,就可以与MySQL服务器建立起连接,三次握手 mysql -h$ip -u$user -p服务端查询多少个客户端连接 show processlis…

干货分享:商城系统开发方式

商城系统是一种为了满足电子商务需求而开发的系统&#xff0c;它能够实现在线购物、支付、订单管理等功能。在当今互联网时代&#xff0c;商城系统的开发方式多种多样。那么&#xff0c;商城系统开发方式有哪些呢&#xff1f; 1、完全独立自主开发 完全独立自主开发是指企业根…

【C++】仿函数(less)

C中的仿函数 class Solution { public:struct cmp{bool operator()(const pair<string,int>&kv1,const pair<string,int>&kv2){if(kv1.second<kv2.second) return true;if(kv1.secondkv2.second&&kv1.first>kv2.first) return true;return …

TCP/IP详解

目录 一、OSI参考模型 1.图示 2.OSI七层模型各自作用 3.七层通信过程 二、IP协议 1.IPv4首部 2.IPv6首部 三、TCP协议 1.tcp首部格式 2.握手挥手图示 3.握手流程 4.为什么要三次握手&#xff1f; 5.四次挥手流程 6.为什么要四次分手&#xff1f; 7.为什么要等待…

后端Long类型传到前端精度丢失的问题

问题出现&#xff1a;后端的Java Bean的id属性是用的Long类型对应数据库主键使用bigint类型&#xff0c;当使用JSON方式传递该数据给前端时&#xff0c;前端接收到的数据末尾会变成0。&#xff08;发生的精度丢失问题&#xff09; 问题原因&#xff1a;Java中的long能表示的范围…

数据排布与跨距对齐

1 数据排布 1.1 数据排布的概念 在深度学习框架中&#xff0c;特征图通常以四维数组的形式呈现&#xff0c;这四个维度分别是&#xff1a;批量大小N&#xff0c;特征图通道数C&#xff0c;特征图高度H&#xff0c;特征图宽度W。数据排布&#xff08;Layout&#xff09;指的就…

http1.0、http1.1 http 2.0

HTTP/1.0是无状态、无连接的应用层协议。 无连接 无连接&#xff1a;每次请求都要建立连接&#xff0c;需要使用 keep-alive 参数建立长连接、HTTP1.1默认长连接keep-alive   无法复用连接&#xff0c;每次发送请求都要进行TCP连接&#xff0c;TCP的连接释放都比较费事&…

【优选算法题练习】day6

文章目录 一、76. 最小覆盖子串1.题目简介2.解题思路3.代码4.运行结果 二、704. 二分查找1.题目简介2.解题思路3.代码4.运行结果 三、34. 在排序数组中查找元素的第一个和最后一个位置1.题目简介2.解题思路3.代码4.运行结果 总结 一、76. 最小覆盖子串 1.题目简介 76. 最小覆…

魔术之舞:用Python编织无懈可击的WebUI自动化测试奇迹

文末附有精心准备的WebUI自动化测试30道面试题链接~ 一、引言 A. 引入WebUI自动化测试的重要性和挑战 Web应用程序的快速发展和普及使得Web用户界面&#xff08;WebUI&#xff09;自动化测试变得异常重要。随着Web应用程序的复杂性和功能需求的增加&#xff0c;传统的手动测试…

2023秋招,网络安全面试题

Hello&#xff0c;各位小伙伴&#xff0c;我作为一名网络安全工程师曾经在秋招中斩获&#x1f51f;个offer&#x1f33c;&#xff0c;并在国内知名互联网公司任职过的职场老油条&#xff0c;希望可以将我的面试的网络安全大厂面试题和好运分享给大家~ 转眼2023年秋招已经到了金…

04.MySQL——用户管理

用户管理 用户管理的价值 用户 用户信息 MySQL中的用户&#xff0c;都存储在系统数据库mysql的user表中 use mysql;select host,user,authentication_string from user;host&#xff1a; 表示这个用户可以从哪个主机登陆&#xff0c;如果是localhost&#xff0c;表示只能从…