单细胞RNA测序(scRNA-seq)SRA数据下载及fastq-dumq数据拆分

单细胞RNA测序(scRNA-seq)入门可查看以下文章:

单细胞RNA测序(scRNA-seq)工作流程入门

单细胞RNA测序(scRNA-seq)细胞分离与扩增

1. NCBI查询scRNA-seq SRA数据

NCBI地址: https://www.ncbi.nlm.nih.gov/Traces/study/?acc=PRJNA484204&o=acc_s%3Aa

点击Accession List下载包含SRR*编号信息的文本文件 - SRR_Acc_List.txt。
NCBI SRA数据SRR_Acc_List.txt文件内容
SRR_Acc_List.txt

2. 批量下载SRA数据与 fastq-dumq拆分SRA为fastq文件

10X单细胞数据相对比较复杂,其测序文库中包括indexbarcodeUMI测序reads。因此需要对SRA文件进行拆分以获取上述文件,拆分需要使用fastq-dump软件,为sra-tool工具中的软件之一。

** fastq-dumq**使用–split-files来替代–split-3 ,就可以生成3个文件。第1个文件的所有序列都是8bp,第2个文件26bp,第3个文件91bp,判断第3个文件时包含测序reads的文件。

prefetch 软件安装可参考以下文章:
prefetch软件安装

# conda安装
conda install -c bioconda sra-tools ######## 单个SRR数据下载与拆分(测试) ######## 
prefetch SRR7692286# 后台下载
# nohup prefetch SRR7692286 &# fastq-dump为-A为指定文件名, --gzip为输出.gz压缩文件
fastq-dump --gzip --split-files -A SRR7692286 SRR7692286.sra# 拆分sra文件, fastq-dump拆分报错,可尝试使用fasterq-dump
# fasterq-dump --split-files -A SRR7692286 SRR7692286.sra######## 批量SRR数据下载与拆分 ######## 
# 根据SRR_Acc_List.txt批量下载,nohup为后台下载
prefetch --option-file SRR_Acc_List.txt# 后台下载
# nohup  prefetch --option-file SRR_Acc_List.txt &# 批量拆分sra文件为fastq.gz
cat SRR_Acc_List.txt|while read srr; do (fastq-dump --gzip --split-files -A $srr ${srr}.sra); done

下载截图

4. 了解10X文库组成

R1: 26 表示10X barcode 的 16bp碱基 + 10bp UMI;
i7: 8表示 8bp 样本index序列
Read 2: 98 中星号符号表示长度不固定。

4.1 i7 sample index的作用?

i7 sample index(library barcode)是加到Illumina测序接头上的,保证多个测序文库可以在同一个flow-cell上或者同一个lane上进行混合测序(multiplexed)。不同的项目index不同,但在96孔板的每个孔中都加入了4种不同的index oligos混合,其作用就是在CellRanger mkfastq 功能(BCL转fastq)中体现出来的,它自动识别样本index名称(例如:SA-GA-A1),将具有相同4种oligo的fq文件组合在一起表示同一个样本,从而保证了一个测序lane上可以容纳多个样本。
10X文库组成示意图

4.2 10X Barcode(Cell barcode)的作用?

10X Barcode(Cell barcode)是10X数据特有的,用来区分GEMs,可对细胞做了一个标记。

4.3 UMI的作用?

在scRNA测序中需要进行PCR扩增, 一些转录本会被扩增多次,超过了其真实的表达量。当起始文库DNA量很小时,在进行多次PCR扩增中,引入的误差会随着扩增次数的增加而增加。

UMI - Unique Molecular Identifier,由4-10个随机核苷酸组成,在mRNA反转录后,进入到文库中,每一个mRNA随机连上一个UMI,根据PCR结果可以计数不同的UMI,最终统计mRNA的数量(重点)。

UMI用于PCR扩增校正mRNA数量示意图对UMI的要求:

  1. 不能是均聚物 ,如AAAAAAAAAA
  2. 不能有N碱基
  3. 不能包含碱基质量低于10的碱基

4.4 简而言之

Library Barcode (Sample Index) : 使用样本index序列进行多样本拆分
10x Barcode(Cell Barcode ): 用来区分细胞reads的来源
Unique Molecular Index (UMI) : 用来校正PCR扩增引起mRNA数量统计的偏差
Sequencing Reads : 用来识别基因的reads

5. fastq文件重命名

参考以下命名要求,对SRA拆分获得的样本fastq.gz文件进行重命名。

10X官网数据命令规范

# 批量重命名
cat SRR_Acc_List.txt| whilre read srr;do \
(mv ${srr}_1*.gz ${srr}_S1_L001_I1_001.fastq.gz; \
mv ${srr}_2*.gz ${srr}_S1_L001_R1_001.fastq.gz; \
mv ${srr}_3*.gz ${srr}_S1_L001_R2_001.fastq.gz);done

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/794014.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[RV1106-LINUX-IPC] 关于 rndis 功能无法使用的解决办法

问题描述 按照开发文档文档,修改对应的BoardConfig.mk,增加 export RK_ENABLE_RNDISy 使用编译命令: ./build.sh sysdrv ./build.sh firmware 烧录固件后,开机使用命令: rndis.sh,出现 rndis 无法识别的情…

腾讯云(CVM)托管进行权限维持

前言 刚好看到一个师傅分享了一个阿里云ECS实战攻防,然后想到了同样利用腾讯云CVM的托管亦可实现在实战攻防中的权限维持。 简介 腾讯云自动化助手(TencentCloud Automation Tools,TAT)是一个原生运维部署工具,它可…

SD-WAN组网面临的安全挑战?如何提供有效的安全措施

SD-WAN(软件定义广域网)技术的广泛应用,企业面临着越来越多的网络安全挑战。尽管SD-WAN带来了灵活性和效率的提升,但其开放性和基于云的特性也带来了一系列安全威胁。本文将探讨SD-WAN组网面临的安全挑战,并提供一些有…

Mybatis--TypeHandler使用手册

TypeHandler使用手册 场景:想保存user时 teacher自动转String ,不想每次保存都要手动去转String;从DB查询出来时,也要自动帮我们转换成Java对象 Teacher Data public class User {private Integer id;private String name;priva…

JS继承与原型、原型链

在 JavaScript 中,继承是实现代码复用和构建对象关系的重要概念。本文将讨论原型链继承、构造函数继承以及组合继承等几种常见的继承方式,并提供相应的示例代码,并分析它们的特点、优缺点以及适用场景。 在开始讲解 JavaScript 的继承方式之…

基于javassmJSP的家用电器销售网站

开发语言:Java 框架:ssm 技术:JSP JDK版本:JDK1.8 服务器:tomcat7 数据库:mysql 5.7(一定要5.7版本) 数据库工具:Navicat11 开发软件:eclipse/myeclip…

软件质量保证计划书

1 概述 2 质量目标 3 项目基本情况 4 资源 4.1 人员 4.1.1 组织结构 4.1.2 职责 4.2 工具及设施 5 质量保证的主要工作 6 质量保证工作量估算 7 质量保证工作提交的产物 8 变更管理 9 评价标准 10 形成的记录 软件全资料获取进主页或者本文末个人名片直接获取。

Spring/SpringBoot/SpringCloud Mybatis 执行流程

在后续分析Mybatis 流程中代码的可能会用到IDEA debug 技巧: 条件断点 代码断点,右键 勾选弹窗 Condition : 写入表达式 回到上一步: Java动态代理实现 InvocationHandler接口: package com.lvyuanj.core.test;…

Unity:2D SpriteShape

1.1 简介 Sprite Shape 可以很灵活的更改sprite的轮廓。比如: 它由两部分组成:Sprite Shape Profile、Sprite Shape Controller,需要导入2D Sprite Shape Package. 1.1.1 Sprite导入要求 Texture Type - ‘Sprite (2D and UI)’.Sprite Mo…

备战蓝桥杯---刷二分与前缀和题

刷点题~ 1.二分多路归并算法 对于每一个技能,我们把它看成一个等差数列,我们把所有可能都放到一个集合里,排个序,取前m个大即可,现在考虑优化,假如m不是很大,我们直接用优先队列即可&#xff0…

python写文件怎么读出来

python中对文件的操作大概分为三步:打开文件、操作文件(读、写、追加写入)、关闭文件。 1、无论对文件做哪种操作,操作前首先要保证文件被打开了,即需要一个打开的操作。 例:open(XXX.txt) 打开文件的同…

python函数练习2

找出10000以内能被5或6整除,但不能被两者同时整除的数(函数) def func():for i in range(1,50):if (i % 5 0 or i % 6 0 ):if i % 5 0 and i % 6 0:continue #利用continue跳过能被5和6整除的数print(i) func()写一个方法,计算…

C#智慧手麻系统源码 医院手术麻醉系统源码 支持三甲医院评级需求 可提供演示

C#智慧手麻系统源码 医院手术麻醉系统源码 支持三甲医院评级需求 可提供演示 手术麻醉管理系统是应用于医院手术室、麻醉科室的计算机软件系统。该系统针对整个围术期,对病人进行全程跟踪与信息管理,自动集成病人HIS、LIS、RIS、PACS信息,采…

Autosar工具链配置 CanNM

CAN网络管理filter 网管报文范围0x600~0x6FF repeat message time 超时时间 接收到主动唤醒源,网管报文快发周期,次数;正常周期发送时间 网管报文btye设置:1、重复消息请求位设置 2、ECU地址 wait bus-sleep 定时设置以及网管报…

华为云1核2G免费使用一年

个人用户专享云服务器、云数据库产品每天上午9:30开抢,其他产品每天0点开放领取,企业用户所有产品每天0点开放领取; 云产品体验名额有限,领完即止。详情:https://www.vpspick.com/vps/591.html 通用入门型 T6 云服务…

2024免费Mac苹果解压压缩包软件BetterZip5

在2024年,对于Mac电脑用户来说,如果你想要无需解压就能快速查看压缩文档的内容,BetterZip是一个极佳的选择。这款软件不仅支持多种格式的压缩和解压,如zip、rar、7z、tar等,还具备丰富的功能和设置,包括预览…

QT-QPainter

QT-QPainter 1.QPainter画图  1.1 概述  1.1 QPainter设置  1.2 QPainter画线  1.3 QPainter画矩形  1.4 QPainter画圆  1.5 QPainter画圆弧  1.6 QPainter画扇形 2.QGradient  2.1 QLinearGradient线性渐变  2.2 QRadialGradient径向渐变  2.3 QConicalGr…

二、GitLab相关操作

GitLab相关操作 一、组、用户、项目管理1.创建组2.创建项目3.创建用户并分配组3.1 创建用户3.2 设置密码3.3 给用户分配组 二、拉取/推送代码1.配置ssh(第一次需要)1.1 创建一个空文件夹1.2 配置本地仓账号和邮箱1.3 生成ssh公钥密钥1.4 gitlab配置公钥 2.拉取代码3.推送代码3.…

C语言动态内存空间分配

1. 前言 在讲内存分配前,咱来聊一下为什么会有内存分配这个概念呢,大家都知道C语言当中是有着许多的数据类型,使用这些数据类型就会在内存上开辟其相对应的空间,那既然会开辟相应的空间,为什么还会有内存分配呢&#x…

springcloud基本使用三(搭建nacos)

window下安装nacos: 下载页面:Releases alibaba/nacos GitHuban easy-to-use dynamic service discovery, configuration and service management platform for building cloud native applications. - Releases alibaba/nacoshttps://github.com/alibaba/nacos/releases…