RNA-Seq 数据集、比对和标准化

RNA-Seq 数据集、比对和标准化|玉米中的元基因调控网络突出了功能上相关的调控相互作用。

RNA-Seq 表达分析代码和数据

该仓库是一个公开可用 RNA-Seq 数据集的集合(主要是玉米数据),提供了系统分析这些数据的代码/流程,以及质量控制(QC)和总结性数据输出。重点是大规模的 Illumina RNA-Seq 实验(包括多种组织/发育阶段、多个自交系/杂交系),但也包括使用其他测序技术(如 3’ RNA-Seq 等)进行的实验。

原始的测序读数从 NCBI Sequence Read Archive (SRA) 下载,使用 Trim Galore 或 fastp 进行修剪,随后使用 Hisat2 或 STAR 将其比对到玉米 B73 AGP_v4 基因组。唯一比对的读取被分配给 46,117 个参考基因模型(Ensembl Plants v37),并使用 featureCounts 进行计数。原始读取计数随后使用 TMM 标准化方法进行标准化,得到 CPM(每百万读取的计数值),然后通过基因 CDS 长度进一步标准化,得到 FPKM(每千碱基的外显子每百万读取的片段数)值。层次聚类和主成分分析(PCA)被用于探索样本聚类模式。

收集的数据集列表:

yidauthoryearsourceaccessionstudygenotypetissuenASEstressRILRun
ca20a3Anderson2020localsp068a59TTC
cp12a2Bolduc2012sraPRJNA168086C
cp12b2Morohashi2012sraPRJNA167802 PRJNA167803C
cp14g2Eveland2014sraC
cp15a2Pautler2015sraC
cp15b2Li2015sraC
cp16a2Yang2016sraC
cp16b2Gontarek2016sraPRJNA260183C
cp18a2Zhan2018sraC
cp18b2Li2018sraC
cp19c2Dong2019sraZm00001d033673 Zm00001d028129C
rn10aLi2010sraPRJNA79627leaf 6 zonesB73leaf6C
rn11aDavidson2011sraPRJNA80041reproductive 12B73reproductive12C
rn13aLi2013sraPRJNA179160eQTL105 RILs + 2 parentsSAM107TC
rn13bLiu & Yu2013sraPRJNA179196 PRJNA253977leaf time-series 13t + 9tB73early and late leaf22C
rn13cEichten2013sraPRJNA173886diverse inbreds62 inbredsseedling_leaf362C
rn14fMakarevitch2014sraPRJNA244661stressB73, B37, Oh43seedling27TTC
rn15dBaute2015sraPRJEB9918B73 x H99 RIL104 RILs + 2 parentsleaf_4106TC
rn16bStelpflug2016sraPRJNA171684 SRP010680atlasB73dev atlas94C
rn16cWalley2016sraPRJNA217053proteomeB7323 tissues23C
rn17bWaters2017localsp033cold and heat stressB, M, P, BxM, BxPseedling_leaf315TTC
rn17cMarcon2017sraPRJNA284670drought stressB, M, BxMroot8TTC
rn17dZhang2017sraPRJNA343268 PRJNA344653cold stressmaize, sorghum10d whole plant6TC
rn17eAnderson2017localsp0604 stressesB, M, P, W, O and 4 othersleaf, root50TC
rn18gZhou2018localsp052B73 Mo17 atlasB, M, BxM23 tissues90TC
rn18iPatrick2020localch001gene fusionB, P, W10 tissues30C
rn18jCao2018sraPRJNA477643drought stressYu882leaf6TTC
rn18kMeng2018sraPRJNA377057sequential imprintingBxM, MxBembryoC
rn19aMazaheri2019sraPRJNA437324widiv biomass453 inbredswhole seedlings453C
rn19dHe2019sraPRJNA520822heat stressB737 tisues21TTC
rn19fAnderson2019localrn19fsubmergenceB73leaf, coleoptile, root18TTC
rn19gHendron2019sraPRJEB32558light exposureleaf_210C
rn19hChang2019sraPRJNA450300comparative leaf GRNB73leaf12C
rn20aZhou2020localsp069cold and heat stress time series30 genotypesleaf291TTC
rn20a2Zhou2020localrn20a2BRB-SeqTC
rn20bZhou2020localsp065heterosis4 inbred + 6 hybrids3 tissuesTC
rn20b2localsp068aRILB, M, BxM, MxB, 4 RILsleafTTC
rn20c2020sraPRJEB36014NAM2525 NAM parents10 tissues250C
rn20dLi2019srabiomAP202 inbreds + 96 hybrids6 tissues636C
rn20d3Li2019local

输出文件的详细说明

样本列表 / 元数据表:01.meta.tsv

  • SampleID:样本ID
  • Tissue:组织类型
  • Genotype:基因型
  • Treatment:处理方法
  • Replicate:重复编号
  • paired:是否为双端(paired-end)测序
  • spots:读取数(单端)或对数(双端)
  • avgLength:平均读长

结果文件,包括修剪和映射QC统计、原始读数计数及标准化的CPM / FPKM表:

01.rds

  • 可通过 x = readRDS("01.rds") 在R中加载,包含以下数据框:
    • th:样本列表 / 元数据表,与 01.meta.tsv 相同
    • trimming:修剪统计
      • sid:样本ID
      • passed_filter_reads:通过过滤的读取数
      • low_quality_reads:低质量的读取数
      • too_many_N_reads:包含过多N的读取数
      • too_short_reads:过短的读取数
      • too_long_reads:过长的读取数
    • bamstat:映射统计
      • sid:样本ID
      • pair:双端对
        • pair_bad:失败QC的对数
        • pair_dup:重复的对数
        • pair_map:映射的对数(两个端)
        • pair_orphan:仅一个端被映射的对
        • pair_unmap:未映射的对
      • unpair:单端(单端读取或一个端未通过QC的对)
        • unpair_bad:失败QC的单端
        • unpair_dup:重复的单端
        • unpair_map:映射的单端
        • unpair_unmap:未映射的单端
      • pair_map_hqpair_orphan_hqunpair_map_hq:高质量(即唯一)映射的对数/读取数
      • pair_map0pair_orphan0unpair_map0:映射并且没有错配的对数/读取数
      • pair_map_hq0pair_orphan_hq0unpair_map_hq0:高质量(即唯一)且没有错配的对数/读取数
    • fcnt:来自 featureCounts 的原始读取计数
      • gid:基因ID(AGP_v4,Ensembl Plants v37,总共46,117个)
      • SampleID:样本ID
      • ReadCount:原始读取计数
    • salmon:来自salmon的原始读取计数和标准化的TPM(每百万转录本数)
      • gid:基因ID(AGP_v4,Ensembl Plants v37,总共46,117个)
      • SampleID:样本ID
      • ReadCount:原始读取计数
      • TPM:salmon标准化的转录本每百万数值(TPM)
    • salmon_tx:来自salmon的原始读取计数和标准化的TPM(转录本级别)
      • tid:转录本ID(AGP_v4,Ensembl Plants v37)
      • SampleID:样本ID
      • ReadCount:原始读取计数
      • TPM:salmon标准化的转录本每百万数值(TPM)
    • tl:文库统计
      • SampleID:样本ID
      • libSize:文库大小
      • sizeFactor:DESeq2文库大小因子
      • normFactor:edgeR文库标准化因子
    • tm:标准化表达表
      • gid:基因ID(AGP_v4,Ensembl Plants v37,总共46,117个)
      • SampleID:样本ID
      • ReadCount:原始读取计数
      • nRC:标准化读取计数(nRC = ReadCount / sizeFactor
      • rCPM:原始CPM(每个样本/文库的总和为1,000,000)
      • rFPKM:原始FPKM(使用rCPM和基因外显子长度计算)
      • rTPM:原始TPM(每个样本/文库的总和为1,000,000)
      • CPM:通过edgeR计算的CPM(CPM = rCPM / normFactor
      • FPKM:通过CPM和基因外显子长度计算的FPKM
      • TPM:标准化的TPM(TPM = rTPM / normFactor
    • th_m:重复合并的样本列表 / 元数据表
    • tm_m:重复合并的表达表
    • ase_gene:基因级别的等位基因特异性读取计数
      • sid:样本ID
      • gid:基因ID
      • allele1allele2:每个等位基因的特异性读取计数。例如,在Mo17xB73的情况下,allele1表示Mo17(第一)等位基因的计数,而allele2表示Mo17(第二)等位基因的计数
    • ase_snp:SNP级别的等位基因特异性读取计数
      • sid:样本ID
      • chrposrefalt:SNP信息
      • gt:样本在此位点的基因型(0|11|0
        • 1|0的情况下,等位基因1(母源等位基因)在alt状态,而等位基因2(父源等位基因)在ref状态
      • allele1allele2:母源(第一)等位基因和父源(第二)等位基因的读取计数

biomap

biomAP mRNA-Seq 数据集分析

方法

结果

  • 原始样本元数据表
  • 修正后的样本元数据表:
    • 样本 bm252Root 修正为 Leaf
    • MSI 路径:/home/springer/zhoux379/projects/rnaseq/data/05_read_list/me99c.c.tsv
  • 中间文件都存放在 MSI 临时空间目录下:
    /scratch.global/zhoux379/rnaseq/me99c/,包括以下子目录:
    • 10_fastq, 15_trim:原始和修剪后的 fastq 文件
    • 21_star, 22_bam:原始 BAM 文件和坐标排序后的 BAM 文件
    • 31_featurecounts:读取计数表
    • 31_mmquant:原始读取计数
    • 33_ase:等位基因计数分析的中间文件

QC (质量控制):

  • [读取修剪和映射统计]
    在这里插入图片描述

  • PCA 图
    在这里插入图片描述

  • t-SNE 图:
    在这里插入图片描述

    • 相较于 PCA 图,t-SNE 图显示了更好的组织分离效果
    • 叶片样本被分为两个不同的簇
  • 映射统计表:
    包含每个样本的修剪、映射和计数统计,表格列出:

    • MSI 路径:/home/springer/zhoux379/projects/rnaseq/data/raw_output/bamstats.tsv
    • SampleID, Tissue, Genotype, Treatment, Replicate:样本元数据
    • 修剪统计:total, surviving, surviving_f, surviving_r, dropped
    • 映射统计:
      • pair:读对
        • pair_bad, pair_dup:映射失败的读对或重复读对
        • pair_map:映射的读对(两端)
        • pair_orphan:只有一端映射的读对
        • pair_unmap:未映射的读对
      • unpair:单端读取(或一端失败的配对)
        • unpair_bad, unpair_dup:映射失败的单端或重复单端
        • unpair_map:映射的单端读取
        • unpair_unmap:未映射的单端读取
      • pair_map_hq, pair_orphan_hq, unpair_map_hq:高质量(即唯一)映射的读对/单端
      • pair_map0, pair_orphan0, unpair_map0:无错配的映射读对/单端
      • pair_map_hq0, pair_orphan_hq0, unpair_map_hq0:高质量并且无错配的映射读对/单端
    • 读取计数统计:
      • Assigned:分配给外显子区域并计数的读取
      • Unassigned_MultiMapping, Unassigned_NoFeatures, Unassigned_Ambiguity, Unassigned_Unmapped:由于各种原因未计数的读取

ASE(等位基因特异性表达)分析:

  • 每个样本的冲突读取比例:
    在这里插入图片描述

    大部分样本中基因的冲突读取比例非常低(通常小于 2%),异常高的冲突读取比例可能表明样本基因型标注错误。

  • 每个样本的父本等位基因比例:
    在这里插入图片描述

    数字表示样本数(即基因数)。大多数自交系样本的父本等位基因比例为 0,而杂交样本的父本等位基因比例为 0.5,例外情况可能表明样本基因型标注错误。

R 数据文件

  • MSI 路径:/home/springer/zhoux379/projects/biomap/data/41_qc/10.rc.ase.rda
  • 包含原始读取计数表、标准化表达值和等位基因特异性读取计数:
  • th - 样本信息表(tibble),包含以下列:
    • SampleID:样本编号(如:bm001 - bm467)
    • Tissue:样本组织(如:Leaf, Internode, Root 等)
    • Genotype:基因型(如:B73, Mo17xPH207 等)
    • Treatment:处理方式(如:replicate 1 或 2)
    • inbred:是否为自交亲本(TRUE 或 FALSE)
    • sizeFactor, libSize:使用 DESeq2 中位数对数比率法计算的库大小和标准化因子,用于库大小的校正
    • normFactor:使用 edgeR 中的 TMM 方法计算的标准化因子,不进行库大小校正
  • tm - biomap 表达数据表(tibble)
    • gid:基因 ID(AGP_v4, Ensembl Plants v37,共 46,117 个基因)
    • SampleID:样本编号(如:bm001 - bm467)
    • ReadCount:原始读取计数
    • nRC:标准化读取计数(nRC = ReadCount / sizeFactor
    • rCPM:原始 CPM(每个样本/库的总和为 1,000,000)
    • rFPKM:使用 rCPM 和基因外显子长度计算的原始 FPKM
    • CPM:使用 edgeR 计算的 CPM(CPM = rCPM / normFactor
    • FPKM:使用 CPM 和基因外显子长度计算的 FPKM
  • ta - 等位基因特异性计数表(tibble)
    • SampleID:样本编号(如:bm001 - bm467)
    • gid:基因 ID(AGP_v4 基因 ID)
    • n0, n1:分别支持父本和母本等位基因的读取数
    • ncft:支持父本和母本等位基因的冲突读取数,这种情况较少,通常是由于插入缺失区域的错配所致

biomAP 重测序数据集的短变异调用

方法

  • 使用 [fastp] 对读取数据进行了修剪,使用 BWA 将数据比对到玉米 B73 AGP_v4 参考基因组。
  • 对比对后的 BAM 文件进行重复标记和碱基重校准,使用 [GATK4] 工具进行处理。
  • 针对每个样本使用 [GATK4] 的 HaplotypeCaller 调用 GVCF 文件,然后使用 [GATK4] 的 GenotypeGVCF 进行联合变异调用,生成原始的变异集。
  • 接着,使用 [GATK4] 的 VariantRecalibration 对原始变异集进行过滤,生成最终的变异调用集。

结果

  • 每个样本的 SNP 统计信息
  • 每个样本的 Indel 统计信息
  • 最终变异集:/home/springer/zhoux379/projects/biomap/data/variants/01.vcf.gz
  • 样本基因型表与变异效应注释:/home/springer/zhoux379/projects/biomap/data/variants/10.tsv.gz
  • 样本的系统发育树(待创建)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/65345.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

学技术学英文:Spring AOP和 AspectJ 的关系

AspectJ是AOP领域的江湖一哥, Spring AOP 只是一个小弟 Spring AOP is implemented in pure Java. There is no need for a special compilation process. Spring AOP does not need to control the class loader hierarchy and is thus suitable for use in a ser…

JVM学习-内存结构(二)

一、堆 1.定义 2.堆内存溢出问题 1.演示 -Xmx设置堆大小 3.堆内存的诊断 3.1介绍 1,2都是命令行工具(可直接在ideal运行时,在底下打开终端,输入命令) 1可以拿到Java进程的进程ID,2 jmap只能查询某一个时…

Browser Use:AI智能体自动化操作浏览器的开源工具

Browser Use:AI智能体自动化操作浏览器的开源工具 Browser Use 简介1. 安装所需依赖2. 生成openai密钥3. 编写代码4. 运行代码5. 部署与优化5.1 部署AI代理5.2 优化与扩展总结Browser Use 简介 browser-use是一个Python库,它能够帮助我们将AI代理与浏览器自动化操作结合起来;…

Spring Cloud——注册中心

介绍 什么是注册中心? 主要负责服务的注册与发现,确保服务之间的通信顺畅,具体来说,注册中心有以下主要功能:‌服务注册、服务发现、服务健康检查。 服务注册: 服务提供者在启动时会向注册中心注册自身服务…

CSS基础入门【2】

目录 一、知识复习 二、权重问题深入 2.1 同一个标签,携带了多个类名,有冲突: 2.2 !important标记 2.3 权重计算的总结 三、盒模型 3.1 盒子中的区域 3.2 认识width、height 3.3 认识padding 3.4 border 作业: 一、知识…

MATLAB语言的计算机基础

标题:MATLAB语言的计算机基础:探索科学计算的无限可能 一、引言 在当今这个数据爆炸的时代,科学计算和数据分析的重要性不言而喻。MATLAB作为一种高级的、交互式的编程环境,以其强大的数值计算能力、直观的图形展示以及丰富的工…

软路由系统 iStoreOS 中部署 Minecraft 服务器

商业转载请联系作者获得授权,非商业转载请注明出处。协议(License): 知识共享署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)作者(Author): lhDream链接(URL): https://blog.luhua.site/archives/1734968846131 软路由系统 iStoreOS 中部署 Minecraft…

.net core 的函数实现

Python基础 Python是一种广泛使用的高级编程语言,以其简洁易读的语法和强大的功能而闻名。它被广泛应用于数据分析、人工智能、网站开发、自动化脚本及其他众多领域。本文将详细介绍Python的基础知识,包括其安装及环境配置、基本语法、数据类型、控制结…

捋一捋相关性运算,以及DTD和NLP中的应用

捋一捋相关性运算,以及DTD和NLP中的应用 相关性和相干性,有木有傻傻分不清相关性数字信号的相关运算同维度信号的相关理解 相关--互相关--相干 回声消除过程如何套用这些知识相关性/相干性检测在DT中的应用时域的标量与向量结合的互相关方法适合block处理的频域相干…

Elasticsearch:normalizer

一、概述 ‌Elastic normalizer‌是Elasticsearch中用于处理keyword类型字段的一种工具,主要用于对字段进行规范化处理,确保在索引和查询时保持一致性。 Normalizer与analyzer类似,都是对字段进行处理,但normalizer不会对字段进…

go语言的成神之路-筑基篇-对文件的操作

目录 一、对文件的读写 Reader?接口 ?Writer接口 copy接口 bufio的使用 ioutil库? 二、cat命令 三、包 1. 包的声明 2. 导入包 3. 包的可见性 4. 包的初始化 5. 标准库包 6. 第三方包 ?7. 包的组织 8. 包的别名 9. 包的路径 10. 包的版本管理 四、go mo…

SQL Server中FIRST_VALUE和 LAST_VALUE窗口函数允许在一个指定的窗口内返回第一个或最后一个值

在 SQL Server 中,FIRST_VALUE 和 LAST_VALUE 是用于窗口函数(Window Functions)的两个非常有用的函数。它们允许你在一个指定的窗口内返回第一个或最后一个值。这两个函数通常与 OVER 子句一起使用,以定义窗口的范围和排序规则。…

【入门】拐角III

描述 输入整数N&#xff0c;输出相应方阵。 输入描述 一个整数N。&#xff08; 0 < n < 10 ) 输出描述 一个方阵&#xff0c;每个数字的场宽为3。 用例输入 1 5 用例输出 1 5 5 5 5 55 4 4 4 45 4 3 3 35 4 3 2 25 4 3 2 1 来源 二维数组…

攻防世界 ics-06

开启场景 可以交互的按钮不是很多&#xff0c;没有什么有用信息&#xff0c;查看页面源代码找到了index.php &#xff0c;后面跟着“报表中心” 传参访问 /index.php 看到了参数 id1&#xff0c;用 burp 抓包爆破&#xff08;这里应该不是 sql 注入&#xff09; 2333 的长度与众…

VMware虚拟机安装银河麒麟操作系统KylinOS教程(超详细)

目录 引言1. 下载2. 安装 VMware2. 安装银河麒麟操作系统2.1 新建虚拟机2.2 安装操作系统2.3 网络配置 3. 安装VMTools 创作不易&#xff0c;禁止转载抄袭&#xff01;&#xff01;&#xff01;违者必究&#xff01;&#xff01;&#xff01; 创作不易&#xff0c;禁止转载抄袭…

ByConity BSP 解锁数据仓库新未来

文章目录 前言BSP 模式简介基于 TPC-DS 的 ELT 活动测试环境登录 ECS数据查询配置 执行 02.sqlsql解释&#xff1a;1. 第一步&#xff1a;创建 wscs 临时表2. 第二步&#xff1a;创建 wswscs 临时表3. 第三步&#xff1a;对比 2001 年和 2002 年的数据子查询 1&#xff1a;提取…

Sql Sqserver 相关知识总结

Sql Sqserver 相关知识总结 文章目录 Sql Sqserver 相关知识总结前言优化语句查询&#xff08;select&#xff09;条件过滤&#xff08;Where&#xff09;分组处理&#xff08;GROUP BY&#xff09;模糊查询&#xff08;like&#xff09;包含&#xff08;in&#xff09;合集&am…

论文解读 | EMNLP2024 一种用于大语言模型版本更新的学习率路径切换训练范式

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入&#xff01; 点击 阅读原文 观看作者讲解回放&#xff01; 作者简介 王志豪&#xff0c;厦门大学博士生 刘诗雨&#xff0c;厦门大学硕士生 内容简介 新数据的不断涌现使版本更新成为大型语言模型&#xff08;LLMs&#xff…

Android OpenGl(二) Shader

一、Shader 1、什么是Shader&#xff0c;为什么要使用Shder &#xff08;1&#xff09;shader运行在gpu上的小程序 &#xff08;2&#xff09;以前使用固定管线&#xff0c;但缺点是灵活度不够&#xff0c;无法满足复杂需求&#xff0c;为了解决固定管线的缺点&#xff0c;出…

软考:系统架构设计师教材笔记(持续更新中)

教材中的知识点都会在。其实就是将教材中的废话删除&#xff0c;语言精练一下&#xff0c;内容比较多&#xff0c;没有标注重点 系统架构概述 定义 系统是指完成某一特定功能或一组功能所需要的组件集&#xff0c;而系统架构则是对所有组件的高层次结构表示&#xff0c;包括各…