Sentieon应用教程 | 唯一分子标识符(UMI)

介绍

本文介绍了使用Sentieon®工具处理下一代测序数据的方法,同时利用分子条码信息(也称为唯一分子索引或UMI)。分子条码可以在测序之前在模板DNA分子的末端引入唯一标签,从而大大减少PCR重复和测序错误对变异调用过程的影响。

Sentieon®工具提供从读数据中提取UMI标签和执行基于条码的一致性生成的功能。此流程预期输入是无适配器的条形码化读取数据。UMI一致性流程的输出是一个包含从条形码读数据派生出的一致性分子的BAM文件。这些一致性分子可以作为大多数变异调用软件的输入。

Sentieon® UMI流程

整体UMI流程结构

Sentieon®提供了两个用于UMI NGS数据处理的实用工具:

umi extract:从已删除适配器的未对齐输入读取中提取UMI标签
umi consensus:在对齐输入上,具备条码感知的重复删除和一致性调用

Sentieon®建议使用以下典型的UMI处理流程(图1):

使用工具umi extract从未对齐的输入读取中提取UMI标签
使用Sentieon®bwa mem将其对齐到参考基因组
使用工具umi consensus进行UMI一致性调用
使用Sentieon®bwa mem将一致性读取对齐并排序到参考基因组

图1 Sentieon® UMI处理流程

以下是一个代码示例。每个组件的详细信息将在后续部分进行解释。

sentieon umi extract \8M12S+T,+T \sample_R1.fastq.gz \sample_R2.fastq.gz | \
sentieon bwa mem \-R "@RG\tID:$GROUP\tSM:$SAMPLE\tLB:$LIBRARY\tPL:$PLATFORM" \-t $NT \-K $BWA_K_SIZE \-p \-C \$REF \- | \
sentieon umi consensus \-o sample_consensus.fastq.gzsentieon bwa mem \-R "@RG\tID:$GROUP\tSM:$SAMPLE\tLB:$LIBRARY\tPL:$PLATFORM" \-t $NT \-K $BWA_K_SIZE \-p \-C \$REF \sample_consensus.fastq.gz | \
sentieon util sort \-i - \-o sample_consensus.bam \--sam2bam --umi_post_process
确定读取结构并提取条形码序列

作为第一步,您需要从输入读取中提取条形码序列。这可以使用Sentieon®umi extract命令来完成,它会从读取中提取条形码序列信息,并将其添加到读取描述中。如前所述,在运行umi标签提取之前,应从输入读取中删除适配器序列。这可以由其他第三方工具来完成。

umi extract的输出是以交错的R1和R2读取的FASTQ格式。默认情况下,提取命令的输出将发送到标准输出,除非通过选项-o进行其他定义。

umi extract命令的语法如下:

sentieon umi extract [options] read_structure fastq1 [fastq2] [fastq3]Options:-o      Output file (default: stdout)-d      Turn on duplex mode--umi_tag   Logic umi tag (default 'XR')

umi extract命令的第一个参数定义了读取结构。对于成对读取,应该用逗号','分隔的两个读取结构进行指定。

读取结构由<number><operator>定义。数字可以是任何数字或'+',用于指示读取结尾。可能的操作符包括:

T模板序列

M分子条码序列

S应忽略的一系列碱基

使用-d选项可以提取双链UMI并标记其起源的链。双链UMI提取需要对两个链都指定相同的读取结构。

作为示例,以下命令演示了在成对读取上进行单端UMI提取。在这种情况下,成对读取中的第一个读取包含一个8bp的分子条码,后面是一个12bp的间隔序列,然后是模板序列。第二个读取只包含模板序列。成对读取将在输出文件中交错排列。请注意,在此示例中,输出被导向压缩为FASTQ文件的gzip。一般来说,我们建议将输出直接导向下一步(Sentieon®bwa mem)。

sentieon umi extract 8M12S+T,+T \sample_R1.fastq.gz \sample_R2.fastq.gz | \gzip -c \> sample_extracted_pair.fastq.gz

以下命令演示了双链UMI提取,其中两个读取均包含4bp的分子条码,后跟模板序列。

sentieon umi extract \-d \4M+T,4M+T \sample_R1.fastq.gz \sample_R2.fastq.gz | \gzip -c \> sample_extracted_pair.fastq.gz

以下是一个使用案例,当UMI序列已经在一个单独的FASTQ文件sample_I1.fastq.gz中时。在运行这种模式下,只允许有一个额外的UMI索引读取。UMI索引读取应该不包含模板序列。这种模式不允许双链UMI提取。

sentieon umi extract \"+M,+T,+T" \sample_I1.fastq.gz \sample_R1.fastq.gz \sample_R2.fastq.gz | \gzip -c \> sample_extracted_pair.fastq.gz

umi extract的输出包含额外的标签。默认情况下,FASTQ输出包含XR标签,该标签将用于umi consensus

标签

意义

RX

提取的UMI序列碱基。

XR

用于在UMI一致性中分组

表格40 umi extract生成的额外标签

对参考基因组的比对

可以使用bwa mem将交错的fastq文件对齐到参考基因组。使用-p选项来指定输入文件为交错的fastq文件,而-C选项将导致将fastq描述中的条形码标签附加到读取的SAM记录中。

sentieon bwa mem \-R "@RG\tID:$GROUP\tSM:$SAMPLE\tLB:$LIBRARY\tPL:$PLATFORM" \-t $NT \-K $BWA_K_SIZE \-p \-C \$REF \sample_extracted_pair.fastq.gz > sample_aligned.sam
共识分子的创建

流程的下一个阶段是使用Sentieon® umi consensus从已对齐的带条形码标记的读取中创建共识分子。

其语法如下:umi consensus

umi consensus [-i input] [options] -o outputOptions for umi_consensus:-i, --input           Input file (default: stdin SAM)-o, --output          Output file--input_format    SAM/BAM/CRAM--umi_tag         Logic UMI tag (default:'XR')--copy_tags       List of tags to be copied (default: XR,RX,MI,BI,BD,XZ)--read_name_prefixRead name prefix (default: 'UMI-')

默认情况下,umi consensus将从标准输入以SAM格式读取输入。可以使用选项来覆盖默认值,指定输入文件和除SAM之外的文件格式的选项。输出是一个包含共识分子的交错的fastq文件,可以通过Sentieon®重新映射。下面是一个示例:umi consensus --input --input_format umi consensus bwa mem

cat sample_aligned.sam | \sentieon umi consensus \-o sample_consensus.fastq.gz

生成的输出会生成以下额外的标签umi consensus

标签

意义

BI/BD

插入/缺失的质量分数

MI

一个唯一的标签,用于表示基于共识生成的UMI组

XZ

UMI组中基于共识生成的原始读取数量。对于双工UMI,该标签将包含每个链的原始读取数量

表格41:umi consensus的输出fastq标签

报告没有BI/BD标签的共识读取

默认情况下,umi consensus会重新校准INDEL错误率,并将这些信息存储在BI/BD标签中。可以通过从--copy_tags选项中删除BI/BD标签来关闭这个建模步骤。因此,如果不希望在报告的共识读中包含BI/BD标签,可以将这些标签从--copy_tags选项中移除。

cat sample_aligned.sam | \sentieon umi consensus \--copy_tags XR,RX,MI,XZ \-o sample_consensus.fastq.gz
共识读取到参考基因组的比对

可以使用Sentieon®将交错的fastq比对到参考基因组上。与之前的比对类似,选项和选项是必需的。将输出导入Sentieon®,将会生成用于变异调用的输出BAM文件。选项用于指示工具执行共识读取的必要后处理操作。umi consensus bwa mem -p -C util sort --umi_post_process

sentieon bwa mem \-R "@RG\tID:$GROUP\tSM:$SAMPLE\tLB:$LIBRARY\tPL:$PLATFORM" \-t $NT \-K $BWA_K_SIZE \-p \-C \$REF \sample_consensus.fastq.gz | \
sentieon util sort \-i - \-o sample_consensus.bam \--sam2bam --umi_post_process
从共识读取中进行变异调用

来自UMI共识流程的BAM文件已经准备好进行变异调用的分析。不应执行重复标记或基质质量调整的其他步骤,因为UMI共识步骤本质上是PCR重复标记和基质质量再校准的结合。

虽然可以使用任何体细胞突变调用程序与共识读取一起使用,但出于其对低频变异检测的高敏感性,我们推荐使用TNscope®。

UMI共识读取的日记

输出的日志包含关于输入读取的统计信息,可用于质量控制。目前提供的两个信息是:umi consensus

组大小直方图:组大小是在一个组中支持一个共识读取的原始读取数量。该直方图显示了具有特定组大小的UMI共识读取的数量,并可用于检测问题:

如果单体比例(组大小为1的UMI共识)过高,则很难准确建模PCR错误率并改善质量分数。
相反,如果每个UMI组的平均读取数过高,这可能表示文库制备中的输入DNA量过低,这将导致共识读取的覆盖范围较低。

双工统计:使用双工UMI标签,可以通过比较R1和R2读取中的UMI标签,识别来自DNA每条链的读取,并识别样本制备过程中引起的错误。日志中报告的数字表示单链或双链共识读取的数量,按以下代码进行分组:umi consensus

  • 组代码1:无互补UMI组的单链共识。
  • 组代码2:有来自两个互补UMI组的双链共识。
  • 组代码3:R1和R2读取的UMI序列相同。在这种情况下,依靠插入物的链确定输入读取是否来自同一链。此组进一步细分为:umi consensus
  • 组代码31:所有读取来自同一链的单链共识。
  • 组代码32:来自DNA两条链的双链共识。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/46828.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

影视迷必备:揭秘高效影视app开发幕后

影视迷必备的高效影视APP开发幕后涉及多个关键环节&#xff0c;从需求分析、规划设计、技术开发到测试上线&#xff0c;再到后续的运营与维护&#xff0c;每一个环节都至关重要。 一、需求分析 在开发影视APP之前&#xff0c;首要任务是进行深入的需求分析。这一阶段的主要目标…

CSS选择器(1)

以内部样式表编写CSS选择器&#xff0c;其主要编写在<head></head>元素里&#xff0c;通过<style></style>标签来定义内部样式表。 基本语法为&#xff1a; 选择器{ 声明块 } 声明块&#xff1a;是由一对大括号括起来&#xff0c;声明块中是一个一个的…

python-矩阵加法(赛氪OJ)

[题目描述] 输入两个 n 行 m 列的矩阵 A 和 B &#xff0c;输出它们的和 AB。矩阵加法的规则是两个矩阵中对应位置的值进行加和&#xff0c;具体参照样例。输入&#xff1a; 输入共 2⋅n1 行&#xff0c;第一行包含两个整数 n 和 m&#xff0c;表示矩阵的行数和列数 (1≤n,m≤1…

艺术创作的新维度:yicaiai照片风格化

艺术创作的新维度&#xff1a;yicaiai照片风格化 一、用户友好的设计理念 1.1 yicaiai照片风格化的核心设计理念 yicaiai平台以其创新的AI技术&#xff0c;颠覆了传统照片处理的方式&#xff0c;将艺术与科技完美融合。其核心设计理念在于赋予普通照片无尽的艺术潜力&#xf…

这3种人适合学习人工智能,看看你在不在其中?

人工智能&#xff08;AI&#xff09;的浪潮正席卷全球&#xff0c;它不仅是科技领域的一场革命&#xff0c;更是社会进步的重要推手。随着AI技术的不断成熟和应用领域的不断拓展&#xff0c;越来越多的人开始关注并渴望掌握这一前沿技术。那么&#xff0c;究竟哪些人适合学习人…

华为od机试真题 — 测试用例执行计划(Python)

题目描述 某个产品当前迭代周期内有N个特性&#xff08;F1, F2, ..., FN&#xff09;需要进行覆盖测试&#xff0c;每个特性都被评估了对应的优先级&#xff0c;特性使用其ID作为下标进行标识。 设计了M个测试用例&#xff08;T1, T2,...,TM&#xff09;&#xff0c;每个用例…

Richtek立锜科技可用于智能门铃的电源管理解决方案

新型的智能门铃不仅能满足呼叫、提醒的需要&#xff0c;还能在线监控、远程操作、闯入通知、记录过程&#xff0c;系统构成相对复杂&#xff0c;与传统门铃相比有了很大的改变。 从电源管理的角度来观察&#xff0c;满足这样需求的系统构成也相对复杂&#xff1a; 处于外置状态…

一个糟糕的决策带来无尽的折磨

一个糟糕的决策带来无尽的折磨 你也时常有这种感觉么&#xff1f;怎么每次迭代都让人感觉很费劲&#xff0c;很疲惫&#xff0c;似乎每次都要对之前的代码进行修改才能满足本次迭代的需求。 整个项目像是一团乱麻一样理不清楚&#xff0c;项目工程给人一次性纸杯的感觉&#xf…

雅思阅读 答题技巧和题型归纳总结 看着一篇就够了

下面给大家介绍一下雅思阅读中常见的十种题型&#xff0c;以及各个题型烤鸭们经常遇到的问题&#xff0c;最后介绍一下针对该题型的做题步骤与技巧&#xff0c;纯干货&#xff0c;认真阅读。 图:阅读理解选择题 第一种题型&#xff1a;选择题 选择题其实是在考你对于原文中提…

爬虫学习 | 02 认识爬虫spider

网络爬虫&#xff08;Web Crawler&#xff09;&#xff0c;也被称为网页蜘蛛&#xff08;Spider&#xff09;、网页机器人&#xff08;Robot&#xff09;或爬虫&#xff08;Crawler&#xff09;&#xff0c;是一种自动浏览互联网的程序。它的主要任务是按照一定的算法扫描和访问…

MySQL篇:主从复制

概述 话不多说&#xff0c;直接上概念&#xff1a; DDL&#xff08;Data Definition Language&#xff09;语句&#xff1a; 数据定义语言&#xff0c;主要是进行定义/改变表的结构、数据类型、表之间的链接等操作。常用的语句关键字有 CREATE、DROP、ALTER 等。 DML&#xff…

【测试】总体测试计划(Word直接套用完整版)

测试目标&#xff1a;确保项目的需求分析说明书中的所有功能需求都已实现&#xff0c;且能正常运行&#xff1b;确保项目的业务流程符合用户和产品设计要求&#xff1b;确保项目的界面美观、风格一致、易学习、易操作、易理解。 软件全套文档过去进主页。 一、 前言 &#xff0…

C语言题目之打印菱形

文章目录 一、题目二、思路三、代码实现 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供参考 一、题目 二、思路 本题目是要求打印菱形&#xff0c;对于这种打印的题目而言&#xff0c;我们能正确的写出代码&#xff0c;就得找到规律 第一步 我们先对整个菱…

【Python】基础语法(函数、列表和元组、字典、文件)

。一、函数 1、函数是什么 编程中的函数和数学中的函数有一定的相似之处。 数学上的函数&#xff0c;比如 y sin x&#xff0c;x 取不同的值&#xff0c;y 就会得到不同的结果。 编程中的函数是一段可以被重复使用的代码片段。 &#xff08;1&#xff09;求数列的和&…

【AI伦理挑战下的应对策略】构建隐私保护、算法公正与深度伪造管控机制

&#x1f493; 博客主页&#xff1a;倔强的石头的CSDN主页 &#x1f4dd;Gitee主页&#xff1a;倔强的石头的gitee主页 ⏩ 文章专栏&#xff1a;《热点时事》 期待您的关注 目录 引言 一、构建可靠的AI隐私保护机制 1.1 隐私保护的重要性 1.2 数据最小化与匿名化处理 1.3 …

【轻松拿捏】Java都有哪些特性?

Java都有哪些特性&#xff1f; 1. 面向对象 2. 平台无关性 3. 简单性 4. 安全性 5. 内存管理 6. 多线程 7. 动态性 8. 分布式计算 9. 健壮性 10. 高性能 11. 丰富的标准库 12. 社区支持和生态系统 13. 可移植性 14. 安全性和强类型 15. 模块化和可扩展性 总结 …

贪心,CF 1891C - Smilo and Monsters

一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 1891C - Smilo and Monsters 二、解题报告 1、思路分析 操作二显然很划算的&#xff0c;但是操作2有代价&#xff0c;为了更划算&#xff0c;我们要让操作2的操作次数最少 即&#xff0c;操作二尽可能用在…

make2s:自动编译

模板Makefile&#xff0c;编译多个C/C模块成不同优化级别的平台相关的汇编码。

git查看历史记录方法

0 Preface/Foreword 1 git reflog git reflog显示所有的操作&#xff0c;不仅仅是commit&#xff0c;也包括git pull&#xff0c;checout等动作。 1.1 查看本地和远程仓库的区别 远程仓库&#xff1a;中间的提交是直接在web端编辑 远程仓库&#xff1a;最新的提交是在本地编…

超市管理系统 需求分析与设计 UML 方向

一、项目介绍 1.1项目背景 随着经济一体化和电子商务的迅速发展&#xff0c;网络传播信息的速度打破了传统信息传递的模式&#xff0c;互联网的高速发展和计算机应用在各个高校进展迅速&#xff0c;更多信息化产品的突飞猛进&#xff0c;让现代的管理模式也发生了巨大的变化&…