文献解读-DNAscope: High accuracy small variant calling using machine learning

关键词:基准与方法研究;基因测序;变异检测;


文献简介

  • 标题(英文):DNAscope: High accuracy small variant calling using machine learning
  • 标题(中文):DNAscope:使用
    的机器学习高精度小变异调用
  • 发表期刊:bioRxiv
  • 作者单位:Sentieon公司
  • 发表年份:2022
  • 文章地址:https://doi.org/10.1101/2022.05.20.492556

图1 文献简介

图1 文献简介

当前的小变异检测技术,尤其是GATK的HaplotypeCaller,在大多数情况下表现优秀。然而,在复杂基因组区域的检测准确性仍有提升空间。随着测序技术在临床应用中的普及,提高这些区域的检测准确性变得越来越重要。传统方法主要依赖专家构建的模型和手动调整的过滤器,而机器学习方法显示出通过学习更复杂的变异特征关系来提高检测准确性的潜力。


测序流程

DNAscope作为GATK HaplotypeCaller的进阶版本,巧妙地融合了成熟的基于单倍型的变异检测方法和先进的机器学习技术,以提升变异检测的准确性。它在保留原有逻辑架构的同时,优化了活跃区域检测和局部组装过程,特别增强了在复杂基因组区域的表现。DNAscope通过为候选变异添加额外信息注释,并结合机器学习模型进行变异基因型分析,显著提高了整体准确度。此外,DNAscope还可与贝叶斯基因型分析模型配合使用,使其在非哺乳动物物种的重测序分析中同样发挥优势,体现了其广泛的适用性和卓越的性能。

图2  DNAscope方法概述

图2 DNAscope方法概述

为了评估 DNAscope 在不同个体中的变异调用准确性,研究者使用 Sentieon 的 DNAscope 和 DNAseq(符合 GATK 种系最佳实践)管道,使用来自三个 GIAB 样本的公开数据来调用变异:HG002、HG003 和 HG004。

测试涵盖了不同测序深度(15x至36x),并以NIST GIAB高置信度调用v4.2.1为基准。结果显示,DNAscope在所有样本和测序深度下的SNP和INDEL检测性能均优于DNAseq,特别是在30x HG002样本中,SNP和INDEL的F1分数分别达到99.57%和99.46%,总体错误率降低了一半以上。这种在多个样本中的卓越表现证明了DNAscope模型的泛化能力,而非过拟合于训练样本。此外,DNAscope还展现了适应新测序技术的潜力,如之前研究中开发的MGI模型所示,进一步凸显了其在变异检测领域的先进性和灵活性。

图3  DNAscope 和 DNAseq 的精确召回曲线

图3 DNAscope 和 DNAseq 的精确召回曲线

图4  对整个 GA4GH 分层区域进行评估,HG002 深度为 30×

图4 对整个 GA4GH 分层区域进行评估,HG002 深度为 30×

为深入评估变异检测工具的性能,研究组利用GA4GH的分层区域进行了详细分析。这些区域包括低可映射性、分段重复、自链区域、MHC以及综合多种复杂因素的"全难度"区域。结果显示,DNAscope在读数映射困难的区域,如低可映射性、分段重复和自链区域,均明显优于DNAseq。特别是在MHC区域的SNP检测和长同聚物区域的INDEL检测中,DNAscope表现更为出色。这些优势共同导致DNAscope在复杂基因组区域的整体表现优于DNAseq。值得注意的是,即使在相对简单的区域,DNAscope在INDEL检测方面仍保持领先,而在SNP检测方面与DNAseq旗鼓相当。这一全面的分层分析凸显了DNAscope在处理各种复杂基因组区域时的强大能力和灵活性。

研究团队通过对HG002、HG003和HG004的36x测序数据进行抽样,创建了5个不同深度的数据集,以评估变异检测工具在不同测序覆盖度下的性能。结果显示,尽管变异检测准确性通常随覆盖度降低而下降,但DNAscope在低覆盖度条件下仍然保持了优于DNAseq的高准确性。特别值得注意的是,DNAscope在20x覆盖度下的表现始终优于DNAseq在36x覆盖度下的表现。这一发现突显了DNAscope改进的架构和机器学习模型过滤在低覆盖度条件下的显著优势,为高效且经济的变异检测提供了新的可能性。

图5 对瓶中基因组样本 HG002、HG003、HG004 进行多深度测序评估

图5 对瓶中基因组样本 HG002、HG003、HG004 进行多深度测序评估

研究探讨了DNAscope贝叶斯模型在非人类和多倍体样本上的表现,特别关注15x覆盖度下的性能。结果显示,尽管整体准确性低于其机器学习模型,DNAscope的贝叶斯模型在INDEL检测方面仍优于DNAseq,而在SNP检测方面两者相当。这表明DNAscope在处理非标准样本时仍具有一定优势,尤其是在INDEL检测方面。

图6 对Genome in a Bottle样本HG002、HG003和HG004在15x测序深度下的评估

图6 对Genome in a Bottle样本HG002、HG003和HG004在15x测序深度下的评估

在标准化的AWS环境中,对DNAscope进行了性能测试。结果显示,使用96+vCPU处理30x全基因组测序样本时,DNAscope的运行时间不到1小时,与DNAseq相当,比BWA/GATK快5倍。测试还表明DNAscope具有良好的可扩展性,运行时间与线程数几乎呈线性关系。

图7 DNAscope 在多个 AWS C6i 实例上的运行时

图7 DNAscope 在多个 AWS C6i 实例上的运行时


总结

在这项研究中,研究组证明了DNAscope在不同样本和不同覆盖度水平下都能达到比DNAseq更高的准确性。使用GA4GH分层区域进行的分层分析,能够确认DNAscope在大多数分层区域中都具有高准确性,并突显了DNAscope在插入缺失(indels)和包含变异检测较困难的基因组区域的分层中具有更高的准确性。DNAscope结合了GATK's HaplotypeCaller中使用的成熟数学和统计模型,以及用于变异基因型分析的机器学习方法,在保持计算效率的同时实现了卓越的准确性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/60451.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

自动驾驶3D目标检测综述(一)

文章地址:[2206.09474] 3D Object Detection for Autonomous Driving: A Comprehensive Survey (arxiv.org) 这篇综述简单易懂,非常合适对自动驾驶和3D目标检测感兴趣的小白阅读,对相关算法进行初步理解。 目录 一、摘要 (一&a…

微软域名邮箱:如何设置管理烽火域名邮箱?

微软域名邮箱的设置技巧?免费域名邮箱注册设置教程? 微软域名邮箱为企业提供了一个强大且灵活的解决方案,帮助企业轻松管理其域名邮箱。烽火将详细介绍如何设置和管理微软域名邮箱,确保您的团队能够高效地使用这一工具。 微软域…

DirectShow过滤器开发-写AVI视频文件过滤器

下载本过滤器DLL 本过滤器将视频流和音频流写入AVI视频文件。 过滤器信息 过滤器名称:写AVI 过滤器GUID:{2EF49957-37DF-4356-A2A0-ECBC52D1984B} DLL注册函数名:DllRegisterServer 删除注册函数名:DllUnregisterServer 过滤器有…

新版 idea 编写 idea 插件时,启动出现 ClassNotFound

IntelliJ IDEA 2024.1.6 (Ultimate Edition) Build #IU-241.19072.14, built on August 8, 2024 Licensed to Sophia Tout Subscription is active until June 29, 2025. For educational use only. Runtime version: 17.0.111-b1207.30 amd64 Kotlin: 241.19072.14-IJ 新版本…

vue2.x elementui 固定顶部、左侧菜单与面包屑,自适应 iframe 页面布局

vue elementui 固定顶部、左侧菜单与面包屑,自适应 iframe 页面布局 疑问点:iframe无法高度100%,如果写了100%就会有滚动条,所以只写了99.5% 【效果图】 路由示例 const routes [{title: Index,path: /,name: "Index"…

godot——主题、Theme、StyleBox

我刚开始被这些术语吓到了,一直不敢去接触它们,都用的默认样式。现在好不容易有点思路了,记录下来。 下面看看怎么自定义样式。 1.先新建一个Theme 2.再次点击创建好的Theme 得到 图1 这样一个面板。(看不懂没事,继…

web——sqliabs靶场——第二关

今天来搞第二关,来看看是什么咸蛋 1.判断是否存在sql注入漏洞 输入1 存在sql注入,报错语句为 You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near LIMIT 0,1 …

基于Matlab 火焰识别技术

课题介绍 森林承担着为人类提供氧气以及回收二氧化碳等废弃气体的作用,森林保护显得尤其重要。但是每年由于火灾引起的事故不计其数,造成重大的损失。如果有一款监测软件,从硬件处获得的图像中监测是否有火焰,从而报警&#xff0…

【动手学电机驱动】STM32-FOC(5)基于 IHM03 的无感 FOC 控制

STM32-FOC(1)STM32 电机控制的软件开发环境 STM32-FOC(2)STM32 导入和创建项目 STM32-FOC(3)STM32 三路互补 PWM 输出 STM32-FOC(4)IHM03 电机控制套件介绍 STM32-FOC(5&…

深入理解接口测试:实用指南与最佳实践5.0(一)

✨博客主页: https://blog.csdn.net/m0_63815035?typeblog 💗《博客内容》:.NET、Java.测试开发、Python、Android、Go、Node、Android前端小程序等相关领域知识 📢博客专栏: https://blog.csdn.net/m0_63815035/cat…

战略共赢 软硬兼备|云途半导体与知从科技达成战略合作

2024年11月5日,江苏云途半导体有限公司(以下简称“云途”或“云途半导体”)与上海知从科技有限公司(以下简称“知从科技”)达成战略合作,共同推动智能汽车领域高端汽车电子应用的开发。 云途半导体与知从科…

计算机毕业设计Hadoop+Spark高考推荐系统 高考分数线预测 知识图谱 高考数据分析可视化 高考大数据 大数据毕业设计 Hadoop 深度学习

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…

【实用技能】ASP.NET Core:在同一个 Razor 视图中使用文档编辑器和查看器

Essential Studio for ASP.NET Core UI控件库是构建应用程序所需的卓越套件,提供支持的 ASP.NET Core 工具包拥有超过 85 个组件,包含构建业务线应用程序所需的一切,包括数据网格、图表、甘特图、图表、电子表格、时间表、数据透视网格等流行…

Mapwindow5代码BUG记录1

Mapwindow5代码BUG记录 一、查询功能多次点击后窗体错误1、正常情况2、BUG界面位置3、BUG表现4、BUG代码位置5、BUG代码修改6、BUG影响版本 一、查询功能多次点击后窗体错误 1、正常情况 2、BUG界面位置 表编辑器——》工具——》查找 Table editor——》Tools——》Find …

WPF中如何使用区域导航

1.创建一个Prism框架的项目并设计好数据源 User如下: using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks;namespace WPF练习17区域导航.Models {public class User{public int UserId { get; …

基于Cocos Creator开发的打砖块游戏

一、简介 Cocos简而言之就是一个开发工具,详见官方网站TypeScript简而言之就是开发语言,是JavaScript的一个超集详解官网 今天我们就来学习如何写一个打砖块的游戏,很简单的一个入门级小游戏。 二、实现过程 2.1 布局部分 首先来一个整体…

【数据结构】线性表——栈与队列

写在前面 栈和队列的关系与链表和顺序表的关系差不多,不存在谁替代谁,只有双剑合璧才能破敌万千~~😎😎 文章目录 写在前面一、栈1.1栈的概念及结构1.2、栈的实现1.2.1、栈的结构体定义1.2.2、栈的初始化栈1.2.3、入栈1.2.4、出栈…

Rust编程与项目实战-特质(Trait)

【图书介绍】《Rust编程与项目实战》-CSDN博客 《Rust编程与项目实战》(朱文伟,李建英)【摘要 书评 试读】- 京东图书 (jd.com) Rust编程与项目实战_夏天又到了的博客-CSDN博客 特质(Trait)是Rust中的概念,类似于其他语言中的接…

运维之systemd 服务(Systemd Service of Operations and Maintenance)

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 本人主要分享计算机核心技…

Vue — 组件化开发

组件化开发:一个页面可以拆分成一个个组件;每个组件都有自己独立的结构、样式、行为 组件分类:普通组件、根组件 其中根组件包裹着所有普通小组件 普通组件的注册使用;有两种注册方式 局部注册全局注册 局部注册 目标&#xff…