基于综合特征的细菌噬菌体宿主预测工具iPHoP (Integrated Phage HOst Prediction)的介绍以及使用方法详细流程

介绍

iPHoP(Integrated Phage HOst Prediction)是一种基于综合特征的细菌噬菌体宿主预测方法。它是通过整合基因组序列、蛋白质序列和宿主基因组信息来预测细菌噬菌体的宿主范围。

iPHoP的预测过程分为三个步骤:特征提取、特征选择和宿主预测。在特征提取阶段,iPHoP会从噬菌体基因组和宿主基因组中提取一系列特征,包括基因组特征、蛋白质特征和宿主基因组特征。

在特征选择阶段,iPHoP使用机器学习算法从提取的特征中选择最具有预测能力的特征。常用的特征选择算法包括卡方检验、互信息和方差分析等。

在宿主预测阶段,iPHoP使用选择的特征来构建预测模型,通过对未知噬菌体进行预测,确定它们可能的宿主范围。

iPHoP具有以下特点:它是一种集成的预测方法,可以同时使用多个特征进行预测;它基于机器学习算法,可以根据不同的数据集进行预测;它能够预测细菌噬菌体的宿主范围,并提供预测的可靠性评估。

iPHoP已经在一些实验证明了其预测的准确性和可靠性,并且被广泛应用于细菌噬菌体宿主的研究中。

Overview

iPHoP stands for integrated Phage Host Prediction. It is an automated command-line pipeline for predicting host genus of novel bacteriophages and archaeoviruses based on their genome sequences.

The pipeline can be broken down into 6 main steps:

仓库:srouxjgi / iphop — Bitbucket

文章:iPHoP: An integrated machine learning framework to maximize host prediction for metagenome-derived viruses of archaea and bacteria | PLOS Biology 

下载代码库

git clone https://bitbucket.org/srouxjgi/iphop.git

大致的使用流程

A: 第1步:运行单个宿主预测工具

基于噬菌体的工具: RaFAH(https://doi.org/10.1016/j.patter.2021.100274):生成宿主属的预测结果及相应的评分,保存以备后续步骤5使用

宿主基础工具:

  • 使用blastn对宿主基因组进行比对。所有匹配度≥80%、长度≥500bp的片段被考虑在内。若匹配片段覆盖了“宿主”contig长度的≥50%,则忽略这些片段,因为它们往往源自几乎完全为病毒的contigs,可能源于基因组或MAGs中的污染,因此对于宿主预测不可靠。
  • 使用blastn对CRISPR间隔序列数据库进行比对。所有最多允许4个错配的匹配结果都被考虑。
  • WIsH(https://doi.org/10.1093/bioinformatics/btx383):基于病毒与宿主基因组k-mer组成相似性判断宿主关联
  • VHM-s2* 相似性(Alignment-free |$d_2^*$| oligonucleotide frequency dissimilarity measure improves prediction of hosts from metagenomically-derived viral sequences | Nucleic Acids Research | Oxford Academic / https://doi.org/10.1093/nargab/lqaa044):基于病毒与宿主基因组k-mer组成相似性判断宿主关联
  • PHP(https://doi.org/10.1186/s12915-020-00938-6):基于病毒与宿主基因组k-mer组成相似性判断宿主关联

B: 第2步:收集所有得分和基于宿主工具的所有命中之间的距离 * 对于两个潜在宿主(即,给定工具和查询病毒的两个匹配结果),距离是基于GTDB树(https://doi.org/10.1093/nar/gkab776)计算得出的。

C: 步骤3和4:为每种病毒 - 工具 - 候选宿主组合编制组织有序的命中列表 * 对于每个命中结果,将从同一病毒且使用相同工具获取的其他顶级命中结果进行汇总,并根据基线宿主与其他命中宿主之间的距离进行排序(参见步骤2)。 * 这些系列命中的结果被用作自动化分类器的输入,以推导出给定病毒 - 候选宿主对的评分。 * 这使得在评估每一个潜在宿主(每个命中结果)时,能够考虑到该病毒所获得的顶级命中结果的上下文信息。

D: 第5步:为每种病毒 - 候选宿主组合得出宿主基础工具的3个评分 * 仅基于blast或crispr匹配的顶级评分会被保留,因为这些方法本身在宿主预测上就足够可靠。 * 第三个评分通过考虑来自所有单独分类器的所有得分(参见步骤4)得出,即同时考虑所有5种宿主基础方法。

E: 第6步:计算每种病毒 - 候选宿主属组合的综合评分,整合宿主基础信号和噬菌体基础信号 * 将3个宿主基础评分(参见步骤5)与噬菌体基础评分(RaFAH - https://doi.org/10.1016/j.patter.2021.100274)结合,为所有病毒 - 候选宿主属对获得一个单一的综合评分。

conda安装

conda create -c conda-forge -n iphop_env python=3.8
conda activate iphop_env
mamba install -c conda-forge -c bioconda iphop

mamba没有的大家自己使用conda 安装一下就行,怎么配置conda基础环境可以参考:

轻快小miniconda3在linux下的安装配置-centos9stream-Miniconda3 Linux 64-bit_离线安装miniconde linux-CSDN博客

数据库下载

iphop download --db_dir path_to_iPHoP_db# 验证iphop download --db_dir path_to_iPHoP_db --full_verify

手动下载:

wget https://portal.nersc.gov/cfs/m342/iphop/db/iPHoP.latest_rw.tar.gztar -zxvf iPHoP.latest_rw.tar.gz

开始使用

超级简单直接运行

iphop predict --fa_file my_input_phages.fasta --db_dir path/to/iphop_db/Sept_2021_pub/ --out_dir iphop_output/

主要输出结果文件:

Main output files

Host_prediction_to_genus_mXX.csv, where XX is the minimum score cutoff selected (default: Host_prediction_to_genus_m90.csv)

This contains integrated results from host-based and phage-based tools at the host genus level:

VirusAAI to closest RaFAH referenceHost genusConfidence scoreList of methods
IMGVR_UViG_3300029435_00000248.49d__Bacteria;p__Bacteroidota;c__Bacteroidia;o__Bacteroidales;f__Bacteroidaceae;g__Prevotella98.50RaFAH;91.30 iPHoP-RF;89.50 CRISPR;70.20
IMGVR_UViG_3300029435_00000353.00d__Bacteria;p__Firmicutes_A;c__Clostridia;o__Lachnospirales;f__Lachnospiraceae;g__Agathobacter92.20blast;94.40
IMGVR_UViG_3300029435_00000353.00d__Bacteria;p__Firmicutes_A;c__Clostridia;o__Lachnospirales;f__Lachnospiraceae;g__Bacteroides_F90.90CRISPR;93.30 iPHoP-RF;51.70
IMGVR_UViG_3300029435_00000542.95d__Bacteria;p__Firmicutes_A;c__Clostridia;o__Oscillospirales;f__Ruminococcaceae;g__Gemmiger95.30blast;96.70 CRISPR;92.70 iPHoP-RF;82.50
IMGVR_UViG_3300029435_00000735.09d__Bacteria;p__Bacteroidota;c__Bacteroidia;o__Bacteroidales;f__Bacteroidaceae;g__Prevotella98.40CRISPR;98.80 iPHoP-RF;95.40 blast;93.60
IMGVR_UViG_3300029435_00000999.62d__Bacteria;p__Firmicutes_A;c__Clostridia;o__Lachnospirales;f__Lachnospiraceae;g__Lachnospira99.00CRISPR;98.80 blast;92.60 iPHoP-RF;70.90 RaFAH;65.80
IMGVR_UViG_3300029435_00000999.62d__Bacteria;p__Firmicutes_A;c__Clostridia;o__Lachnospirales;f__Lachnospiraceae;g__Roseburia95.70CRISPR;97.00 iPHoP-RF;56.80
IMGVR_UViG_3300029435_00001022.47d__Bacteria;p__Proteobacteria;c__Gammaproteobacteria;o__Burkholderiales;f__Burkholderiaceae;g__Sutterella97.60blast;98.30 CRISPR;80.00 iPHoP-RF;78.30
  • This output file lists for each prediction the virus sequence ID, the level of amino-acid similarity (AAI) between the query and the genomes in the RaFAH phage database, the predicted host genus, the confidence score calculated from all tools, and the list of scores for individual classifiers obtained for this virus-host pair.
  • For the detailed score by classifier, "RaFAH" represents the score derived from RaFAH (https://www.sciencedirect.com/science/article/pii/S2666389921001008), iPHoP-RF is the score derived from all host-based tools, CRISPR the score derived only from CRISPR hits, and blast the score derived only from blastn hits
  • All virus-host pairs for which the confidence score is higher than the selected cutoff (default = 90) are included, so each virus may be associated with multiple predictions (e.g. IMGVR_UViG_3300029435_000003 and IMGVR_UViG_3300029435_000009).

其他注意事项:

注意事项:我们建议所有用户首先使用标准数据库对相同的病毒序列运行iPHoP。同时,强烈建议仔细筛查所有MAGs(宏基因组组装基因组)以剔除污染,因为微生物MAGs中错误地归类的病毒contig可能导致高置信度的错误宿主预测。

注意事项:对于版本小于1.2.0的iPHoP,在添加自定义MAGs时,需要的是GTDB-tk v1.5.0的输出结果,目前与GTDB-tk v2的输出不兼容。但在1.2及更高版本中,这一问题应该已经得到了修复。

用户可以将他们自己的MAGs添加到宿主数据库中,例如从获取输入噬菌体的相同数据集或采样地点获得的MAGs。iPHoP中的"add_to_db"模块可用于此目的,需要为每个MAG提供fasta文件以及应用在这些相同MAG上的"gtdb-tk infer"功能的结果。示例文件集可在https://bitbucket.org/srouxjgi/iphop/downloads/Data_test_add_to_db.tar.gz 获取,基于Dalcin Martins等人发表的研究“Viral and metabolic controls on high rates of microbial sulfur and carbon cycling in wetland ecosystems”的数据。

要将MAGs添加到宿主数据库的完整过程如下:

使用wget下载示例数据包:

wget https://bitbucket.org/srouxjgi/iphop/downloads/Data_test_add_to_db.tar.gz

解压下载的数据包:

tar -xvf Data_test_add_to_db.tar.gz

 查看解压后的目录内容:

ls Data_test_add_to_db

其中,“Expected_results/”文件夹包含了使用Sept_2021_pub数据库或包含额外MAGs的新数据库时iPHoP的预期结果文件。“Input_viral_contigs.fasta”是输入文件。“Wetland_MAGs/”文件夹包含了所有MAGs的fasta文件。“Wetland_MAGs_GTDB-tk_results/”文件夹则包含了iPHoP将使用的gtdb-tk结果文件。

生成gtdb-tk结果文件

gtdbtk de_novo_wf --genome_dir Wetland_MAGs/ --bacteria --outgroup_taxon p__Patescibacteria --out_dir Wetland_MAGs_GTDB-tk_results/ --cpus 32 --force --extension fa
gtdbtk de_novo_wf --genome_dir Wetland_MAGs/ --archaea --outgroup_taxon p__Altarchaeota --out_dir Wetland_MAGs_GTDB-tk_results/ --cpus 32 --force --extension fa

创建一个新的iPHoP数据库,该数据库将包括GTDB基因组和用户提供的额外MAGs,但不包括GEM或IMG基因组

cd Data_test_add_to_db
iphop add_to_db --fna_dir Wetland_MAGs/ --gtdb_dir Wetland_MAGs_GTDB-tk_results/ --out_dir Sept_2021_pub_rw_w_Wetland_hosts --db_dir /path/to/iphop_db/Sept_2021_pub_rw/

 注意:为了避免复制大量文件,新数据库部分基于原始数据库的符号链接。这意味着如果原始数据库(此处为 "iphop_db/Sept_2021_pub/")被修改或删除,新的数据库也将无法正常工作。这也意味着应提供原始数据库的完整路径作为 "db_dir" 参数。

然后,可以使用"Sept_2021_pub_w_Wetland_hosts"文件夹作为iPHoP数据库进行宿主预测操作,例如:

iphop predict --fa_file Input_viral_contigs.fasta --db_dir Sept_2021_pub_rw_w_Wetland_hosts/ --out_dir test_add_db -t 4

引用信息

@article{roux_iphop_2023,
abstract = {The extraordinary diversity of viruses infecting bacteria and archaea is now primarily studied through metagenomics. While metagenomes enable high-throughput exploration of the viral sequence space, metagenome-derived sequences lack key information compared to isolated viruses, in particular host association. Different computational approaches are available to predict the host(s) of uncultivated viruses based on their genome sequences, but thus far individual approaches are limited either in precision or in recall, i.e., for a number of viruses they yield erroneous predictions or no prediction at all. Here, we describe iPHoP, a two-step framework that integrates multiple methods to reliably predict host taxonomy at the genus rank for a broad range of viruses infecting bacteria and archaea, while retaining a low false discovery rate. Based on a large dataset of metagenome-derived virus genomes from the IMG/VR database, we illustrate how iPHoP can provide extensive host prediction and guide further characterization of uncultivated viruses.},
author = {Roux, Simon and Camargo, Antonio Pedro and Coutinho, Felipe H. and Dabdoub, Shareef M. and Dutilh, Bas E. and Nayfach, Stephen and Tritt, Andrew},
doi = {10.1371/journal.pbio.3002083},
issn = {1545-7885},
journal = {PLOS Biology},
number = {4},
title = {{iPHoP}: {An} integrated machine learning framework to maximize host prediction for metagenome-derived viruses of archaea and bacteria},
volume = {21},
year = {2023},
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/597654.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Spring实战】21 Spring Data REST 常用功能详细介绍

文章目录 1. 资源导出(Resource Exporting)2. 查询方法(Query Methods)3. 分页和排序(Pagination and Sorting)4. 关联关系(Associations)5. 事件(Events)6. …

“华为杯”杭州电子科技大学2023新生编程大赛---树

题目链接 Problem Description 给定一棵包含 n 个节点的带边权的树,树是一个无环的无向联通图。定义 xordist(u,v) 为节点 u 到 v 的简单路径上所有边权值的异或和。 有 q 次询问,每次给出 l r x,求 ∑rilxordist(i,x) 的值。 Input 测试…

JVM之内存模型带参数

Spring Boot程序的JVM参数设置格式(Tomcat启动直接加在bin目录下catalina.sh文件里): java ‐Xms2048M ‐Xmx2048M ‐Xmn1024M ‐Xss512K ‐XX:MetaspaceSize256M ‐XX:MaxMetaspaceSize256M ‐jar xxxxxx.jar-Xss:每个线程的栈大小 -Xms:设置…

关于“Python”的核心知识点整理大全61

目录 注意 20.1.4 使用 jumbotron 设置主页的样式 index.html 20.1.5 设置登录页面的样式 login.html 20.1.6 设置 new_topic 页面的样式 new_topic.html 20.1.7 设置 topics 页面的样式 topics.html 元素,让它们在页面上显得大些(见2&#xf…

imgaug库指南(三):从入门到精通的【图像增强】之旅

引言 在深度学习和计算机视觉的世界里,数据是模型训练的基石,其质量与数量直接影响着模型的性能。然而,获取大量高质量的标注数据往往需要耗费大量的时间和资源。正因如此,数据增强技术应运而生,成为了解决这一问题的…

prometheus与zabbix监控的对比介绍

一、普米与zabbix基本介绍 1、prometheus介绍 Prometheus的基本原理是Prometheus Server通过HTTP周期性抓取被监控组件的监控数据,任意组件只要提供对应的HTTP接口并且符合Prometheus定义的数据格式,就可以接入Prometheus监控。 工作流程大致分为收集数…

嵌入式Linux之MX6ULL裸机开发学习笔记(汇编LED灯点亮)

汇编LED驱动实验 1.驱动编写 首先创建在vscode上创建工作区,创建led.s汇编文件,然后编写以下程序 .global _start 全局标号 _start: /* 使能所有外设时钟 */ ldr r0,0x020c4068 CCGR0 ldr r1,0xffffffff 要向CCGR0写入的数据 str r1,[r0] 将0xff…

优化企业运营,深入探索SAP库存管理解决方案

SAP库存管理是SAP提供的一款领先的企业库存管理解决方案。它致力于帮助企业实现对库存的全面掌控,优化供应链管理,降低库存成本,提高客户满意度。这个功能强大的系统为企业提供了丰富的仓储管理功能,如库存盘点、物料追踪、供应商…

【LeetCode】150. 逆波兰表达式求值(ASCII码)

今日学习的文章链接和视频链接 leetcode题目地址:150. 逆波兰表达式求值 代码随想录题解地址:代码随想录 题目简介 即将后缀表达式转换成中缀表达式并计算。 给你一个字符串数组 tokens ,表示一个根据 逆波兰表示法 表示的算术表达式。 …

【编译原理】期末预习PPT前四章笔记II

看了看学校的ppt,记的比较随意O.o 因为我的考试范围里边没有简答所以概念什么的没怎么记 没有简答只有选择真是太好了嘿嘿嘿 目录 I. 概述(好多字。。) 一、高级语言的分类 1、体裁 2、执行方式 二、各种语言的执行方式 三、编译程序…

读算法霸权笔记11_微目标

1. 脸书 1.1. 一份请愿书属于脸书了,而社交网络的算法会对如何最大限度地利用这份请愿书做出判断 1.1.1. 脸书的算法在决定谁能看到我的请愿书时会把所有因素都考虑在内 1.2. 通过改变信息推送的方式,脸书研究了我们…

智能分析网关V4智慧港口码头可视化视频智能监管方案

一、需求背景 近年来,水利港口码头正在进行智能化建设,现场管理已经是重中之重。港口作为货物、集装箱堆放及中转机构,具有昼夜不歇、天气多变、环境恶劣等特性,安全保卫工作显得更加重要。港口码头的巡检现场如何高效、快捷地对…

5G工业物联网网关:连接未来的智能工业

在当今数字化时代,工业物联网正迅速崛起,并引领着全球工业的数字转型。而5G工业物联网网关作为实现IIoT的关键基础设施,在连接未来的智能工业中发挥着举足轻重的作用。 什么是5G工业物联网网关 5G工业物联网网关是连接工业设备和5G网络的关键…

(湖科大教书匠)计算机网络微课堂(下)

第四章、网络层 网络层概述 网络层主要任务是实习网络互连,进而实现数据包在各网络之间的传输 因特网使用TCP/IP协议栈 由于TCP/IP协议栈的网络层使用网际协议IP,是整个协议栈的核心协议,因此TCP/IP协议栈的网络层常称为网际层 网络层提供…

SpringBoot整合sentinel

1、引入依赖 <dependency><groupId>com.alibaba.cloud</groupId><artifactId>spring-cloud-starter-alibaba-sentinel</artifactId> </dependency> 2、 配置文件添加 spring:cloud:sentinel:transport:dashboard: ip:8858 项目重启&#x…

【mujoco】Ubuntu20.04中解决mujoco报错raise error.MujocoDependencyError

【mujoco】Ubuntu20.04中解决mujoco报错raise error.MujocoDependencyError 文章目录 【mujoco】Ubuntu20.04中解决mujoco报错raise error.MujocoDependencyError1. 报错的具体情况2. 解决过程3. 其他问题3.1 ModuleNotFoundError: No module named OpenGL3.2 ModuleNotFoundEr…

第84讲:基于各种场景使用mysqldump逻辑备份数据库

文章目录 1.mysqldump备份工具的语法格式2.使用mysqldump进行全库备份3.备份单个库或者多个库的数据4.备份某个库下的单表或者多表的数据5.mysqldump备份数据库时必加的一些参数5.1.基本参数5.2.核心参数 6.mysqldump备份数据库时的一些其他参数 1.mysqldump备份工具的语法格式…

Docker Compose--部署SpringBoot项目--实战

原文网址&#xff1a;Docker Compose--部署SpringBoot项目--实战-CSDN博客 简介 本文用实战介绍Docker Compose部署SpringBoot项目。 1.创建SpringBoot项目 Controller package com.knife.example.controller;import io.swagger.annotations.Api; import io.swagger.annot…

HTTP基础知识总结

目录 一、什么是HTTP&#xff1f; 二、与HTTP有关的协议 三、HTTP请求特征 四、HTTP组成格式 五、HTTP标头 1.通用标头 2.实体标头 3.请求标头 4.响应标头 六、HTTP状态码分类 我们在日常测试过程中&#xff0c;也可以通过浏览器F12简单定位是前端问题还是后端问题&a…

KeyError: ‘model_state_dict‘

问题 加载模型权重文件时获取model_state_dict键失败 解决 单步调试发现保存模型权重时正确保存了该键值对&#xff0c;再次调试时发现莫名奇妙又没错了 首先确认保存模型时的状态字典键名&#xff1a;确保在保存模型权重时&#xff0c;正确地使用了 model.state_dict() 方法…