宏基因组学Metagenome-磷循环Pcycle功能基因分析-从分析过程到代码及结果演示-超详细保姆级流程

大背景介绍

生信分析,凡事先看论文,有了论文就有了参考,后续分析就有底了,直接上硬菜开干:

PCycDB: a comprehensive and accurate database for fast analysis of phosphorus cycling genes - PubMed

数据库及部分分析代码github库: 

GitHub - ZengJiaxiong/Phosphorus-cycling-database: This is a comprehensive database for fast and accurately analyzing the phosphorus cycling genes.

 

磷循环基因库介绍Phosphorus-cycling-database (PCyCDB):

磷循环数据库 (PCyCDB),包含 138 个基因家族和 10 个代谢过程。将同源基因添加到数据库中,以降低假阳性率。通过识别已知的模拟基因数据集和模拟细菌群落,对序列相似性搜索工具(如BLAST、USEARCH、DIAMOND)生成的比对结果进行过滤的标准(即身份、命中长度)进行了细化,以获得最佳准确性并进一步减少假阳性和假阴性。在70%的同一性和25个氨基酸的截留点下,准确率、PPV、灵敏度、特异性和NPV分别为99.76%、95.70%、99.94%、99.74%和99.99%。重要的是,编码细胞内磷代谢过程的基因被添加到PCyCDB中,这应该有助于研究人员不仅拓宽对地球化学磷循环的见解,而且扩大对微生物磷代谢的见解。

作者对数据库的介绍:

这是磷循环数据库的新版本(PCycDBv1.1)。在Lidbury博士(英国谢菲尔德大学动植物科学系)的帮助下,我们检索了许多重要的磷循环基因(PCG),包括glpQ(细胞质甘油磷酸二酯磷酸二酯酶)、glpT(甘油-3-)基因磷酸盐通透酶)、ushA(5'-核苷酸酶)、phnD_phosphite(可能的 ABC 转运蛋白亚磷酸盐结合蛋白)、ptxABC(可能的亚磷酸盐转运系统)、htxB(推定的特异性次磷酸盐转运蛋白)、ptxD(NAD:亚磷酸盐氧化还原酶/亚磷酸盐脱氢酶)、htxA (次磷酸盐/2-酮戊二酸双加氧酶)、pbfA(磷酸盐分解因子 A)、pafA(磷酸盐不敏感磷酸单酯酶)、aepXVW、aepP 和 aepS(三种新型 2-氨基乙基磷酸盐转运蛋白)。此外,我们还纳入了在约氏黄杆菌 DSM2064 中鉴定的两个 phoA 基因(碱性磷酸酶)(Fjoh_3187 和 Fjoh_3249)。

基因库直接下载链接,v1.1版:

https://github.com/ZengJiaxiong/Phosphorus-cycling-database/releases/download/untagged-5a0f44fdf33412c5d1d3/id2genemap.txt

https://github.com/ZengJiaxiong/Phosphorus-cycling-database/releases/download/untagged-5a0f44fdf33412c5d1d3/PCycDBv1.1.faa

数据库准备

下载数据库

# 直接克隆整个仓库
git clone https://github.com/ZengJiaxiong/Phosphorus-cycling-database.git# 下载基因idmaping库
wget -c https://github.com/ZengJiaxiong/Phosphorus-cycling-database/releases/download/untagged-5a0f44fdf33412c5d1d3/id2genemap.txt
wget -c https://github.com/ZengJiaxiong/Phosphorus-cycling-database/releases/download/untagged-5a0f44fdf33412c5d1d3/PCycDBv1.1.faa### 查看id2genemap文件内容
head id2genemap.txt 
521169598	lysR	COG
260599187	lysR	COG
560158809	lysR	COG
15832950	lysR	COG
296104502	lysR	COG
455738413	lysR	COG
126640099	lysR	COG
71907275	lysR	COG
386742586	lysR	COG
197284247	lysR	COG### fasta文件内容
head PCycDBv1.1.faa 
>161934.XP_010688184.1 [description=ADE2 ontology=COG0152 source=eggNOG]
MLLQQGLLSNKPAPFFSIKSSLMYSSKFSSSVSLTSVKSNIHPFISCKTSIEAHNSSIKSENLPVHGVSEKIVGVLGGGQLGRMLCQAASELAIKIAILDPSQNCPASSLAYYHMVGSFDDSATVEEFAKRCGVLTVETEHVDVATLDKLEQQGVDCEPKASTIRIIQDKYLQKSHFSRLGIPLPKFMEIDSVESARRAGELFGYPLMIKSKRFAYDGRGNAVAKGEEDLSSAVAALGGYERGLYVEKWAPFVKELAVIVARGRDNSILCYPVVETIHKENICHIVKAPAVVPWKVRKLANDVAHKAVSSLEGAGVFAVELFLTEAGEILLNEVAPRPHNSGHHTIESCYTSQYEQHLRAVVGLPLGDPSMKTTAAIMYNILGEDEGEPGFLLAHEFMRRSLTVPGASVHWYDKSEMKRQRKMGHITIVGSSMGIVEGHLKSLLKQDKTDGAISARVGIIMGSDSDLPVMKDASRILDMFGVEHEVRIVSAHRTPEMMFTYAKSAWERGIQVIIAGAGGAAHLPGMVAALTPVPVIGVPVRGSSIDGLDSLLSIVQMPRGVPVATVAINNATNAGLLAVRMLGVGDSDLKSRMAQYLEDARDEVLVKADRLHKDGWEVYLNT
>159749.K0RBF6 [description=ADE2 ontology=COG0152 source=eggNOG]
GRAAGPDDVPRGPPAQHNDALPRRLRPTLPRDAGRRHVRRRRRGPVADRRGLAPRRVEAQGALVGVRRGDDGDRARGRRRAGGAGEGGGERPAVEQGFWRDVCGCYVSDEYDWMSCNASVLGLGLWPGGKRKTTAKPRDELRGRKQEHFAGHSIPLPPYVNLPSVQSIHDAASRFGLPLMLKSRKGAYDGRGNTVLKSTDDAAVSSALSDLGLTESDLPNDALYAEGWIDFRSEVAVMVVRSTTGETRAYPATTAIQTDSICRVVLVPARNVAPDVRERCESVAMAAVDCLGDGATGVFGVELFLVNKPGGGLDVLLNEVAPRPHNTGHYTQDACAVSQFENHLRAVCGLPLGDTGLVVGAAAMVNVLGAPSGGIEETMKGVNAAMTMPRTSVHWYGKGYRAGRKMGHINVTADSHAELDGPLSKLLAAESIDENVIPEDGRIGTNPLVGVIMGSQSDLPTMSDAVKILKEFGIPHEVDIVSAHRTPEKLMTYSRSAAGRGIQVIIAGAGGAAHLPGMVAAMTPLPVVGVPIKTSTLNGQDSLLSIVQMPRGVPVATVAIGNATNAGLLAVRSLCASRPGLRAKMEEYQLKMKEAVDANSSTLLELGCDEFLSMLPNKNKAVNV
>192875.XP_004363538.1 [description=ADE2 ontology=COG0152 source=eggNOG]
MST

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/229672.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算法往年题复习(一)| 看不懂来 Gank 我

文章目录 数组逆序差的最大值题目描述算法思路与过程实现代码时间复杂度类似题型 将 K 个数组元素有序输出题目描述算法思路与过程实现代码时间复杂度类似题型 二叉搜索树题目描述算法思路与过程实现代码时间复杂度涉及知识点 天然气输气管道网络题目描述算法思路与过程实现代码…

【TB作品】51单片机,具有报时报温功能的电子钟

2.具有报时报温功能的电子钟 一、功能要求: 1.显示室温。 2.具有实时时间显示。 3.具有实时年月日显示和校对功能。 4.具有整点语音播报时间和温度功能。 5.定闹功能,闹钟音乐可选。 6.操作简单、界面友好。 二、设计建议: 1.单片机自选(C51、STM32或其他单片机)。 2.时钟日历芯…

H266/VVC标准的编码结构介绍

概述 CVS: H266的编码码流包含一个或多个编码视频序列(Coded Video Swquence,CVS),每个CVS以帧内随机接入点(Intra Random Access Point, IRAP)或逐渐解码刷新(Gradual …

结构型设计模式(二)装饰器模式 适配器模式

装饰器模式 Decorator 1、什么是装饰器模式 装饰器模式允许通过将对象放入特殊的包装对象中来为原始对象添加新的行为。这种模式是一种结构型模式,因为它通过改变结构来改变被装饰对象的行为。它涉及到一组装饰器类,这些类用来包装具体组件。 2、为什…

亚马逊云科技发布企业生成式AI助手Amazon Q,助力企业迈向智能化时代

(声明:本篇文章授权活动官方亚马逊云科技文章转发、改写权,包括不限于在 亚马逊云科技开发者社区、知乎、自媒体平台、第三方开发者媒体等亚马逊云科技官方渠道) 一、前言 随着人工智能技术的快速发展和广泛应用,我们…

04_Web框架之Django一

Web框架之Django一 学习目标和内容 1、能够描述Django的作用 2、能够使用Django创建应用 3、能够使用GET和POST请求方式进行传参 4、能够使用Django的函数式方法定义视图 5、能够进行Django的配置文件修改 6、能够基本使用Django的路由定义 一、Django相关介绍 1、什么是Djan…

ArrayList vs. LinkedList: Java集合框架的比较与应用

目录 1. ArrayList简介 2. LinkedList简介 3. 内部实现方式 3.1 ArrayList的内部实现 3.2 LinkedList的内部实现 4. 时间复杂度比较 4.1 插入和删除操作 4.2 随机访问操作 5. 内存消耗 5.1 ArrayList的内存消耗 5.2 LinkedList的内存消耗 6. 适用场景 6.1 ArrayLi…

Python:Jupyter

Jupyter是一个开源的交互式计算环境,由Fernando Perez和Brian Granger于2014年创立。它提供了一种方便的方式来展示、共享和探索数据,并且可以与多种编程语言和数据格式进行交互。Jupyter的历史可以追溯到2001年,当时Fernando Perez正在使用P…

将mjpg格式数转化成opencv Mat格式

该博客可以解决如下两个问题: 1、将mjpg格式数据转化成opencv Mat格式 2、v4l2_buffer 格式获取的mjpg格式数据转换成Mat格式。 要将 MJPEG 格式的数据转换为 OpenCV 的 Mat 格式,您可以使用 imdecode 函数。imdecode 函数可以将图像数据解码为 Mat 对象…

基于SSM的图书馆预约座位系统的设计与实现(部署+源码+LW)

项目描述 临近学期结束,还是毕业设计,你还在做java程序网络编程,期末作业,老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。今天给大家介绍一篇基于SSM的图书馆预约座位…

为什么选择计算机?大数据时代学习计算机的价值探讨

还记得当初自己为什么选择计算机? 计算机是在90年代兴起的专业,那时候的年轻人有驾照、懂外语、懂计算机是很时髦的事情! 当初你问我为什么选择计算机,我笑着回答:“因为我梦想成为神奇的码农!我想像编织魔法一样编写程序,创造出炫酷的虚拟世界!”谁知道,我刚入门的…

OpenCV开发:MacOS源码编译opencv,生成支持java、python、c++各版本依赖库

OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉和机器学习软件库。它为开发者提供了丰富的工具和函数,用于处理图像和视频数据,以及执行各种计算机视觉任务。 以下是 OpenCV 的一些主要特点和功能&#xff…

常用网安渗透工具及命令(扫目录、解密爆破、漏洞信息搜索)

目录 dirsearch: dirmap: 输入目标 文件读取 ciphey(很强的一个自动解密工具): john(破解密码): whatweb指纹识别: searchsploit: 例1: 例2: 例3&…

Git----学习Git第一步基于 Windows 10 系统和 CentOS7 系统安装 Git

查看原文 文章目录 基于 Windows 10 系统安装 Git 客户端基于 CentOS7 系统安装部署 Git 基于 Windows 10 系统安装 Git 客户端 (1)打开 git官网 ,点击【windows】 (2)根据自己的电脑选择安装,目前一般w…

一种解决Qt5发布release文件引发的无法定位程序输入点错误的方法

目录 本地环境问题描述分析解决方案 本地环境 本文将不会解释如何利用Qt5编译生成release类型的可执行文件以及如何利用windeployqt生成可执行的依赖库,请自行百度。 环境值操作系统Windows 10 专业版(22H2)Qt版本Qt 5.15.2Qt Creator版本5.0…

P2P如何使用register_attention_control为UNet的CrossAttention关联AttentionStore

上次的调试到这里了,写完这篇接着看,prepare_latents_ddim_inverted 如何预计算 inversion latents: /home/pgao/yue/FateZero/video_diffusion/pipelines/p2p_ddim_spatial_temporal.py 1. 原始的UNet3D的CrossAttention和SparseCausalAtte…

深度学习中的潜在空间

1 潜在空间定义 Latent Space 潜在空间:Latent ,这个词的语义是“隐藏”的意思。“Latent Space 潜在空间”也可以理解为“隐藏的空间”。Latent Space 这一概念是十分重要的,它在“深度学习”领域中处于核心地位,即它是用来学习…

用GitBook制作自己的网页版电子书

用GitBook制作自己的网页版电子书 前言 几年前阅读过其他人用GitBook创建的文档,可以直接在浏览器中打开,页面干净整洁,非常清爽,至今印象深刻。 GitBook非常适合用来为个人或团队制作文档,对于我这种偶尔写博客的人…

和鲸科技CEO范向伟受邀出席港航数据要素流通与生态合作研讨会,谈数据资产入表的战略机会

近日,由上海虹口数字航运创新中心、龙船(北京)科技有限公司(下简称“龙船科技”)、华东江苏大数据交易中心联合举办的“港航数据要素流通与生态合作研讨会”圆满落幕,来自港航领域的近百名企业代表共同参与…

【Spark面试】Spark面试题答案

目录 1、spark的有几种部署模式,每种模式特点?(☆☆☆☆☆) 2、Spark为什么比MapReduce块?(☆☆☆☆☆) 3、简单说一下hadoop和spark的shuffle相同和差异?(☆☆☆☆☆…