linux下kegg注释软件,KEGG功能注释工具 KofamKOALA 安装与使用

KEGG数据库,即京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes),是系统分析基因功能、基因组信息的数据库。

KofamKOALA是一个方便的KEGG功能注释工具,由创建KEGG的京都大学化研所生物信息中心学者在2019年11月发表于Bioinformatics。

以隐马尔科夫模型(HMM)创建的KOfam来进行蛋白序列同源搜索,其准确性可与性能最佳的工具相媲美, 有网页和Linux两个版本,本文重点介绍Linux版的安装与使用。

网页版

网址 https://www.genome.jp/tools/kofamkoala/

avatar

网页填入蛋白序列信息,设值E值和留下邮箱点击Compute,只需要等待邮箱回复

Linux版

Linux版本的KofamKOALA 需要下载 KOfam(数据库)和 KofamScan(软件),软件依赖Ruby,HMMER和GNU Parallel(事先没有安装可以看以下教程)

安装

我们以kofamscan安装在主目录$HOME(或者叫~)下为例介绍:

step1

下载和解压 KOfam 和 KofamScan

mkdir -p ~/kofamscan/dbcd ~/kofamscan/dbwget ftp://ftp.genome.jp/pub/db/kofam/ko_list.gz wget ftp://ftp.genome.jp/pub/db/kofam/profiles.tar.gz gunzip ko_list.gz tar xvzf profiles.tar.gz mkdir -p ~/kofamscan/bincd ~/kofamscan/binwget ftp://ftp.genome.jp/pub/tools/kofamscan/kofamscan-1.2.0.tar.gz # 注意kofamscan版本tar xvzf kofamscan-1.2.0.tar.gz

step2

下载 Ruby  HMMER  GNU Parallel

cd ~/kofamscan mkdir ruby hmmer parallel src cd src# Ruby版本应不小于2.4,这里演示的是2.7版;HMMER应大于3.1,这里是3.3;Parallel为最新版wget https://cache.ruby-lang.org/pub/ruby/2.7/ruby-2.7.0.tar.gzwget http://eddylab.org/software/hmmer/hmmer-3.3.tar.gzwget ftp://ftp.gnu.org/gnu/parallel/parallel-latest.tar.bz2

安装 Ruby

cd ~/kofamscan/src tar xvzf ruby-2.7.0.tar.gz cd ruby-2.7.0./configure --prefix=$HOME/kofamscan/ruby make make install

安装 HMMER

cd ~/kofamscan/src tar xvzf hmmer-3.3.tar.gz cd hmmer-3.3./configure --prefix=$HOME/kofamscan/hmmer make make install

安装 GNU Parallel

cd ~/kofamscan/src tar xvjf parallel-latest.tar.bz2 cd parallel-20190322 # 这里根据版本而定./configure --prefix=$HOME/kofamscan/parallel make make install

将Ruby路径加入环境变量(之后执行如果报错可能是ruby的问题,推荐ruby按照本文方法安装)

export PATH=$HOME/kofamscan/ruby/bin:$PATH

step3

复制config-template.yml文件并重命名为config.yml

cd ~/kofamscan/bin/ cp config-template.yml config.yml

cat config.yml文件,内容如下:

我们需要在config.yml添加键值,以便ruby识别读取.

可以vim编辑加入以下内容到config.yml,注意绝对路径.

profile: /path/to/home/kofamscan/db/profiles ko_list: /path/to/home/kofamscan/db/ko_list hmmsearch: /path/to/home/kofamscan/hmmer/bin/hmmsearch parallel: /path/to/home/kofamscan/parallel/bin/parallel

如:

若hummsearch和parallel可安装在其他地方改为相关路径

使用

现在可以使用了,我们准备蛋白序列fasta文件(注意必须是蛋白序列,不支持核酸序列)

./exec_annotation -o result.txt query.fasta

如我在~/kofamscan/test/文件夹下有samples.fasta文件,定义输出文件为res.txt

cd ~/kofamscan/bin/kofamscan-1.2.0 # 路径中有exec_annotation文件./exec_annotation -o ~/kofamscan/test/res.txt~/kofamscan/test/samples.fasta

运行完毕后的输出文件:

若报错可能是ruby的路径不在首选环境变量,可执行:

export PATH=$HOME/kofamscan/ruby/bin:$PATH

./exec_annotation -h查看全部参数:

## Options- `-o FILE` - The result are output to `FILE`. It defaults to `stdout`.- `-p`, `--profile=PROFILE` - Use `PROFILE` as a profile database. See [Profiles](#profiles)- `-k`, `--ko-list=FILE` - Use `FILE` as a KO list.- `--cpu=N` - Set the number of `hmmsearch` processes started simultaneously to `N`. It defaults to 1 unless it is set in `config.yml`.- `-c FILE` - Use `FILE` as a config file instead of `config.yml` in the same directory as `exec_annotation`.- `--tmp-dir=DIR` - Use `DIR` as a temporary directory where hmmsearch results are. It will be created if not exist. It defaults to `./tmp`.- `-E`, `--e-value=VALUE` - Require E-value to be smaller than or equal to `VALUE`. If not, an asterisk will not be added in `detail` format or the hit will not be reported in other formats.- `-T`, `--threshold-scale=VALUE` - The score thresholds are multiplied by `VALUE`. For example, with `-T2` option, the thresholds become twice as strict.- `-f`, `--format=FORMAT` - Set the format of the output to `FORMAT`. Three formats below are available. - `detail` - Default format. Gene name, assigned K number, threshold of the KO, hmmsearch score and E-value, and the definition of KO are shown. In addition, an asterisk '*' is added to the head of the line if the score is higher than the threshold. - `mapper` - Format which can be used for [KEGG Mapper](https://www.genome.jp/kegg/mapper.html) input. It includes a gene name and an assigned K number separated by a tab. Here, an assigned K number represents a hit with score above the predefined threshold. Note that for some KOs, predefined score thresholds are not available when they are represented by a very few number of sequences in KEGG GENES. - `mapper-oneline` - Similar to `mapper`, but when more than one KO are assigned to a gene, all assigned KO are shown in one line separated by tabs.- `--[no-]report-unannotated` - With `--report-unannotated` option, gene names are shown even when no KO is assigned (default when `--format=mapper(-oneline)`). With `--no-report-unannotated` such genes are not shown at all (default when `--format=detail`).- `--create-alignment` - `hmmsearch`'s normal outputs per profile are stored in the temporary directory. In addition, domain information and alignments in the outputs will be rearranged per query. - Not compatible with `--reannotation`- `-r`, `--reannotation` - Skip `hmmsearch` and assume that `hmmsearch` outputs are already in the temporary directory. This will help you to make an output in a different format or redo annotation changing thresholds. - Not compatible with `--create-alignment`- `-h`, `--help` - Show brief help message.

参考 :

https://www.genome.jp/tools/kofamkoala/

https://academic.oup.com/bioinformatics/advance-article/doi/10.1093/bioinformatics/btz859/5631907

猜你喜欢

10000+:菌群分析宝宝与猫狗梅毒狂想曲 提DNA发NatureCell专刊肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组 宏基因组

专业技能:学术图表高分文章生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索 Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt FAPROTAX Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记 云协作 公众号

编程模板:Shell R Perl

生物科普:肠道细菌人体上的生命生命大跃进 细胞暗战 人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/336767.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

jooq_jOOQ API设计缺陷的怪异事件

jooqjOOQ是内部特定于域的语言(DSL) ,它以Java(宿主语言)建模SQL语言(外部DSL)。 这篇热门文章描述了jOOQ API的主要机制: Java Fluent API设计器速成课程 。 任何人都可以根据该文…

linux镜像文件不要大于4g,Systemback制做大于4G的Ubuntu系统镜像

1 安装Systemback依此执行以下命令。sudo apt-get updatesudo add-apt-repository ppa:nemh/systembacksudo apt-get update && sudo apt-get install systemback unionfs-fuse安装完成:2 使用Systemback生成镜像文件输入管理员密码,打开后界面以…

黑马2016java_2016年成功的Java开发人员简介

黑马2016java2015年即将结束。 现在该总结过去一年中已完成的工作和未完成的工作。 此外,现在是预测下一个2016年的好时机。 您已经猜到这篇文章是关于2016年理想的Java开发人员的。 我想给你一个惊喜,这次我更改了预测的格​​式。 为了使预测更加客观…

红帽子linux笔试题,redhat-linux面试题

redhat-linux面试题1. 在Linux系统中,以 _文件__ 方式访问设备 。2. Linux内核引导时,从文件 /etc 中读取要加载的文件系统。3. Linux文件系统中每个文件用_节点__来标识。4. 链接分…

lambda设计模式_使用lambda的装饰器设计模式

lambda设计模式随着Java中lambda的出现,我们现在有了一个新工具,可以更好地设计我们的代码。 当然,第一步是使用流,方法引用和Java 8中引入的其他简洁功能。 展望未来,我认为下一步是重新访问完善的设计模式&#xff…

linux监控nginx占用,使用zabbix 2.4 监控nginx

1、获取 Nginx 状态( HTTP Stub Status )/usr/local/nginx/sbin/nginx -V2、配置 nginx.confvim /usr/local/nginx/conf/nginx.conflocation ~ /nginx_status {stub_status on;access_log off;allow 127.0.0.1;allow 192.168.1.14;deny all;}3、编写脚本获取上面的 key 值vim /…

如何使用java代码生成_使用Java成功生成代码的7个技巧

如何使用java代码生成作为介绍,最近我有点安静,部分原因是我一直在忙于Chronicle-FIX的工作 。 这是Chronicle-Enterprise套件中的一个新的超低延迟库,我们证明了该库可以在低个位数微秒内解析和存储消息。 当然,它利用了我们的开…

多核 linux 绑定,Linux 操作系统下CPU多核心的绑定

现在多CPU的趋势越来越大了. 有时候为了更好地操作机器, 需要将某个进程绑定到具体的CPU上去. 下面给出了一个进程绑定到具体的CPU上去的一个例子.cpu.c[CODE]#include#include#include#include#include#define __USE_GNU#include#include#includeint main(int argc, char* arg…

java键盘事件键值表_Java的20年:重大事件的时间表

java键盘事件键值表翻译自: https://www.javacodegeeks.com/2015/12/2-decades-java-timeline-notable-events.htmljava键盘事件键值表

c语言printf到指定文件,急求如何将下列C语言程序数据存储到文件中?

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼求如何改动才能将下列程序的存储输入或输出数据(或两者一起)到指定的文件(或运行时直接创立一个文件)如Arrangement中。#include int n0;int rest[7][7]; //全局声明,以供全局调用int main(){void perm(int list[],int ,int );int …

spring一站式开发_Spring开发人员知道的一件事

spring一站式开发在最近的(核心)Spring框架培训课程中,有人问我:“(Java)Spring开发人员应该知道的一件事是什么?” 这个问题使我措手不及。 是的,(核心)Spri…

c语言十六进制转换加H,c语言十六进制和十进制间的转换.docx

集团文件版本号:(M928-T898-M248-WU2669-I2896-DQ586-M1988)集团文件版本号:(M928-T898-M248-WU2669-I2896-DQ586-M1988)c语言十六进制和十进制间的转换1.将十六进制转换为十进制.#include#includeint main(void){int convert(int,char *);int i,j;char …

jax-ws和jax-rs_带有JAX-WS和Spring的Web服务应用程序

jax-ws和jax-rs1.简介 这是一个漫长的等待,但是我最终要发布有关使用Spring创建第一个基于SOAP的Web服务应用程序的教程。 JAX-WS (用于XML Web服务的Java API)是用于以XML格式创建Web服务的一组API,我们最常将其称为基于SOAP的We…

c command语言学例子,语言学第四章

《语言学第四章》由会员分享,可在线阅读,更多相关《语言学第四章(3页珍藏版)》请在人人文库网上搜索。1、Chapter 4:SyntaxI. Decide whether each of the following statements is True or False:1. Syntax is a subfield of linguistics that studies …

eclipse开发jsf_在Eclipse上创建JSF / CDI Maven项目

eclipse开发jsf当我在研究JSF和CDI示例时,我认为提到创建JSF和CDI Maven项目所需的步骤会很有用。 您可以找到以下步骤。 工具类 默认情况下,M2E插件随附的Eclipse Luna。 因此,无需自己安装插件。 WildFlye8.x。 从主菜单中选择文件->…

apache camel_Apache Camel的性能调整思路

apache camel时不时地,我会以Camel速度较慢的观点来询问有关优化Camel应用程序的问题。 骆驼只是连接不同系统的粘合剂,路由引擎全部在内存中,并且不需要任何持久状态。 因此,在99%的情况下,性能问题是由于…

为什么写C语言弹不出窗口,居然还有SB说C写不出窗口的..

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼decebx.endwassumeesi:nothinginvokeGetStockObject,WHITE_BRUSHinvokeSelectObject,hDcBack,eaxinvokeDeleteObject,eaxinvokeDeleteObject,hBmpBackpopadret_CreateBackGroundendp;>>>>>>>>>>>…

java写入单个字符_将2个字符写入单个Java char

java写入单个字符这是创建超低延迟的Chronicle FIX-Engine时使用的另一个好技巧。 在从字节流中读取数据时,如果可能的话,将数据存储在char而不是将其读取到String效率更高。 (至少您要避免创建String对象,尽管可以通过使用缓存或…

xmanager linux,教您用xmanager启动Linux上的图形界面程序-Go语言中文社区

对于习惯实体化的开发人员来说,还是界面化用着比较习惯,所以这就涉及到掌握使用Xmanager启动Linux上的图形界面程序,为了方便大家的使用,本集小编就详细的为大家讲解具体操作。具体步骤如下:1、首先下载Xmanager并安装…

android开发 文件分享到应用,Android 实现文件分享功能(共享多个文件)

效果如图:神一样的代码:针对image代码如下:IntentsharenewIntent(Intent.ACTION_SEND);share.putExtra(Intent.EXTRA_STREAM, Uri.fromFile(file));//此处一定要用Uri.fromFile(file),其中file为File类型,否则附件无法发送成功。s…