什么是GFF3?这个一种序列注释文件的格式,基因组注释数据常常会用这种格式来记录序列注释信息,关于这种格式的更多信息,可以在这里学习:http://www.sequenceontology.org/gff3.shtml
这里简单说下,怎样把GFF3文件导入MySQL数据库,导入了以后使用比较方便。我用的是ubuntu 14.04系统。如果使用其它系统的,仅供参考。系统需要安装MySQL数据库以及bioperl,关于bioperl有兴趣的朋友可以到这里序列(www.bioperl.org),关于perl和MySQL这里也提供点我云盘里的参考资料:http://yunpan.cn/cK3zPydGY6c7Q (提取码:36ad)
1 在MySQL数据库中建立一个用于储存GFF3格式数据的数据库
mysql> create database MUS_7 -u root -p XXXXXXXX;
其中create database是MySQL中的命令,MUS_7是新建的数据库名,-u选项,表示用户名,用户名参数为root,-p 参数后接MySQL数据库的密码。这样就能建立一个名为MUS_7的数据库
2 将GFF3文件导入MySQL数据库中
从网上下载GFF3格式的文件,如从rice_r7_all_tilling_path.gff3,然后用下列命令导入MySQL数据库
bp_seqfeature_load -f -c -d MUS_r7 -u root -p xxxxxxxx all.gff3 all.con
bp_seqfeature_load是一个脚本文件,所以系统中需要有这个脚本文件。关于这个脚本的用法可以用命令bp_seqfeature_load查询。-f选项的含义:
Activate fast loading. (default 0) Only available for some adaptors.
-c选项的含义:
Create the database and reinitialize it (default false) Note, this
will erase previous database contents, if any
如果是新建的数据库需要用这个选项,如果是往已有的数据库中添加数据,用这个选项就坏菜了,把原来数据都清除了
-d MUS_r7,表示导入的数据库为MUS_r7,-u -p及后面的参数和上文含义相同。all.gff3为GFF3文件。all.com,为和gff3文件对应的参考序列。这个得配套,要不然肯定会报错。
我传的all.gff3文件大小为:78M,all.con文件为:365M。文件比较大,要把这些东西都传上去,得花不少时间,总时间为:63245.07秒,17.5小时。插入后的效果图如下。
我的MySQL数据库中有三套水稻基因组的注释数据。这三套数据,参考序列都是一样的,但注释数据则不一样,所以对同一个水稻基因组序列,利用这三套数据同时分析,可能得到的信息会更多。当然,这个数据也可以和其它数据,如全基因组的多态信息进行整合,这样使用更加方便
转载本文请联系原作者获取授权,同时请注明本文来自闫双勇科学网博客。
收藏
分享
分享到: