欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/131817060
EMBL (European Molecular Biology Laboratory,欧洲分子生物实验室):EMBL 数据库是一个由欧洲生物信息学研究所 (EMBL-EBI) 维护的核酸序列数据库,与 Genbank 和 DDBJ 的数据合作交换,因此,也是一个全面的核酸序列数据库。EMBL 数据库收集了来自各种来源的核酸序列,包括基因组计划、转录组学、表观遗传学、变异分析等。EMBL 数据库是生物蛋白质领域的专家和研究者的重要数据资源,可以帮助他们了解生物分子的结构、功能和进化。
Jackhmmer 搜索算法是一种基于隐马尔可夫模型 (HMM) 的迭代搜索算法,可以使用一条或多条蛋白质序列,在蛋白质序列数据库中寻找同源序列。原理是使用输入序列构建一个初始的 HMM,在数据库中搜索,找到与之匹配的序列。再将这些匹配的序列,加入到输入序列中,重新构建一个 HMM,并重复搜索过程,直到达到最大迭代次数或没有新的匹配序列为止。算法的优点是可以发现较远的同源序列,提高敏感性和准确性。
网址:https://www.ebi.ac.uk/Tools/hmmer/search/jackhmmer
输入序列:4NSC_1
MHHHHHHSSGLEVLFQGPGSMEEKKKKRSGFRDRKVMEYENRIRAYSTPDKIFRYFATLKVISEPGEAEVFMTPEDFVRSITPNEKQPEHLGLDQYIIKRFDGKKISQEREKFADEGSIFYTLGECGLISFSDYIFLTTVLSTPQRNFEIAFKMFDLNGDGEVDMEEFEQVQSIIRSQTSMGMRHRDRPTTGNTLKSGLCSALTTYFFGADLKGKLTIKNFLEFQRKLQHDVLKLEFERHDPVDGRITERQFGGMLLAYSGVQSKKLTAMQRQLKKHFKEGKGLTFQEVENFFTFLKNINDVDTALSFYHMAGASLDKVTMQQVARTVAKVELSDHVCDVVFALFDCDGNGELSNKEFVSIMKQRLMRGLEKPKDMGFTRLMQAMWKCAQETAWDFALPKQ
搜索数据库:SwissProt (SP) 和 TrEMBL (TR)
- SwissProt 是一个由专家审核的蛋白质序列和功能信息的数据库,是 UniProtKB 的一个子集,包含了最高质量和最完整的蛋白质记录。目标是提供一个准确、一致和可信赖的蛋白质知识资源,为生物学研究和应用提供支持。标识是sp,例如
sp|Q9BPX6|MICU1_HUMAN/96-476
。 - TrEMBL 是 UniProtKB 的一个组成部分,是一个由计算机自动注释的蛋白质序列数据库,补充了 UniProtKB/Swiss-Prot 蛋白质知识库,包含 EMBL 核酸序列数据库中为蛋白质编码的核酸序列的所有翻译产物。目的是提供一个及时更新的、包含所有已知蛋白质序列的数据集,为生物学研究和应用提供支持。例如
tr|C7DLN3|C7DLN3_9VIRU/1-172
。
TrEMBL 与 Reference Proteomes (参考蛋白质组) 相似;SwissProt 包括其中,即:
默认是 TrEMBL。
在 AlphaFold2 中,也有 2 个文件相对应,即 uniprot_trembl.fasta.gz
和 uniprot_sprot.fasta.gz
,再合并成 uniprot.fasta
,两者可能包括相同序列。
搜索算法选择 jackhmmer
算法,数据库 (Database) 选择 SwissProt
数据库,其余选择默认。
输出的结果,默认是根据 E-value 进行排序,第 1 条就是最相似的序列。
参考:
- Biopython - History and replacement of Bio.Alphabet
- GitHub - AlphaFold2 Uniprot