ProteinFlow是一个开源的Python库,旨在简化蛋白质结构数据在深度学习应用中的预处理过程。以下是其详细介绍:
功能
-
数据处理:支持处理单链和多链蛋白质结构,包括二级结构特征、扭转角等特征化选项。
-
数据获取:能够从Protein Data Bank (PDB)和Structural Antibody Database (SAbDab)等资源中高效地过滤、聚类和生成新的数据集。
-
数据加载与转换:提供多种数据加载选项和转换,以适应不同的下游训练框架。
-
预计算数据集:提供最新预计算的蛋白质结构数据集,方便用户快速使用。
安装
-
使用Conda:
conda install -c conda-forge -c bioconda -c adaptyvbio proteinflow
-
使用pip:
pip install proteinflow
-
使用Docker:
docker pull adaptybproteinflow
核心模块 & 类速览
1. proteinflow.data.ProteinEntry
✅ 蛋白质结构的