解析DrugBank数据库数据|Python

一、DrugBank 数据库简介

DrugBank 是一个综合性的生物信息学和化学信息学数据库,专门收录药物和靶点的详细信息。它由加拿大阿尔伯塔大学的 Wishart 研究组 维护,提供化学、药理学、相互作用、代谢、靶点等多方面的药物数据。DrugBank 结合了实验数据和计算预测,广泛应用于药物研发、精准医疗、生物信息学研究等领域。

二、下载公开的数据

DrugBank 提供了多种方式下载其数据库,包括 免费的开放数据需要许可的完整数据库。如果需要完整的 DrugBank 数据(包括所有药物、靶点、相互作用等),则需要 注册账户并申请许可申请页面:DrugBank Release Version 5.1.13 | DrugBank Online

申请步骤

  1. 创建 DrugBank 账户:注册页面
  2. 选择许可类型
    • Academic License(学术许可,免费):用于非商业科研,如生物信息学研究、论文分析等。
    • Commercial License(商业许可,收费):适用于制药公司、AI 药物研发等商业用途。
  3. 提交申请,等待 DrugBank 审核。
  4. 批准后,可下载完整数据库(通常为 XML、CSV、SQL 格式)

这里我们先把免费的开放的药物信息数据下载下来用Python解析。下载的SDF格式,我们需要用到Rdkit包来读取结构文件。

三、Python解析药物SDF文件

import pandas as pd
from rdkit import Chem
from rdkit.Chem.MolStandardize import rdMolStandardize
from rdkit import RDLogger
RDLogger.DisableLog('rdApp.*')def get_drug_info(drug_file, current_dir):drug_list = []drug_dict = {}supplier = Chem.SDMolSupplier(drug_file)for mol in supplier:if mol is not None:mol_id = mol.GetProp('DRUGBANK_ID')drug_name = mol.GetProp('COMMON_NAME')# smiles = Chem.MolToSmiles(mol, isomericSmiles=True, canonical=True)# smiles = standardize_smiles(smiles)smiles = Chem.MolToSmiles(mol)drug_list.append([mol_id, drug_name, smiles])drug_dict[mol_id] = smilesdrug_df = pd.DataFrame(drug_list, columns=['ID', 'Name', 'SMILES'])drug_df.to_csv(current_dir + '/drug_information.csv', index=False)return drug_dictcurrent_dir = './'
drug_info_file = current_dir + 'drugbank_structures_2025_02_14.sdf'
drug_id_smi_dic = get_drug_info(drug_info_file, current_dir)print('Done!')

 处理好的文件可在这里drugbank_2025_02_14下载。

四、Python解析药物XML文件

import json
import os
import xmltodict
import pandas as pd"""
From xml file to extract drug and traget information. 
"""current_dir = os.path.dirname(os.path.abspath(__file__))# 读取 XML 文件并转换为 JSON
xml = open(current_dir + "/full-database.xml", encoding="utf-8").read()
xml2json = xmltodict.parse(xml, encoding="utf-8")# 将数据保存为JSON文件,设置缩进为4个空格
with open("drugbank.json", 'w', encoding='utf-8') as file:json.dump(xml2json, file, ensure_ascii=False, indent=4)drugs = xml2json['drugbank']['drug']
results = []
for drug in drugs:try:drug_id = drug['drugbank-id'][0]['#text']except:drug_id = drug['drugbank-id']['#text']drug_name = drug['name']try:targets = drug['targets']['target']except:continuedrug_type = drug['@type']if isinstance(targets, dict):try:uniprot_id = targets['polypeptide']['@id']except:continuetarget_id = targets['id']target_name = targets['name']results.append([drug_id, drug_name, drug_type, uniprot_id, target_name])if isinstance(targets, list):for target in targets:try:uniprot_id = target['polypeptide']['@id']except:continuetarget_id = target['id']target_name = target['name']results.append([drug_id, drug_name, drug_type, uniprot_id, target_name])my_columns = ['DrugBank ID', 'Drug Name', 'Drug Type', 'UniProt ID', 'Target Name']
df = pd.DataFrame(results, columns=my_columns)df.to_csv(current_dir + '/drugbank.csv', index=False)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/71415.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

YOLOv11-ultralytics-8.3.67部分代码阅读笔记-dataset.py

dataset.py ultralytics\data\dataset.py 目录 dataset.py 1.所需的库和模块 2.class YOLODataset(BaseDataset): 3.class YOLOMultiModalDataset(YOLODataset): 4.class GroundingDataset(YOLODataset): 5.class YOLOConcatDataset(ConcatDataset): 6.class Sema…

LeetCode - 18 四数之和

题目来源 18. 四数之和 - 力扣(LeetCode) 题目描述 给你一个由 n 个整数组成的数组 nums ,和一个目标值 target 。请你找出并返回满足下述全部条件且不重复的四元组 [nums[a], nums[b], nums[c], nums[d]] (若两个四元组元素一一…

pt100 2线和3线的区别?

3线比2线更稳定一些; 在电路中,b和c是不连接在一起的; 测试的时候,b和c是接在一起的,也就是说pt100中b和c是连接在一起的 3线比2线多一个反馈; 平时测试的时候,测试一下ab或者ac 都是一样的…

使用QT读取文件,生成json文件

前言: 最近我遇到了一个需要读取本地文件生成json文件的问题,在这里分享下如何在qt中写一个生成json的程序当然也可以使用一些可视化的工具来写json文件(比如:notepad–,还有一些ide都可以),但未免太过于麻烦本文会以一个以qmake…

国产编辑器EverEdit -告别东找西找!一键打开当前文件所在目录!

1 文件操作 2 应用场景 在文件编辑过程中,有时需要对文件进行一些操作,比如:在命令窗口输入文件路径、文件名,进入到文件目录,对文件进行压缩等,如果没有直达命令,用户需要通过文件管理器找到目…

【Docker】百度网盘:基于VNC的Web访问及后台下载

本教程通过 Docker Compose 部署百度网盘的 VNC 版本,实现24小时不间断下载、双模式访问、数据持久化、自动重启和安全加密控制等核心功能。 目录结构规划 建议使用以下目录结构(可根据实际情况调整): ~/baidunetdisk/├── d…

立创实战派ESP32-S3烧录小智AI指南

小智 AI 聊天机器人-开源项目介绍 本项目是一个开源项目,主要用于教学目的。我们希望通过这个项目,能够帮助更多人入门 AI 硬件开发,了解如何将当下飞速发展的大语言模型应用到实际的硬件设备中。无论你是对 AI 感兴趣的学生,还是…

【设计模式】【创建型模式】原型模式(Prototype)

👋hi,我不是一名外包公司的员工,也不会偷吃茶水间的零食,我的梦想是能写高端CRUD 🔥 2025本人正在沉淀中… 博客更新速度 👍 欢迎点赞、收藏、关注,跟上我的更新节奏 🎵 当你的天空突…

Weblogic 反序列化漏洞深度剖析与复现

目录 一、引言 二、Weblogic 反序列化漏洞原理 (一)什么是反序列化 (二)Weblogic 反序列化漏洞产生机制 三、Weblogic 反序列化漏洞危害 四、Weblogic 反序列化漏洞复现 (一)复现环境准备 &#xff…

2025年02月19日Github流行趋势

项目名称:OmniParser 项目地址url:https://github.com/microsoft/OmniParser 项目语言:Jupyter Notebook 历史star数:12878 今日star数:2153 项目维护者:yadong-lu, ThomasDh-C, aliencaocao, nmstoker, kr…

深入解析 iOS 视频录制(三):完整录制流程的实现与整合

深入解析 iOS 视频录制(一):录制管理核心MWRecordingController 类的设计与实现 深入解析iOS视频录制(二):自定义UI的实现​​​​​​​ 深入解析 iOS 视频录制(三):完…

基于豆瓣2025电影数据可视化分析系统的设计与实现

✔️本项目旨在通过对豆瓣电影数据进行综合分析与可视化展示,构建一个基于Python的大数据可视化系统。通过数据爬取收集、清洗、分析豆瓣电影数据,我们提供了一个全面的电影信息平台,为用户提供深入了解电影产业趋势、影片评价与演员表现的工…

tcp协议连接,和传输数据

1、连接 这个是通用的 2、传送数据 当连接建立后,客户端和服务器都可以主动发送数据,分别如下 1》客户端先发送数据 这里是单向的,服务器没有对客户端的数据内容进行应答,只是单纯的对报文应答ack 2》服务器先发送数据

2024年国赛高教杯数学建模C题农作物的种植策略解题全过程文档及程序

2024年国赛高教杯数学建模 C题 农作物的种植策略 原题再现 根据乡村的实际情况,充分利用有限的耕地资源,因地制宜,发展有机种植产业,对乡村经济的可持续发展具有重要的现实意义。选择适宜的农作物,优化种植策略&…

鸿蒙开发:V2版本装饰器之@Monitor装饰器

前言 本文代码案例基于Api13。 随着官方的迭代,在新的Api中,对于新的应用开发,官方已经建议直接使用V2所属的装饰器进行开发了,所以,能上手V2的尽量上手V2吧,毕竟,V2是V1的增强版本,…

国产编辑器EverEdit - 独门暗器:自动监视剪贴板内容

1 监视剪贴板 1.1 应用场景 如果需要对剪贴板的所有历史进行记录,并进行分析和回顾,则可以使用监视剪贴板功能,不仅在EverEdit中的复制会记录,在其他应用的复制也会记录。 1.2 使用方法 新建一个空文档(重要:防止扰乱…

pdf转换成word在线 简单好用 支持批量转换 效率高 100%还原

pdf转换成word在线 简单好用 支持批量转换 效率高 100%还原 在数字化办公的浪潮中,文档格式转换常常让人头疼不已,尤其是 PDF 转 Word 的需求极为常见。PDF 格式虽然方便阅读和传输,但难以编辑,而 Word 格式却能灵活地进行内容修…

深入探索C语言中的字符串处理函数:strstr与strtok

在C语言的字符串处理领域, strstr 和 strtok 是两个非常重要的函数,它们各自承担着独特的功能,为开发者处理字符串提供了强大的支持。 一、strstr函数:字符串查找的利器 strstr 函数用于在一个字符串中查找另一个字符串的首次出现…

AIGC(生成式AI)试用 21 -- Python调用deepseek API

1. 安装openai pip3 install openai########################## Collecting openaiUsing cached openai-1.61.1-py3-none-any.whl.metadata (27 kB) Collecting anyio<5,>3.5.0 (from openai)Using cached anyio-4.8.0-py3-none-any.whl.metadata (4.6 kB) Collecting d…

关于使用雪花算法生成唯一ID,返回给前端ID不一致的问题

问题 在某个项目中,使用雪花算法生成的唯一ID,从数据库查询到数据后返回给前端,但是前端接受到的数据ID和数据库原先生成的不一致 但是前端展示的数据: 原因 原因是后端使用Long类型来存储雪花算法生成的ID,但是这个数值已经超过前端数值类型的范围,导致前端在存储这个数值…