ColdDTA:利用数据增强和基于注意力的特征融合进行药物靶标结合亲和力预测

ColdDTA发表在Computers in Biology and Medicine 的一篇一区文章

突出

数据增强和基于注意力的特征融合用于药物靶点结合亲和力预测。


与其他方法相比,它在 Davis、KIBA 和 BindingDB 数据集上显示出竞争性能。


可视化模型权重可以获得可解释的见解。

文章目录

  • ColdDTA发表在Computers in Biology and Medicine 的一篇一区文章
  • 前言
  • 一、摘要
  • 二、引言
  • 三、方法
    • 1.概述
    • 2.数据增强策略
    • 3.药物特征提取模块
    • 4.蛋白质特征提取模块
    • 5.药物-靶点融合模块
  • 总结


前言

提示:这里可以添加本文要记录的大概内容:

例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。


提示:以下是本篇文章正文内容,下面案例可供参考

一、摘要

药物靶点亲和力(DTA)的准确预测在药物发现和开发中起着至关重要的作用。最近,深度学习方法在随机拆分的公共数据集上显示出优异的预测性能。然而,仍然需要对这种拆分方法进行验证,以反映实际应用中的实际问题。在冷启动实验设置中,测试集中的药物或蛋白质不会出现在训练集中,深度学习模型的性能通常会显着下降。这表明提高模型的泛化能力仍然是一个挑战。为此,在本研究中,我们提出了ColdDTA:利用数据增强和基于注意力的特征融合来提高预测药物-靶标结合亲和力的泛化能力。具体来说,ColdDTA通过去除药物的子图来生成新的药物-靶标对。基于注意力的特征融合模块也用于更好地捕捉药物-靶点的相互作用。我们在三个基准数据集上进行了冷启动实验,Davis 和 KIBA 数据集上的一致性指数 (CI) 和均方误差 (MSE) 结果表明,ColdDTA 优于五种最先进的基线方法。同时,BindingDB数据集上的受试者工作特征下面积(ROC-AUC)结果表明,ColdDTA在分类任务上也具有更好的性能。此外,可视化模型权重可以获得可解释的见解。总体而言,ColdDTA可以较好地解决现实的DTA预测问题。该代码已向公众开放。

二、引言

药物开发是一个漫长而昂贵的过程。根据调查,开发一种新药大约需要13年时间,成本为0.6-26亿美元,成功率不到10%[1]。这促使人们使用计算方法来降低成本和提高效率。药物分子与具有适当化学特性和亲和力的靶标结合的过程是治愈疾病的关键标准之一。因此,准确预测药物-靶标结合亲和力对于药物发现至关重要[2]。

使用计算机进行药物靶标亲和力(DTA)预测的方法可分为基于结构的方法、基于配体的方法和混合方法[3]。分子对接是最早和使用最广泛的基于结构的方法之一。然而,这种方法需要蛋白质的3D结构和较长的计算时间,即使是现在,仍然有大量未知的蛋白质结构。尽管AlphaFold2能够预测大多数蛋白质[4],但并非所有结果都非常准确[5]。基于配体的方法假设具有相似化学性质的药物分子具有相同的化学活性,因此可以与相似的靶标相互作用。然而,当已知配体数量不足时,基于配体的方法的预测结果往往变得不可靠。混合方法有望克服上述局限性。其中之一,传统的机器学习方法,如支持向量机(SVM)和随机森林(RF),需要特征工程来提取药物和蛋白质特征[6],特征工程非常耗时,并且会因信息丢失而影响预测性能。近年来,已经开发了几种深度学习方法,如DeepDTA [7]和GraphDTA [8],用于药物-靶标相互作用预测。

一些深度学习模型使用基于序列的输入数据,如WideDTA [9],用简化分子输入线输入系统(SMILES)表示药物,用氨基酸序列表示蛋白质,然后通过卷积神经网络(CNN)或递归神经网络提取特征(RNN)。
但这种方法缺乏分子拓扑结构。
为了弥补这一不足,许多方法将药物视为图结构,化合物的原子和化学键对应于图的顶点和边缘,然后通过图神经网络(GNN)进行特征提取。DeepGS [10]、MolTrans [11]和MgraphDTA [12]都以图表示药物,并在一些公共数据集上表现出优异的预测性能。同样,一些研究也关注蛋白质在药物靶标结合过程中的作用,其中 DrugVQA [13]、AttentionSiteDTI [14] 和 GSAML-DTA [15] 使用接触图来表示蛋白质,实验结果表明,使用蛋白质的 3D 结构可以做出更好的预测。Transformer [16] 也被用于预测药物-靶标相互作用。Chen等人提出的TransformerCPI模型将药物-靶标相互作用视为二元分类问题,并使用编码器-解码器架构进行模型训练,最终预测两者是否可以相互作用[17]。

一些深度学习模型使用基于序列的输入数据,如WideDTA [9],用简化分子输入线输入系统(SMILES)表示药物,用氨基酸序列表示蛋白质,然后通过卷积神经网络(CNN)或递归神经网络提取特征(RNN)。但这种方法缺乏分子拓扑结构。为了弥补这一不足,许多方法将药物视为图结构,化合物的原子和化学键对应于图的顶点和边缘,然后通过图神经网络(GNN)进行特征提取。DeepGS [10]、MolTrans [11]和MgraphDTA [12]都以图表示药物,并在一些公共数据集上表现出优异的预测性能。同样,一些研究也关注蛋白质在药物靶标结合过程中的作用,其中 DrugVQA [13]、AttentionSiteDTI [14] 和 GSAML-DTA [15] 使用接触图来表示蛋白质,实验结果表明,使用蛋白质的 3D 结构可以做出更好的预测。Transformer [16] 也被用于预测药物-靶标相互作用。Chen等人提出的TransformerCPI模型将药物-靶标相互作用视为二元分类问题,并使用编码器-解码器架构进行模型训练,最终预测两者是否可以相互作用[17]。

尽管一些深度学习方法在DTA问题上表现出出色的预测性能,但这些方法大多是在随机拆分的数据集上进行评估的(测试集中的药物和目标已经出现在训练集中),这可能导致信息泄露,使结果过于乐观[18]。从应用的角度来看,大多数蛋白质或药物不会出现在训练集中[19]。当数据集根据更现实的场景进行拆分时,许多模型的预测性能急剧下降[20],有时预测性能比传统机器学习方法更差[21]。这表明当前DTA模型的泛化能力仍有待提高。

为了提高模型的泛化能力,使其在真实场景中发挥更大的作用,我们首先考虑了数据增强方法的运用。数据增强方法已广泛应用于计算机视觉[[22],[23],[24]]和自然语言处理[[25],[26],[27]],并已被证明可以有效提高模型泛化。还提出了多种有效的数据增强方法来预测分子特性[28,29]。然而,据我们所知,数据增强尚未用于提高使用分子图表示药物的 DTA 预测方法的泛化性能。这可能是由于生物化学告诉我们,化合物中原子的微小变化也可能导致分子物理和化学性质的显着变化,以及小药物分子与靶标之间结合亲和力的变化。如图1所示,对于邻苯二酚分子,去除一些原子为苯酚会将其水溶性从溶于水变为微溶于水。另一方面,特征融合是指来自不同层或分支的特征的组合,在现代网络架构中无处不在,使用合理的特征融合方法可以有效提高模型性能。但现有的大多数DTA预测方法只是简单地将药物和蛋白质的特征串联起来,进行最终结果预测,这限制了药物与靶点之间的相互作用,限制了模型的预测和泛化性能。
在这里插入图片描述
图 1.影响其性质的原子变化的图示。
在这项工作中,我们提出了一种称为ColdDTA的药物靶标亲和力训练方法,该方法使用数据增强和基于注意力的特征融合来预测药物和蛋白质之间的结合亲和力。具体来说,在数据处理阶段,将一定比例的药物子图移除,并与原始目标构成新的数据对,然后在训练阶段使用。此外,ColdDTA使用药物-蛋白质特征融合模块来取代简单的特征串联。通过对两个基准数据集进行实验,我们发现与其他方法相比,ColdDTA的整体性能最佳。我们的消融实验结果也证明了数据增强方法和药物-靶点融合模块的有效性。本研究的主要贡献总结如下:
1.
采用一种新的数据增强方法,通过去除药物的子图,与原目标形成新的数据对,可以有效提高模型的泛化能力。

该文提出一种基于注意力的药物与靶点数据融合方法,该方法能够更好地将药物特征与蛋白质特征融合,有利于模型进行亲和值预测。

在两个公开数据集上进行了大量实验,验证了在接近真实实验环境的数据集设置下,ColdDTA的预测能力与基线模型相比有显著提高。此外,实验还证明了数据增强和药物靶点融合的有效性。

三、方法

1.概述

我们提出了一种称为ColdDTA的端到端训练方法来提高DTA预测性能。我们对 DTA 问题的定义如下:让
是一批标记的数据,其中
是小分子药物的SMILES表示,
是蛋白质,并且
是通过实验获得的结合亲和力值。模型的整体训练过程如图 2 所示。它由数据增强模块、药物特征提取模块、蛋白质特征提取模块、药物-靶点融合模块和预测模块五部分组成。
图2
图 2.拟议的 ColdDTA 的框架。首先,去除药物的子图,并与原始蛋白质形成新的对。其次,利用GNN和CNN分别提取分子图和蛋白质的特征;第三,将上一步的特征输入到药物-靶点融合模块进行交互,以获得更有效的特征表示。最后,将融合特征输入MLP以预测结合亲和力。

2.数据增强策略

数据增强是提高神经网络数据效率、增强泛化性能的必要条件[30]。使用数据增强方法可以提高模型的预测性能似乎很明显,但很少有研究使用这种策略来预测药物-靶点相互作用预测问题,因此我们在DTA预测中引入了一种新的数据增强策略。具体来说,在药物-靶点配对中,我们首先随机选择分子图中的一个原子作为起始节点,然后去除起始节点并递归地去除其相邻节点,直到去除一定比例的子图,而相应的靶点和结合亲和力保持不变。在这个过程中,原子基团的去除是完全随机的,这类似于分子性质预测的对比学习[31]。图 3 显示了数据增强过程的输出。在训练阶段,一对药物化合物和靶蛋白通过去除子图产生多个新对。需要注意的是,在测试阶段不会删除任何子图。
在这里插入图片描述

3.药物特征提取模块

在这里插入图片描述

4.蛋白质特征提取模块

在这里插入图片描述

5.药物-靶点融合模块

在这里插入图片描述

代码如下(示例):

data = pd.read_csv('https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())

该处使用的url网络请求的数据。


总结

提示:这里对文章进行总结:

例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/831508.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python梯度提升决策树库之lightgbm使用详解

概要 LightGBM是一个快速、分布式、高性能的梯度提升决策树(Gradient Boosting Decision Tree)库,它在机器学习和数据挖掘领域被广泛应用。本文将介绍LightGBM库的安装方法、主要特性、基本功能、高级功能、以及在实际应用中的场景和总结。 安装 首先,需要安装LightGBM库…

第Y9周:重要模块解读

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 | 接辅导、项目定制🚀 文章来源:K同学的学习圈子 目录 以con.py为例: 一、autopad 二、Conv 三、Focus 四、C2f 文件…

Golang | Leetcode Golang题解之第66题加一

题目&#xff1a; 题解&#xff1a; func plusOne(digits []int) []int {n : len(digits)for i : n - 1; i > 0; i-- {if digits[i] ! 9 {digits[i]for j : i 1; j < n; j {digits[j] 0}return digits}}// digits 中所有的元素均为 9digits make([]int, n1)digits[0]…

如何基于nginx组建多个子目录网站

华子目录 实验要求实验步骤 实验要求 组建多个子目录网站www.openlab.com&#xff0c;该网站有2个子目录www.openlab.com/sxhkt和www.openlab.com/zywww.openlab.com/sxhkt使用http读取www.openlab.com/zy使用https读取 实验步骤 准备工作 [rootserver ~]# setenforce 0[ro…

串口单线半双工转换电路

用来把单线半双工模式的串口转换成双线&#xff0c;然后才能连接到普通的双线USB 串口模块&#xff0c;比如CH340 之类的。电路设计来自大佬的博客&#xff1a;AVR half-duplex software UART supporting single pin operation。他在Arduino 上用软件模拟串口功能&#xff0c;利…

测试PG中事务隔离级别

我们知道事务隔离级别有&#xff1a;读未提交&#xff0c;读已提交&#xff0c;可重复读&#xff0c;可序列化。 读未提交 存在 脏读&#xff0c;不可重复读&#xff0c;幻读&#xff1b; 读已提交 存在 不可重复读&#xff0c;幻读 可重复读 存在 幻读 PG 下默认为读已提交…

微信小程序使用蓝牙连接硬件

目录 一、蓝牙官方api文档 二、蓝牙重要参数介绍 三、案例教程 1. 获取蓝牙权限&#xff08;openBluetoothAdapter&#xff09; 2. 开始搜索蓝牙设备(startBluetoothDevicesDiscovery) 3. 监听搜索到新设备的事件(onBluetoothDeviceFound) 4.连接蓝牙设备&#xff08;crea…

SpringData JPA - ORM 框架下,打造高效数据访问层

目录 一、SpringData JPA 概述 1.1、什么是 JPA 1.2、什么是 ORM 1.3、什么是 Hibernate 1.4、JPA 和 Hibernate 的关系 1.5、JPA 的优势 二、SpringData JPA 实战开发 2.1、依赖 2.2、配置文件 2.3、启动类 2.4、创建实体 2.5、基于 JpaRepository 的 CRUD 三、…

网络安全审计

一、什么叫网络安全审计 网络安全审计是按照一定的安全策略&#xff0c;利用记录、系统活动和用户活动等信息&#xff0c;检查、审查和检验操作时间的环境及活动&#xff0c;从而发现系统漏洞、入侵行为或改善系统性能的过程&#xff0c;它是提高系统安全性的重要手段。 系统…

数据结构:时间复杂度/空间复杂度

目录 一、时间复杂度 定义 常见的时间复杂度 如何计算时间复杂度 计算方法 三、实例分析 二、空间复杂度 定义 重要性 常见的空间复杂度 二、空间复杂度 定义 重要性 常见的空间复杂度 计算方法 三、实例分析 大O的渐进表示法 最好情况&#xff08;Best Case…

spring框架学习记录(1)

前半个月一直在应付期中考试&#xff0c;快被折磨似了orz 文章目录 SpringIoC(Inversion of Control) 控制反转与DI(Dependency Injection)依赖注入bean相关bean配置bean实例化bean的生命周期 依赖注入相关依赖注入方式依赖自动装配 容器创建容器获取bean Spring IoC(Inversi…

leetcode295. 数据流的中位数

class MedianFinder {//A为小根堆&#xff0c;B为大根堆List<Integer> A,B;public MedianFinder() {A new ArrayList<Integer>();B new ArrayList<Integer>();}public void addNum(int num) {int m A.size(),n B.size();if(m n){insert(B,num);int top …

BeanFactory 源码浅析

BeanFactory 功能介绍 BeanFactory 是核心容器&#xff0c;负责管理 Bean 对象 BeanFactory 接口的功能只有一个 getBean() 方法BeanFactory 的实现类&#xff08;DefaultListableBeanFactory&#xff09;包含&#xff1a;控制反转、基本的依赖注入、Bean 生命周期的各种功能…

从浏览器输入url到页面加载(八)你的web网站有几台服务器?

你有没有想过一个问题&#xff0c;做为一名前端开发&#xff0c;你的网站上线后&#xff0c;准备了几台服务器&#xff1f;前端静态资源用了几台&#xff0c;你调接口的那个后端部署了几台&#xff1f; 目录 1 没接触过这个问题很正常 2 当访问量上升的时候 2.1 提升带宽 …

绝了!这是我见过最详细的HashMap源码解析

1 概述 HashMap是基于哈希表实现的,每一个元素是一个key-value对,其内部通过单链表解决冲突问题,容量不足(超过了阀值)时,同样会自动增长. HashMap是非线程安全的,只适用于单线程环境,多线程环境可以采用并发包下的concurrentHashMap HashMap 实现了Serializable接口&#x…

ArmSoM-Sige5 RK3576开发板 正式发布!

简介​ ArmSoM-Sige5 采用Rockchip RK3576第二代8nm高性能AIOT平台&#xff0c;6 TOPS算力NPU&#xff0c;最大可配16GB大内存。支持8K视频编解码&#xff0c;拥有丰富的接口&#xff0c;支持双千兆网口&#xff0c;WiFi6 & BT5和多种视频输出。支持多种操作系统&#xff…

HTML5实用大全(Part.2)

引言&#xff1a; 哈喽&#xff0c;各位小伙伴们大家好呀&#xff0c;学习了上一篇关于HTML5的文章后&#xff0c;你是否对于入门HTML5有了一定的基础了呢&#xff0c;本篇博客我们将继续学习HTML5的不同标签&#xff0c;跟上队伍&#xff0c;准备出发咯&#xff01; 1.标签之…

2024五一杯数学建模竞赛A题完整成品论文和代码分析:建立钢板切割的工艺路径动态规划、贪心与分层优化模型

2024五一杯数学建模竞赛A题&#xff1a;建立钢板切割的工艺路径动态规划、贪心与分层优化模型 2024五一数学建模A题完整代码和成品论文获取↓↓↓↓↓ https://www.yuque.com/u42168770/qv6z0d/gyoz9ou5upvkv6nx?singleDoc# 本文文章较长&#xff0c;建议先目录。经过不懈的…

三星一季度利润飙涨932%!AI引爆存储热,未来研发狠砸AI

⏩三星一季度利润飙涨932%&#xff01;AI引爆存储热&#xff0c;未来研发狠砸AI 三星电子公布了第一季度财报数据&#xff0c;显示其利润飙涨932.8%。得益于AI拉动的广泛支出&#xff0c;三星电子一季度利润激增。三星表示&#xff0c;预计第二季度业务将主要由生成式人工智能…

算法学习系列(五十四):单源最短路的综合应用

目录 引言一、新年好二、通信线路三、道路与航线四、最优贸易 引言 关于这个单源最短路的综合应用&#xff0c;其实最短路问题最简单的就是模板了&#xff0c;这是一个基础&#xff0c;然后会与各种算法结合到一块&#xff0c;就是不再考察单个知识点了&#xff0c;而是各种知…