【2021研电赛】基于深度学习的蛋白质与化合物结合性质预测

本作品介绍参与极术社区的有奖征集|分享研电赛作品扩大影响力,更有重磅电子产品免费领取!

在这里插入图片描述

获奖情况:三等奖

1.作品简介

针对药物发现过程中的药物筛选问题,本设计基于深度学习提出新的神经网络结构和数据处理方式用于预测蛋白质与化合物之间的结合性质。与其他预测方法相比,在数据编码方式上,我们对氨基酸的单独特征和氨基酸处于氨基酸序列中表现出的特征分别进行了建模,使用了多组可学习的特征嵌入对氨基酸进行编码,并使用类似注意力机制的方式从多组特征嵌入获得氨基酸序列的特征嵌入,在网络结构上,我们利用卷积网络、图卷积网络、transformer和多层感知机在处理不同类型数据时所拥有的优势,将不同类型的网络相结合从而充分发挥不同网络的各自优势,建模了蛋白质化学性质与其氨基酸序列的关系、化合物的化学性质与其分子三维空间结构之间的关系以及蛋白质与化合物之间的结合关系。

2.算法介绍

我们利用深度学习技术,训练神经网络完成对蛋白质和化合物的结合性质预测。所设计的神经网络整体结构如图2-1所示。整个神经网络可以被分为三个部分,分别为蛋白质特征提取模块、化合物特征提取模块以及预测模块。其中,蛋白质特征提取模块从氨基酸序列中提取蛋白质的化学性质,得到蛋白质的全局描述;化合物特征提取模块从化合物的图中提取化合物的化学性质,得到化合物的全局性描述;预测模块则根据蛋白质的全局描述和化合物的全局描述判断蛋白质与化合物是否能够相互结合。

3.作品创新

① 为了能够表达氨基酸自身特征以及氨基酸相互组合的特征,我们将蛋白质编码直接编码为可学习的query、key和value,通过类似自注意力(self-attention)的方式完成对具体蛋白质的编码。
② 为了适配化合物分子的图结构,我们使用图卷积网络从化合物中提取特征,并且在图卷积层之间增加残差连接以防止图卷积对图信号的过平滑效应。
③ 使用线性与双线性将结合的方式完成对蛋白质特征和化合物特征的整合。

4.算法流程图

在这里插入图片描述

5.未来展望

本设计基于深度学习提出了新的神经网络结构和数据处理方式用于预测蛋白质与化合物之间的结合性质。我们首先使用合适的方式对蛋白质和化合物进行编码,尽量在特征编码中反映出蛋白质和化合物的关键特点,然后针对拥有不同数据结构蛋白质特征和化合物特征,应用不同类型的神经网络对数据进行适配,以尽量从数据中提取关键信息,最后我们使用ROC曲线与AUC对最终模型的预测性能进行了评估。

我们的设计实现了预期功能,完成了以下目标:
① 对于蛋白质和化合物的编码方式能够成功应用于神经网络的训练,说明所提出的特征编码方式是有效的。
② 神经网络在经过训练后,在测试数据集中又有一定的泛化能力,说明我们所提出的多种类型结合的神经网络能够从蛋白质和化合物中提取关键特征并用于判断两者的结合性质。
我们的设计虽然达成了与其功能,但是仍存在一些缺点和有待进一步探究的问题:
① 我们设计的神经网络虽然具有一定的泛化性能,但是仍然有待提高,因为在实际应用过程中,蛋白质与化合物之间能够反映的几率很小,也就是正负样本比例非常低,因此如果需要将模型投入实际应用,需要模型对于正样本具有很强的识别能力。
② 虽然间接的证明了我们对蛋白质和化合物的编码方式以及数据处理方式是有效的,但是无法分析这些编码方式和处理方式奏效的原因,如果能够分析这些原因,就可以有根据的对神经网络进行改进,从而提高性能,增加实际应用价值。

更多研电赛作品请查看2021年研电赛获奖作品合集

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/135763.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

更改 npm的默认缓存地址

npm的默认缓存一般在C:\Users\用户名\AppData\Roaming路径下的npm和npm_cache,而c盘往往空间不大。 1、在其他盘新建两个文件夹,如D盘,node_cache和node_global。如下图所示。 2、在cmd中执行npm config set prefix “node_cache的路径”&a…

关于AM5-DB低压备自投装置如何应用在某变电站项目的-安科瑞 蒋静

摘 要:随着电力需求的不断增加,电力系统供电可靠性要求越来越高,许多供电系统已具备两回或多回供电线路。备用电源自动投入装置可以有效提高供电的可靠性,该类装置能够在工作电源因故障断开后,自动且迅速地将备用电源投…

CF825G Tree Queries

CF825G Tree Queries 洛谷CF825G Tree Queries 题目大意 一棵树有 n n n个节点,初始时均为白色,有两种操作: 1 x表示把结点 x x x染成黑色1 x表示查询 x x x到树上任意一个黑色结点的简单路径上的编号最小的结点的编号 本题强制在线。输…

什么是进销存系统?有哪些流程?

这篇给大家详细介绍一下,到底什么是进销存系统,它的发展历程如何?企业该如何利用进销存系统获得竞争优势? 至于为什么越来越多的企业都选择进销存系统,让我们先来看一下这个实例。 假设有一家零售超市,他…

目标跟踪(DeepSORT)

本文首先将介绍在目标跟踪任务中常用的匈牙利算法(Hungarian Algorithm)和卡尔曼滤波(Kalman Filter),然后介绍经典算法DeepSORT的工作流程以及对相关源码进行解析。 目前主流的目标跟踪算法都是基于Tracking-by-Detec…

PBJ | IF=13.8 利用ChIP-seq和ATAC-seq技术揭示MdRAD5B调控苹果耐旱性的双重分子作用机制

2023年10月24日,西北农林科技大学园艺学院管清美教授团队在Plant Biotechnology Journal(最新IF:13.8)上发表题为“The chromatin remodeller MdRAD5B enhances drought tolerance by coupling MdLHP1-mediated H3K27me3 in apple…

计算机网络期末复习-Part1

1、列举几种接入网技术:ADSL,HFC,FTTH,LAN,WLAN ADSL(Asymmetric Digital Subscriber Line):非对称数字用户线路。ADSL 是一种用于通过电话线连接到互联网的技术,它提供…

Spring定时器是否影响性能

Spring定时器是否影响性能 在Spring中,定时器可以使用不同的技术实现,例如Java自带的Timer类、Spring自带的TaskScheduler、Quartz等。无论使用哪种技术实现,定时器的确会对系统性能产生一定的影响。具体来说,定时器会创建一个或…

安卓系统手机便签app使用哪一款?

在现代快节奏的生活中,我们经常会遇到各种繁忙的事务和容易遗忘的备忘事项。为避免大家遗忘重要的事情,大家可以在常用的手机上安装记录备忘事项的工具,为了帮助安卓用户高效地记录和管理这些信息,今天我将向大家推荐一款功能强大…

关于炒股融资的条件,3个你不知道的小知识

随着投资者对股市的关注度不断提高,炒股融资成为了常见的投资方式,但是很多投资者对炒股融资的条件了解不够。下面给大家介绍三个你可能不知道的小知识。 融资比例的计算方式 融资比例指的是投资者可以借的资金比例,其计算方式是融资金额除以…

阿里云oss迁移到AWS S3

这里写自定义目录标题 0.项目背景1.rclone 方式2.rsync方式3.注意 0.项目背景 公司迁移要求:从阿里云oss到亚马逊s3,数据量大概500G-2T左右。 开启阿里云oss 加速模式,这样能够跨机房和区域加速。 主要采用以下两种方式同步数据,…

uniapp小程序接入腾讯云【增强版人脸核身接入】

文档地址:https://cloud.tencent.com/document/product/1007/56812 企业申请注册这边就不介绍了,根据官方文档去申请注册。 申请成功后,下载【微信小程序sdk】 一、解压sdk,创建wxcomponents文件夹 sdk解压后发现是原生小程序代…

程序员副业之路,今天花几分钟提现了18.1元,感觉认真做收益还是不错的

干客户端这么多年了,越来越觉得力不从心了,以前加班到半夜,睡一觉第二天又生龙活虎继续干,现在时常感叹:年轻就是好呀,有使不完的劲,就像下面这位兄弟这样,跪着都能给你把代码写完。…

对一个以“#”结束的字符串

本题要求编写程序,对一个以“#”结束的字符串,将其小写字母全部转换成大写字母,把大写字母全部转换成小写字母,其他字符不变输出。 输入格式: 输入为一个以“#”结束的字符串(不超过30个字符)…

Halcon如何使用SaperaLT库连接dalsa相机

halcon安装好的时候,没有带SaperaLT的采集库,需要额外在Halcon官网下载此库。 以下是halcon官网下载此库的链接。官网需要注册才可以下载。 https://www.mvtec.com/downloads/interfaces?tx_mvtecproduct_extensiondownloadlist%5Bfilter%5D%5B0%5Dma…

CC1101 一款低功耗sub- 1ghz收发器芯片 适用于无线遥控智能家居

产品描述 CC1101是一个低成本的sub- 1ghz收发器,专为极低功耗的无线应用而设计。 该电路主要用于工业、科学和医学)和SRD (Short Range Device)频带,在315,433,868和915兆赫,但可以轻松可编程用于其他操作频率在300-348 MHz、387-464 MHz,以及779-928 MHz频段。射…

linux服务器超简单安装配置nginx

1.更新软件源索引并安装 Nginx 对于 CentOS/RHEL: sudo yum update sudo yum install nginx 对于 Ubuntu/Debian: sudo apt update sudo apt install nginx 2.启动 Nginx sudo systemctl start nginx 3.设置 Nginx 开机自启动 sudo systemctl enable nginx 此时 N…

Vulnhub靶场之Funbox

正如该靶场的描述所说,它对初学者来说非常简单。 项目地址:Funbox: Scriptkiddie ~ VulnHub 所需工具: KaliLinux即可。 0x00 信息收集 打开虚拟机后使用nmap扫描一下网段存活,这里我给的虚拟机的范围是100-253,其中kali的IP是10…

16 _ 二分查找(下):如何快速定位IP对应的省份地址?

通过IP地址来查找IP归属地的功能,不知道你有没有用过?没用过也没关系,你现在可以打开百度,在搜索框里随便输一个IP地址,就会看到它的归属地。 这个功能并不复杂,它是通过维护一个很大的IP地址库来实现的。地址库中包括IP地址范围和归属地的对应关系。 当我们想要查询202…

uniapp在不需要后端数据的情况下 怎么记录用户进一次记录一次

目录 前言&#xff1a; html部分 js部分 完整代码 前言&#xff1a; 一时兴起&#xff0c;不喜勿喷&#xff0c;今天听到了这个问题想到了一个方法&#xff0c;解决方式如下。 html部分 他用于显示访问次数&#xff08;visitCount变量的值&#xff09;。 <template&…