分子AI预测赛Task2笔记

下面所述比较官方的内容都来自官方文档

‍‌⁠‌‍​​​‌​​⁠​​​​​​​​‍‬​​‍⁠‍‍​​‬​‌​​​‌‍‬​​​​​​‍‌Task2:赛题深入解析 - 飞书云文档 (feishu.cn)

赛题背景

  • 强调了人工智能在科研领域,特别是在化学和药物研发中的重要性。

  • 指出了PROTACs技术在靶向降解目标蛋白质方面的潜力。

赛题任务

  • 要求选手使用提供的demo数据集,这个数据集包含了多个与PROTACs降解能力相关的字段。

  • 允许选手通过数据增强或自行搜集数据来扩充数据集,并自行划分数据集用于训练和验证模型。

赛题提供的数据比较有限,仅有几百条,如果能搜索出合适的数据扩充数据集将会是很大的提升,当然数据的搜索也是非常困难的。

数据字段理解

赛题介绍部分并没有给出关于数据字段的具体介绍,所以这里对每个数据字段进行解释:

  • 数据集包含了多个字段,uuid(唯一标识符)、Label(降解能力的标签,0表示降解能力较差,1表示降解能力好)UniprotTargetE3 ligasePDB等,这些都是与PROTACs分子相关的信息。

  • 还包括了降解能力相关的数值指标,如DC50(半数降解浓度)、Dmax(最大降解效率)、IC50(半抑制浓度)、EC50(半有效浓度)等。

  • 还包括了与分子物理化学性质相关的字段,如Molecular Weight(分子量)、Exact Mass(精确质量)、XLogP3(预测的脂水分配系数)等。

具体说明如下:

  • UUID: 一个唯一的标识符,用于识别数据记录。

  • Label: 可能指的是化合物或数据集的标签或名称。

  • Uniprot: 一个蛋白质数据库,提供关于蛋白质序列、结构和功能的信息。

  • Target: 目标蛋白,即PROTACs设计来降解的特定蛋白质。

  • E3 ligase: E3连接酶,一种在泛素化过程中扮演角色的酶,帮助标记蛋白质以供降解。

  • PDB: 蛋白质数据银行,一个包含蛋白质和核酸结构的数据库。

  • Name: 化合物的名称。

  • Smiles: 一种表示分子结构的字符串格式。

  • DC50 (nM): 半最大降解浓度,即达到最大降解效果一半时的化合物浓度。

  • Dmax (%): 最大降解效率,表示化合物能实现的最大降解效果的百分比。

  • Assay: 实验方法,这里可能指的是用于测定DC50、Dmax等的实验。

  • Percent degradation: 分子降解的百分比。

  • IC50 (nM, Protac to Target): 半最大抑制浓度,针对PROTACs与其目标蛋白的复合物。

  • EC50 (nM, Protac to Target): 半最大有效浓度,即达到一半最大生物效应的浓度。

  • Kd (nM, Protac to Target): 解离常数,表示PROTACs与其目标蛋白复合物的结合强度。

  • Ki (nM, Protac to Target): 抑制常数,用于描述抑制剂与酶的结合强度。

  • delta G, delta H, -T*delta S: 分别表示结合反应的吉布斯自由能变化、焓变和熵变,这些热力学参数用于描述分子间相互作用的能量状态。

  • kon, koff: 分别表示分子结合和解离的速率常数。

  • t1/2 (s, Protac to Target): 半衰期,即分子浓度减少到初始浓度一半所需的时间。

  • Assay (Protac to Target, kon/koff/t1/2): 可能是指测定结合和解离速率常数以及半衰期的实验方法。

接下来的部分讨论了与E3连接酶的相互作用,以及形成的三元复合物(目标蛋白、PROTACs、E3连接酶)的类似参数。

  • IC50, EC50, Kd, Ki: 与三元复合物相关的参数,与前面提到的类似,但这里特指三元复合物。

  • delta G, delta H, -T*delta S: 描述三元复合物的热力学参数。

  • kon, koff, t1/2: 描述三元复合物的动力学参数。

最后,描述了与细胞活性相关的参数,包括:

  • IC50, EC50, GI50, ED50, GR50: 这些参数描述了化合物在细胞水平上的活性,如半最大抑制浓度、半最大效应浓度等。

  • PAMPA Papp: 一种评估药物分子在仿生膜上的通透性的方法。

  • Caco-2 A2B/B2A Papp: 使用Caco-2细胞系评估药物分子的肠道吸收能力。

  • Article DOI: 文章的数字对象标识符,用于唯一标识科学文献。

  • Molecular Weight, Exact Mass: 分子量和精确质量。

  • XLogP3: 预测的辛醇/水分配系数,用于预测脂溶性。

  • Heavy Atom Count, Ring Count: 重原子数和环的数量。

  • Hydrogen Bond Acceptor/Donor Count: 氢键受体/供体计数。

  • Rotatable Bond Count: 可旋转键的数量。

  • Topological Polar Surface Area: 拓扑极性表面积。

  • Molecular Formula, InChI, InChI Key: 分子式、国际化学标识符及其密钥。

其中将对Smiles、Assay (DC50/Dmax)、Assay (Protac to Target, IC50)、Assay (Cellular activities, IC5、Article DOI、InChI展开介绍。

Smiles结构如下:

NC1=NC=NC2=C1C(C1=CC=C(OC3=CC=CC=C3)C=C1)=NN2[C@@H]1CCCN(C(=O)C2=CN(CCOCCOCCOCCCC3=CC=CC4=C3CN(C3CCC(=O)NC3=O)C4=O)N=N2)C1

Smiles是一种用于描述化学结构的文本字符串,它能够被用于输入化学信息学软件。

这个特定的Smiles字符串代表了一个含有多个环和官能团的有机分子。下面是这个分子结构的一些特征:

  • NC1=NC=NC2:表示一个含氮的六元环结构,可能是一个吡啶环。

  • C1C(C1=CC=C(OC3=CC=CC=C3)C=C1):表示一个苯环(OC3=CC=CC=C3),该苯环通过一个碳原子连接到另一个苯环。

  • =NN2:表示一个氮氮双键。

  • [C@@H]1CCCN:表示一个手性中心,碳原子1连接到一个氮原子,并且有一个手性标记@@H

  • (C(=O)C2=CN(CCOCCOCCOCCCC3=CC=CC4=C3CN(C3CCC(=O)NC3=O)C4=O)N=N2):这是一个复杂的部分,包含一个羰基(C(=O)),一个烯醇胺结构,以及多个碳链和连接的氮原子。

这个Smiles字符串代表的分子可能是一种生物活性分子,例如一种药物或生物分子。由于其复杂性,通常需要专业的化学信息学软件来解析和可视化这种结构。

Assay (DC50/Dmax)结构如下:

'Degradation of IRAK4 in HEK293T cells after 24 h treatment' 'Degradation of HDAC3 in MDA-MB-468 cells after 14 h treatment'

在生物测定和药物发现领域,"Degradation of IRAK4 in HEK293T cells after 24 h treatment" 和 "Degradation of HDAC3 in MDA-MB-468 cells after 14 h treatment" 描述了两种不同的实验情境。下面是对这些信息的解释:

  1. Degradation of IRAK4 in HEK293T cells after 24 h treatment:

    1. 这指的是在实验中,IRAK4(白细胞介素-1受体相关激酶4)在HEK293T细胞系中的降解情况。HEK293T是一种常用的人类胚胎肾细胞系,经常用于分子生物学和细胞生物学实验。

    2. "24 h treatment" 表示这些细胞在实验中被处理(可能是某种药物或化合物)持续了24小时。

  2. Degradation of HDAC3 in MDA-MB-468 cells after 14 h treatment:

    1. 这描述了HDAC3(组蛋白去乙酰化酶3)在MDA-MB-468细胞系中的降解情况。MDA-MB-468是一种人类乳腺癌细胞系。

    2. "14 h treatment" 表示这些细胞在实验中被处理持续了14小时。

  3. Assay (DC50/Dmax):

    1. 这可能指的是一种实验测定方法,用于评估化合物对蛋白质降解的影响。

    2. "DC50" 可能是指半最大降解浓度(Degradation Concentration 50),即导致蛋白质降解达到最大值一半的化合物浓度。

    3. "Dmax" 可能是指在实验条件下可观察到的最大降解效果。

    4. "Assay (DC50/Dmax)" 可能是一个比率或关系,用来量化化合物诱导的蛋白质降解效率。

在药物筛选和细胞生物学实验中,这类信息对于评估化合物的潜在药效和毒性至关重要。通过测量特定蛋白质的降解情况,研究人员可以了解化合物对细胞功能的影响,并进一步研究其作用机制。

InChI结构如下:

InChI=1S/C47H61N7O6S/c1-7-26-49-53-44(58)36-20-16-33(17-21-36)34-22-24-37(25-23-34)51-40(56)12-10-8-9-11-13-41(57)52-43(47(4,5)6)46(60)54-28-38(55)27-39(54)45(59)50-30(2)32-14-18-35(19-15-32)42-31(3)48-29-61-42/h14-25,29-30,38-39,43,49,55H,7-13,26-28H2,1-6H3,(H,50,59)(H,51,56)(H,52,57)(H,53,58)/t30-,38+,39-,43+/m0/s1

InChI(国际化学标识符)是一种用于唯一标识化学化合物的标准化字符串。它由一系列部分组成,提供了关于分子结构的详细信息。下面是对提供的InChI字符串的详细解释:

  1. 开头标识

    1. InChI=1S/ 开头的 1S 表示这是一个标准InChI字符串。

  2. 分子式

    1. C47H61N7O6S 表示该化合物的分子式,包含47个碳原子(C)、61个氢原子(H)、7个氮原子(N)、6个氧原子(O)和1个硫原子(S)。

  3. 连接表

    1. /c1-7-26-49-53-44(58)36-20-16-33(17-21-36)34-22-24-37(25-23-34)51-40(56)12-10-8-9-11-13-41(57)52-43(47(4,5)6)46(60)54-28-38(55)27-39(54)45(59)50-30(2)32-14-18-35(19-15-32)42-31(3)48-29-61-42/ 这部分是连接表,描述了原子在分子中的连接顺序和方式。

  4. 氢原子计数

    1. h14-25,29-30,38-39,43,49,55H 表示在这些碳原子上附加的氢原子数量。

  5. 多可旋转键计数

    1. 7-13,26-28H2 表示在这些碳原子之间有两个氢原子,可能形成可旋转键。

  6. 立体化学信息

    1. (H,50,59)(H,51,56)(H,52,57)(H,53,58) 表示分子中存在多个手性中心,每个手性中心由一对氢原子标记。

  7. 同分异构体信息

    1. /t30-,38+,39-,43+ 表示分子中某些碳原子的立体化学构型,如 30- 表示一个向下的楔形表示的碳原子,38+ 表示一个向上的楔形表示的碳原子。

  8. 混合物或互变异构体信息

    1. /m0 表示这是一个单一的化合物,没有互变异构体。

  9. 电荷和自旋多重度信息

    1. /s1 表示分子的电荷和自旋多重度信息,这里 s1 表示单线态。

  10. 结束标识

    1. InChI字符串以 / 结尾。

InChI提供了一种非常详细的化学结构表示方法,使得不同的化学信息学软件能够准确无歧义地解析和理解分子结构。通过InChI,研究人员可以确保在不同的数据库和软件平台之间准确交换化学结构信息。

预测目标

  • 选手需要预测PROTACs的降解能力,具体来说,就是预测Label字段的值。

  • 根据DC50Dmax的值来判断降解能力的好坏:如果DC50大于100nM且Dmax小于80%,则Label为0;如果DC50小于等于100nM或Dmax大于等于80%,则Label为1。

参考资料

  1. 药物化学与PROTACs相关文献

    1. "Targeted Protein Degradation by Small Molecules" (综述PROTACs的原理和应用)

    2. "The Role of E3 Ligases in Targeted Protein Degradation" (关于E3连接酶在蛋白质降解中的作用)

  2. 生物信息学与化学信息学资源

    1. RDKit官方文档:一个开源化学信息学软件库,用于处理化学分子和相关数据。http://rdkit.chenzhaoqiang.com/index.html

    2. Biopython官方文档:用于生物计算的Python库。https://biopython-cn.readthedocs.io/zh-cn/latest/

其中RDKit库可以帮助处理SMILES字符串,如下代码可以将SMILES转换为分子对象,然后进行分子结构绘制

from rdkit import Chem  # 导入Chem模块,它包含了处理分子表示的功能。
from rdkit.Chem import AllChem, Draw # 从Chem模块中导入AllChem和Draw子模块。AllChem提供了额外的化学功能,如2D和3D坐标生成、分子性质计算等。Draw模块则用于绘制分子结构图。# SMILES字符串
smiles = "NC1=NC=NC2=C1C(C1=CC=C(OC3=CC=CC=C3)C=C1)=NN2[C@@H]1CCCN(C(=O)C2=CN(CCOCCOCCOCCCC3=CC=CC4=C3CN(C3CCC(=O)NC3=O)C4=O)N=N2)C1" # SMILES(Simplified Molecular Input Line Entry System)是一种用于描述化学物质结构的简化线性文本表示法。# 3 将SMILES转换为分子对象
mol = Chem.MolFromSmiles(smiles) # 将SMILES字符串转换成RDKit中的Mol对象,这是RDKit中表示分子的核心数据结构。
# 4检查分子是否有效
if mol is None: print("The SMILES string is invalid.")# 如果转换失败,mol将会是None。这种情况下,代码会打印出"The SMILES string is invalid."(SMILES字符串无效)
else:print("The molecule was parsed successfully.") #如果转换成功,代码将打印出"The molecule was parsed successfully."(分子已成功解析)。# 绘制分子结构molDrawer = Draw.MolToMPL(mol) # 使用Draw模块中的MolToMPL函数来将分子对象转换为matplotlib图形对象。molDrawer.show() # 显示生成的分子结构图。

 

个人感悟 

  • 上面内容从头看到尾,字都认识,但是由于术语太专业,合起来就看不懂了
  • 大致了解了所有子段的意思,明白了上次的运行结果文件里的字段label里面的0和1的意思
  • 应该是基于其他字段的信息构建模型,从而预测PROTACs的降解目标蛋白质方面的潜力
  • 感觉还是需要化学生物学方面的知识

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/39432.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

苹果电脑废纸篓数据被清空了,有什么方法可以恢复吗?

使用电脑的用户都知道,被删除的文件一般都会经过回收站,想要恢复它直接点击“还原”就可以恢复到原始位置。mac电脑同理也是这样,但是“回收站”在mac电脑显示为“废纸篓”。 苹果电脑废纸篓数据被清空了,有什么方法可以恢复吗&am…

java反射和注解

反射 获取class对象的三种方法 ①:Class.forName("全类名"); ②:类名.class ③:对象.getclass(); 代码样例 package com.ithema;public class Main {public static void main(String[] args) throws ClassNotFoundException {//第…

基于Canvas的Html5多时区动态时钟实战

目录 前言 一、关于Canvas技术 1、Canvas是什么 2、Canvas的属性及渲染特性 二、Canvas动态多时区展示 1、新建html页面 2、创建Canvas对象 3、绘制所有的时钟 总结 前言 出差旅行相信大家一定会住酒店,大家在酒店的前台进行预订的时候,是不是都…

centos执行yum相关命令报错的可能原因

文章目录 1. 执行yum命令是报下面一大帕拉2. 安装某个包报错,找不到这个包 1. 执行yum命令是报下面一大帕拉 最后一行报错,在repo文件中找不到空baseurl:xxx / x86_64 执行这行命令把这个找不到的 xxx 禁掉即可sudo yum-config-manager --di…

【项目日记(三)】搜索引擎-搜索模块

❣博主主页: 33的博客❣ ▶️文章专栏分类:项目日记◀️ 🚚我的代码仓库: 33的代码仓库🚚 🫵🫵🫵关注我带你了解更多项目内容 目录 1.前言2.项目回顾3.搜索流程3.1分词3.2触发3.3去重3.4排序3.5包装 4.总结 1.前言 在前…

虚拟机USB——解决每次插U盘都得选择连接到主机还是虚拟机问题

虚拟机USB——解决每次插U盘都得选择连接到主机还是虚拟机问题 1.编辑–>首选项–> 2.如果想每次插U盘都连接到主机就选“将设备连接到主机” 如果想每次插U盘都进行选择,就选择“询问要执行的操作”

在 Mac 上使用 本地 LLM 文本终结

我们可使用本地大型语言模型,如Mistral、Llama等,来给文本做总结,相比在线的 Kimi ,ChatGPT, 我们不用担心数据泄露,因为整个操作都是在本地电脑完成的。 我们用 ollama 举例 首先安装 ollama https://ol…

数组-二分查找

二分查找 leetcode704 /*** param {number[]} nums* param {number} target* return {number}*/ var search function(nums, target) {let left 0, right nums.length - 1;while (left < right) {const mid Math.floor((right - left) / 2) left;const num nums[mid]…

SpringSecurity中文文档(体系结构).md

体系结构&#xff08;Architecture&#xff09; 本节讨论基于 Servlet 的应用程序中 Spring Security 的高级体系结构。我们将在参考文献的身份验证、授权和防止利用部分中构建这种高层次的理解。 过滤器的综述 &#xff08;A Review of Filters&#xff09; Spring Securit…

实现WebSocket聊天室功能

实现WebSocket聊天室功能 什么是WebSocket&#xff1f;WebSocket的工作原理服务器端实现客户端实现 在现代Web开发中&#xff0c;实时通信已经变得越来越重要。传统的HTTP协议由于其无状态和单向通信的特点&#xff0c;无法很好地满足实时通信的需求。而WebSocket协议则应运而生…

【讨论C++继承】

讨论C继承 继承定义继承方式和访问限定符 基类和派生类的赋值转换继承中的作用域派生类的默认成员函数继承和友元继承和静态成员菱形继承虚拟继承 继承是面向对象程序设计中&#xff0c;使代码可以复用的重要手段&#xff0c;它允许程序员在保持原有类特性的基础上进行扩展。 继…

【ONLYOFFICE】| 桌面编辑器从0-1使用初体验

目录 一. &#x1f981; 写在前面二. &#x1f981; 在线使用感受2.1 创建 ONLYOFFICE 账号2.2 编辑pdf文档2.3 pdf直接创建表格 三. &#x1f981; 写在最后 一. &#x1f981; 写在前面 所谓桌面编辑器就是一种用于编辑文本、图像、视频等多种自媒体的软件工具&#xff0c;具…

算法训练营day24--93.复原IP地址 +78.子集 +90.子集II

一、93.复原IP地址 题目链接&#xff1a;https://leetcode.cn/problems/restore-ip-addresses/ 文章讲解&#xff1a;https://programmercarl.com/0093.%E5%A4%8D%E5%8E%9FIP%E5%9C%B0%E5%9D%80.html 视频讲解&#xff1a;https://www.bilibili.com/video/BV1fA4y1o715 1.1 初…

d3dcompiler_47.dll缺失怎么修复?d3dcompiler_47.dll修复使用说明

d3dcompiler_47.dll是一个重要的系统文件&#xff0c;属于MicrosoftWindows操作系统中Direct3D的一部分&#xff0c;它主要负责处理在Windows上运行的应用程序和游戏中的3D图形编程。这个DLL文件是“DirectX”的一项组成部分&#xff0c;DirectX是一套核心技术&#xff0c;用于…

13-Django项目--文件上传

目录 前端展示 路由: 数据库字段: 函数视图: 前端展示 {% extends "index/index.html" %}{% block content %}<div class"container"><input type"button" id"btnAdd" value"上传荣耀" class"btn btn-succ…

Oracle 集群的守护进程

ohas&#xff1a;主要用于守护cluster ware进程&#xff0c;在单节点建立集群的时候&#xff0c;没有crs&#xff0c;只有ohas、cluster ware GPnP&#xff1a;管理clusterware的配置信息&#xff0c;放在本地磁盘上 crs&#xff1a;管理clusterware中的资源&#xff0c;数据库…

成功解决ES高亮内容引起的字段显示不一致问题

在处理搜索引擎&#xff08;如Elasticsearch&#xff09;结果时&#xff0c;常见需求之一是对用户搜索的关键词进行高亮显示&#xff0c;这有助于用户快速识别搜索结果为何与其查询相关。但在实际应用中&#xff0c;如果处理不当&#xff0c;直接使用高亮片段可能会导致原始数据…

A股站不稳3000点让人稀罕不已啊

今天的A股&#xff0c;让人稀罕不已&#xff0c;你知道是为什么吗&#xff1f;盘面出现2个重要信号&#xff0c;一起来看看&#xff1a; 1、今天两市冲了下3000点&#xff0c;第一个主题炒作的热点终于出现了&#xff0c;税改方向的行情发酵&#xff0c;并带动着其他改革相关方…

echarts的折线图实现部分虚线部分实线

场景&#xff1a; 折线图一般都是实线为准&#xff0c;但是由于最后一个数据是预测。所以想要实现最后一段为虚线。 效果图&#xff1a; 具体实现&#xff1a; series:[{name: "销售总金额",type: "line",smooth: true,barWidth: 10,stack: Total,itemSty…

Ubuntu下反弹shell的思考

目录 Ubuntu的命令执行环境 bash (Bourne Again SHell): sh (Bourne SHell): dash (Debian Almquist SHell): 它们之间的关系&#xff1a; 可能遇到的问题 一、脚本权限问题 二、命令执行环境(shell解释器)问题 如何解决&#xff1f; 1.修改/bin/sh软连接的指向为bas…