AI+药物研发:人工智能赋能新药研发(人工智能应用案例)

首先,生物制药行业面临着两个挑战:
第一,新药研发周期很长且非常复杂;
第二,药物研发过程成本昂贵。在1950年的时候,十亿美元可以研发几十个药,到了2020年之后,十亿美元只能研发一个药(如下图),所以就需要大量的投入。

在这里插入图片描述

随着对药物审批过程的要求越来越严格,对药物副作用的要求越来越高,使得新药的研发变得越来越慢。如果我们能把研发时间减半,成本减半,再加上巨大的市场需求,这个领域是具有广阔前景的,所以最近很多投资或者AI方面的研究,都在朝着这个方面发展。

之所以会如此有挑战,是因为背后复杂数据,或者复杂的生物机理造成的。如果我们能够对复杂的数据与机理进行更好的分析研究,也许我们就可以把时间与成本减半。
在这里插入图片描述

那为什么这么复杂。首先人体是非常复杂且多尺度的网络,有各种各样不同类型的器官(上图),不同的器官有它自己的疾病,但是器官绝对不是一个独立的个体,它是一个网络,一个系统。如果你看单个器官,里面有各种各样类型的细胞,它们之间互相交互,互相传递信息协同,才能完成一个器官的功能。不同的细胞之间有信号串扰,有各种各样的细胞因子,它们之间会影响彼此,每个细胞有不同的功能和形态才能产生它的方式,所以组织层面是非常复杂的细胞网络。

如果单看一个细胞,里面也是有很复杂的网络构成,细胞里面经常提供的是蛋白质,可能在细胞膜上,也可能在细胞里面,这些蛋白质不是以独立个体的形式在工作,而是通过互相作用的方式来产生功能。比如:在细胞膜表面蛋白,在接受外界的刺激后,会把信号传递到细胞里面,通过一个非常复杂的网络来实现某种机理,比如说,分泌更多的某种物质,或者是产生更多的能量,甚至回过去调控基因的表达,让某种蛋白变的更多。

我们要理解并治疗某个疾病,就要多尺度多角度的考虑,既要看组织层面,又要看分子层面,并找到疾病的靶点,才能有针对性的进行治疗。

现阶段很难对人体的各个维度的数据同时做一个精准的测量,因为需要同时对各个尺度采集数据。在整个个体层面,有各种各样很大的数据,且数据量增长速度比摩尔定律还要快。

所以可以想象,这么大量且复杂的多尺度的数据,要对它进行分析,并从中间抽取非常微妙的信号来理解疾病,寻找疾病的靶点,目前已经超越了传统的生物学家或者是医学家的手工分析工具的能力,所以他们会需要基于AI的方法,基于大数据分析的方法,能够把各种各样的数据进行某种整合、分析,从中间抽取一些信息。自动化该过程,才有可能跟上数据的复杂程度和数据的量,然后从中间找到一些有用的信号。

通过分析数据和多样的模型,可以对各种各样的东西做预测,比如:可以预测这个蛋白是不是疾病的靶点,扰动这个细胞,是否会产生某种现象?这些都可以通过模型预测,但预测完后,还需要做试验,比如说细胞的实验,去验证模型的预测是不是正确。

这也是这个领域的一个挑战,传统的生物实验室是一个非常开环的环境。首先实验人员对细胞进行某个扰动,再去测量这个细胞状态的变化,收集各种各样的数据。在这个过程之后,会有几个分析人员,拿到实验室做个简单的分析,交给实验室主任或者教授来判断并决定下一个实验。这个过程虽然是一个闭环的过程,但这个闭环的速度很慢,可能是几周时间甚至更长时间。

我们可以把生物实验的环境和推荐系统做一个对比,很多互联网公司很多情况下得益于推荐系统非常精准的推荐及推荐系统高效的迭代。如果把这个推荐系统对用户展示的前端页面看成是个实验环节,推荐系统的前端可以展示推荐算法和模型推荐的产品,在展示之后,可能这个APP有几亿人在用,如果推荐算法推荐得好,就能看到推荐产品的人,在很短的时间内点击购买推荐的产品。如此,就知道这个推荐算法好坏与否,如果推荐的东西没有被点击没有被购买的话,可能是推荐算法不太好。所以,无论用户是否点击了推荐产品,都会是一种隐含的的反馈,这些数据都会存在这个APP或对应的数据中台里面,可能隔夜或者隔周要迭代推荐算法模型,当这个模型迭代以后,会很快更新上线,然后会做一个更新的推荐。如果能把实验的环节和数据分析以及决策的过程,更加好的闭环自动化,也许会有更高效的方式去验证并发现一些新的靶点或者新的药物。

如果能够建立一个平台,使AI和实验环境如推荐系统高效跑起来,实验的数据可以自动落到数据中台,包括生物实验的实验基数据,及部分图像数据或其他数据,都能落到中台的话,就会有一组AI模型对各种类型的数据进行分析,以及对这些数据进行整合,产生新的预测, 进而推进实验(下图)。
在这里插入图片描述

除此之外,我们不仅有自己的湿实验平台及实验平台和AI模型闭环的系统,还会对很多前人已经研究的成果进行一个集成,因为过去几十年的生物信息学和计算生物学研究过程,已经产生了非常多的公开数据,包括如蛋白质相互作用的数据,及基因表达数据,我们都会整合到知识库里。

我们的卓越计划中,也会和部分国内的大医院合作,去收集针对某个疾病设计的一些队列数据。

这个大模型涉及到三个问题:

第一,如何发现一个药物靶点?
第二,如何针对某一个已经发现的药物靶点,做一个对应的药物优化?

第三,如果要做实验,在实验平台里面产生数据如何分析,包括图像数据的分析。

基于以上,今天我主要从靶点发现、药物优化、验证三个方向阐述。

首先,靶点发现(下图)。
在这里插入图片描述

其实刚才我也提到,理解一个疾病发现一个靶点,实际上我们要分析复杂的多尺度的系统。通常情况下,描述复杂系统最好的方式就是复杂网络,在细胞层面的复杂网络每个节点就是一个蛋白质,它们是连接成一个非常复杂的网络,这个蛋白质被激活可能去激活其他的蛋白质,然后其他几个一起形成一个复合体以完成某种功能,这个图比互联网的人与人之间的交互图更加复杂,它叫做超图,它的每条边并不是只涉及两种蛋白质,有可能是几个蛋白质一起形成新的相互作用,才能产生后面的功能,因此是一个复超图。如果要分析某个节点是不是一个区分癌症组织和正常组织的蛋白质或者生物标志物。以及假设激活或抑制一个蛋白质会带来怎样的下游效应,这些都是和靶点相关的预测问题。

可以想象,他的输入是一个复杂的的超图,它有超图上的各种各样的分类问题或者是预测,甚至是回归问题。甚至预测组合效应如果我同时按下两个按钮,它会产生什么样的影响?

超图是一种类型,对于每一种类型的数据,包括蛋白质,RNA还有基因序列,可以做实际数量的测量,比如:蛋白质在这个细胞里面有多少,基因表达了多少,这个序列的三维组织结构是怎样的。这些信息可以映射回这个网络里面每个节点上的。所以,除了超图连接上的复杂之外,每个图的节点也蕴含着非常复杂的信息,可以想象很多做社交网络分析的一些方法,被扩展或者修改甚至进行一些新的创建,才能分析这种复杂的这种超图结构。

在这里插入图片描述

其次,假如你已经发现了一个靶点(上图),发现其中某个蛋白质是关键节点并希望能激活,抑制它,就需要设计一个药物来做这件事。靶点在细胞内,你需要一个小分子进入到细胞里面去,如果这个靶点是在膜蛋白或者在细胞膜表面,你要用另外一种蛋白的方式去激活或者抑制它。很多情况下蛋白质工作与否,实际上是和它的三维结构很大关系。蛋白质一开始的时候是一条序列,细胞里面涉及的分子不管是DNA RNA还是蛋白质甚至小分子它都有对应的三维结构。火爆的AF2就是根据蛋白质序列预测蛋白质的三维结构。假如我们对三维结构有很好了解之后,我们就可以对它的功能有更加准确的理解。因为蛋白质和蛋白质之间的相互作用,其功能是因为两个蛋白质有一种像钥匙和锁的一个关系,它们只有能够对上且对得很好的情况下,它的功能才会被完全发挥出来。

在这里插入图片描述

最后,我想讲一下(上图),这方面涉及到的一些问题和挑战。我们的实验平台,会产生大量的图像数据。它们不单单是单个细胞图像数据,有可能混合几种不同的细胞,而且这个细胞它可能不单单是一个黑白的图像,也有可能是一个有6种颜色的图像,是一个叫高内涵的图像。在这种情况下要对它做各种各样的,比如说细胞的检测,它的分割及形态的描述,然后进行各种各样的更加细致的分析。所以很多细胞视觉研发思路甚至最先进的研发思路都在做这个。除此之外,实验的平台是和AI模型有个闭环,所以如何把AI的模型的预测结果来指导实验的下一步,也有很多AI或者机器学习的算法可以去探索,包括主动学习,贝叶斯优化或者是在线学习各种各样的方法。可以想象,都会在AI模型和实验闭环中产生非常大的作用,比如减少实验的次数。每次实验产生的信息足够多,就能够帮助更快地发现一些有效的药物,发现一个合理的靶点。

在处理这些实验的数据时,有的情况下会叫人来打标。它需要有生物背景本科或者博士生医学背景的这些人员才可以。如果能够使用尽量少的打标数据或者有选择性的打标,很快能够得到一个比较精确的模型。

那如何让AI模型和人一起产生协同作用,能够把任务做得更好,就可以尝试把模型迭代更新与打标人员放在一起,建立系统,让模型提出一些候选对象,然后让人员对这个候选对象或者不同水平的人员,对不同的打标需求做匹配。

讲了这么多,结束前我想回到复杂系统。每个复杂网络节点的结构的数据分析,及各种各样的AI问题,需要各种类型的AI人才去合作,去理解这个疾病,才能把这个靶点和这个药物找到。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/347306.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

具有CDI和lambda的策略模式

策略设计模式在运行时动态选择一种实现算法,一种策略。 该模式可用于根据情况选择不同的业务算法。 我们可以将不同的算法实现定义为单独的类。 或者,我们利用Java SE 8 lambda和函数,它们在此处充当轻量级策略实现。 CDI能够注入参数化类型…

计算圆周率π的C++实现(任意精度)

π\piπ的计算公式 代码 #include <iostream> #include <corecrt_math_defines.h> #include <iomanip>double compute_pi(int N) //计算pi函数 {double dx 1.0 / N;double pi 0;for (int i 1; i < N; i){pi 2 * sqrt(1 - i * dx*i*dx); // 积分函数}…

第十一届蓝桥杯A组省赛填空试题 D: 七段码(Java)

试题 D: 七段码 本题总分&#xff1a;10 分 【问题描述】 小蓝要用七段码数码管来表示一种特殊的文字。 上图给出了七段码数码管的一个图示&#xff0c;数码管中一共有 7 段可以发光的二极管&#xff0c;分别标记为 a, b, c, d, e, f, g。 小蓝要选择一部分二极管&#xff0…

【弗雷泽岛发射站所需的最小发射功率计算】通信调制体制设计之64QAM性能分析MATLAB仿真及代码

关注公号【逆向通信猿】更精彩!!! 任务背景 弗雷泽岛旅游经理在审查您之前建立无线链路任务的解决方案时,正在研究使用无线链路传输实时安全视频源的可能性。由于来自岛周围的多个安全摄像机的视频信号在传输之前被多路复用,因此无线信道的数据速率是不同的。弗雷泽岛旅…

第十一届蓝桥杯A组省赛试题 F: 成绩分析(Java)

试题 F: 成绩分析 时间限制: 1.0s 内存限制: 512.0MB 本题总分&#xff1a;15 分 【问题描述】 小蓝给学生们组织了一场考试&#xff0c;卷面总分为 100 分&#xff0c;每个学生的得分都是 一个 0 到 100 的整数。 请计算这次考试的最高分、最低分和平均分。 【输入格式】 输…

基于代价函数小波脊相位的MFSK信号符号速率估计MATLAB仿真及代码(2020.12.14更新)

算法来源 王勇, 王李福, 邹辉,等. 一种小波脊相位提取方法: 中国专利. 仿真结果 引言 当前,脊点的选取较准确也较经典的方法是Liu等提出的里程碑式的基于代价函数的小波脊相位提取方法(即代价函数脊法),其利用代价函数来抑制噪声的影响,并结合动态规划的思想进行脊线的…

AI+社区智能管理,赋能智慧城市人情共「智」(人工智能应用案例)

社区是城市的关键组成部分&#xff0c;社区治理是围绕社区场景下的人、地、物、情、事的管理与服务。 随着城市化的快速推进及人口流动的快速增加&#xff0c;传统社区治理在人员出入管控、安防巡逻、车辆停放管理等典型场景下都面临着人力不足、效率低下、响应不及时等诸多难…

第十一届蓝桥杯A组省赛试题 G: 回文日期(Java)

试题 G: 回文日期 时间限制: 1.0s 内存限制: 512.0MB 本题总分&#xff1a;20 分 【问题描述】 2020年春节期间&#xff0c;有一个特殊的日期引起了大家的注意&#xff1a;2020年2月2日。因为如果将这个日期按 yyyymmdd 的格式写成一个8位数是 20200202 &#xff0c;恰好是一个…

多种参数的BCH、RS码和(2,1,6)卷积码编码的MATLAB仿真实现

欢迎同步关注公众号【逆向通信猿】 关于BCH码、RS码和卷积码的原理,可以查阅相关书籍资料,在此不多作赘述,有疑问可在下方留言。 MATLAB代码如下 clear;close all;clc; N=500; bit=randi([0 1],1,N);%% BCH码 %<

自同步扰乱编码器的原理与MATLAB仿真

欢迎同步关注公众号【逆向通信猿】 扰乱编码原理 在实际的数字通信中,由于语言统计特性和采用的信息编码方案等原因,信源输出序列普遍具有0、1不平衡性,即信息序列中比特 0 和比特 1 出现的概率并不是各占1/2且可能出现连续的“0”或连续的“1”,这不仅破坏了系统设计的前…

第十一届蓝桥杯A组省赛试题 H: 子串分值(Java)

试题 H: 子串分值 时间限制: 1.0s 内存限制: 512.0MB 本题总分&#xff1a;20 分 【问题描述】 对于一个字符串 S&#xff0c;我们定义 S 的分值 f(S) 为 S 中恰好出现一次的字符个数。例如 f(“aba”)1&#xff0c;f(“abc”)3, f(“aaa”)0。 现在给定一个字符串 S[0…n-1]…

java即时编译器_Java即时编译:不仅仅是一个流行词

java即时编译器最近的Java生产性能问题迫使我重新审视并真正欣赏Java VM即时&#xff08;JIT&#xff09;编译器。 大多数Java开发人员和支持人员都听说过这种JVM运行时性能优化&#xff0c;但是有多少人真正理解并欣赏它的好处&#xff1f; 本文将与您分享在添加新的虚拟服务…

[精品]CSAPP Bomb Lab 解题报告(一)

接上篇堆栈图解CSAPP Bomb Lab实验解析 gdb常用指令 设置Intel代码格式:set disassembly-flavor intel 查看反汇编代码:disas phase_1 查看字符串:(gdb) x/s 0x402800 0x402800: "Gunston"实验简介 浏览 bomb.c 文件可知,Bomb Lab 总共有 6 个关卡(Phase)…

MATLAB2021下载安装图文教程

微信公众号&#xff1a;创享日记 发送关键词&#xff1a;matlab 免费获取下面教程中的 Matlab_ R2021a(64bit) 安装包 前些天发现了一个巨牛的人工智能学习电子书&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;无广告&#xff0c;忍不住分享一下给大家。&#xff08;点…

如何在飞书自建项目中接入ChatGPT打造智能问答助手并远程访问

文章目录 前言环境列表1.飞书设置2.克隆feishu-chatgpt项目3.配置config.yaml文件4.运行feishu-chatgpt项目5.安装cpolar内网穿透6.固定公网地址7.机器人权限配置8.创建版本9.创建测试企业10. 机器人测试 前言 在飞书中创建chatGPT机器人并且对话&#xff0c;在下面操作步骤中…

Java中没有递归的二进制搜索–迭代算法

本周的任务是用Java实现二进制搜索 &#xff0c;您需要编写迭代和递归二进制搜索算法 。 在计算机科学中&#xff0c;二进制搜索或半间隔搜索是一种分而治之的算法&#xff0c;用于定位项目在排序数组中的位置。 二进制搜索通过将输入值与数组的中间元素进行比较来工作。 比较确…

“5G通达,AI赋能“ AI在网络规划中的应用实践(人工智能应用案例)

网络规划 与图像、语音这种&#xff0c;和日常生活息息相关的AI应用不同&#xff0c;在移动通信网络中的应用AI&#xff0c;其专业性较强。因此&#xff0c;首先简单介绍一下什么是网络规划&#xff1f; 简单来说&#xff0c;网络规划就是以合适的建网成本&#xff0c;确定站…

[精品]CSAPP Bomb Lab 解题报告(二)

接上篇[精品]CSAPP Bomb Lab 解题报告(一) gdb常用指令 设置Intel代码格式:set disassembly-flavor intel 查看反汇编代码:disas phase_1 查看字符串:(gdb) x/s 0x402800 0x402800: "Gunston"2. Phase 2: loops 2.1 本关密码 1 2 4 8 16 322.2 解题过程 %…

第十三届蓝桥杯A组省赛填空程序真题集

文章目录试题 A: 裁纸刀(填空)试题 B: 寻找整数&#xff08;填空&#xff09;试题 C: 求和试题 D: GCD试题 E: 蜂巢试题 F: 全排列的价值试题 G: 青蛙过河试题 H: 因数平方和试题 I: 最优清零方案试题 J: 推导部分和试题 A: 裁纸刀(填空) 本题总分&#xff1a;5 分 【问题描述…

[精品]CSAPP Bomb Lab 解题报告(三)

接上篇[精品]CSAPP Bomb Lab 解题报告(二) gdb常用指令 设置Intel代码格式:set disassembly-flavor intel 查看反汇编代码:disas phase_1 查看字符串:(gdb) x/s 0x402800 0x402800: "Gunston"3. Phase 3: conditionals / switches 3.1 本关密码 0 207, 1 3…