图谱实战 | 斯坦福黄柯鑫:图机器学习在生物图上的应用

转载公众号 | DataFunSummit


a141f9efa8959be7c62d3dd841b6a661.png

分享嘉宾:黄柯鑫 斯坦福大学 博士生

编辑整理:元玉蒲 西北大学

出品平台:DataFunTalk

导读:大家好,我叫黄柯鑫。我现在是斯坦福大学的计算机科学博士第一年级,研究方向是机器学习在生物医疗的实际应用场景方面的挑战。本次分享题目为分子网络中的图机器学习,主要介绍图机器学习在生物系统图上的应用。

b3f876854a17bd482f7aff7c8a7c41b2.png

人体的很多功能是由复杂的小的生物实体进行反应,比如说话、吃东西的背后有各种细胞在工作。比如:在吃东西的时候,食物会引起一系列的信号到细胞,激发一系列的反应,翻译为蛋白质,不同的蛋白质合作形成功能,如果某些基因不工作会引起疾病。生物医疗领域是一个非常复杂的图,生物实体有蛋白质、RNA、药物、疾病等,实体之间的链接代表关系,设计药品解决有问题的蛋白质。

98cdee9435bd1ebc51b3991a3b7f9764.png

生物医学是一个多尺度的网络,现在有很多知识图可以回答一些生物问题。如果想知道这能不能解决病,即要预测药和疾病会不会有反应。如果预测是高质量的,就可以解决在传统的生物领域要花费很长时间的问题,达到加速解决过程的目的。

今天我会从下面的5个方面讲图机器学习在生物系统中的方向和实际应用。

1c4bac2a8937aa0188e2a7b5373451bb.png

01

将GNN应用于分子网络时的特殊考虑

第一个我会讲GNN应用到生物系统上需要注意的地方。GNN开始训练的时候,利用homophily principle的性质,即相邻节点的性质相似。

d26e33a54c32db2fa4f2a041a7806919.png

把邻居节点传给中心目标节点,在信号处理角度就是促进节点的embedding保持一致。这个性质适合于social网络,但并不适合于molecular网络。

165f50fb2b80b766807611abbb56763a.png

Direct similarity指的是social网络,节点之间的边代表similarity,但生物网络不是这样的。

7d43aafc2df69d6f29c8f5d2f17ae5a9.png

举个例子,药A和目标连接(会反应),但是药A和目标不是同一类型,所以药A和目标的embedding不同。假如药A和药B同时和目标反应,药A和药B不会反应但具有相似的embedding,标准GNN具有这样的特征。

2a71996dc3c79d09d0f79ade4f7e2a79.png

所以我们提出了SkipGNN,将药A和药B连接在一起,同时将药A、药B与目标的边断开。在新的图上做GNN,会促进连接的节点相似,间接达到了促进Skip similarity。

8532a6e432af1fc8f8125347213a56d5.png

实验结果发现,SkipGNN的效果相比DTI、DDI、PPI、GDI得到提高。

86ca57a787492cc5130cd6c60a110f90.png

我们还找到了一些基于SkipGNN的药,但无法用在其他方法。

dc33c3221105771befd897ddd2f6e35a.png

在传统的GNN中,基因和药是混在一起的。但是我们想要分离基因和药,SkipGNN是可以达到这样的效果。

第一部分,我想强调的一点是,在从传统GNN到生物图,不能直接应用,因为生物系统图和其他网络相比有很多不同的性质。在这其中也有很多机会发现生物图的性质去设计新的图机器学习的方法。

02

生成可操作的假设

之前我们注重的是如何做预测,但更加重要的是,如果生物科学家不懂机器学习,是不会相信AI模型产生的东西,所以要产生更多的信息。生物学家需要的是一个假设,因为蛋白质和基因有关系,所以蛋白质和药可以有反应,这才是生物学家更加感兴趣的东西。

91878c56ff06d84b2402a9d5019e37fb.png

我们研究的一个问题就是Drug-Drug Interaction(DDI),DDI是两种药物共同起效时造成药效的改变。在美国,每年大概有20万次住院就诊。

d2cacd233f9f2f7490d3db5403a58493.png

为什么DDI会是一个问题?FDA批准3568种药,其中有超过100种相互作用的类型,2种药物的DDI有3568×3568×100=1273062400种,更不要说多种药物的DDI。不可能在体外实验中验证,更不用说严格的临床试验了!我们可以输入药物的信息到机器学习模型中,就可以计算出各种DDI类型。

4e0d70c31a406e5b8b5b0f87ce582750.png

我们不仅仅想做预测,还想产生推理路径和可操作的假设。在系统生物图上聚焦到2种药物,这2种药物有很多连接节点,就可以找到节点的关系,就可以分析药物的反应。

7c53290516cd4c7851362dc3e0b6bd85.png

这是非常好的图示,2个感兴趣的节点Melatonin和Thiamine输入到生物网络里,提取到子图。预测边对于prediction是否重要,若重要则予以保留,用保留的边做最后的预测,经过不断训练得到的边就是推理路径。

2268b2a71d6fd9715436d942f9322bf1.png

SumGNN的实验结果也非常不错。

58f0d4f3ed43cd5f1b328996bc65a0c0.png

比如我们感兴趣的是Paroxetine和Hydroflumethiazide的2种节点,绝大部分边已经被去掉。当同时吃上面2种药的时候,Orthostatic hypotension和Aplastic anaemia这2种疾病的发病率会提高。 

03

在更深层次使用GNN——领域科学家的视角

第3部分我们更加往领域科学家使用的角度去思考,不仅仅有解释、预测、可操作的假设,更重要的是接口是什么?

5904ce61c043f21271613ef05e70f52e.png

GNN在生物方面的目标是生成模型的预测和解释,让领域科学家更好地理解AI的解释结果。

54e15eebb911130c751b9b13f480ffd0.png

我们最近的工作是和一些专门做HCI(Human-Computer Interaction)的学者合作研究,根据不同的Graph XAI展示给用户。我们提出了3种方法:

  • Neighbor Nodes:分别提取疾病和药物中重要的基因,逐渐细分并构造树结构。

  • Subgraph:构造节点之间的知识图,通过去掉或保留边,找到节点之间的连接关系。

  • Paths:模拟领域科学家思考药物和疾病之间的关系,提取节点之间的路径,可以发现第3种方法更好。如何展示给领域科学家是非常重要的。 

04

少数据转化生物医学图

第4部分我想讲一个具体的应用,在少数据量的前提下用图的方法做转化生物医学。

ad478713392e22a9e03a2550930e44dd.png

我们最感兴趣的是人类的问题,但是我们在实验的时候不可能直接用于人类,而是使用小白鼠、猴子。如何从其他动物转换到人类身上就是一个重要的问题,因为动物模型和人类模型是存在差异的。

e8a9abdeb4d023c6c347a6d0af2fc233.png

生物是一个少数据的问题,实验也是非常昂贵的,所以Few-shot learning是非常重要的事情。GNN可以获取20%~30%的节点,传统的GNN是无法学习的。

综合刚提到的2个挑战,如何根据少数的标签生成从未见过的图是一个问题。

fbc47ec34a3f0f156943ad5191fc6df2.png

Meta Learning就可以很好地解决这个问题,我们把它抽象成3个问题:

第1个问题:有1个图和不同的label set,如何从已知的label得到未知的label是一个问题。

6a47edbdf6a826a84789d12d1caa4264.png

第2个问题:有相同的label和不同的图,如何根据某几种物种的图生成人类的图是一个问题。

cebb20610b15e13ccff684c4d4fe5505.png

第3个问题:是前2个问题的结合体,有不同的图和不同的label。

89849ad5c3c2b68bd37b9f3f2b419b73.png

我们提出了一个方法叫G-Meta,用一个简单的思路有效地解决上面的3个问题。已知有不同的图,对于每个节点提取子图,利用子图之间的相似性进行GNN学习。

56bd0d32fecfa1be841afe91087033e7.png

前人的一些方法只能解决一部分的settings,但是我们的G-Meta方法可以解决全部的settings。G-Meta可以适用于非常大的图,因为我们提取子图并且只需要考虑子图这部分。

05

治疗发现中的图机会

最后我想讲一下在治疗发现方面我们团队的解决方法。

464e2c3f4ab54c88a819a2dcbf0dfed3.png

现在小分子药非常多,效果也比较好。但是小分子药的数量逐年在下降,有新的抗体药物能解决一些小分子药无法解决的问题,比如抗体药、中药、疫苗、基因编辑、CAR-X、数字治疗等。

edde85c032ce8cb5688eaf155f74f842.png

这里具体举一些图的例子,比如:分子图、蛋白质图、细胞关系网、知识图等,非常多的图被使用得很少。

找到有意义的治疗发现的数据集有助于使用上面的图。

380c9da416b247210e510881d276ef98.png

我们最近的工作是治疗学数据共享(TDC)来解决这个问题,TDC有基于22个学习任务的66个learning-ready数据集、开发工具、库、排行榜和社区资源的生态系统,包括数据方法、系统模型评估策略、有意义的数据分割、数据处理器和分子生成预测。

81b39d7fbcc27eacaa17094b2cb331e3.png

  • TDC覆盖了治疗学机器学习的生活圈。

  • 我们提供了22个tasks从而解决了制定有效的治疗学机器学习任务。

  • 66个ML-ready数据集包含15919332个数据点,可以直接使用处理好的数据。

  • 训练机器学习模型,我们提供了一些数据方法,如:数据分割、分子生成预测、数据处理等。

  • 评估模型性能。

  • 与最先进的相比。

6eac9db86aa8d3840314e441e92ff01a.png

只需要3行代码,就可以下载到数据。

f5620db9f3513d125c3e6fae1e3d87ff.png

这是一个数据方法的例子,比如想从SMILES转换到DGL的图,用3行代码就可以实现转换。

8fb0894763bd1032df0ba02b6e5e9e8a.png

这是TDC的简介和连接。

今天的分享就到这里,谢谢大家。


分享嘉宾:

f930a0b4a8f06e2a899f2a01c8770b8d.png


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

17d093432c555a494bd6a06160f825e1.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477874.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

排得更好VS估得更准VS搜的更全「推荐、广告、搜索」算法间到底有什么区别?...

文 | 王喆源 | 王喆的机器学习笔记作为互联网的核心应用“搜广推”,三个方向基本都是互联网公司的标配。各头部公司的搜广推系统也都各自发展成了集成了多种模型、算法、策略的庞然大物,想一口气讲清楚三者的区别并不容易。不过万事总有一个头绪&#xf…

Solr Facet技术的应用与研究

问题背景 在《搜索引擎关键字智能提示的一种实现》一文中介绍过,美团的CRM系统负责管理销售人员的门店(POI)和项目(DEAL)信息,提供统一的检索功能,其索引层采用的是SolrCloud。在用户搜索时,如果能直观地给出每个品类的POI数目&am…

LeetCode 129. 求根到叶子节点数字之和(DFS)

1. 题目 给定一个二叉树,它的每个结点都存放一个 0-9 的数字,每条从根到叶子节点的路径都代表一个数字。 例如,从根到叶子节点路径 1->2->3 代表数字 123。 计算从根到叶子节点生成的所有数字之和。 说明: 叶子节点是指没有子节点的…

推荐精排之锋:FM的一小步,泛化的一大步

文 | 水哥源 | 知乎1.如果说LR是复读机,那么FM可以算作是电子词典2.泛化就是我没见过你,我也能懂你,但是泛化有时候和个性化有点矛盾,属于此消彼长的关系3.实践中的泛化往往来源于拆解,没见过组成的产品,但…

图谱实战 | 阿里周晓欢:如何将实体抽取从生成问题变成匹配问题?

转载公众号 | DataFunSummit分享嘉宾:周晓欢 阿里巴巴 算法专家编辑整理:刘香妍 中南财经政法大学出品平台:DataFunSummit导读:实体抽取或者说命名实体识别 ( NER ) 在信息抽取中扮演着重要角色,常见的实体抽取多是对文…

剖析 Promise 之基础篇

随着浏览器端异步操作复杂程度的日益增加,以及以 Evented I/O 为核心思想的 NodeJS 的持续火爆,Promise、Async 等异步操作封装由于解决了异步编程上面临的诸多挑战,得到了越来越广泛的应用。本文旨在剖析 Promise 的内部机制,从实…

LeetCode 318. 最大单词长度乘积(位运算)

1. 题目 给定一个字符串数组 words,找到 length(word[i]) * length(word[j]) 的最大值,并且这两个单词不含有公共字母。你可以认为每个单词只包含小写字母。如果不存在这样的两个单词,返回 0。 示例 1: 输入: ["abcw","baz&…

百度研究院商业智能实验室招聘研究实习生!

致力于连接最靠谱的算法岗与最强的求职者招聘贴投放请联系微信xixiaoyao-1岗位职责:同实验室的数据科学家和工程师一起参与研发前沿的机器学习技术,主要内容为对前沿技术进行调研,复现前沿科研成果在顶级会议和期刊上发表论文支持及落地百度飞…

论文浅尝 | KGNLI: 知识图谱增强的自然语言推理模型

笔记整理 | 韩振峰,天津大学硕士链接:https://aclanthology.org/2020.coling-main.571.pdf动机自然语言推理 (NLI) 是自然语言处理中的一项重要任务,它旨在识别两个句子之间的逻辑关系。现有的大多数方法都是基于训练语料库来获得语义知识从而…

block在美团iOS的实践

说到block,相信大部分iOS开发者都会想到retain cycle或是__block修饰的变量。 但是本文将忽略这些老生常谈的讨论,而是将重点放在美团iOS在实践中对block的应用,希望能对同行有所助益。 本文假设读者对block有一定的了解。 从闭包说起 在Lisp…

写Rap,编菜谱,你画我猜……这些 AI demo 我可以玩一天!

文 | ZenMoore编 | 小轶上次写的那篇 《Prompt 综述15篇最新论文梳理]》 有亿点点肝。这次给大家整点轻松好玩的(顺便给这篇推文打个广告,快去看!)。不知道读者朋友们有没有遇到这样的情况:有新的论文发表了&#xff0…

LeetCode 1254. 统计封闭岛屿的数目(图的BFS DFS)

文章目录1. 题目2. 解题2.1 DFS2.2 BFS1. 题目 有一个二维矩阵 grid ,每个位置要么是陆地(记号为 0 )要么是水域(记号为 1 )。 我们从一块陆地出发,每次可以往上下左右 4 个方向相邻区域走,能…

技术动态 | 图对比学习的最新进展

转载公众号 | DataFunSummit 分享嘉宾:朱彦樵 中国科学院自动化研究所编辑整理:吴祺尧 加州大学圣地亚哥分校出品平台:DataFunSummit导读:本文跟大家分享下图自监督学习中最近比较热门的研究方向:图对比学习&#xff0…

如何把Android手机变成一个WIFI下载热点? — 报文转发及DNS报文拦截

随着WiFi的普及,移动运营商的热点也越来越多了,如中国移动的CMCC、中国电信的ChinaNet、中国联通的ChinaUnicom等,一般来说,连上此类的热点,打开浏览器上网时都会自动跳转到一个验证页面,最近有个项目也有类…

OpenKG 祝大家新春快乐

OpenKG 祝各位读者新春快乐,虎虎生威!OpenKGOpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。点击阅读原文,进入 OpenKG 网站。…

推荐中使用FNN/PNN/ONN/NFM优化特征交叉

文 | 水哥源 | 知乎sayingDNN时代来临的时候,LR没打过,也很难加入。FM打不过,但他可以加入FM的精髓,最上在于latent embedding,有了它才能把交互拆解到基底上;居中在于element-wise乘,能让两个特…

LeetCode 310. 最小高度树(图 聪明的BFS,从外向内包围)

文章目录1. 题目2. 解题2.1 暴力BFS2.2 聪明的BFS1. 题目 对于一个具有树特征的无向图,我们可选择任何一个节点作为根。图因此可以成为树,在所有可能的树中,具有最小高度的树被称为最小高度树。给出这样的一个图,写出一个函数找到…

Emma使用与分析

什么是Emma EMMA 是一个开源、面向 Java 程序测试覆盖率收集和报告工具。 它通过对编译后的 Java 字节码文件进行插装,在测试执行过程中收集覆盖率信息,并通过支持多种报表格式对覆盖率结果进行展示。 EMMA 所使用的字节码插装不仅保证 EMMA 不会给源代码…

论文浅尝 | WWW2022 - “知识提示”之知识约束预训练微调

本文作者 | 陈想(浙江大学)、张宁豫(浙江大学)、谢辛(陈想)、邓淑敏(浙江大学)姚云志(浙江大学)、谭传奇(阿里巴巴),黄非&…

吐血整理:论文写作中注意这些细节,能显著提升成稿质量

文 | python编 | 小轶前言不知诸位在科研的起步阶段,是否曾有过如下的感受:总感觉自己写的论文就是和自己读过的论文长得不太一样,也不知道为啥。投稿的时候,审稿人也总是 get 不到论文的核心,只揪着论文的次要细节不放…