论文浅尝 - IJCAI2020 | KGNN:基于知识图谱的图神经网络预测药物与药物相互作用...

转载公众号 |  AI TIME 论道


药物间相互作用(DDI)预测是药理学和临床应用中一个具有挑战性的问题,在临床试验期间,有效识别潜在的DDI对患者和社会至关重要。现有的大多数方法采用基于AI的计算模型,通常倾向于集成多个数据源并结合先进的图嵌入方法来实现。然而研究人员很少关注药物与其他实体(例如靶标和基因)之间存在的潜在关联。此外,最近的研究还采用知识图谱(KG)进行DDI预测。这一系列方法都是采取直接学习节点的潜在嵌入向量,但它们对于获得KG中每个实体的丰富邻域信息受到限制。

为解决上述局限性,林轩等人提出了一种端到端的框架,即基于知识图谱的图神经网络(KGNN),以解决DDI预测问题。该框架可通过在KG中挖掘相关联的关系,来有效地捕获药物及其潜在的邻域实体信息。为了提取KG中的高阶结构和语义关系,对KG中每个实体的邻域进行学习,作为它们的局部感知域,然后将邻域信息与来自当前实体表示的偏差进行整合。这样,感知域可以自然地扩展到多个跃点,以对高阶拓扑信息进行建模并获得潜在的药物长距离相关性特征。本次报告,我们有幸邀请到来自湖南大学的林轩博士为大家分享他们的这项研究工作!

林轩:湖南大学计算机科学与技术四年级博士生,导师为全哲副教授。于2019年10月前往伊利诺伊大学芝加哥分校计算机学院进行博士联合培养,指导老师是Philip S.Yu教授。主要研究方向为机器学习、图神经网络和药物重定位。目前已在IJCAI、AAAI、ECAI、Briefings in Bioinformatics等国际会议和期刊发表论文7篇,并担任IJCAI、AAAI、Briefings in Bioinformatics、Neurocomputing等会议和期刊审稿人。

一、背景和动机

药物间的相互作用(DDI)是指同时或先后服用两种或两种以上药物时,药物之间所产生的相互作用,而该相互作用可能会导致意想不到的副作用。举个例子,在日常生活中,某人因睡眠不佳,服用了助眠药物,比如镇定剂。与此同时他又出现了过敏反应,需要服用治疗过敏的药物,比如抗组胺药。当两种药物混合服用,就可能会减缓大脑的反应。如果此人是从事车辆驾驶或者机械操作等需要注意力高度集中的工作,那么一旦出现紧急情况,就可能因无法及时做出反应,发生难以预料的危险。因此,如果能够提前预测DDI,就能有效避免类似情况的发生。

图1 药物间相互作用

总结归纳现有DDI预测方法,大致可分为两大类。一类是分子表示,主要聚焦于药物分子的特征学习。这类方法都基于同样的假设:即具有相似嵌入表示的药物分子将会表现出相似的DDI。如图2右边所示,分子A和分子B有相似的分子结构,那它们所学到的特征向量也是相似的,如果分子A与分子C存在相互作用,那么可以推断分子B和分子C也有类似DDI存在。药物分子特征学习有很多方法,比如类似文本编码的一维SMILES序列,比如传统基于分子描述符或分子指纹ECFP的方法,或是基于3D坐标轴位置信息的方法。如文献2中提到了一种新颖的分子表示方法,即基于多视角药物特征学习更好的药物相似性,但这种方法仅限于对药物分子本身的表示学习,大多数情况下都依赖于领域知识。

另一类常用的DDI预测方法是基于网络嵌入的方法,通过构建各种与药物有关的生物网络,在这个网络中,将药物看作网络中的节点,通过学习节点的嵌入表示来预测潜在的边,即DDI的关系。构建映射关系网络也有多种方法,比如矩阵分解,把目标关系构建成一个矩阵进行求解;比如随机游走,在图中选择固定的路径进行游走以获取更多的节点特征。这类方法的目标在于预测药物之间的标签边,但它们只关注单一的DDI关系,并没有考虑与药物有关的其他联系。

图2 现有DDI预测方法

通过以上分析可以发现,这些方法的初衷是希望获得更多生物关联的信息。如果一个图或数据能够提供更多信息,那么就能有效辅助DDI预测,此时知识图谱就成为了一个上佳的选择。因为知识图谱蕴含了丰富的信息,包括多个实体之间的结构关系、与每个节点关联的语义关系等。在对过去DDI预测方法的梳理中,我们也找到了基于知识图谱的方法,但这个方法是采用知识图谱嵌入的方式,直接学习节点的嵌入表示,没有考虑每个实体丰富的邻域信息。为突破局限,林轩等人在知识图谱中引入图神经网络,借用图神经网络对每个节点进行邻域采样,通过聚合邻域信息获得实体的嵌入表示,这也就是基于知识图谱的图神经网络的动机来源。

图3 知识图谱和图神经网络

二、基于知识图谱的图神经网络

图4是基于知识图谱的图神经网络的整体框架,共包括三个模块:(1)DDI提取与KG构建;(2)KGNN层;(3)药物与药物相互作用预测。

图4 基于知识图谱的图神经网络框架

具体来说,第一步中DDI提取主要使用了DrugBank和KEGG-drug两个数据集。对数据集进行解析以提取药物对,这里的药物对其实是经过FDA认证的DDI,如图4中“DB00001-DB01181”所示。知识图谱构建,使用Bio2RDF工具构建链接的数据网络,基于传输定义从不同格式的数据源中获取数据,从而创建与RDF数据格式兼容的链接数据。

图5 DDI提取和KG构建

获得输入以后,需要对实体的邻域进行采样。每一个药物实体的邻域分布情况是不一样的,图6中红色的节点表示药物节点,考虑每个药物节点两跳的邻域范围。H参数可以理解为CNN中的感知域,H=1相当于只考虑与当前节点直接相连的邻居节点,H=2表示考虑二阶相连的节点情况,这样能够学习到更多的邻域实体信息,当然H可以取更大值。在这个框架中GNN是一种空间域的方法。在构建的知识图谱中,把和药物节点直接相连的节点定义为Nneigh(e)。因为每个药物节点邻域的分布是不同的,为了计算方便,借鉴GraphSAGE方法,采用固定大小的邻域范围S(e)。采样完成之后,通过三种聚合方法将实体自身的嵌入表示和邻域信息的嵌入表示聚合起来,最终得到当前实体的嵌入表示。其中,sum聚合方法是一种叠加操作,concat是一种拼接操作,neighbor只考虑邻域的信息,而忽略自身实体嵌入表示。

图6 KGNN层

图7总结了KGNN算法,回顾整个框架可分为三个步骤:(1)从数据集中提取药物对并构建相应的知识图谱;(2)将信息输入KGNN中,获得药物及其相关实体邻域的特征;(3)计算两个药物的相似度并反馈输出交互值。

图7 KGNN算法

三、实验结果

实验部分,通过DrugBank和KEGG-drug两个数据集来评估KGNN的性能。对于两个数据集,以8/1/1的比例将所有批准的DDI作为正样本随机分为训练、验证和测试集,并随机抽取正样本的补集作为负样本用于模型训练。使用多种指标评估预测性能,包括ACC、AUPR、AUC-ROC和F1分数。选取5类(MF、RW、NN、DL、KG)共9种方法作为实验基准,以更好对比实验结果。

图8 实验设定

图9是KGNN与基准方法的性能比较,每种方法的第一/第二行分别对应于DrugBank和KEGG-drug数据集上的实验结果。通过对比实验结果可以发现,KGNN在两个数据集上都取得了最优的效果。另外,在消融实验部分测试了三种聚合方法的性能,发现通过拼接聚合(concat)的方法效果是最好的。同时,这些变体的结果均优于基准对比方法,反映出了KGNN方法的稳定性。

图9 对比、消融实验结果

实验还研究了k、H、d三个关键参数对KGNN性能的影响。首先,改变邻域大小k发现,当k=16时,KGNN可获得最佳性能。这说明如果采样的邻居节点个数太少,邻域所能够包含的信息会不够。其次,通过设置为1到6(大于6时超出系统内存)来研究感知域深度H的影响。实验结果显示,当H=2时可以学到较多的特征,但模型所有指标的性能都会从H = 3开始降低。最后,检验嵌入维度大小d的影响如设置由8变化为512。结果表明,可通过设置适当的维度大小来提高其学习能力,值过大反而会带来过拟合的情况。

图10 不同参数的实验结果

四、总结和未来展望

总结来说,林轩等人的工作提出了一种新颖的框架来预测DDI任务。该框架将图神经网络应用到了知识图谱当中,同时考虑了药物实体在知识图谱中的拓扑结构信息以及自身附带的语义关联信息。对于未来的工作,主要有以下几点想法:(1)考虑更大规模的知识图谱;(2)设计有效的邻域采样方法;(3)拓展到多类型的DDI预测或其他相关任务,而不是仅限于二分类预测。

图11 总结和未来工作

 

Paper: https://www.ijcai.org/Proceedings/2020/0380.pdf

Code: https://github.com/jacklin18/KGNN

(直播回放:https://b23.tv/ifBA8L)

(点击“阅读原文”下载本次报告ppt)


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478492.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 79. 单词搜索(回溯DFS)

1. 题目 给定一个二维网格和一个单词,找出该单词是否存在于网格中。 单词必须按照字母顺序,通过相邻的单元格内的字母构成,其中“相邻”单元格是那些水平相邻或垂直相邻的单元格。同一个单元格内的字母不允许被重复使用。 示例: board [[…

中文BERT上分新技巧,多粒度信息来帮忙

文 | ????????????????自然语言处理实在是太难啦!中文尤其难!相比于英文,中文是以词作为语义的基本单位的,因此传统的中文 NLP 都需要先进行分词。分词这步就劝退了很多人,比如“研究生活很充实”&…

监控平台前端SDK开发实践

监控是提高故障处理能力和保障服务质量必需的一环,它需要负责的内容包括:及时上报错误、收集有效信息、提供故障排查依据。 及时上报错误:发生线上问题后,经由运营或者产品反馈到开发人员,其中流转过程可能是几分钟甚至…

论文浅尝 - WWW2020 | 通过对抗学习从用户—项目交互数据中挖掘隐含的实体偏好来用于知识图谱补全任务...

笔记整理 | 陈湘楠,浙江大学在读硕士。现有的知识图谱补全方法都在试图设计全新的学习算法,来使用已知的事实信息去推理知识图谱中的潜在语义。但随着知识图谱的广泛使用,知识图谱中的许多实体对应着应用程序系统的在线项目。但知识图谱和应用…

LeetCode 24. 两两交换链表中的节点(递归+循环)

1. 题目 给定一个链表,两两交换其中相邻的节点,并返回交换后的链表。 你不能只是单纯的改变节点内部的值,而是需要实际的进行节点交换。 示例: 给定 1->2->3->4, 你应该返回 2->1->4->3.2. 解题 2.1 递归 class Solut…

美团数据平台融合实践

本文根据作者在2017年ArchSummit的分享记录整理而成。 互联网格局复杂多变,大规模的企业合并重组不时发生。原来完全独立甚至相互竞争的两家公司,有着独立的技术体系、平台和团队,如何整合,技术和管理上的难度都很大。2015年10月&…

CMU MILA 谷歌 | 三家巨头发布史上最干文本增强总结

文 | Sherry一直以来,数据都是推动深度神经网络这个人工智能引擎不可或缺的燃料;然而人工收集足量而优质的数据从来不是一件“便宜”的事,数据增强便是一座富有价值的矿山。在CV中,翻转,裁剪,加噪声等方法被…

论文浅尝 - AAAI2021 | 从历史中学习:利用时间感知拷贝生成网络建模时态知识图谱...

笔记整理 | 朱珈徵,天津大学硕士链接:https://arxiv.org/pdf/2012.08492.pdf动机大型知识图通常会增长以存储时态事实,这些时间事实对实体沿时间线的动态关系或交互进行建模。因为这样的时态知识图经常遭受不完全性的困扰,所以开发…

LeetCode 96. 不同的二叉搜索树(DP)

1. 题目 给定一个整数 n,求以 1 … n 为节点组成的二叉搜索树有多少种? 示例:输入: 3 输出: 5 解释: 给定 n 3, 一共有 5 种不同结构的二叉搜索树:1 3 3 2 1\ / / / \ \3 2 1 1 3 2/ …

Android漏洞扫描工具Code Arbiter

目前Android应用代码漏洞扫描工具种类繁多,效果良莠不齐,这些工具有一个共同的特点,都是在应用打包完成后对应用进行解包扫描。这种扫描有非常明显的缺点,扫描周期较长,不能向开发者实时反馈代码中存在的安全问题&…

领域应用 | OMAHA联盟发布“疾病临床表现”、“中毒”知识图谱及OMAHA知识库

转载公众号 | OMAHA联盟资源发布OMAHA已建立“七巧板”医学术语集、“汇知”医学知识图谱、元数据等资源,将于每月发布其中一项。具体各项发布时间为:“七巧板”术语集于每季度第一个月20日发布, “汇知”图谱于每季度第二个月20日发布&#…

聊聊推荐系统中的偏差

文 | 成指导源 | 知乎背景推荐系统中大量使用用户行为数据,作为系统学习的标签或者说信号。但用户行为数据天生存在各式各样的偏差(bias),如果直接作为信号的话,学习出的模型参数不能准确表征用户在推荐系统中的真实行…

云端的SRE发展与实践

本文根据作者在美团点评第21期技术沙龙的分享记录整理而成。 SRE(Site Reliability Engineering)是Google于2003年提出的概念,将软件研发引入运维工作。现在渐渐已经成为各大互联网公司技术团队的标配。 美团点评作为综合性多业务的互联网生活…

一种单独适配于NER的数据增强方法:DAGA

链接:http://www.elecfans.com/d/1468784.html 本文首先介绍传统的数据增强在NER任务中的表现,然后介绍一种单独适配于NER的数据增强方法,这种方法生成的数据更具丰富性、数据质量更高。0 前言 在NLP中有哪些数据增强技术?这一定是…

LeetCode 80. 删除排序数组中的重复项 II

1. 题目 给定一个排序数组,你需要在原地删除重复出现的元素,使得每个元素最多出现两次,返回移除后数组的新长度。 不要使用额外的数组空间,你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成。 来源:力扣…

技术沙龙 | 图神经网络(GNN)最新研究进展分享

由于深度学习在可推理和可解释性方面的局限性,结合图计算与深度学习的图神经网络 ( GNN ) 成为近期学术界和工业界研究的热点新方向之一,并在社交网络、推荐系统等领域得到了广泛的应用。本次技术沙龙,由北京邮电大学 GAMMA Lab 博士生纪厚业…

科研福利!国内TOP3的超算中心,免费领2000核时计算资源

长久以来,超级计算机一直是各国竞相角逐的科技制高点,也是国家综合科技实力的体现,尤其是近几年,中国和美国在超算领域的竞争已经进入“白热化”。2020年,我国超级计算机在《全球超级计算机500强榜单》中首次超越美国&…

深度学习在美团推荐平台排序中的运用

美团作为国内最大的生活服务平台,业务种类涉及食、住、行、玩、乐等领域,致力于让大家吃得更好,活得更好,有数亿用户以及丰富的用户行为。随着业务的飞速发展,美团的用户和商户数在快速增长。在这样的背景下&#xff0…

LeetCode 451. 根据字符出现频率排序(map+优先队列)

1. 题目 给定一个字符串,请将字符串里的字符按照出现的频率降序排列。 输入: "tree"输出: "eert"2. 优先队列解题 先用map统计字符出现次数再将字符何其次数插入优先队列出队 struct cmp { //写在类内也可以,写在函数里也行bool…