论文浅尝 | 融合多层次领域知识的分子图对比学习

笔记整理 | 方尹,浙江大学在读博士,研究方向:图表示学习


论文地址:https://arxiv.org/pdf/2106.04509.pdf

动机

目前基于图的对比学习有以下几个问题:

不同领域的图,(比如social network和分子图)它们的图结构信息和图的semantics是不同的,因此很难设计一个通用的、适用于所有场景的数据增强方法;大多数方法只关心局部结构而忽略了全局结构,比如结构相似的两个图在embedding space也会更接近;对比的scheme不是单一的,对比可以发生在节点-图,节点-节点,图-图之间。

 

对比学习本身也有一些待解决的问题,之前很多对比学习方法是通过最大化一对graph augmentation之间的互信息来实现的:在高维情况下正确估计互信息很困难;最大化互信息和对比学习之间的联系尚不明确。

贡献

提出了一种基于局部领域知识的分子图augmentation方法;

提出了一种全局的对比损失,并将局部对比损失和全局对比损失线性组合作为总体损失。

模型与算法

局部水平:在graph augmentation中注入了领域知识

1.图上半部分为传统的图增强方法:丢掉节点、移动边、提取子图、mask属性,下半部分为提出的增强方法。把重要的子结构替换掉,但仍保持相似的性质。这里是替换了官能团,加上或去除普通的C原子,不影响替换前后分子图的性质。这一步引入了领域知识。

2.局部对比最大化两个augmented views的互信息。

3.每个样本的对比学习损失,其中s是衡量两个embedding相似度的函数。

全局水平:考虑了整体的graph semantic

1.定义了两个分子图之间的相似性,再最大化两个相似图之间的互信息。定义分子图相似性这一步用到了领域知识,因为分子的相似性就是分子指纹的谷本系数。

2.两种计算全局损失的方法:

Connection to Metric Learning

MoCL的损失是局部损失和全局损失的加和。引理设定了一些前提,比如分子相似度函数、参数,最终损失可以表示为三个triplet loss之和。因此,MoCL的优化目标是拉近正样本对,同时从局部和全局角度推开负样本对。

实验与结果

Q1:注入局部领域知识的对比学习是否学到了比普通augmentation方法更好的图表示?不同的图增强组合表现如何?

每个cell表示从头训练的GNN与用不同的augmentation组合方法训练的模型在linear protocol下的performance有多少进步。蓝色代表负值,红色代表正值。MoCL-DK得到的表示加上线性分类器产生的预测准确率与GNN效果(bace、bbbp、sider)相当,甚至比它更好(clintox , mutag)。可以看到包含MoCL-DK 的行和列的值通常更高 ,因此MoCL-DK 与其他augmentation方法相结合几乎总是能产生更好的结果。属性屏蔽和 MoCL-DK 通常在所有场景中都有效,将它们结合起来通常会有更好的性能。这验证了我们之前的假设,即 MoCL-DK 和属性屏蔽不违反生物学假设,因此比其他增强效果更好。

分别在linear protocol和semi-supervised protocol下进行了实验。跟其他用到data augmentation和对比学习的方法做了比较,在大部分数据集上超过了sota。

比较了不同augmentation强度情况下的效果,强度指的是增强几次,比如替换后再替换一次,就是增强两次。对于大多数数据集,随着增强次数越多,性能先上升后下降。 MoCL-DK3 通常能取得更好的结果。

Q2:注入全局领域知识是否进一步提升了图表示?计算全局损失的两个策略表现分别如何?

LS是第一种策略,CL是第二种策略。加上了全局领域知识进一步提升了模型的性能。

加入全局领域知识后不同augmentation方法的性能提升 。可以看到全局信息的引入会提升所有方法。

比较了两种protocol下,采用不同的策略的全局损失函数所获得的性能。可以看到,全局相似性的对比损失(CL)比最小二乘损失(LS)的策略获得了更好的结果。

Q3:超参数如何影响模型的性能?

相对较小的neighbor size和相对较大的全局损失占比会获得最佳结果。

欢迎有兴趣的同学阅读原文。


 

OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478163.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 1028. 从先序遍历还原二叉树(栈)

文章目录1. 题目2. 栈解题1. 题目 我们从二叉树的根节点 root 开始进行深度优先搜索。 在遍历中的每个节点处,我们输出 D 条短划线(其中 D 是该节点的深度),然后输出该节点的值。(如果节点的深度为 D,则其…

python 怎么将列表中的字典安照某一个key输出到csv,python如何把字典数据存储进csv文件

示例代码 import csv fieldnames["A","B","C"]#数据列名dicts[{A: 1, B: 2, C:3},{A: 2, B: 3, C:4},{A: 3, B: 4, C:5},{A: 4, B: 5, C:6},{A: 5, B: 6, C:7},{A: 9, B: 7, C:8},]with open(test.csv, a, newline,encodingutf_8_sig) as f: wr…

基于深度学习方法的图像分割,差距不止一点点

图像分割(image segmentation)技术是计算机视觉领域的一个重要的研究方向,图像分割是计算机视觉中的一个关键过程。它包括将视觉输入分割成片段以简化图像分析。片段表示目标或目标的一部分,并由像素集或“超像素”组成。图像分割…

Java Hotspot G1 GC的一些关键技术

前言 G1 GC,全称Garbage-First Garbage Collector,通过-XX:UseG1GC参数来启用,作为体验版随着JDK 6u14版本面世,在JDK 7u4版本发行时被正式推出,相信熟悉JVM的同学们都不会对它感到陌生。在JDK 9中,G1被提议…

论文浅尝 | AutoETER: 用于知识图谱嵌入的自动实体类型表示

论文链接:https://arxiv.org/pdf/2009.12030.pdf动机传统的KGE使用附加的类型信息改善实体的表示,但是这些方法完全依赖于显式类型,或者忽略了特定于各种关系的不同类型表示,并且这些方法目前都不能同时推断出对称性、反演和组成的…

LeetCode 1029. 两地调度(贪心)

文章目录1. 题目2. 贪心1. 题目 公司计划面试 2N 人。第 i 人飞往 A 市的费用为 costs[i][0],飞往 B 市的费用为 costs[i][1]。 返回将每个人都飞到某座城市的最低费用,要求每个城市都有 N 人抵达。 示例: 输入:[[10,20],[30,2…

百面机器学习-第一章特征工程

原文链接:https://www.jianshu.com/p/355c4001ca42 前言 如果你能找到这里,真是我的幸运~这里是蓝白绛的学习笔记,本集合主要针对《百面机器学习——算法工程师带你去面试》这本书。主要记录我认为重要的知识点,希望对大家有帮助。…

推荐几个NLP出论文的好方向!!

如果你准备发NLP方向的论文,或准备从事科研工作或已在企业中担任NLP算法岗的工作。那么我真诚的向大家推荐,贪心学院《自然语言处理高阶研修班》,目前全网上应该找不到类似体系化的课程。课程精选了四大主题进行深入的剖析讲解,四…

Android热更新方案Robust

美团是中国最大的O2O交易平台,目前已拥有近6亿用户,合作各类商户达432万,订单峰值突破1150万单。美团App是平台主要的入口之一,O2O交易场景的复杂性决定了App稳定性要达到近乎苛刻的要求。用户到店消费买优惠券时死活下不了单&…

会议研讨 | TF45: 知识图谱新技术、新场景、新应用

基于“新基建”面向新产业、新业态和新模式的背景下,知识图谱作为人工智能的重要基石正在火热发展中。新的知识图谱技术在新的场景和应用中使人工智能从感知智能逐渐向认知智能过渡。知识图谱与产业的结合愈加紧密,除了在搜索与推荐、知识问答等通用领域…

LeetCode 653. 两数之和 IV - 输入 BST(二叉搜索树迭代器双指针)

文章目录1. 题目2. 解题1. 题目 给定一个二叉搜索树和一个目标结果,如果 BST 中存在两个元素且它们的和等于给定的目标结果,则返回 true。 案例 1: 输入: 5/ \3 6/ \ \ 2 4 7Target 9 输出: True案例 2: 输入: 5/ \3 6/ \ \ 2 4 7Tar…

盘点来自工业界的GPU共享方案

文 | 阎姝含源 | 极市平台进年来工业界一直孜孜不倦地寻求提升GPU利用率的方案,能被更多用户理解和使用的GPU共享走进工程师的视野中。本文将总结目前有公开PR的、来自工业界的部分GPU容器计算共享方案,看看工业界对GPU共享的定位和需求。本文将依旧着眼…

百面机器学习|第二章模型评估知识点 蓝白绛

前言 如果你能找到这里,真是我的幸运~这里是蓝白绛的学习笔记,本集合主要针对《百面机器学习——算法工程师带你去面试》这本书。主要记录我认为重要的知识点,希望对大家有帮助。 第二章 模型评估 1、评估指标的局限性 准确率(Accuracy)&…

美团外卖订单中心的演进

美团外卖从2013年9月成交第一单以来,已走过了三个年头。期间,业务飞速发展,美团外卖由日均几单发展为日均500万单(9月11日已突破600万)的大型O2O互联网外卖服务平台。平台支持的品类也由最初外卖单品拓展为全品类。 随…

论文浅尝 | 基于知识图谱的智能调研方法(DI佳作)

转载公众号 | 数据智能英文刊题目:A Knowledge Graph Based Approach to Social Science Surveys引用:Z. Pan, Z.J., et al.: A Knowledge Graph Based Approach to Social Science Surveys. Data Intelligence 3(3). doi: 10.1162/dint_a_00107文章摘要…

NYU Google: 知识蒸馏无处不在,但它真的有用吗?

文 | 小伟编 | 小轶导师: 小伟,听说你对知识蒸馏比较了解,你来给我说说知识蒸馏有什么用?我: 知识蒸馏是一种很典型的模型压缩的方法,我们可以用它来有效地从大型教师模型学习小型学生模型,并且学生模型的性能也很不错…

pyscript+py-env实现python+html效果

参考链接:https://developer.aliyun.com/article/976083?spma2c6h.12873581.group.dArticle976083.3a8057c73DINVs 今天我们要介绍的东西,叫做PyScript,使用它,不需要安装任何软件。只要有一个记事本,就能写一段HTMLP…

美团的DBProxy实践

本文整理自美团技术沙龙第10期:数据库技术架构与实践。 美团技术沙龙由美团技术团队主办,每月一期,每期沙龙邀请美团及其它互联网公司的技术专家分享来自一线的实践经验,覆盖各主要技术领域。 本次沙龙主要围绕数据库相关的主题&a…

LeetCode 606. 根据二叉树创建字符串(递归)

文章目录1. 题目2. 递归解题1. 题目 你需要采用前序遍历的方式,将一个二叉树转换成一个由括号和整数组成的字符串。 空节点则用一对空括号 “()” 表示。而且你需要省略所有不影响字符串与原始二叉树之间的一对一映射关系的空括号对。 示例 1: 输入: 二叉树: [1,…

论文浅尝 | 面向开放域的无监督实体对齐

笔记整理 | 谭亦鸣,东南大学博士生来源:DASFAA’21链接:https://arxiv.org/pdf/2101.10535.pdf概述与动机知识图谱对齐的目的是建立两个不同知识图谱之间实体的对应关系,如图1,本文作者发现现有的实体对齐方法依赖于标…