论文浅尝 - ICML2020 | 跨域对齐的图最优运输算法

陈卓,浙江大学在读博士,主要研究方向为图神经网络和知识图谱表示学习。


论文链接:https://arxiv.org/pdf/2006.14744

代码:https://github.com/LiqunChen0606/Graph-Optimal-Transport

发表会议:ICML 2020

动机

该论文的出发点基于前人工作的局限,认为当前存在的跨域对齐方法主要是采用各种先进的注意力机制来模拟软对齐,但是传统的注意力机制是由特定下游任务的loss进行监督和引导的,而没有明确考虑对齐本身的的训练信号。并且,往往学习到的注意力矩阵会比较稠密,缺乏可解释性。所以作者提出了图最优运输算法这样一个新的框架,通过把最优运输应用在图匹配上来处理跨域问题。

同时,这个算法与现有的神经网络模型具有很好的兼容性,可以直接作为drop-in正则化项加入到原来的模型中。通过这样一个通用的正则化系数,在两个域对齐程度低的的pair上施加更多的惩罚,这对于机器翻译,图像注释,以及图像-文本跨模态检索等需要匹配的场景,效果提升是比较make sense的。

最后,这个论文的很大一个亮点在于通用性,作者在5个task上对于不同的模型做了相关实验,使用了GOT方法后全部取得了效果提升。后面大部分篇幅也用在实验上。

背景设定

这里的跨域对齐可能与跨知识图谱数据库对齐的不太一样。因为本文所指的跨域是特指跨模态的。对于两个不同的domain Dx和Dy, 分别考虑其中的一个数据集如X tilde(和Y tilde,其中每一个entity都可以由一个特征向量表示。n和m代表该domain下数据集中的entity数量。

文中所讨论的范围主要集中于涉及图像和文本的任务,因此此处的实体可以对应于图像中的对象或句子中的单词。图像可以=表示为一组检测到的对象,每个对象都与一个特征向量相关联,而一个句子则可以被一串word embedding表示。在通用场景下,一个深度神经网络fθ会被设计接收以上的X tilde和Y tilde并用来生成当前语境下的数据表示X和Y。这里的fθ可以是很多模型,θ是模型参数。最后监督信号l将会被用来进行参数θ的学习。训练目标可以简化为这个loss函数公式,其中小l是监督信号,特定任务下loss函数的选择和小l都不同。

然后是动态图谱构建。文章的设定中,每个域的节点集合需要构建一个图,其中每一个节点都是entity,由一个特征向量表示,并且通过计算成对节点的相似性来选择是否添加边。这里手工定义的超参数t作为一个是否添加边的相似度阈值。论文中选取的t等于0.1。

动态这个词在这里体现在图上边之间联系的动态性,因为在模型的训练过程中节点的向量表示X和Y都是会因为参数的迭代更新不断变化的,所以边的有无,或者说图构建,都是一个持续变化且逐渐趋于稳定的过程。

经过以上步骤把每个domain中的entities表示成一个图,跨域对齐的任务自然被转换成了一个graph matching 的问题。

该论文的主要idea来源在于,提出了GOT图最优运输算法,将两种类型的最优传输距离应用到graph matching上,使得该通用框架在许多任务上达到了更好的效果。其中采用的两种最优运输距离,分别是针对节点匹配的Wasserstein distance以及针对边匹配的Gromov-Wasserstein distance。后面用WD和GWD进行缩写描述。

大家可能不太了解这个距离的概念,但是我相信KL散度可能大部分人都有所耳闻。这是衡量两个分布之间距离的一个指标。上面提到的WD和GWD实际上也是。其中WD就起源于最优运输问题。也叫推土机距离,这个名字非常形象。

其把概率分布想象成一堆石头,如何移动一堆石头,通过最小的累积移动距离把它堆成另外一个目标形状,这就是最优运输所关心的问题。先看上图的下半部分:我们可以把两个分布之间的距离看作是最小需要的累积移动距离,它形象解释了如何将离散分布P转换成离散分布Q的过程。而这个过程中第一步p1移动2个方块到p2,然后p2移动2个到p3,然后p3移动一个方块到p4。最后总共的移动数目5就是这两个分布之间的最优运输距离。

相对于KL散度等分布评价指标来说,WD具有很明显的优点,比如可以度量离散分布之间的距离,且满足对称性,然后能够很好地反映概率分布的几何特性。几何特性的意思就比如这个p1到p3,并不是直接跳过去,而是必须经过中间的p2。这使得分布之间的空间距离也被考虑进去。

然后我们再来看图片上方文章中这个最优运输的公式:其中µ和v是来自不同域中两个离散的分布,π(µ , v)在这里这里表示的意思是所有的联合分布γ (x, y )的集合。上面这个公式的含义是对于每一个可能的联合分布γ,从中采样x,y属于γ,要注意这里的x,y属于两个不同域。然后计算x y之间的距离。后半截代表对于该次采样的联合分布γ下样本对距离的期望。最后在前面加上下界符号,整个公式的含义也就变成了,所有可能的联合分布下这个期望值所能取到的最小值,换句话说,就是两个分布的最短距离,这也就是最终希望得到的WD。

但是上面这种形式难以求解,所以进一步的,公式可以通过一些转换,化简成为下面那个形式。其中c(xi,yi)的含义也是两个向量的距离,x,y分别来自两个分布,或者说两个domain。这里把找到最优联合分布gama的这样一个问题,转换成为了找到最优传输矩阵T的问题,显然就相对直观一些了。矩阵T具有天然normalize特性,根据后面这个限定,可以得出其中所有元素加起来都是1. 在这里,其中任意一个元素Tij,代表向量ui移动到向量vj所需要的最小代价,也就是两个向量之间的WD。后面实验部分会有直观展示。

最终,不仅得到了两个域总体的距离,还得到了代表了两个域内entity之间的相关系数的副产物T矩阵。

如果前面的WD理解了,那这里的GWD也就很好理解了。可以看到右图,我们刚才计算的WD是两个域之间的距离,计算域内距离的方法是前面提到的相似性度量。作者希望那剩下的每个域之间的节点pair,或者说边的距离,使用GWD进行度量。和前面的定义形式基本一样,其中L函数是计算边距离的cost function。而这里的T则成为了一个对齐不同图中边的传输方案。

然后作者梳理了WD和GWD分别的优势,GWD可以捕捉边的相似性但是无法直接应用到图对齐,因为只考虑边的相似性话,boy和girl这样一个pair的相似性居然和football,basketball pair是一样的。但他们的语义完全不同,所以就说不通。另一方面来说,WD虽然匹配不同图中的节点,但是又不能捕捉边的相似性。这样不同节点表示的重复entity又会被当做一样并且忽略其周围的关系。就比如There is a red book on the blue desk这个句子,并且给定了一个图,里面不同位置的书有不同的颜色。如果无法理解关系,就无法知道这个句子里面的某本书对应的图里面的哪本。

所以很自然的,作者提出了下图这样一个结合方案。

其中最优传输矩阵T是被共享的,因为他同时结合了节点信息和边的信息。最终GOT的公式如上,很自然的,可以转换到右边的cost function。下图就是计算这样一个距离的流程。原始特征x tilde和y tilde同时输入,经过特定的模型主体输出x y同时计算域内的 cost matrix和跨域的cost matrix。然后计算出通用的传输方案T,作用到GWD和WD的计算流程上,最后得到一个GOT的融合距离。这个融合距离,最终会作为一个drop in正则化参数,在反向传播过程中用来监督各种任务训练中的跨域对齐程度,并且更新模型参数θ。

该论文的亮点在于通用性,也就是在多个不同的,多模态任务中均有效果,而他主要的修改,就是在原有下游任务的基础上,增加了一个任务无关的,衡量跨域图谱对齐程度的正则化项。所以就算是前面的最优传输没有理解也没关系,不影响后面的阅读和整体思路理解,因为这两个数学上距离的概念都不是作者提出来的,他只是将其做了一个融合改进并且作为通用的方法应用到了模型中。

实验:

首先是视觉语言的多模态任务。其一是图像-文本跨模态检索。这个任务定义是,当给定一个模态(比如图像)的查询时,它的目标是从数据库中以另一个模态(比如句子)检索最相似的样本。这里的关键挑战是如何通过理解跨模式数据的内容,和度量其语义相似性来匹配跨模式数据。早期的方法采用全局表示来表达整个图像和句子进行一个匹配却忽略了局部细节。这些方法在只包含单个对象的简单场景中工作得好,对于涉及复杂自然场景的真实的情况并不令人满意。

Scan这个方法通过注意力机制把句子中的词和 图像中的不同区域被识别出来的物体映射到一个共同的 embedding space 来预测整张图和一个句子之间的相似性。GOT在这里用来衡量句子和图片这两个域中graph的对齐程度。

然后作者证明单独使用的情况下WD比GWD能够取得更好的效果,而结合起来,作为GOT使用,可以达到最好的效果。并且可以看到,最优传输方案这个矩阵T,可视化出来之后,具有更强的解释性和更少的模糊性,就是他每一个对应关系都很清晰不像注意力矩阵那么模糊和密集。

任务2是VQA,使用的是双线性注意力模型BAN。后面的数字可以看做是生成的注意力图数量,可以理解为模型的复杂程度。可以看出  GOT对于简单模型的提升效果的程度是好于复杂模型。(个人感觉VQA上跨域对齐的好处有待商讨)

然后对于文本生成的任务来说,提到了图像注释。

以及机器翻译任务,效果都是比原有的要好。

最后是段落摘要任务,总之就是在一个或多个方法的baseline基础上加入GOT,效果都有提升。

文章最后以机器翻译实验为基础进行了消融实验,探讨了T矩阵是否在WD和GWD中共享的影响,证明共享T具有更好的效果。同时也测试了超参数λ 取值的影响,最后发现在λ=0.8的时候效果最好,也就是说WD在这个过程中占了更重要的比例。

总结

该文章的主要出发点是跨域对齐在多模态任务中具有很重要的地位,当然也不局限多模态。从结果可以看出域内和域间的关系在对齐任务上都很重要。同时,作者也提到,这是一个可以广泛应用到许多跨模态任务的通用框架,作者这篇文章的重要性很大一部分也体现在他的通用性上,核心idea是加了一个基于对齐程度的正则化项这样一个trick。

最后我们可以看出来,kg里面,特别是小的场景kg中,每一个结点和边都是非常重要的,都有其存在的道理,提升模型效果可以考虑从加强其中语义区分和语义的捕捉入手。



 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478638.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

张俊林:对比学习研究进展精要

文 | 张俊林知乎对比学习(Contrastive Learning)最近一年比较火,各路大神比如Hinton、Yann LeCun、Kaiming He及一流研究机构比如Facebook、Google、DeepMind,都投入其中并快速提出各种改进模型:Moco系列、SimCLR系列、BYOL、SwAV…..&#x…

前端开发者的福音!通过拖拽就可生成Vue代码的平台来了!

Vue组件代码生成平台 Vue组件代码生成平台是一款面向Vue开发者的拖拽式组件代码生成工具。通过它可以快速搭建Vue组件的代码骨架结构。开发者可在此基础上进行二次开发。 目前该平台非常适合快速搭建一个常见的数据查询组件,仅需要拖三个组件进来即可完成&#xf…

LeetCode 523. 连续的子数组和(求余 哈希)

1. 题目 给定一个包含非负数的数组和一个目标整数 k,编写一个函数来判断该数组是否含有连续的子数组,其大小至少为 2,总和为 k 的倍数,即总和为 n*k,其中 n 也是一个整数。 示例 1: 输入: [23,2,4,6,7], k 6 输出: …

知识图谱简介

01 什么是知识图谱 我们可以从不同的视角去审视知识图谱的概念。 在Web视角下,知识图谱如同简单文本之间的超链接一样,通过建立数据之间的语义链接,支持语义搜索。 在自然语言处理视角下,知识图谱就是从文本中抽取语义和结构化的…

流量运营数据产品最佳实践——美团旅行流量罗盘

背景 互联网进入“下半场”后,美团点评作为全球最大的生活服务平台,拥有海量的活跃用户,这对技术来说,是一个巨大的宝藏。此时,我们需要一个利器,来最大程度发挥这份流量巨矿的价值,为酒旅的业务…

开源开放 | OMAHA 联合 OpenKG 发布新冠诊疗图谱数据

本文转载在公众号:OMAHA联盟。今年新型冠状病毒肺炎爆发期间,大数据、云计算、人工智能等新一代信息技术支撑着我国建立和健全疫情防控机制。知识图谱作为机器认知智能实现的基础之一,是人工智能的重要组成部分,在“抗疫”行动中赋…

LeetCode 498. 对角线遍历

1. 题目 给定一个含有 M x N 个元素的矩阵(M 行,N 列),请以对角线遍历的顺序返回这个矩阵中的所有元素,对角线遍历如下图所示。 输入: [[ 1, 2, 3 ],[ 4, 5, 6 ],[ 7, 8, 9 ] ]输出: [1,2,4,7,5,3,6,8,9]2. 解题 横…

图灵奖得主Jeff Ullman:机器学习不是数据科学的全部!统计学也不是!

文 | Jeff Ullman源 | 智源社区3月31日,2020年图灵奖重磅出炉,颁给了哥伦比亚大学计算机科学名誉教授 Alfred Vaino Aho 和斯坦福大学计算机科学名誉教授 Jeffrey David Ullman。Jeff Ullman 是数据科学领域的巨擘,他的研究兴趣包括数据库理论…

深度学习及AR在移动端打车场景下的应用

本文内容根据作者在美团Hackathon 4.0中自研的项目实践总结而成。作为美团技术团队的传统节目,每年两次的Hackathon已经举办多年,产出很多富于创意的产品和专利,成为工程师文化的重要组成部分。本文就是2017年冬季Hackathon 4.0一个获奖项目的…

开源开放 | 熵简科技 AI Lab 开源金融领域中文预训练语言模型 FinBERT

1 背景及下载地址为了促进自然语言处理技术在金融科技领域的应用和发展,熵简科技 AI Lab 近期开源了基于 BERT 架构的金融领域预训练语言模型 FinBERT 1.0。相对于Google发布的原生中文BERT、哈工大讯飞实验室开源的BERT-wwm 以及 RoBERTa-wwm-ext 等模型&#xff0…

前端如何做极致的首屏渲染速度优化

这里说的极致是技术上可以达到最优的性能。 这里不讨论常见的优化手段,比如:Script标签放到底部、DNS预解析、HTTP2.0、CDN、资源压缩、懒加载等。 这里讨论的是如何使First Contentful Paint的时间降到最低,这个指标决定了白屏的时间有多长…

LeetCode 209. 长度最小的子数组(滑动窗口)

1. 题目 给定一个含有 n 个正整数的数组和一个正整数 s ,找出该数组中满足其和 ≥ s 的长度最小的连续子数组。 如果不存在符合条件的连续子数组,返回 0。 示例: 输入: s 7, nums [2,3,1,2,4,3] 输出: 2 解释: 子数组 [4,3] 是该条件下的长度最小的连…

京东 | NLP人才联合培养计划

01 京东AI项目实战课程安排覆盖了从经典的机器学习、文本处理技术、序列模型、深度学习、预训练模型、知识图谱、图神经网络所有必要的技术。项目一、京东健康智能分诊项目第一周:文本处理与特征工程| Bag of Words模型| 从tf-idf到Word2Vec| SkipGram与CBOW| Hiera…

论文小综 | Pre-training on Graphs

本文转载自公众号:浙大KG。作者:方尹、杨海宏,浙江大学在读博士,主要研究方向为图表示学习。在过去几年中,图表示学习和图神经网络(Graph Neural Network, GNN)已成为分析图结构数据的热门研究领域。图表示学习旨在将具…

初探下一代网络隔离与访问控制

概述 安全域隔离是企业安全里最常见而且最基础的话题之一,目前主要的实现方式是网络隔离(特别重要的也会在物理上实现隔离)。对于很小的公司而言,云上开个VPC就实现了办公网和生产网的基础隔离,但对于有自建的IDC、网络…

LeetCode 189. 旋转数组(环形替换)

1. 题目 给定一个数组,将数组中的元素向右移动 k 个位置,其中 k 是非负数。 示例 1:输入: [1,2,3,4,5,6,7] 和 k 3 输出: [5,6,7,1,2,3,4] 解释: 向右旋转 1 步: [7,1,2,3,4,5,6] 向右旋转 2 步: [6,7,1,2,3,4,5] 向右旋转 3 步: [5,6,7,1,2,3,4]要求…

吴恩达:机器学习应以数据为中心

源 | 新智元今天是吴恩达45岁生日。他是国际最权威的ML学者之一,学生遍布世界各地。在最近的一期线上课程中,吴恩达提出了以模型为中心向以数据为中心的AI。吴恩达发推称,「大家为自己送上最好的礼物就是,观看这个视频观看并提出自…

如何开发小程序开发者工具?

最近集团内部在自研小程序,我负责小程序开发者工具的调试部分。经过一段时间的探索,摸索出不少经过实际检验的可行手段。接下来将会用几篇文章总结一下思路。 文章的内容主要会分为以下几部分: 如何建立逻辑层运行时容器(两种方…

美团点评基于Storm的实时数据处理实践

背景 目前美团点评已累计了丰富的线上交易与用户行为数据,为商家赋能需要我们有更强大的专业化数据加工能力,来帮助商家做出正确的决策从而提高用户体验。目前商家端产品在数据应用上主要基于离线数据加工,数据生产调度以“T1”为主&#xff…