论文浅尝 | Iterative Cross-Lingual Entity Alignment Based on TransC

论文笔记整理:谭亦鸣,东南大学博士。


来源:IEICE TRANSACTIONS on Information and Systems, 2020, 103(5): 1002-1005.

链接:

https://www.jstage.jst.go.jp/article/transinf/E103.D/5/E103.D_2019DAL0001/_pdf

介绍

这篇论文关注的任务是跨语言实体对齐,目标是将不同语言知识库中具有相同语义的实体相匹配。作者认为不同语言的知识图谱可能具备相同的本体划分,这一点对于实体对齐来说可能起到作用。(在作者的了解范围里,目前还没有实体对齐工作是基于本体信息的,但是多语言知识图谱如DBpedia,是先构建了统一的本体划分,然后再遵循这一划分构建各个语言版本的知识图谱,如下图)

为了验证这一猜测,本文提出了一个基于TransC的embedding模型:首先由TransC以及参数共享模型将图谱中所有的实体和关系映射到一个共享的低维语义空间;之后模型迭代通过reinitalization以及soft alignment(软对齐)策略提升实体对齐的性能。

实验结果显示,相对于benchmark算法,本文方法可以有效的利用本体信息,从而得到更好的结果。

P.S. 需要说明的是,本文使用到的本体间关系只有“SubclassOf”这一个。

模型

模型整体可以分为三个部分:

a. Knowledge embedding part

首先是对实例的embedding:TransE被用于对三元组中的实体和关系进行embedding,投影到一个低维空间中

之后是对实体的InstanceOf三元组的embedding:这种三元组的构成为(实体,InstanceOf,实体对应的本体类型),TransC将每个类型对应的向量建模为一个球型空间s(p,m),其中p表示球心,m表示球的半径,对于一个InstanceOf三元组,其对应的energy function为:

其中e为e的向量表示。

整体三元组的得分计算为:

最后是SubClassOf triple embedding:这个部分主要是反应不同类型的本体之间的相对位置,因此计算的方式通过球形空间的相对位置来衡量,即:

b. Joint embedding part

本文使用的参数共享模型基于MTransE(IJCAI 2017)构成,其目的是基于ILLs(DBpedia提供的已知多语言实体对齐),将已知对齐实体embedding,在训练过程中强制对等。

c. Alignment part

为了弥补标注数据(已知对齐)的不足,这一步的普遍方案是使用训练得到的模型对未标注数据进行对齐标注,然后使用新的标注数据作为训练集迭代的更新模型,但是这种过程必然引入错误对齐。作者提出了两个策略处理这个问题:

1)Reinitialization

在每轮迭代中,首先训练multilingual knowledge embedding直至验证集上的效果边差,而后对于那些embedding相似性高于预设阈值的实体对,将具有最高相似性的样本选入ILLs,构成新的标注集。之后对knowledge做重新初始化,并且开始新的迭代训练。

2)Soft Alignment

3)对于更新的标注集中的实体对,这里参照Soft Alignmen(IJCAI 2017)定义的得分函数:

对于不同语言的KG1和KG2,更新的标注集不会被用于参数共享模型,而是仅仅用于对齐训练

实验

实验数据

作者基于DBpedia构建了一个多语言知识图谱,包含英-法以及英-德两种语言对。

其构建过程为:首先随机的从ILLs中抽取1000个实体对,而后利用这些实体对在ILLs中找到其他包含对齐实体的三元组(但是不在1000样本中,例如A-B对齐,借助ILLs找到(A, r1, C),(B, r2, D),其中,C和D在ILLs中是对齐实体,这些将被用于测试模型的对齐性能)

数据集的统计信息如下表所示

实验结果

跨语言实体对齐实验结果如下表,其中Ps-TransC(RE+SA)是本文方法,其他Ps为本文方法的变体,作为对照组,参考的其他方法为LM(Linear Mapping)以及MTransE。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478973.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ARKit:增强现实技术在美团到餐业务的实践

前言 增强现实(Augmented Reality)是一种在视觉上呈现虚拟物体与现实场景结合的技术。Apple 公司在 2017 年 6 月正式推出了 ARKit,iOS 开发者可以在这个平台上使用简单便捷的 API 来开发 AR 应用程序。 本文将结合美团到餐业务场景&#xff…

腾讯天衍实验室新算法入选国际万维网大会 新冠疫苗AI问答上线

新冠疫苗的效用和安全性如何?怎么预约接种新冠疫苗?哪些人可以接种新冠疫苗?接种新冠疫苗是否收费?进入年底,随着全国新冠疫苗接种工作规范有序开展,各地接种人数在不断增加,但在逐步面向全民推…

LeetCode 965. 单值二叉树

文章目录1. 题目2. 解题2.1 递归2.2 循环1. 题目 如果二叉树每个节点都具有相同的值,那么该二叉树就是单值二叉树。 只有给定的树是单值二叉树时,才返回 true;否则返回 false。 2. 解题 2.1 递归 class Solution { public:bool isUnivalT…

论文浅尝 - SIAM ICDM 2020 | 基于图时空网络的知识引导的诊断预测

论文笔记整理:吴锐,东南大学硕士。来源:SIAM ICDM 2020论文下载地址:https://epubs.siam.org/doi/abs/10.1137/1.9781611976236.3 动机基于电子病历(EHR,Electronic Health Records)对患者未来的…

Oceanus:美团HTTP流量定制化路由的实践

背景 Oceanus是美团基础架构部研发的统一HTTP服务治理框架,基于Nginx和ngx_lua扩展,主要提供服务注册与发现、动态负载均衡、可视化管理、定制化路由、安全反扒、session ID复用、熔断降级、一键截流和性能统计等功能。本文主要讲述Oceanus如何通过策略抽…

文本对抗攻击入坑宝典

文 | 阿毅编 | 小轶如果是咱家公众号的忠实粉丝就一定还记得之前咱家一篇关于NLP Privacy的文章,不出意外的话,你们是不是现在依然还担心自己的隐私被输入法窃取而瑟瑟发抖。所以,我们又来了!今天给大家讨论的是NLP Privacy中一个…

LeetCode 350. 两个数组的交集 II(哈希)

文章目录1. 题目2. 解题2.1 hash2.2 数组已排序1. 题目 给定两个数组,编写一个函数来计算它们的交集。 示例 1:输入: nums1 [1,2,2,1], nums2 [2,2] 输出: [2,2] 示例 2:输入: nums1 [4,9,5], nums2 [9,4,9,8,4] 输出: [4,9] 说明:输出结果中每个元…

会议交流 | CCKS2020 第十四届全国知识图谱与语义计算大会

CCKS2020第十四届全国知识图谱与语义计算大会China Conference on Knowledge Graph and Semantic Computing, 2020南昌.江西,11月12日-15日主办: 中国中文信息学会语言与知识计算专业委员会承办: 江西师范大学会议网站:www.sigkg.cn/ccks2020大会主题&a…

用微前端的方式搭建类单页应用

前言 微前端由ThoughtWorks 2016年提出,将后端微服务的理念应用于浏览器端,即将 Web 应用由单一的单体应用转变为多个小型前端应用聚合为一的应用。 美团已经是一家拥有几万人规模的大型互联网公司,提升整体效率至关重要,这需要很…

12种NumpyPandas高效技巧

文 | Kunal Dhariwal本文分享给大家 12 种 Numpy 和 Pandas 函数,这些高效的函数会令数据分析更为容易、便捷。最后,读者也可以在 GitHub 项目中找到本文所用代码的 Jupyter Notebook。项目地址:https://github.com/kunaldhariwal/12-Amazing…

LeetCode 1002. 查找常用字符(哈希)

1. 题目 给定仅有小写字母组成的字符串数组 A,返回列表中的每个字符串中都显示的全部字符(包括重复字符)组成的列表。例如,如果一个字符在每个字符串中出现 3 次,但不是 4 次,则需要在最终答案中包含该字符…

抖音算法推荐机制详解

抖音算法推荐机制详解!(科普向) 众所周知抖音的流量分配是去中心化的,这种去中心化算法,让每个人都有机会爆红,可为什么别人几个粉玩抖音,就能轻松获得10w点赞?而你怒拍几十条也枉然? 抖音的…

论文浅尝 - ICLR2020 | 用于半监督分类的图形推理学习

论文笔记整理:周虹廷,浙江大学研究生。研究方向:知识图谱,图表示学习等。论文链接:https://arxiv.org/pdf/2001.06137.pdf本文是发表在ICLR2020上针对图数据做节点半监督分类任务的论文。现有的算法解决图上节点分类问…

WMRouter:美团外卖Android开源路由框架

WMRouter是一款Android路由框架,基于组件化的设计思路,功能灵活,使用也比较简单。 WMRouter最初用于解决美团外卖C端App在业务演进过程中的实际问题,之后逐步推广到了美团其他App,因此我们决定将其开源,希望…

Android官方开发文档Training系列课程中文版:管理系统UI之变暗系统条

原文地址:http://android.xsoftlab.net/training/system-ui/index.html 引言 系统条(System Bars)是屏幕上的一块显示区域,专门用来显示通知,设备的通讯状态以及设备的导向。典型的System Bars与APP同时显示在屏幕上。APP展示了具体的内容&…

实话实说:中文自然语言处理的N个真实情况

文 | Liu Huanyong按语中文自然语言处理,目前在AI泡沫之下,真假难辨,实战技术与PPT技术往往存在着很大的差异。目前关于AI或者自然语言处理,做的人与讲的人往往是两回事。作者简介Liu Huanyong,就职于中国科学院软件研…

Android官方开发文档Training系列课程中文版:管理系统UI之隐藏状态条

原文地址:http://android.xsoftlab.net/training/system-ui/status.html 这节课将会介绍如何隐藏不同的版本的状态条。隐藏状态条可以使内容展示区域更大,因此可以提供一种更强的身临其境的用户体验。 含有状态条的APP: 隐藏状态条的APP&am…

论文浅尝 - ACL2020 | 用于回答知识库中的多跳复杂问题的查询图生成方法

论文笔记整理:谭亦鸣,东南大学博士。来源:ACL 2020链接:https://www.aclweb.org/anthology/2020.acl-main.91.pdf1.介绍在以往的工作中,知识图谱复杂问答一般被分为两种类型分别处理:其一是带有约束的问题&…

深入理解JSCore

背景 动态化作为移动客户端技术的一个重要分支,一直是业界积极探索的方向。目前业界流行的动态化方案,如Facebook的React Native,阿里巴巴的Weex都采用了前端系的DSL方案,而它们在iOS系统上能够顺利的运行,都离不开一个…

全球44家机构,55位大佬,历时两年,打造最强NLG评测基准!

文 | 小轶(大家好,我是已经鸽了夕总仨月没写文章了的小轶(y)!新的一年一定改过自新,多读paper多写稿,望广大读者敦促(ง •̀_•́)ง)今天要和大家分享的是卖萌屋学术站上的本月最热…