论文浅尝 | Hike: A Hybrid Human-Machine Method for Entity Alignment

论文浅尝 | Hike: A Hybrid Human-Machine Method for Entity Alignment

news/2025/4/26 21:56:04/文章来源:https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/78993172

Zhuang Y,Li G, Zhong Z, et al. Hike: A Hybrid Human-Machine Method for Entity Alignmentin Large-Scale Knowledge Bases[C]// ACM, 2017:1917-1926. ( CIKM 2017 )

论文链接：http://dbgroup.cs.tsinghua.edu.cn/ligl/crowdalign.pdf

Motivation

随着语义网络的迅速发展，越来越多的大规模知识图谱公开发布，为了综合使用多个来源的知识图谱，首要步骤就是进行实体对齐(Entity Alignment)。近年来，许多研究者提出了自动化的实体对齐方法，但是，由于知识图谱数据的不均衡性，导致此类方法对齐质量较低，特别是召回率(Recall)。因此，可考虑借助于众包平台提升对齐效果，文章提出了一个人机协作的方法，对大规模知识图谱进行实体对齐。

Framework

方法主要流程如图所示：

首先，通过机器学习方法对知识库进行粗略的实体对齐，然后分别将以对齐实体对(MatchedPairs)和未对齐实体对(UnmatchedPairs)放入众包平台，让人进行判断。两条流水线的步骤类似，主要包括四个部分：实体集划分(EntityPartition)、建立偏序(PartialOrder Construction)、问题选择(QuestionSelection)、容错处理(ErrorTolerance)。

实体集划分的目的是将同类的实体聚类到一个集合，实体对齐只在集合内部进行，集合之间不进行对齐操作。实体集划分的依据是属性，通常同一类实体的属性是相似的。

偏序定义如下：

建立偏序的目的在于找出最具有推理期望(InferenceExpectation)的实体对，偏序集实例如下：

其中，如果P₁₁被判断为Unmatch，则所有偏序小于P₁₁的节点都可以推断为unmatch。反之，如果P₄₅被推断为Match,则所有偏序大于P₄₅的节点都可以推断为Match。

推理期望公式如下：

其中，pre和suc分别表示前驱和后继节点。

对于问题选择，文章提出了两个贪心算法，分别为一次选一个节点以及一次选多个节点。算法如下：

Experiment

数据集：Yago 、 DBPedia

对比方法：PARIS、PBA

众包平台：ChinaCrowds

评估问题选择方法:

可以看到，两个贪心算法差别不大，但是比随机选择性能好。

评估问题集大小：

随着问题集合的增加，精确率、召回率、F值均有提升。

评估实体对齐结果：

实验表明，各项评估指标具有提升，证实了人机协作的有效性，但是MQS算法复杂度太高，导致运行时间过长。

本文作者：罗丹，浙江大学硕士，研究方向:机器学习，知识图谱。

OpenKG.CN

中文开放知识图谱（简称OpenKG.CN）旨在促进中文知识图谱数据的开放与互联，促进知识图谱和语义技术的普及和广泛应用。

转载须知：转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题，请注明原标题。

点击阅读原文，进入 OpenKG 博客。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/480900.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【HTML/CSS】CSS权重、继承及引入方式

【HTML/CSS】CSS权重、继承及引入方式

1 CSS权重 1.1 权重规则 CSS匹配的选择器中每一种选择器类型的数组决定了选择器的权重，CSS的优先级规则： 权重高的样式会被应用到元素上。如果权重相同则使用最后声明的样式。属性后加上!important，无条件优先 1.2 权重计算内联样式的权…

阅读更多...

TCC分布式实现原理及分布式应用如何保证高可用

TCC分布式实现原理及分布式应用如何保证高可用

一、业务场景介绍咱们先来看看业务场景，假设你现在有一个电商系统，里面有一个支付订单的场景。那对一个订单支付之后，我们需要做下面的步骤： 更改订单的状态为“已支付”扣减商品库存给会员增加积分创建销售出库单通知仓库发货…

阅读更多...

IJCAI 2018：中科院计算所：增强对话生成一致性的序列到序列模型

IJCAI 2018：中科院计算所：增强对话生成一致性的序列到序列模型

IJCAI 2018：中科院计算所：增强对话生成一致性的序列到序列模型文章来源：企鹅号 - 读芯术你和“懂AI”之间，只差了一篇论文号外！又一拨顶会论文干货来袭！2018年6月9-10日，代表学术界和工业界的顶…

阅读更多...

一时学习一时爽，持续学习持续爽

一时学习一时爽，持续学习持续爽

一只小狐狸带你解锁NLP/ML/DL秘籍作者：小鹿鹿鹿 net~net~你围棋下的这么好，斗地主应该也不错吧不敢当不敢当但是人家柯洁才得了欢乐斗地主全国第一呢那让老夫也学习学习吧~巴拉巴拉小魔仙Training。。。net net stop！你怎么斗地主还没学会&am…

阅读更多...

【HTML/CSS】HTML元素种类的划分

【HTML/CSS】HTML元素种类的划分

1 种类划分 1.1 块级元素特征：独占父元素的一行，可以设置宽高，高度默认由内容决定。常用标签：div、p、h1~h6、ul、ol、li、dl、dt、dd、table、form不常用标签：pre用来定义预格式化文本，pre内的文本会保…

阅读更多...

基于“大中台+小前台”思想的电商系统总体架构设计

基于“大中台+小前台”思想的电商系统总体架构设计

一、架构总原则 1. 大中台小前台的架构思路 2. 业务中台采用领域驱动设计（DDD），在其上构建业务能力SAAS，持续不断进行迭代演进。 3. 平台化定位，进行了业务隔离设计，方便一套系统支撑不同玩法的业务类型和便…

阅读更多...

问答系统总结

问答系统总结

最近在研究问答系统,但是在查找资料的过程中一直处于懵逼状态,因为问答系统分类比较多,根据不同的依据可以分为不同种类,总是搞混,也没有找到资料详细全面的介绍,所以在一边学习查找资料的同时,自己也整理出一份总结,用于以后学习过程不至于思路混乱,如有错误请帮忙指出.19世纪…

阅读更多...

论文写作葵花宝典

论文写作葵花宝典

一只小狐狸带你解锁NLP/DL/ML秘籍作者：小鹿鹿鹿论文写作套路老板说：写论文是有套路的老板说：introduction写好了，论文就成功了一半老板说：你的motivation是什么，contribution又是啥？小夕说&…

阅读更多...

李涓子 | 机器智能加速器：大数据环境下知识工程的机遇和挑战

李涓子 | 机器智能加速器：大数据环境下知识工程的机遇和挑战

本文转载自公众号：数据派THU。导读：知识图谱已经成为推动人工智能发展的核心驱动力之一。本文选自清华大学计算机科学与技术系教授、清华-青岛数据科学研究院科技大数据研究中心主任李涓子老师于201…

阅读更多...

【HTML/CSS】CSS盒模型及其理解

【HTML/CSS】CSS盒模型及其理解

1 盒模型概念：CSS盒模型本质是一个盒子，包括：外边距margin、边框border、内边距padding、内容content 分类：标准盒模型（W3C）和怪异盒模型（IE） 标准盒模型：width的值就是…

阅读更多...

Netty异步非阻塞事件驱动及原理详解

Netty异步非阻塞事件驱动及原理详解

本文基于 Netty 4.1 展开介绍相关理论模型、使用场景、基本组件、整体架构，知其然且知其所以然，希望给大家在实际开发实践、学习开源项目方面提供参考。 Netty 是一个异步事件驱动的网络应用程序框架，用于快速开发可维护的高性能协议服…

阅读更多...

文本预处理跑得慢？抱抱脸团队又放福利，1GB文本语料分词只需20s！

文本预处理跑得慢？抱抱脸团队又放福利，1GB文本语料分词只需20s！

一只小狐狸带你解锁NLP/DL/ML秘籍正文素材来源：量子位缘起BERTBERT带来的并不是只有一大波paper和嗷嗷上线，还带火了一个NLP团队——Huggingface（中文译作抱抱脸）。抱抱脸团队是一个创业团队。他们的Transformers是github上最火的…

阅读更多...

基于深度学习的FAQ问答系统

基于深度学习的FAQ问答系统

| 导语问答系统是信息检索的一种高级形式，能够更加准确地理解用户用自然语言提出的问题，并通过检索语料库、知识图谱或问答知识库返回简洁、准确的匹配答案。相较于搜索引擎，问答系统能更好地理解用户提问的真实意图, 进一步能更有效地满足用…

阅读更多...

【HTML/CSS】定位方式及区别

【HTML/CSS】定位方式及区别

1 文档流文档流是浏览器默认的排版方式文档流的排版方式是块级元素垂直排布，行内元素和行内块元素水平排布。 2 脱离文档流脱离文档流是不按照文档流的排版方式进行排版，脱离后，元素不在布局中，不在流中占有位置&#xff0c…

阅读更多...

基于SpringBoot2.x、SpringCloud和SpringCloudAlibaba的企业级微服务敏捷开发系统架构

基于SpringBoot2.x、SpringCloud和SpringCloudAlibaba的企业级微服务敏捷开发系统架构

一、项目总体架构图二、功能介绍 2.1、统一认证功能支持oauth2的四种模式登录支持用户名、密码加图形验证码登录支持手机号加密码登录支持openId登录支持第三方系统单点登录 2.2、分布式系统基础支撑服务注册发现、路由与负载均衡服务降级与熔断服务限流(url/方法级别…

阅读更多...

征文通知 | 2018年全国知识图谱与语义计算大会

征文通知 | 2018年全国知识图谱与语义计算大会

2018年全国知识图谱与语义计算大会China Conference on Knowledge Graph and Semantic Computing (CCKS 2018)2018年8月15日-18日，天津征稿截止: 2018年5月18日全国知识图谱与语义计算大会（CCKS: China Conference on Knowledge Graph and Semantic Comp…

阅读更多...

如何让聊天机器人懂情感？这是一篇来自清华的论文

如何让聊天机器人懂情感？这是一篇来自清华的论文

原载：Paperweekly作者：黄民烈，清华大学老师关注自然语言处理、人机对话情感分析等方向aihuangtsinghua.edu.cn当你悲伤的时候，机器人可以安慰你；当你高兴的时候，机器人为你高兴。悲你所悲，喜你所…

阅读更多...

戴着口罩也要开心过年吖！

戴着口罩也要开心过年吖！

一只小狐狸带你解锁NLP/ML/DL秘籍素材来源于网络新的一年????就要到来了作为超(bu)高(shan)智(yan)商(ci)的程序员如何向亲朋好友证明我们是人群中最靓的仔呢小夕为你准备了专属程序员的新春祝福~~普天同庆for (;;) { print("鼠年快乐"); }（满屏的新年…

阅读更多...

【HTML/CSS】margin塌陷和合并问题

【HTML/CSS】margin塌陷和合并问题

1 margin塌陷问题 1.1 示例 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>margin塌陷</title…

阅读更多...

集群、分布式、微服务的概念及异同

集群、分布式、微服务的概念及异同

一、什么是集群？ 集群是指将多台服务器集中在一起，每台服务器都实现相同的业务，做相同的事；但是每台服务器并不是缺一不可，存在的主要作用是缓解并发能力和单点故障转移问题。集群主要具有以下特征：&…

阅读更多...

最新文章