论文浅尝 | 使用预训练深度模型和迁移学习方法的端到端模糊实体匹配

论文笔记整理:高凤宁,南京大学硕士,研究方向为知识图谱、实体消解。


640?wx_fmt=png

链接:https://doi.org/10.1145/3308558.3313578


动机

目前实体匹配过程中实体之间的差异比较微妙,不同的情况下可能会有不同的决策结果,导致难以做出精确的匹配决策。另外现存的实体匹配方法在做出决策之前,往往需要大量的训练数据,而这在许多的应用场景中是难以做到的。


亮点

本文的亮点主要包括:

(1)设计了一种层次化的深度模型,利用了字符级别和单词级别的信息,来预训练常见属性类型的相关模型。

(2)使用了迁移学习的方法,能够利用预训练模型并进行微调,使其能够处理新的属性类型的实体匹配任务。

 

系统结构

640?wx_fmt=png

从上图可以看出,整个的系统分为三个组成部分,分别是Attribute Type Detection Model、Attribute-level EM、Table-level EM &Fine-tuning。其中Attribute-levelEM是整个系统的核心部分。

概念及模型

1.    HI-EM 模型

640?wx_fmt=png

首先该模型针对字符级别和单词级别可以进行划分。在字符级别的层次上,先将输入的字符进行 embedding,转化为向量表示。再通过 BiGRU,使得模型能够学习到字符间的上下文信息。下面通过输入间的注意力机制,进行对齐工作。然后进行聚合工作,将对齐后的表示形式与 BiGRU 得到的表示形式分别进行作差和乘积,然后进行拼接,得到新的表示形式。最后通过输入内部的注意力机制,更新当前字符的权重,最后通过将其他输入对当前字符的影响进行求和,得到单词级别的表示形式。下面单词级别层次上的工作与之类似,最后每一个输入都得到相应的表示形式,然后通过MLP 进行打分,从而进行匹配决策。

 

2.    Type-detection 模型

640?wx_fmt=png

该模型与HI-EM模型结构相似,但是没有沿用HI-EM模型,是因为在这两个任务中,同一个输入的不同元组的重要程度恰好是完全相反的。基于这一点考虑,Type-detection模型在结构上进行了变动,并且对最后的MLP层的输出结果进行了softmax操作,得到分别表征某个输入属于某个属性这件事为True和False的表示形式。

 

3.    Transfer Learning

在属性类型检测和属性级别的实体匹配中,在处理未知的实体类型时都用到了迁移学习的方法。例如,在属性级别的实体匹配中,对已知的49种属性类型,每种类型都要单独训练一个模型,而对于未知类型的属性,训练模型时采用之前的49种属性类型的训练集的并集,模型基本沿用HI-EM模型,大体结构不变,只改变了MLP层,并进行微调,最终结果是训练得到一个模型。

 

4.    Table-level EM 模型

对属性类型明确的以及未知类型的属性级别实体匹配模型的最终表示形式进行了拼接,最终通过新的MLP层,并进行微调,即可得到表格级别的实体匹配模型。


实验

1.     Type Detection Experiments

(1)   Entity-value type-detection

 

640?wx_fmt=png

在40种常见属性类型中,绝大多数属性类型上面都有较高的准确率和召回率;在9种添加的地址类型中,尽管测试数据之间的差异较小,模型仍然能够较好地分辨属性类型。

 

(2)   Table-column type-detection

640?wx_fmt=png

与基于关键字的这种很强的baseline方法相比,本文提出的模型在绝大多数属性类型上面,仍然能够取得跟前者相近甚至较好的实验效果。

 

(3)   Transfer-learning to new types

640?wx_fmt=png

利用迁移学习方法的模型与从零开始学习的模型相比,前者的学习速度更快,有着更高的准确率和召回率。

 

2.     Attribute-Level Entity Matching

(1)   Pre-trained attribute-level EM

640?wx_fmt=png

从上表中可以得到如下几点发现:

  • 与其他所有方法相比,HI-EM 的实验结果是最好的;

  • HI-EM(Unified) 模型比 DeepMatcher (Unified) 模型的实验结果要好;

  • 与属性类型明确的实验模型相比,unified 类型的模型实验结果较差。

640?wx_fmt=png

640?wx_fmt=png

从上图可以发现,在准确率和召回率这对指标上面的实验结果,与MRR上的实验结果基本一致。

 

(2)   Transfer-learning to new types

640?wx_fmt=png

从上表中可以得到如下几点发现:

  • 在相同的训练样本数量下,利用迁移学习训练的模型比从零开始训练的模型的实验效果要好;

  • 训练数据越少时,两个模型之间的差异越明显。

 

640?wx_fmt=png

640?wx_fmt=png

从上图可以发现,在准确率和召回率这对指标上面的实验结果,与MRR上的实验结果基本一致。

 

3.     Table-level Entity Matching

640?wx_fmt=png

从上表中可以得到如下几点发现:

  • 利用预训练模型的实验效果较好,即使只有少量的训练数据;

  • 在属性级别的实体匹配任务中,属性类型明确的模型是更为准确的;

  • 绝大多数情况中HI-EM模型的实验效果比 DeepMatcher 和 Magellan 更好。


总结

本文提出了一种利用预训练模型的端到端的实体匹配系统,在迁移学习的帮助下,证明了表格级别的实体匹配模型可以仅用少量的训练数据进行训练。

 


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479503.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

推荐几个Android开发非常有用的工具(for android studio)

原文地址: http://stormzhang.com/android/2015/05/26/android-tools/ 一晃好久没更新博客了,最近一个月真的很忙,因为公司在准备C轮融资,公司的发展到了一个关键的阶段,自己全部精力投入在公司产品上,这个状态可能还会…

分布式机器学习(下)-联邦学习

原文链接:https://zhuanlan.zhihu.com/p/114028503 本视频来源于Shusen Wang讲解的《分布式机器学习》,总共有三讲,内容和连接如下:并行计算与机器学习(上)并行计算与机器学习(下)联…

怎样将Embedding融入传统机器学习框架?

文 | 石塔西源 | 知乎LR本身是一个经典的CTR模型,广泛应用于推荐/广告系统。输入的特征大多数是离散型/组合型。那么对于Embedding技术,如何在不使用深度学习模型的情况下(假设就是不能用DNN),融入到LR框架中呢&#x…

推荐系统中的Embedding

推荐系统之Embedding一、什么是embedding?1. 让embedding空前流行的word2vec:2. 从word2vec到item2vec二、Graph Embedding1. 经典的Graph Embedding方法 — DeepWalk2. DeepWalk改进 — Node2vec3. 阿里的Graph Embedding方法EGES三、深度学习推荐系统中…

美团下一代服务治理系统 OCTO 2.0 的探索与实践

本文根据美团基础架构部服务治理团队工程师郭继东在2019 QCon(全球软件开发大会)上的演讲内容整理而成,主要阐述美团大规模治理体系结合 Service Mesh 演进的探索实践,希望对从事此领域的同学有所帮助。 一、OCTO 现状分析 OCTO 是…

技术动态 | 跨句多元关系抽取

本文转载自公众号&#xff1a;知识工场。第一部分 概述关系抽取简介关系抽取是从自由文本中获取实体间所具有的语义关系。这种语义关系常以三元组 <E1,R,E2> 的形式表达&#xff0c;其中&#xff0c;E1 和E2 表示实体&#xff0c;R 表示实体间所具有的语义关系。如图1所示…

网络解析(一):LeNet-5详解

原文链接&#xff1a;https://cuijiahua.com/blog/2018/01/dl_3.html 2018年1月9日21:03:313994,282 C摘要LeNet-5出自论文Gradient-Based Learning Applied to Document Recognition&#xff0c;是一种用于手写体字符识别的非常高效的卷积神经网络。一、前言LeNet-5出自论文Gr…

LeetCode 69. x 的平方根(二分查找)

文章目录1. 题目2.解题2.1 二分查找2.2 牛顿迭代1. 题目 实现 int sqrt(int x) 函数。 计算并返回 x 的平方根&#xff0c;其中 x 是非负整数。 由于返回类型是整数&#xff0c;结果只保留整数的部分&#xff0c;小数部分将被舍去。 示例 1:输入: 4 输出: 2 示例 2:输入: 8…

Google综述:细数Transformer模型的17大高效变种

文 | 黄浴来源 | 知乎在NLP领域transformer已经是成功地取代了RNN&#xff08;LSTM/GRU&#xff09;&#xff0c;在CV领域也出现了应用&#xff0c;比如目标检测和图像加注&#xff0c;还有RL领域。这是一篇谷歌2020年9月份在arXiv发表的综述论文 “Efficient Transformers: A …

从ReentrantLock的实现看AQS的原理及应用

前言 Java中的大部分同步类&#xff08;Lock、Semaphore、ReentrantLock等&#xff09;都是基于AbstractQueuedSynchronizer&#xff08;简称为AQS&#xff09;实现的。AQS是一种提供了原子式管理同步状态、阻塞和唤醒线程功能以及队列模型的简单框架。本文会从应用层逐渐深入到…

论文浅尝 | 利用知识-意识阅读器改进的不完整知识图谱问答方法

论文笔记整理&#xff1a;谭亦鸣&#xff0c;东南大学博士生&#xff0c;研究方向为知识库问答。来源&#xff1a;ACL2019链接&#xff1a;https://www.aclweb.org/anthology/P19-1417/本文提出了一种融合不完整知识图谱与文档集信息的end2end问答模型&#xff0c;旨在利用结构…

MVP模式在Android中的应用(附UML高清大图,使用RecyclerView举例)

传了一张图&#xff0c;图比较大&#xff0c;请移步下载&#xff1a;http://download.csdn.net/detail/u011064099/9266245 在看代码之前&#xff0c;首先简单看一下什么是MVP模式&#xff1a;http://www.cnblogs.com/end/archive/2011/06/02/2068512.html MVP最核心就是将界面…

Facebook大公开:解决NLG模型落地难题!工业界的新一波春天?

文 | 小喂老师编 | 小轶作为NLP领域的“三高”用户&#xff08;高产、高能、高钞&#xff09;&#xff0c;FaceBook最近&#xff08;2020年11月&#xff09;又发表了一篇高水准文章&#xff0c;目前已被COLING-2020接收&#xff0c;号称解决了自然语言生成&#xff08;NLG&…

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

论文笔记整理&#xff1a;吴桐桐&#xff0c;东南大学博士生&#xff0c;研究方向为自然语言处理。链接&#xff1a;https://www.aclweb.org/anthology/P19-1226/近年来&#xff0c;机器阅读理解已经逐渐发展为自然语言理解方向的主流任务之一。最近&#xff0c;预训练模型尤其…

美团外卖前端容器化演进实践

背景 提单页的位置 提单页是美团外卖交易链路中非常关键的一个页面。外卖下单的所有入口&#xff0c;包括首页商家列表、订单列表页再来一单、二级频道页的今日推荐等&#xff0c;最终都会进入提单页&#xff0c;在确认各项信息之后&#xff0c;点击提交订单按钮&#xff0c;完…

LeetCode 807. 保持城市天际线

文章目录1. 题目2. 解题1. 题目 在二维数组grid中&#xff0c;grid[i][j]代表位于某处的建筑物的高度。 我们被允许增加任何数量&#xff08;不同建筑物的数量可能不同&#xff09;的建筑物的高度。 高度 0 也被认为是建筑物。 最后&#xff0c;从新数组的所有四个方向&#…

提供一个Android原生的Progress——SwipeToRefreshLayout下拉刷新时的等待动画

先来上个图看看效果&#xff1a; 这里我为什么要单独把这个拿出来呢&#xff0c;因为最近才开始接触Android最新的东西&#xff0c;也就是5.0以上的东西&#xff0c;发现Android提供的SwipeToRefreshLayout是没有上拉加载更多的&#xff0c;在网上找了不少第三方提供加载更多的…

导师实验室对学生影响有多大?

读博士导师非常重要&#xff0c;比你们想象得还要更重要。一个优秀的导师不仅在科研帮上很多忙&#xff0c;而且让你懂得怎么做科研&#xff0c;更重要的他教会你怎么做一个合格的学者。 跟这种导师工作&#xff0c;你会发现科研其实是一件非常有趣的事情&#xff0c;它带来的乐…

论文浅尝 | 使用孪生BERT网络生成句子的嵌入表示

论文笔记整理&#xff1a;吴杨&#xff0c;浙江大学计算机学院&#xff0c;知识图谱、NLP方向。https://www.ctolib.com/https://arxiv.org/abs/1908.10084动机谷歌的 BERT 预训练模型&#xff0c;已经能够在两个句子的语义相似度匹配等需要输入一对句子的任务上取得了非常好的…

美团点评效果广告实验配置平台的设计与实现

一. 背景 效果广告的主要特点之一是可量化&#xff0c;即广告系统的所有业务指标都是可以计算并通过数字进行展示的。因此&#xff0c;可以通过业务指标来表示广告系统的迭代效果。那如何在全量上线前确认迭代的结果呢&#xff1f;通用的方法是采用AB实验&#xff08;如图1&…