论文浅尝 - JWS2020 | FEEL: 实体抽取和链接的集成框架

论文笔记整理,谭亦鸣,东南大学博士生。


来源:JWS 2020

链接:https://www.sciencedirect.com/science/article/pii/S157082682030010X?via%3Dihub

介绍

实体抽取和链接(Entity extraction and linking, EEL)是语义网的一个重要任务,它能够从文本中识别现实世界的对象,并关联到知识库中的相应资源上。因此,EEL任务的一个目标是从文本中抽取知识。近年来,一些EEL系统被提出,它们着眼于不同的领域,语言以及知识库。这种情况下,一些尝试结合不同EEL系统优势的集成系统被提出,以提供比单一系统更好的性能。但是,目前尚没有一个清晰的全局配置指导,用于帮助集成系统选择,配置EEL系统,以及结果的融合。这篇论文提出一个框架,通过对系统选择,输入参数配置,系统执行以及最终的答案融合提供建议(答案融合基于一个对实体出现及重叠的过滤策略建立),从而构建融合EEL系统。基于这个框架,作者使用现有EEL系统实现了一个集成系统,通过GERBIL框架的实验结果表明,在七个数据集上,相对于单一EEL系统,集成系统的微观/宏观精度与召回率均有提高。

动机

集成EEL系统能够利用不同EEL系统的优势,从而得到比单一系统更好的性能。集成系统的一般思路是将两个或更多的EEL系统的输出统一为一个候选结果集。此外,多系统的命名实体抽取结果合成,亦能够比单一系统识别出更多的实体。

但是,集成EEL涉及到不同阶段的系统选择,参数配置以及集成决策,从而实现具有同类结果的系统。首先,对于EEL系统的选择与执行,包括领域,资源需求以及实现环境等多个因素需要被考虑。第二,在参数配置方面,输入参数的选择显然会直接影响到输出结果。例如,置信度参数控制命名实体在提及与URIs之间的匹配程度。最后,不同EEL系统的组合可能产生重复/部分重叠的实体元组(不同命名实体共享了一个文本中的提及)。因此,为集成系统提供系统选择,配置及结果融合的建议是一个明确的发展需要。

方法

本文提出FEEL(Frameworkfor the integration of Entity Extraction and Linking systems),旨在为集成EEL系统提供一个具有整体设定的推荐,概念以及任务的结构。图2中描述了该框架的三个主要阶段:

1.参数配置:

a)系统选择,以开放域数据场景为例,四个EEL系统被用于集成系统的实现(TagMe, DBpedia Spotlight, Babelfy, WAT),系统的选择遵循(i) 系统的研究报告中具备精准度和召回率之间的平衡。 (ii) 系统能够处理多个领域/包含不同特征的数据集。(iii) (免费)可用。

b)资源管理,针对EEL系统所需的软硬件资源的管理

c)参数调试,一般而言,EEL系统具有一些输入参数,例如置信度,输入文本,语言,输出格式,token-key等。这一步涉及对最常见输入参数(尤其置信度)的描述和配置。

i.置信度:置信度作为一个阈值,控制了从文本中抽取命名实体的数量,一般一个更高的置信度代表(获取实体的)高精度,但一定程度上损失召回。相对于使用基于经验的参数配置,FEEL选择基于GERBIL框架,通过在一个确定数量的数据集上对不同系统进行测试,从而确定参数配置,主要策略包括:

1.数据集选择,领域相关性

2.使用EEL系统在所选数据集上进行(多次)实验,获取micro-F1结果

3.获取产生F1结果较好的置信度区间

4.获取置信度区间的中间值

5.视情况对置信度配置值向上可选

ii.提取类型。EEL可选的提取类型包括:仅从文本中做实体抽取(而不链接),或仅将抽取出的实体标注为特定类别而非具体实例。

iii.输入文本:一般就是纯文本

iv.语言:EEL系统能识别和覆盖不同的语言(若系统未检测到输入文本的语言,则必须指定该项)

v.输出格式,系统需支持输出实体的不同格式(如基于LinkData的格式)

vi.Token-key,这个主要是为了限制(每日的)用户请求,用于成本控制

2.系统调用:系统调用的目标是对于给定的输入文本获取一组命名实体元组,主要包含两个部分:

a) Request preparation:这里主要考虑系统的调用和异常处理,假定某个EEL系统的执行出现故障,集成系统应该能够继续执行剩余EEL以获得尽可能多的结果

b) Field parser:这一步主要涉及单个EEL系统检索得到的命名实体,指的是不同输出的实体标识,其中必须包含实体元组元素

3.数据合并:由EEL获得的结果里往往存在重叠情况,这种情况需要被过滤以得到统一的结果,在过滤方面有四个因素需要被考虑:

a)实体频率,低于某个频率阈值的实体需要被移除。

b)重复的提及,当两个或更多的实体对应了相同的文本提及时,需要通过排序选择最可能一个。这里作者采用了频率排序的方式进行过滤。

c)重复元组的去重。

d)局部实体重叠,这里指命名实体之间的提及存在局部重叠的情况,FEEL选择保留提及长度最长的部分。

过滤过程见算法1:

实验

数据集

用于调参的数据集的统计信息如下表

单一EEL系统在各数据集上的F1结果,用于参数配置

强弱匹配情况下,各独立EEL的实验结果

最好的单一系统与FEEL集成系统的实验结果对比

其他实验细节结果请见论文原文。


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478752.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一步步手动实现热修复(一)-dex文件的生成与加载

*本篇文章已授权微信公众号 guolin_blog (郭霖)独家发布 热修复技术自从QQ空间团队搞出来之后便渐渐趋于成熟。 我们这个系列主要介绍如何一步步手动实现基本的热修复功能,无需使用第三方框架。 在开始学习之前,需要对基本的热…

美团酒旅实时数据规则引擎应用实践

背景 美团点评酒旅运营需求在离线场景下,已经得到了较为系统化的支持,通过对离线数据收集、挖掘,可对目标用户进行T1触达,通过向目标用户发送Push等多种方式,在一定程度上提高转化率。但T1本身的延迟性会导致用户在产生…

开直播辣!生成对抗网络全脉络梳理!

深度学习中最有趣的方法是什么?GAN!最近最火的AI技术是什么?GAN!!你现在脑子里在想什么?搞定GAN!!!【已经大彻大悟要直接报名公开课、挑战万元奖品池的请划到最后】GAN真…

论文浅尝 - ICLR2020 | 具有通用视觉表示的神经机器翻译

论文笔记整理:柏超宇,东南大学在读硕士。来源:ICLR2020 https://openreview.net/forum?idByl8hhNYPS代码链接:https://github.com/cooelf/UVR-NMT简介和动机近年来,不少工作已经证明了视觉信息在机器翻译(…

知识图谱能否拯救NLP的未来?

文 | Luke知乎知识图谱是NLP的未来吗?2021年了,不少当年如日中天技术到今天早已无人问津,而知识图谱这个AI界的大IP最火的时候应该是18,19年,彼时上到头部大厂下到明星创业公司都在PR自己图谱NLP布局能够赋予AI认知能力…

论文浅尝 | Data Intelligence 已出版的知识图谱主题论文

本文转载自公众号:DI数据智能。 知识图谱被称为人工智能的基石,它的前身是语义网,由谷歌在2012年率先提出,用于改善自身的搜索业务。Data Intelligence执行…

一步步手动实现热修复(三)-Class文件的替换

*本篇文章已授权微信公众号 guolin_blog (郭霖)独家发布 本节课程主要分为3块: 1.一步步手动实现热修复(一)-dex文件的生成与加载2.一步步手动实现热修复(二)-类的加载机制简要介绍3.一步步手动实现热修复(三)-Class文件的替换 本节示例所…

Vision Transformer 论文解读

原文链接:https://blog.csdn.net/qq_16236875/article/details/108964948 扩展阅读:吸取CNN优点!LeViT:用于快速推理的视觉Transformer https://zhuanlan.zhihu.com/p/363647380 Abstract: Transformer 架构早已在自然语言处理…

长这么大,才知道数据集不用下载可以直接在线使用

每天清晨打开电脑,搜索所需的数据集,点击“Download”,愉快地眯上眼睛,期待n个小时后醒来乖巧下载好的数据,开始放进模型像小仓鼠进滚轮一样快乐奔跑。梦醒时分,一个“Error”蹦进眼睛里,美好码…

会议交流 - CCKS2020 | 2020年全国知识图谱与语义计算大会

OpenKG开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

LeetCode 739. 每日温度(单调栈)

1. 题目 根据每日 气温 列表,请重新生成一个列表,对应位置的输入是你需要再等待多久温度才会升高超过该日的天数。如果之后都不会升高,请在该位置用 0 来代替。 例如,给定一个列表 temperatures [73, 74, 75, 71, 69, 72, 76, …

令人振奋的好消息!2016年12月8日Google Developers中文网站发布!

令人振奋的好消息! 2016年12月8日Google Developers中文网站发布! 以往我们需要访问Android的开发网站、Google的开发网站都需要翻墙,苦不堪言。现在Google发布了中文网站,怎能不让人开心?! Android中文…

美团外卖Android Lint代码检查实践

概述 Lint是Google提供的Android静态代码检查工具,可以扫描并发现代码中潜在的问题,提醒开发人员及早修正,提高代码质量。除了Android原生提供的几百个Lint规则,还可以开发自定义Lint规则以满足实际需要。 为什么要使用Lint 在美团…

这篇论文提出了一个文本-知识图谱的格式转换器...

文 | 花小花PosyHello, 大家好,我是小花。今天给大家介绍一篇有野心的paper。为何如此说呢?因为该工作提出了一个知识的格式转换器,用于转换 无结构化的纯文本(Text)和结构化的知识图谱(KG) 。换句话说,给模型一打句子&#xff0c…

论文小综 | Using External Knowledge on VQA

本文转载自公众号:浙大KG。本文作者:陈卓,浙江大学在读博士,主要研究方向为图神经网络和知识图谱表示学习我们生活在一个多模态的世界中。视觉的捕捉与理解,知识的学习与感知,语言的交流与表达,…

如何修改TextView链接点击实现(包含链接生成与点击原理分析)

*这篇文章的主要目的是想要大家学习如何了解实现,修改实现,以达到举一反三,自行解决问题的目的。 某天遇到这么一个需求:在TextView中的文本链接要支持跳转,嗯,这个好办,TextView本身是支持的&…

LeetCode 752. 打开转盘锁(图的BFS最短路径)

1. 题目 你有一个带有四个圆形拨轮的转盘锁。每个拨轮都有10个数字: ‘0’, ‘1’, ‘2’, ‘3’, ‘4’, ‘5’, ‘6’, ‘7’, ‘8’, ‘9’ 。每个拨轮可以自由旋转:例如把 ‘9’ 变为 ‘0’,‘0’ 变为 ‘9’ 。每次旋转都只能旋转一个拨…

使用TensorFlow训练WDL模型性能问题定位与调优

简介 TensorFlow是Google研发的第二代人工智能学习系统,能够处理多种深度学习算法模型,以功能强大和高可扩展性而著称。TensorFlow完全开源,所以很多公司都在使用,但是美团点评在使用分布式TensorFlow训练WDL模型时,发…

会议交流 - CNCC 技术论坛 | NLP中知识和数据怎么选?当然是全都要!——第四届中文信息技术发展战略研讨会...

本文转载自公众号:中国计算机学会 。本论坛将于CNCC2020期间,10月23日下午16:00-18:00,在北京新世纪日航饭店3层南京厅举行。本论坛将邀请多位来自国内著名高校和人工智能企业的知名自然语言处理专家介绍他们在知识图谱、知识获取、预训练模型…

从我开发过的Tensorflow、飞桨、无量框架看深度学习这几年

文 | Peter潘欣知乎和深度学习框架打交道已有多年时间。从Google的TensorFlow, 到百度的PaddlePaddle,再到现在腾讯的无量。很庆幸在AI技术爆发的这些年横跨中美几家公司,站在一个比较好的视角看着世界发生巨大的变化。在这些经历中,视角在不…