知识工场 | 让机器认知中文实体 —复旦大学知识工场发布中文实体识别与链接服务

本文转载自公众号:知识工场



一、什么是实体识别与链接


      近年来,如何通过知识图谱让机器实现自然语言理解受到越来越多的关注。其中,识别文本中的实体,并将它们链接到知识库中,是让机器理解自然语言的第一步,也是至关重要的一步。比如,当智能问答系统在回答“李娜在哪一年拿到澳网冠军?”这一问题时,第一步就是识别并在知识库中找到网球运动员李娜这一实体,才能继续从知识库中找到相关信息并作出回答。如果识别出错或者没有将“李娜”正确链接到网球运动员李娜这一实体的话,系统对于这个问题的回答必然出错。根据我们的调研,目前面向通用领域的中文实体识别与链接服务,能够公开可用且取得满意效果的还不多见。

      实体识别与链接的问题定义如下:给定一个知识库K,其包含一个实体集合E以及相应已知的实体同义词集合M;对于一段输入文本t,识别t中的所有指代实体的字段m∈M,并将它们链接到正确的知识库中的实体e∈E。


图1 实体链接示例


      图1是一个例子,给定知识库CN-DBpedia,对于输入文本“李娜唱的青藏高原很好听”,可以识别出文本中指代实体的字段“李娜”和“青藏高原”,然后分别把他们链接到CN-DBpedia中的实体“李娜(流行歌手、佛门女弟子)”和“青藏高原(张千一作词、作曲歌曲)”。

      相对于其他的实体识别与链接,这个任务有如下特点:首先,知识库K为通用知识库,即其实体集合E很大(数量为千万级),并且包含来自各个领域的实体。其次,输入文本t通常为短文本,大多数只包含一个实体。


二、实体识别与链接的技术挑战


1、实体识别和链接的基本挑战


      实体识别需要识别文本中指代的实体的片段。通常有两种解决方案,第一种是利用知识库的同义词库识别所有可能为实体的字段,然后进行筛选判断;第二种是对文本做语法分析,通过词本身及其语法特征识别实体。对于第一种方案,需要均衡考虑候选片段为实体的可能性和片段之间相互覆盖与选择的问题,比如“吴彦祖国籍是什么”,应该正确地识别“吴彦祖”和“国籍”,而不是识别“祖国”;对于第二种方案,若要达到很好的效,合适的特征提取以及足够的训练样本是必不可少的。

      实体识别出来的实体名通常是有歧义的,也就是说一个实体名通常会指代知识库中的多个实体,比如之前提到的“李娜”。如何将实体名链接到知识库中的正确实体是实体链接需要解决的问题。解决这个问题的关键在于如何有效地利用实体本身的属性以及实体名出现时上下文的信息。

      以上为通用实体识别与实体链接共同的挑战。这个任务具有的一些特点,还导致了一些额外的挑战。



图2 在通用领域的知识库CN-DBpedia里,实体的歧义性很大


2、通用领域的实体识别与链接的挑战


      以通用领域的知识库CN-DBpedia为知识库进行的实体链接会带来额外的挑战。通用领域的实体识别与链接具有两个主要特点:第一个特点是实体量巨大。这不仅对候选实体增加了大量噪音,而且也需要对实体进行相关领域判断,这样一来,实体识别与链接就需要更多的考虑,如图2所示,在CN-DBpedia里,“北京”除了中国首都之外,还能指代一首歌、一张专辑、一首诗、一部小说和一个小行星的名字。第二个特点是实体界限模糊。通用知识库几乎包含了所有词,包括一些平凡的实体,比如“图片”、“钢笔”,还有一些成语俗语,比如“危言耸听”、“厚德载物”等等。但这些实体在实际应用中通常是不希望被识别和链接出来的,这对实体词的判断带来了很大的难度。


3、短文本的实体识别与链接的挑战


      短文本输入进行的实体链接也会带来额外的挑战。在大多数情况下,输入文本只是输入一个句子,有时候甚至是一个词组。与针对长文本或者文档的实体识别与链接方法不同的是,短文本输入的上下文信息非常缺乏,并且几乎没有共现实体的信息。比如“冰与火之歌有多少卷”,在上下文无其他实体的语境中要识别并将“冰与火之歌”链接到小说而不是电视剧。但是现实生活中,大部分的文本信息都是以短文本的方式存在,这就需要着重发掘词语与实体的关系,从而从极少的文本中提取到语义信息


4、中文实体识别与链接的挑战


      现有的大量实体识别与链接工作是基于英文的,把基于英文的方法应用到中文中是有很大难度的。首先,在特征提取方面,中文实体在字面上缺少很多英文实体具有的明显特征,比如大写、缩写等。其次,处理中文文本需要处理分词问题。不同的分词结果影响着句子的语义表达结果,而且现在的分词技术也存在着许多缺陷,分词的错误会对实体名边界的确认造成影响。此外,中文实体识别还缺少训练数据。现在命名实体识别的主流方法是机器学习,在机器学习中,训练数据是至关重要的。因此缺少训练数据对中文实体识别造成了很大的困难。最后,中文知识图谱并不如英文知识图谱那么完善,缺少很多实体关系,多了不少噪音,这就导致很多利用实体关系解决问题的方法难以达到效果。


三、主要应用场景


1、信息抽取


      信息抽取系统提取的实体和关系通常是不明确的,将它们与知识库链接起来是消除歧义和精化输入的好方法,这对于它们的进一步发展至关重要。

信息抽取的一个重要任务就是关系抽取。知识图谱中除了实体之外,还有许多关系和属性。CN-DBpedia中的关系如图3所示,这样的关系通常是不完整的,需要从大量的自由文本中抽取。比如,若需要从文本“乔治.马丁写了冰与火之歌”中抽取关系,第一步则是将“乔治.马丁”和“冰与火之歌”从文本中识别并分别链接到正确的人和书名之中,然后才能根据其余文本抽取出<乔治•雷蒙德•理查德•马丁,作者,冰与火之歌(乔治•r•r•马丁所著小说)>这样的关系。



图3 CN-DBpedia中的实体关系与属性


2、信息检索


      由传统的基于关键字的搜索推进到基于语义实体的搜索的这一趋势,近年来引起了很多关注。基于语义实体的搜索可以受益于实体链接,因为它本质上需要在网络文本中出现消除歧义的实体名,以便更精确地处理实体和Web文档的语义。 另外,歧义查询也会影响搜索结果质量,有歧义的实体出现在搜索查询中,给信息检索系统理解查询带来了巨大挑战,因此实体识别与链接至关重要。

      比如实体名“红楼梦”出现在查询语句中可能有很多不同的意思,有可能指的是名著《红楼梦》,也有可能是某部改编的电视剧或者电影。将这些有歧义的实体名进行识别和链接无疑能提高返回搜索结果的质量。


3、主题分析


      主题分析是指从文本内容中分析出主题,主旨及其分类等信息,这也需要利用实体识别与链接。将文章中的实体链接到知识库,可以通过实体的类别和关系等信息更好地进行主题分析。如今,微博已经成为重要的信息来源,可以通过发现特定微博用户感兴趣的主题推荐和搜索其他微博用户。比如在一个用户的微博中识别出了“成龙”,另一个用户的微博识别出了“李连杰”,那么可以通过这两个实体在知识库的关联来对微博用户进行关联和推荐。


4、智能问答


      大多数智能问答系统利用其支持的知识库来回答用户的问题。为了回答“青藏高原是谁唱的?”这个问题,系统可以通过实体识别和链接,消除实体名“青藏高原”的实体歧义,然后从知识库中直接找到唱这首歌的歌手来作为用户问题的回答。


5、知识库扩充


      随着世界的发展,新的事实在网络上产生并被数字化表达。利用新提取的事实自动填充和丰富已有的知识库,已成为语义Web和知识管理技术的关键问题。 实体链接本质上是知识库扩充的一个重要的子任务。给定一个需要扩充知识库的关系或事实,如果与该关系相关的实体在知识库中有其相应的实体记录,则应该进行实体关联任务,将该实体名与其对应的实体相关联,因此,实体识别与链接能够帮助知识库扩充。


四、实体识别与链接服务


知识工场提供实体识别与链接的服务,包括DEMO和API。


1、DEMO


地址为 http://shuyantech.com/api/entitylinking/


在输入框输入文本,输出经过实体识别与链接后的文本,其中被识别的实体会链接到CN-DBpedia知识库中。如图4所示。


图4 实体链接demo


2、API


地址为 http://shuyantech.com/api/entitylinking/cutsegment


输入参数q,表示输入的文本

输出为包含两个域的json字典。其中键“cut”表示将输入文本的分词结果,值为字符串列表;键“entities”表示输入文本中链接的实体,值为一个列表,列表的每个元素表示一个链接的实体,表示为一个长度为2的列表,列表第一个元素是实体在输入文本中出现的位置,第二个元素为实体在CN-DBpedia中的名字。


使用示例:


输入:

http://shuyantech.com/api/entitylinking/cutsegment?q=打球的李娜和唱歌的李娜不是同一个人


输出:

{"cuts": ["打球", "的", "李娜", "和", "唱歌", "的", "李娜", "不是", "同一个", "人"], "entities": [[[3, 5], "李娜(中国女子网球名将)"], [[9, 11], "李娜(流行歌手、佛门女弟子)"]]}


五、实体识别与链接数据集


       知识工场提供实体识别与链接的数据集。

      数据集的文本由1037条人工标注的短文本语料组成。其中大约70%来自新闻语料,包括新闻标题和内容,比如“英超-桑切斯4分钟内梅开二度阿森纳3-2五轮不败”,大约20%来自人工构建的基于歧义实体的语料,比如“红楼梦的演员有哪些?”,其余的大约10%来自问答语料中的简单问句,比如“岳阳有哪些旅游景点?”。

      数据标注的格式如下。每个样本的标注格式包括3个部分:语料,mention和实体。用制表符‘\t’分隔,其中mention为语料中指代实体的字段,多段用“|||”分隔,实体部分为各mention对应的实体,多个用“|||”分隔,数量应与mention一致。比如“李娜拿过澳网冠军吗\t李娜|||澳网\t李娜(中国女子网球名将)|||澳大利亚网球公开赛”。

      目前,我们的实体识别与链接技术在该数据集上达到很好的效果。在没有任何背景主题信息,无论是短语还是长句,均达到90%以上准确率。其中实体识别部分的准确率为91.0%,实体链接部分的准确率为94.5%。更多详细指标见技术报告。


      知识工场提供实体识别与链接的数据集。链接如下:

       https://github.com/chenlihan240/chinese_entity_linking/blob/master/data/test.txt

- The End -




更多产品试用请点击知识工场网站主页:http://kw.fudan.edu.cn/


合作意向、反馈建议请联系我们:

info.knowledgeworks@gmail.com


或直接联系知识工场负责人肖仰华教授:

shawyh@fudan.edu.cn





OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480852.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mikechen谈技术人成长的三大原则

“ 我自己是工程师出身&#xff0c;一路就像游戏打怪一样&#xff0c;不断去突破自己的职能舒适区&#xff0c;技术这条路我用了整整10年去把它全部打通&#xff0c;这些经验看似平淡&#xff0c;作为一个过来人&#xff0c;在你每一次新的选择的时候&#xff0c;你就会发现它…

最新进展 | 深度学习在天气预测中的应用

谷歌研究员提出使用机器学习方法预测未来短时间内的天气。此方法虽然处于早期发展阶段&#xff0c;但效果已经优于传统模型。 前言 天气总是会或轻或重地影响人们的日常生活&#xff0c;而天气预报的准确性会极大影响人们应对天气的方式。天气预报可以告知人们是否应当选取一条…

快速上手笔记,PyTorch模型训练实用教程(附代码)

前言自 2017 年 1 月 PyTorch 推出以来&#xff0c;其热度持续上升&#xff0c;一度有赶超 TensorFlow 的趋势。PyTorch 能在短时间内被众多研究人员和工程师接受并推崇是因为其有着诸多优点&#xff0c;如采用 Python 语言、动态图机制、网络构建灵活以及拥有强大的社群等。因…

领域应用 | 中医临床术语系统V2.0在线发布啦!

本文转载自公众号&#xff1a;中医药知识组织与标准。中医临床术语系统V2.0在线发布中医临床术语系统&#xff08;Traditional Chinese Medicine Clinical Terminological Systems, TCMCTS&#xff09;是由中国中医科学院中医药信息研究所研制的&#xff0c;用来描述健康状况和…

NLP Subword三大算法原理:BPE、WordPiece、ULM

Subword算法如今已经成为了一个重要的NLP模型性能提升方法。自从2018年BERT横空出世横扫NLP界各大排行榜之后&#xff0c;各路预训练语言模型如同雨后春笋般涌现&#xff0c;其中Subword算法在其中已经成为标配。且与传统空格分隔tokenization技术的对比有很大的优势~~ E.g. 模…

【小程序】微信小程序开发实践

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/diandianxiyu/article/details/53068012 </div><link rel"stylesheet" href"https://csdnimg.cn/release/phoenix/template/css/ck…

技术人如何提升自己的核心竞争力

互联网行业是一个发展非常快&#xff0c;变化也快的行业&#xff0c;在这个行业&#xff0c;总是让人感觉既兴奋又不安。 兴奋的是你总能看到无数新奇的事物&#xff0c;甚至亲身参与到一场变革中去&#xff0c;而不安的则是&#xff0c;任凭你如何NB&#xff0c;你也无法保证哪…

AAAI 2018经典论文获奖者演讲:本体论的昨天和今天

本文转自公众号&#xff1a;AI科技评论。AI 科技评论按&#xff1a;正在美国新奥尔良召开的 AAAI 2018 的经典论文奖颁给了《Algorithm and Tool for Automated Ontology Merging and Alignment》。这篇论文发表在 2000 年的第 17 届 AAAI 大会上。这次颁奖是为了表彰这篇论文在…

ICLR2020 | 如何判断两个神经网络学到的知识是否一致

人工智能顶会 ICLR 2020 将于 4 月 26 日于埃塞俄比亚首都亚的斯亚贝巴举行。在最终提交的 2594 篇论文中&#xff0c;有 687 篇被接收&#xff0c;接收率为 26.5%。本文介绍了上海交通大学张拳石团队的一篇接收论文——《Knowledge Consistency between Neural Networks and B…

7张图学会SQL

第1周&#xff1a;SQL入门 学习SQL语句的书写语法和规则从零学会SQL&#xff1a;入门​www.zhihu.com 第2周&#xff1a;查询基础 Select查询语句是SQL中最基础也是最重要的语句&#xff0c;这周我们就来利用Select来对表中的数据进行查询。从零学会SQL&#xff1a;简单查询​w…

大公司稳定工作和创业之间如何选择?

“ 是留在大公司&#xff0c;还是加入小型创业公司&#xff0c;还是自己创业&#xff0c;面对房价每年高涨的趋势&#xff0c;面对未来的不确定&#xff0c;应该怎样选择。 作为一个亲历者&#xff0c;希望你看完后能有所启发。 本文作者&#xff0c;陈睿 优知学院创始人 优知…

论文浅尝 |「知识表示学习」专题论文推荐

本文转载自公众号&#xff1a;PaperWeekly。本期论文清单来自清华大学博士生韩旭和北师大本科生曹书林&#xff0c;涵盖了近年知识表示学习方向的重要论文。[ 综述类 ]■ 论文 | Representation Learning: A Review and New Perspectives■ 链接 | https://www.paperweekly.sit…

如何选择一家公司

不管是刚毕业的大学生还是工作几年的职场朋友&#xff0c;每个人都会面临选择公司和行业的困扰&#xff0c;我也相信每个人都还记忆犹新你的第一份工作以及让你无比难忘的一家公司。有时候我们也盲目的所求&#xff0c;其实&#xff0c;偶尔停下来思考下你真想去的地方&#xf…

LightGBM最强解析,从算法原理到代码实现~

1 LightGBM简介 GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型&#xff0c;其主要思想是利用弱分类器&#xff08;决策树&#xff09;迭代训练以得到最优模型&#xff0c;该模型具有训练效果好、不易过拟合等优点。GBDT不仅在工业界应用广泛&#xf…

数据分析师基本技能——SQL

我们做数据分析工作时&#xff0c;多数数据来源于数据库&#xff0c;SQL非常方便我们访问和查询数据库。 SQL 作为数据分析师的基本技能&#xff0c;那么需要掌握哪些SQL核心技能 理解数据库SQL基础重点知识&#xff1a;查询&#xff0c;更新&#xff0c;提取&#xff0c;插入&…

论文浅尝 | 基于置信度的知识图谱表示学习框架

本文转载自公众号&#xff1a;PaperWeekly。作者丨谢若冰单位丨腾讯微信搜索应用部研究方向丨知识表示学习知识图谱被广泛地用来描述世界上的实体和实体之间的关系&#xff0c;一般使用三元组&#xff08;h,r,t&#xff09;&#xff08;head entity, relation, trail entity&am…

史上最强Java架构师的13大技术能力讲解! | 附架构师能力图谱

从程序员进阶成为架构师&#xff0c;并非一蹴而就&#xff0c;需要系统化、阶段性地学习&#xff0c;在实战项目中融会贯通&#xff0c;这如同打怪通关&#xff0c;我们得一关一关突破&#xff0c;每攻破一个关口&#xff0c;就能得到更精良的装备&#xff0c;技能值也随之不断…

写给运营同学和初学者的SQL入门教程

作者简介 多肉&#xff0c;饿了么资深python工程师。曾在17年担任饿了么即时配送众包系统的研发经理&#xff0c;这篇文章最早的版本就诞生于那段时间&#xff0c;目前负责配送相关业务系统的整体稳定性建设。个人比较喜欢c和python&#xff0c;最近有点迷rust&#xff0c;同时…

强化学习,路在何方?

▌一、深度强化学习的泡沫 2015年&#xff0c;DeepMind的Volodymyr Mnih等研究员在《自然》杂志上发表论文Human-level control through deep reinforcement learning[1]&#xff0c;该论文提出了一个结合深度学习&#xff08;DL&#xff09;技术和强化学习&#xff08;RL&…

论文浅尝 | 基于神经网络的实体识别和关系抽取联合学习

本文转载自公众号&#xff1a;PaperWeekly。作者丨罗凌学校丨大连理工大学博士生研究方向丨深度学习&#xff0c;文本分类&#xff0c;实体识别联合学习&#xff08;Joint learning&#xff09;一词并不是一个最近才出现的术语&#xff0c;在自然语言处理领域&#xff0c;很早就…