知识图谱发展的三个时期以及事理图谱概念辨析

一、知识图谱发展三个周期

      知识图谱,从2012年谷歌正式将这一概念应用到工业界之后,到现在已经逐步走过了将近7年的时间,在这七年的时间里,知识图谱逐步经历了从概念兴起、概念泛化、技术挣扎与落地尴尬三个环节。
1、 知识图谱的概念兴起——起于谷歌,兴于搜索
      知识图谱,真正以一种新鲜事物进入公众视野的时间大概是谷歌于2012年提出的knowledge graph,国内学者直接意译为“知识图谱”。(当然之前有科学知识图谱、语义网,不在此文讨论范围之内)。从字面意义上来说,知识图谱的核心包括两个,一个是knowledge,另一个是graph。Knowledge充当的是数据的类型角色,所刻画和描述的数据被称作是知识,graph充当的是数据组织和存储结构的角色,即图结构。数据这个点决定了知识图谱所能涵盖和刻画的领域和范围,图结构决定了数据的使用方式和应用方向。
      2012年,谷歌首先抛出了知识图谱这个概念,并将其应用于提升搜索服务,在搜索效果上的直观体现主要还是集中于实体级别的搜索,通过内部实体之间的关联信息以及实体的属性等信息,在用户在进行实体搜索时,通过关联查询,以知识卡片的形式同时提供实体本身以及关联实体的信息,从而在给出什么是什么的情况下,再一度地给出此外还有什么的问题。简单的来说,这种搜索体验大致可以归为2点,一是搜索结果的目的简洁性,是一个实体或者实体属性,形式上更为确定,而非一个网页。而是搜索结果的上下文扩展,这里所说的上下文指的是实体的关联信息,这些关联信息能够在让用户知道多一点的情况下可进一步提升用户的点击兴趣。事实证明,谷歌这一做法是奏效的,新的搜索方式引领了一步新的潮流,并且随后被国内外同行争相跟进,如yahoo,Microsoft,facebook,百度,搜狗,阿里巴巴先后提出了自己的知识图谱并快速产品化。这类产品主要还是集中于搜索领域,归结的来说,即知识图谱起于谷歌,兴于搜索。
2、 知识图谱概念的泛化——虽有尝试,亦存跟风
      当知识图谱起于谷歌,兴于搜索之后,借着搜索的东风以及搜索本身作为一种信息传播的工具,知识图谱这一概念开始经历第二个时期,即快速传播时期。主要传播的方式包括三个途径,一种是文字上的传播,关于大量知识图谱的报道,软文介绍在互联网上大规模传播,“知识图谱”、“knowledge graph”等关键词充斥于各个技术文章当中。二是视觉上的传播,“两个圆圈一条边,边上几个文字悬”的知识图谱形象化展示图片被大量生产出来,这似乎固化了知识图谱在大众心目中的物化形象,即知识图谱就是一张网,就是网中的可视化。三是听觉上的传播,如ccks为主要代表的会议,线上以及线下知识图谱讲座、课程使得“zhi shi tu pu”这个名词在人群中广为传播。这三种方式一同发力,直接将知识图谱这一概念的流行度推向高峰。而一旦一个名词性概念被广为流传和熟知之后,如ai一般,知识图谱恐怕难逃“知识图谱+”这样的命运,这里的“知识图谱+”与“互联网+”以及“ai+”一样,成为互联网创业中的基本标配,越来越多的项目向知识图谱靠拢,形式上,知识图谱在各个领域的快速应用,医疗知识图谱、法律知识图谱、食品知识图谱、农业知识图谱、金融知识图谱、产业链知识图谱、教育知识图谱等等,如雨后春笋般涌现。这些知识图谱的大量出现,归结的来说,虽有尝试,亦存跟风。知识图谱可以作为一个技术本身而存在,而不同的业务场景,不同的需求是否真正需要使用知识图谱从而完成所需目标就另当别论了。
3、 知识图谱概念的落地——踌躇满志,艰难不止
      当一个新鲜事物被广为流传之时,即到达了一个顶峰之后,就必然不能停留在想象之中,想象中,很不同,与现实场景有很大不同,即现实场景下,就到了概念到实际应用的转化了。说到这,自然而然就要说到知识图谱本身的技术问题了。第一节说到,知识图谱核心包括数据-知识,结构-图谱,数据是最为重要的一点,目前运用数据进行产品研发和应用落地的重要前提就是数据的靠谱性,所谓的数据靠谱,主要体现在知识的准确性、实时性以及小众性三个方面。其中准确性是首要前提,错误的数据会导致错误的结论;实时性主要是尊重知识的客观属性,即动态性,社会是不断动态变化的,知识是不断动态实时更新的,旧的落后的数据无法保持得到的结论是可靠的;小众性主要是从知识的价值大小来说,“物以希为贵”这条定理很好的说明了这个问题,大众的知识是你有我有全都有的知识,这大众已知的知识对于后期的应用以及公司的竞争力来说,没有太大的意义。而如法律知识、军事知识、交易数据等私密或者只有少部分人能够获取的知识,才真正大有可为。因此,要真正意义上把握这三点,将知识图谱做好,其实是个“踌躇满志,艰难不止”的事情。在知识图本身技术上的局限性,从知识抽取-知识融合-知识更新这一长条知识工程pipeline上,知识图谱这一块的骨头可谓是相当难啃。

二、从实体到事件

      当知识图谱作为一项技术和名词性概念进行发展之时,新的变体就会必然出现。知识图谱的基本组成单位,<实体,实体关系,实体>中,我们进行成分替换之后可以得到多种不同的类型,例如,我们将实体单位换成是一个事件,实体之间的关系换成是事件的关系,那么就可以得到以“事件”为核心的event knowledge graph。然而,目前关于event knowledge graph,概念不统一,因此,接下来可以展开论述。概念不统一,本质在于对event knowledge的界定不同,什么是事件知识,而事件又是什么?本身关于事件(event)的界定都不明确。目前关于事件的界定有很多,如目前ACE、TDT、chambers在做narrative event chain或者scripts中的事件,这些事件都给出了不同的解释。而从计算机处理事件来说,应该从以下几个方面去考虑一个事件:
1、事件的外部表示界定
      知识图谱中的实体和实体关系都有唯一的一个表现形式进行表示,如名词性的“刘焕勇”,动词性的“毕业于”,形容词性的“美丽”等,这种唯一的表现形式提供了节点表示的可能。而如果要将节点替换成事件,用一种特定的字符串序列来表示事件,会出现什么情况?一个事件是一个名词还是动词,还是一个短语,还是一个主谓或动宾二元组,还是一个主谓宾三元组,还是一句描述,还是囊括更多信息的N元组?这些都是需要考虑的问题。目前广泛应用于scripts以及narrative chain中的以动词作为事件的表示方式往往太过于抽象,往往一些名词也可以充当事件,这个放在兼类现象严重的中文中问题更大。事实上,事件在外部形式上的表现方式,直接决定了事件在图谱中的组织方式和管理机制。
2、事件的内部信息表示界定
      单纯以一个词来表示事件的方式往往太过于单薄和抽象,而一个事件之所以能够成为事件,那么最好的方式是能够使用尽可能少量的字符或者字段表达尽可能多的事件相关信息。在这个方面,ACE定义了8类事件,以及几十个小类的事件类型,人工地针对每个事件小类定义了槽即slot的概念,从不同的侧面围绕一个特定的事件触发词trigger words来进行事件描述。由于这种事件结构定义不具备普适性和拓展性,迁移成本特别高,因此,后期有人考虑使用framenet以及verbnet来解决这个问题,但依旧有限,而且这都是属于英文领域,对于中文,又会遇到“巧妇难为无米之炊”的问题。目前,关于事件的info-schema,可以自行搜索关于eventschema相关的框架,主要代表性的有国内上海大学的5元组事件表示,国外的semevent本体表示框架。
3、事件之间关系的表示界定
      静态性的知识数量规模巨大,这决定了实体关系类型的丰富性,而相对于实体而言,事件之间的关系则相对较少,从大的方面来说,事件之间的关系主要包括空间关系和时间关系两个大类,两个大类底下能够继续下分,形成不同的子空间关系和子时间关系。空间关系和时间关系又可进一步聚类形成逻辑关系,不同的空间和时间关系组合决定了不同的逻辑关系。

三、事件类图谱的几个类别

      根据事件外部表示以及关系的不同,事件类知识图谱主要有以下几种概念形式(此处为个人总结):
1、 事件知识图谱(event knowledge graph)
      事件知识图谱,在这里,我更倾向于认为这个图谱本身更倾向于为一个事件知识库,而非知识图谱。事件知识图谱的工作主要围绕事件知识本身进行展开,关注点在于事件内部信息,如ACE中的8大类事件,将这几类事件中的信息进行抽取和填充就能够得到一个以特定事件类型作为分类标准的事件知识库,如婚姻事件库、爆炸事件库等。最近的工作包括自动化所关于金融事件知识图谱的工作,集中于资产冻结等少数几个特定事件的事件知识图谱。这种事件知识图谱中的事件由特定的事件类型及其槽构成,内部关系主要考虑包括事件论元之间的关联,对于外部事件之间的关联关注较少。
2、 抽象事理图谱(abstract event evolutionary graph)
      抽象事理图谱,最早由哈工大信息检索实验室在narrative chain的基础上提出,目标是揭示事件之间的演化性,关系上主要考虑顺承和因果两种,在事件节点的设置上倾向于事件的抽象性,以原文短句的形式作为字符串表示,这种抽象性质决定了该事件不具备更为细致的内部事件信息,形式上很为简洁。但存在的挑战很多,例如如何抽象,以原文短句作为事件外部表示似乎看不到抽象的成分在,抽象的力度如何控制,不同的抽象粒度会得到不同的抽象结果。
3、 事件逻辑知识图谱(event logic knowledge graph)
      事件逻辑知识图谱,是综合事件知识图谱和抽象事理图谱之间的一种知识图谱类型,该知识图谱既保留了事件知识图谱中事件内部信息的完备性,又保留了抽象事理图谱中外部事件表示的抽象性,具有完备性和抽象性双重特征。不过,事件逻辑知识图谱与事件图谱不同,事件逻辑知识图谱规避了事件知识图谱的领域特征,而采用统一的事件槽,即通用的事件N个论元组对事件表示,其中论元的设置综合考虑了回答5个W,1个H的问题的同时,更考虑事件的情绪、确定性、完成性、主观性、权威性等信息,并通过领域实体的增加与替换来达到对不同领域的适配。本质上来说,事件逻辑知识图谱的核心在于逻辑,而这种逻辑的本质特性是抽象性,因此事件之间的逻辑关系需要从底层的事件进行高度抽象而成,这种抽象主要体现在事件逻辑知识库中事件外部形式的表示上。与抽象事理图谱不同,由于有了底层具有丰富内部属性的实例事件作为支撑,可用于事件抽象的信息更多,在事件融合方面带来了极大的便利,另外在事件之间的关系上,进一步进行扩展,可以形成对立、条件、部分与整体等多种逻辑网络。

四、事件类图谱的几个重要问题

      在实际的理论研究和生产过程当中,我们发现,以下几个方面的问题需要急需解决。
1、事件关系语料库的构建与融合。目前关于这方面的英文语料库主要有timebank以及propbank,中文的有突发事件cec语料库以及哈工大的篇章关系语料库等,这些语料库一方面在分布上较为分散,另外,在事件的标注上,还是局限于动词性词语作为事件表示。因此,更多类型的事件关系语料库需要构建,在标注的形式和规范上需要从词级别进一步转换成句子级别等。
2、事件关系抽取的任务规则转变。目前,时序事件评测以及因果事件评测任务大多转换成了一个序列标注任务或者文本分类问题来做,而这基于一个重要的前提,即数据集中明确标注了事件本身,我认为这样的任务与其说是抽取,不如说是分类,因为没有事件抽取的概念在。这样的评测任务,直接会造成在实际应用场景下无法直接使用。识别出事件这一个步骤需要提上日程,而不是在已标注好的事件上,做事件关系的判定之类的刷榜游戏,实际落地应用价值不是特别大。
3、事件类知识图谱的评估。这个问题是我们在工作过程当中,包括与别人讨论时必问的一个问题,即准确率的评估问题。事件逻辑知识图谱是目前我们工作的重点,我们在通用事件论元表示,抽象性事件关联抽取上做了一些工作。总结的来说,事件逻辑知识图谱从零到有,包括因果、顺承、对立等事件的抽取,事件内部论元的识别,事件的抽象与融合,事件的动态等一系列环节,组成一个具有误差传播的pipeline,每一个环节的准确率都需要进行评估。此外,在构建好的事件逻辑知识图谱当中,如何应用进行辅助决策,在应用层也需要进行准确性的量化。这些评估问题在标准数据集的构建以及评估方法上面临着诸多挑战,这是我们目前遇到以及正在解决的问题,可以关注我们的工作。

五、总结

      知识图谱目前已经发展了近7年的时间,在这7年的时间里,知识图谱从兴起走向泛化,目前正处于从概念到落地的环节,还存在诸多挑战。正如知识图谱一样,事理图谱提的多了,大家对该概念的理解就会出现偏差,也就会对事件类图谱有不同的认识,本文介绍了我们在实际过程中对事件类图谱的认识,可以帮助大家扫扫盲区。另外,也正如知识图谱一样,事理图谱目前到了落地应用的环节,技术上存在多种问题需要解决,本文也提出了几个需要解决的问题,如事件关系语料库的构建、事件关系抽取任务规则的转变、事件类知识图谱的评估,大家也可以多想想关注此类问题。

      如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系我:
1、刘焕勇,中科院软件所,lhy_in_blcu@126.com
2、我的github项目介绍:https://liuhuanyong.github.io
3、我的csdn博客:https://blog.csdn.net/lhy2014
4、我的公众号:老刘说NLP

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480470.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构--栈--浏览器前进后退应用

浏览器前进后退&#xff1a; 当你依次浏览a&#xff0c;b&#xff0c;c,然后回到b&#xff0c;再浏览d&#xff0c;就只能查看a&#xff0c;b&#xff0c;d&#xff0c;了。 原理&#xff1a; 利用两个栈A,B 浏览新网页的时候&#xff0c;压入栈A&#xff0c;清空栈B前进&…

关于BERT,面试官们都怎么问

1.BERT 的基本原理是什么&#xff1f;BERT 来自 Google 的论文Pre-training of Deep Bidirectional Transformers for Language Understanding&#xff0c;BERT 是“Bidirectional Encoder Representations from Transformers”的首字母缩写&#xff0c;整体是一个自编码语言模…

牛逼!支付宝高级Java三面题目:线程锁+事务+雪崩+Docker等

支付宝高级Java一面 JVM中的老年代在什么情况下会触发GC&#xff1f; CMS的垃圾回收步骤&#xff0c;G1和CMS的区别&#xff1f; CMS哪个阶段是并发的&#xff0c;哪个阶段是串行的&#xff1f; 谈谈Java线程池&#xff0c;线程池中几个参数含义 谈谈你了解的J.U.C包的JDK源…

鲍捷 | 深度解析知识图谱发展关键阶段及技术脉络

本文转载自公众号&#xff1a; AI科技大本营 。 分享嘉宾 | 鲍捷&#xff08;文因互联CEO&#xff09;出品 | AI科技大本营&#xff08;公众号ID&#xff1a;rgznai100&#xff09;知识图谱是人工智能三大分支之一——符号主义——在新时期主要的落地技术方式。该技术虽然在 20…

8大常用数据库管理系统简介

转自&#xff1a;http://vps.zzidc.com/vpsjishu/817.html 数据库管理系统(Database Management System)是种操纵和管理数据库的大型软件&#xff0c;是用于建立、使用和维护数据库&#xff0c;简称DBMS。是企业进行数据管理及维护不可或缺的数据管理软件。 8大常用数据库管理系…

知识图谱之语言计算与信息抽取

语言计算与信息抽取是自然语言处理中两块重要内容。本文将根据自己的工作总结&#xff0c;形成了语言计算与信息抽取的知识图谱分布图。 一、总体图谱 二、概念抽取 三、实体抽取 四、事件抽取 五、语言监测 六、文本计算内容 七、文本内容计算应用 总结 本文介绍了关于语言…

数据结构--队列Queue--链式队列、顺序队列

队列&#xff1a;先进先出&#xff0c;就如排队一样&#xff0c;先到的&#xff0c;先排上 1.链式队列 1.1 头文件 listQueue.h /*** description: 链式队列* author: michael ming* date: 2019/4/1 22:47* modified by:*/#ifndef QUEUE_LISTQUEUE_H #define QUEUE_LISTQUEU…

技术动态 | 人工智能开源软件发展现状连载——知识图谱开源软件

本文转载自公众号&#xff1a;中国人工智能开源软件发展联盟&#xff0c;欢迎大家点击文末二维码关注。知识图谱 (Knowledge Graph)是一种基于图的数据结构&#xff0c;由节点(Point)和边(Edge)组成。在知识图谱里&#xff0c;每个节点表示现实世界中存在的“实体”&#xff0c…

2018 支付宝Java开发四面:Ngnix+MQ队列+集群+并发抢购

一面 介绍项目 java 线程池的实现原理&#xff0c;threadpoolexecutor关键参数解释 hashmap的原理&#xff0c;容量为什么是2的幂次 为什么要同时重写hashcode和equals ConcurrentHashMap如何实现线程安全&#xff1f; 介绍Java多线程的5大状态&#xff0c;以及状态图流转…

ACL2020 | 线上搜索结果大幅提升!亚马逊提出对抗式query-doc相关性模型

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者&#xff1a;机智的叉烧&#xff08;OPPO算法工程师&#xff0c;擅长Query理解方向&#xff09;背景搜索和推荐经常会被放在一起对比&#xff0c;其中最突出的区别就是搜索中存在query&#xff0c;需要充分考虑召回内容和query之间的…

微型计算机性能指标以及分类

衡量微型计算机的主要技术指标是&#xff1f;特点是&#xff1f; 2018-11-29 20:38:08 来源&#xff1a;贤集网 赵媛 微型计算机大家应该耳熟能详&#xff0c;它又比称为“微型机”&#xff0c;由于其具备人脑的某些功能&#xff0c;所以也称其为“微电脑”。现在流行的微…

数据结构--队列Queue--循环顺序队列

针对顺序队列中的入队操作&#xff1a;if 队列没满&#xff0c;但是队尾到达数组末尾了&#xff0c;队列"满"了&#xff0c;其实没有满&#xff0c;数据需要整体移至数组头部&#xff0c;才可以继续入队。 为解决该问题&#xff0c;避免数据的挪移&#xff0c;有了循…

基于因果逻辑库的定性事件结果及结果方向性预测

EventPredictBasedOnEG future event predict demo based on causal event graph that covers the full industries that can predict the benefits or bad effects in accordance with the event given by the user, 基于因果逻辑库的定性事件及方向性预测 项目介绍 基于海…

领域应用 | 为电商而生的知识图谱,如何感应用户需求?

本文转载自公众号&#xff1a;阿里技术(ali_tech)。 阿里妹导读&#xff1a;本文从需求分析和体系化构建的角度出发&#xff0c;阐述在电商这一特殊领域的知识图谱构建过程中&#xff0c;形成的一整套概念体系&#xff0c;还有在此过程中&#xff0c;通过算法、工程、产品、…

史上最全阿里Java面试题目大汇总!强烈建议收藏~

阿里面试题目目录 技术一面&#xff08;基础面试题目&#xff09; 技术二面&#xff08;技术深度、技术原理&#xff09; 项目实战&#xff08;项目模拟面试&#xff09; JAVA开发技术常问的问题 阿里必会知识 阿里面试范畴 阿里面试总结 一&#xff1a;阿里技术一面&…

数据结构与算---重点复习知识

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/sakurakider/article/details/82924371 </div><link rel"stylesheet" href"https://csdnimg.cn/release/phoeni…

GPT-3诞生,Finetune也不再必要了,NLP领域又一核弹

本文转载自公众号“夕小瑶的卖萌屋”&#xff0c;专业带逛互联网算法圈的神操作 -----》我是传送门 关注后&#xff0c;回复以下口令&#xff1a; 回复【789】 &#xff1a;领取深度学习全栈手册&#xff08;含NLP、CV海量综述、必刷论文解读&#xff09; 回复【入群】&…

POJ 1363 火车厢排队问题(栈)

题目链接&#xff1a;http://poj.org/problem?id1363 题目大意&#xff1a; A站有编号为1到N&#xff0c;N最大1000&#xff0c;的车厢&#xff0c;车厢进入中转station了就不能回到A&#xff0c;只能停在station内或者进入B站&#xff0c;问能不能按照给定的顺序排成那样的车…

基于线上问答社区的逻辑性知识自动问答接口ZhidaoChatbot

ZhidaoChatbot ZhidaoChatbot, a chatbot that can be an expert on the common questions like why,how,when,who,what based on the online question-answer website&#xff0c;基于线上公开问答数据的知道类问答机器人demo&#xff0c;与检索方式不同&#xff0c;可以进行…

徐阿衡 | 知识抽取-实体及关系抽取(一)

本文转载自公众号&#xff1a;徐阿衡。 这一篇是关于知识抽取&#xff0c;整理并补充了上学时的两篇笔记 NLP笔记 - Information Extraction 和 NLP笔记 - Relation Extraction&#xff0c;梳理了知识抽取的基本方法&#xff0c;包括传统机器学习及经典的深度学习方法。知识抽取…