刘挺 | 从知识图谱到事理图谱

本文转载自 AI科技评论 

在“知识图谱预见社交媒体”的技术分论坛上,哈尔滨工业大学刘挺教授做了题为“从知识图谱到事理图谱”的精彩报告。会后AI科技评论征得刘挺教授的同意,回顾和整理了本次报告的精彩内容。

刘挺教授

刘挺教授的报告内容分为四部分:

  • 知识图谱与《大词林》

  • 事理图谱概念的提出

  • 事理图谱国内外相关工作

  • 哈工大在事理图谱方面的探索

知识图谱与《大词林》

知识图谱最早是通过人工搜集数据和标注数据来构建的,随着需求的多样化和精细化(例如,需要获得“XX疾病是否可以被XX药物治疗”,“XX人和XX人之间是否是敌人/朋友”等信息),人工构建的知识图谱越发难以满足用户多种多样的需求。基于此,如何由机器去自动构建大规模的知识图谱已经发展成为热门的研究点。

知识图谱,是基于二元关系的知识库,用以描述现实世界中的实体(或概念,概念是实体的抽象,例如“水果”即为“苹果”的概念)及其相互关系,其基本组成单位是『实体-关系-实体』三元组(triplet),实体之间通过关系相互联结,构成网状结构。通过知识图谱,可以支持用户按主题而不是按字符串检索,从而真正地实现在语义层面上进行信息检索。基于知识图谱的搜索引擎,能够直接向用户反馈结构化的知识,用户不必浏览大量网页,就可以找到自己想要获得的知识。

封闭域知识图谱和开放域知识图谱各有优劣

2014年年末,哈工大正式发布《大词林》。现在只需在浏览器中键入www.bigcilin.com,即可访问《大词林》。《大词林》是一种自动从网络中爬取实体及实体的概念以形成基于上下位关系的通用知识图谱。这意味着,如果用户输入的词语不被《大词林》所包含,《大词林》即会实时地到互联网上去搜索,以自动挖掘该词语的上位概念词,并将这些上位概念词整理为层次结构。比如输入“林肯”,《大词林》就会根据“林肯”在网络中出现的语义信息,自动挖掘出“林肯”所具有的多个概念,例如“汽车”、“总统”、“交通工具”、“领袖”等,然后再根据这些概念的抽象程度,将这些概念刻画为层次结构。例如“领袖”相对于“总统”更加抽象,在图中“领袖”的层次就比“总统”更高。

上图左侧为《大词林》层次目录的一部分,其骨架是《同义词词林(扩展版)》。《大词林》选择《同义词词林(扩展版)》作为骨架的原因在于:经过反复的探讨,刘挺教授带领的团队认为词汇应具有两种类型,一种是“实体”与真实的事物相对应,比如具体的人名、地名、机构名;另一种是“概念”,是“实体”的抽象含义,比如“植物”、“水果”等。实体之间具有明显的横向关系,而“实体”和“概念”、“概念”和“概念”之间具有明显的层次关系,因此词汇之间应具有由横向关系和纵向关系所形成的网状结构。基于此,刘挺教授带领的团队将《同义词词林(扩展版)》作为《大词林》层次(纵向)关系构建的骨架。

这里简单介绍一下作为《大词林》的骨架-《同义词词林(扩展版)》存在的问题。《同义词词林》的第一个问题是仅具有固定的5层结构,但面对千万级乃至亿万级规模多领域、多样性的词汇,固定的结构显然无法对其进行有效描述;第二个问题是《同义词词林(扩展版)》包含的词语数目非常有限,且大部分为抽象的概念,其规模不到十万词,显然不适合实际应用。基于此,刘挺教授带领的团队决心打破《同义词词林(扩展版)》的上述限制,从而形成了现在的《大词林》。首先,《大词林》的层数是不固定的,其根据词语的抽象程度自动进行层次化;其次,《大词林》中包含了很多具体的实体(例如人名、地名、机构名),其规模是《同义词词林(扩展版)》的数百倍,并且还在不断的扩充。

《大词林》的特点在于能够从多种信息源中自动地构造词汇和词汇的上下位关系。这是刘挺教授带领的团队中一名博士生发表的一篇ACL会议论文(该会议是自然语言处理领域的顶级会议,被计算机学会评定为Rank A),这篇论文详细地展示了如何自动的从多信息源里获取实体概念词的技术框架。

简单来说,获取概念词的来源主要有三个,1)搜索引擎中检索得到的高概率的同现词,2)在线百科的类别标签3)词语的构词法,对于很多词,其后缀即为该词的概念词,例如像微软公司的公司就是微软公司这个实体的概念词。之后,采用排序算法对获取得到的这些候选概念词进行打分,然后截取超过一定阈值的候选概念词保留到《大词林》中。

上面的方法仅仅获取了针对某个词语的概念词,如左图所示。但是,概念词之间是有明显的层次关系的,如右图所示,而《大词林》的特殊之处就在于能够自动形成概念词之间的层次结构。基于上述的处理方案,从《同义词词林(扩展版)》的十万词出发,现在的《大词林》已经成为一个具有千万级词汇量级的知识图谱,并且其规模每天都在不断的增长。

由于《大词林》是自动构建的,因此需要对其质量做一个评估,以判别《大词林》中是不是包含了很多的错误,到底可不可以实用。刘挺教授带领的团队对《大词林》做过抽样评估。结果显示,针对某个词语,找到其概念词的准确率为85%,词语之间的上下位关系识别的准确率为90%。

相比于其他知识图谱,《大词林》主要专注于语言学中词汇的上下位关系的自动构建,是一种语言的知识图谱。当然,目前刘挺教授带领的团队也着手在《大词林》中引入横向关系,相信不久的将来就能看见更加全面的《大词林》。

事理图谱概念的提出

关于事理图谱。现有的知识库普遍是以“概念及概念间的关系”为核心的,缺乏对“事理逻辑”知识的挖掘。刘挺教授团队认为在实际应用中,事理逻辑(事件之间的演化规律与模式)是一种非常有价值的常识知识,挖掘这种知识对我们认识人类行为和社会发展变化规律非常有意义。举个经典例子,北京人买房子,买完房子下一步就是装修,装修完了就会买家具,如果在网上发现有人发微博说他买房子了,装修公司就可以跟上去做广告,这就是一种预测。事理图谱并不是以名词为核心节点的知识库,而是以事件而且是抽象类事件为核心的事理逻辑知识库。举个例子,国家领导人访问另一个国家,这就是一个抽象事件。刘挺教授的团队三年前就提出了事理图谱的概念。

事理图谱只定义两种事件间关系:一种顺承,一种因果,这两种关系都有时间顺序。本质上事理图谱是一个事理逻辑知识库,描述了事件之间的演化规律和模式,可以应用在生活中的很多方面,比如事件预测 ,常识推理,消费意图挖掘,对话生成等等。

事理图谱与知识图谱的区别,知识图谱研究对象为名词性实体及其关系,事理图谱研究对象是谓词性事件及其关系。知识图谱主要知识形式是实体属性和关系,事理图谱则是事理逻辑关系以及概率转移信息。事件间的演化关系多数是不确定的,而实体之间的关系基本是稳定的。

事理图谱中的事件定义。事理图谱中的事件是一个泛化的抽象的事件,比如吃火锅,去机场 ,看电影都可以,但要是说非常的具体,某年某月干了什么,这就不是事理图谱中存储的知识。但也不能太抽象,比如,去地方,做事情,也不是事理图谱中存储的知识。事件间的关系就两种,一种顺承关系,吃饭,买单,离开餐馆,这就是很常见的事件顺承关系。还有就是因果关系,我们认为因果关系是非常重要的,只有因果关系建立了,才能通过控制因变量去影响结果。

事理图谱有3种典型的拓扑结构, 第一种是链状,顺承关系为典型代表。第二种是树状,这其中有一种事件是心理事件,打算去做某事,并不是真做了;第三种是环状,以打架报复住院为例,循环往复。

事理图谱国内外相关工作

与事理图谱最相关的两个研究方向是统计脚本学习和事件关系识别。统计脚本学习是与事理图谱非常接近的一个研究领域。1975年,美国学者Schank提出脚本概念;2003年,日本学者提出自动获取脚本的方法;2008年,Dan Jurafsky利用无监督的方法构建事件链,成为该方向一个具有代表性的先驱工作。2014至今,统计脚本相关研究工作进入了复苏和发展阶段。

除此之外,还有一条技术路线是事件间关系(时序和因果)识别。

哈工大在事理图谱的研究

哈工大主要在两个领域进行了事理图谱探索性的工作,一方面是出行领域事理图谱的构建和应用;另一方面是金融领域事理图谱的构建和应用。

出行事理图谱的潜在应用

出行领域更多是顺承关系,其构建过程包括数据清洗、NLP预处理、事件抽取和泛化、生成候选事件对、顺承关系识别、顺承方向识别。

第二个是金融领域事理图谱。

可将金融领域事理图谱应用于股市预测当中。

从知识图谱到事理图谱的总结

刘挺教授的总结:知识图谱在各个领域精耕细作,逐渐显露价值,但知识表示形式有待突破,推理能力有待提高。统计脚本学习和事件关系识别等事理图谱相关研究越来越吸引研究者的关注。以“谓词性短语”为节点,以事件演化(顺承、因果)为边的事理图谱方兴未艾。事理图谱必将在预测、对话等领域发挥重要作用,有力地提升人工智能系统的可解释性。

最后刘挺教授向他的合作者,哈工大社会计算与信息检索研究中心的秦兵教授、刘铭副教授、丁效老师,以及博士生赵森栋、李忠阳、姜天文表示感谢。

以上内容为刘挺教授在CNCC 2017 [ 知识图谱遇见社交媒体 ] 论坛上的精彩报告,AI科技评论获其独家授权整理。




OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480998.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

我对JVM的理解

一、JVM简介 JVM总体上是由类装载子系统(ClassLoader)、运行时数据区、执行引擎、内存回收这四个部分组成。 其中我们最为关注的运行时数据区,也就是JVM的内存部分则是由方法区(Method Area)、JAVA堆&#xff0…

【LeetCode】4月4日打卡-Day20-接雨水

描述 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 上面是由数组 [0,1,0,2,1,0,1,3,2,1,2,1] 表示的高度图,在这种情况下,可以接 6 个单位的雨水(蓝色部分表示雨水&a…

算法与数据结构--空间复杂度O(1)遍历树

大家好~我叫「小鹿鹿鹿」,是本卖萌小屋的第二位签约作(萌)者(货)。和小夕一样现在在从事NLP相关工作,希望和大家分享NLP相关的、不限于NLP的各种小想法,新技术。这是我的第一篇试水文章&#xf…

PCA主成分分析学习总结

大概主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA,下面我们就对PCA的原理做一个总结。首先…

技术动态 | 大规模中文概念图谱CN-Probase正式发布

本文转载自公众号知识工场。 历时多年的研发,复旦大学知识工场实验室正式推出大规模中文概念图谱——CN-Probase,用于帮助机器更好的理解人类语言。概念图谱中包含实体(比如“刘德华”)、概念(比如“演员”&#xff09…

生产Docker应用重启排查经历

一、现象描述 近期,生产云平台监控发生Docker应用重启次数过多事故报警,经观察发现某些Docker应用不定期地出现重启现象,已严重影响服务正常提供 生产应用重启的判断条件:健康检查连续3次检查不通过 生产健康检查间隔时间设置为…

【Java】深入理解Java线程

1 相关概念 并发:两个或多个事件在同一时间段内发生【多个任务交替执行】 并行:两个或多个事件在同一时刻发生【多个任务同时执行】 进程:进入内存的程序 内存:所有应用程序都要进入到内存中执行 临时存储RAM 线程:进…

机器学习——多元线性回归分析(multiple regression)及应用

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/loveliuzz/article/details/78006493 </div><link rel"stylesheet" href"https://csdnimg.cn/release/phoenix/template/css/ck_htmledit_vi…

肖仰华 | 知识图谱研究的回顾与展望

本文转载自公众号知识工场。 本文整理自2017年10月19日肖仰华教授在知识图谱前沿技术课程&#xff08;华东师范大学站&#xff09;所做的报告&#xff0c;报告的题目为《知识图谱研究的回顾与展望》。 大家好&#xff0c;很多人在对知识图谱的研究或者落地方面都表现出了极大的…

Java应用性能调优工具介绍及实践

一、背景 &#xff08;1&#xff09;、随着微服务架构的逐渐推广&#xff0c;一个大型的单个应用程序被拆分为数个微服务系统&#xff0c;这为研发人员的本地调试跟踪带来困难 &#xff08;2&#xff09;、在微服务架构中&#xff0c;由于业务的复杂性&#xff0c;常常一个业务…

Google、MS和BAT教给我的面试真谛

大家好呀&#xff0c;我是「小鹿鹿鹿」&#xff0c;我又来啦&#xff5e;&#xff5e;趁大家还有依稀印象赶紧乘热打铁&#xff5e;&#xff5e;这次聊一聊关于面试的一些小想法&#xff0c;希望和大家交流交流&#xff5e;&#xff5e;虽然资历尚浅&#xff0c;但是也面过不少…

AAAI 2018 论文 | 蚂蚁金服公开最新基于笔画的中文词向量算法

导读&#xff1a;词向量算法是自然语言处理领域的基础算法&#xff0c;在序列标注、问答系统和机器翻译等诸多任务中都发挥了重要作用。词向量算法最早由谷歌在2013年提出的word2vec&#xff0c;在接下来的几年里&#xff0c;该算法也经历不断的改进&#xff0c;但大多是仅适用…

甲子光年 | 为什么知识图谱终于火了?

本文转载自公众号甲子光年。如果知识是人类进步的阶梯&#xff0c;知识图谱就是AI进步的阶梯。作者&#xff5c;金丝猴编辑&#xff5c;甲小姐设计&#xff5c;孙佳栋微信&#xff5c;甲子光年 (ID:jazzyear)“知识图谱”相较于AI其他分支&#xff0c;似乎是最后一个热起来的赛…

Java多线程并发编程

一、线程池 1.1、什么是线程池 线程池是一种多线程的处理方式&#xff0c;利用已有线程对象继续服务新的任务&#xff08;按照一定的执行策略&#xff09;&#xff0c;而不是频繁地创建销毁线程对象&#xff0c;由此提高服务的吞吐能力&#xff0c;减少CPU的闲置时间。具体组成…

Step-by-step to Transformer:深入解析工作原理(以Pytorch机器翻译为例)

大家好&#xff0c;我是青青山螺应如是&#xff0c;大家可以叫我青青&#xff0c;工作之余是一名独立摄影师。喜欢美食、旅行、看展&#xff0c;偶尔整理下NLP学习笔记&#xff0c;不管技术文还是生活随感&#xff0c;都会分享本人摄影作品&#xff0c;希望文艺的技术青年能够喜…

知识图谱与智能问答基础理解

什么是知识图谱&#xff1f; 知识图谱本质上是语义网络&#xff0c;是一种基于图的数据结构&#xff0c;由节点(Point)和边(Edge)组成。在知识图谱里&#xff0c;每个节点表示现实世界中存在的“实体”&#xff0c;每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的…

鲍捷 | 知识图谱从 0 级到 10 级简化版

本文转载自公众号&#xff1a;文因学堂。文因学以前写过几个进阶指南&#xff0c;可能都太难&#xff0c;不接地气。这里重新写一个更实事求是、更便于工程落地的版本0级&#xff1a;掌握正则表达式、SQL、JSON和一门支持if-then-else的高级语言 —— 是的&#xff0c;这些不是…

Java并发优化思路

一、并发优化 1.1、Java高并发包所采用的几个机制 &#xff08;1&#xff09;、CAS&#xff08;乐观操作&#xff09; jdk5以前采用synchronized&#xff0c;对共享区域进行同步操作&#xff0c;synchronized是重的操作&#xff0c;在高并发情况下&#xff0c;会引起线…

他与她,一个两年前的故事

“ 有没有那个Ta&#xff0c;值得你一生去守护”1她能力出众&#xff0c;业务能力无人能出其左右&#xff1b;他资质平庸&#xff0c;扮演一个很不起眼的角色&#xff1b;她国色天香&#xff0c;是整个公司上上下下关注的焦点&#xff1b;他其貌不扬&#xff0c;甚至很多人根本…

科普 | 知识图谱相关的名词解释

知识图谱&#xff08;Knowledge Graph&#xff09;是谷歌于2012年提出。企业通常出于商业目的去设计新的概念和名词。但每一个概念的提出都有其历史渊源和本质内涵。下面列举了知识图谱相关的几个概念&#xff0c;并简要阐明了它们与知识图谱的关系和区别。Knowledge Base&…