事理图谱:一种纯学术需求、无法落地、漏洞百出的新技术或新概念?

过去几个月,深陷所谓“事理图谱”当中,苦恼不已。从2018年4月份开始做所谓的“事理图谱”以来至今,磕磕碰碰,做了很多技术上的尝试,也不乏在应用事理图谱上尝试了多种做法,也不乏写了几篇关于事理图谱的文章(实际有未想明白之处)。现在写个阶段性的总结,以对过去在“事理图谱”中的工作进行一种反思,工程中的事理图谱要比学术报告PPT中的情况复杂的多,展示的图要乱的多,性能的数字少得多。。。。。

一、事理图谱是怎么来的?

“事理图谱”这个词是国内哈工大刘挺老师首次提出,与此同时较该团队之前有类似的工作,如中科院软件所、数据地平线公司的工作,也叫事理图谱。目前见学术文章的以刘挺老师的团队为例。英文版本,出现过EEG(Event Eventionary Graph),或后面的(Abstract Event Graph),或后面的ELG(Event Logical Graph),定义上而言,为“事件演化的规律和模式”。

二、抽象事理图谱VS知识图谱?

上面所说的事理图谱,实际上是“抽象事理图谱”,构成要素是抽象事件以及事件之间的关系,实际上并不是什么新事物。之前自己整理过一个关于事理图谱与知识图谱的对比图,现在看着,这种对比实际是有问题的:
1、 可比性。
事理图谱本身并没有跳出知识图谱的范畴,两者不是平级关系,没有可比性,真的要比,那么应该是实体知识图谱和抽象事理图谱。
2、静态与动态。
之前的说法是,知识图谱中存储的是实体,是静态知识,事理图谱中存储的是动态知识。这种说法是有问题的,静态和动态如何去区分?名词性实体就是静态的,动作性事件就是动态的?还是其中一个事件与另外一种事件之间存在着一种演化关系,这种演化性就动态了?
3、新一代的问题。
我在2018年12月份写的一篇文章中,介绍性地说,知事理图谱是下一代知识图谱,这种说法到现在我实在是比较难以认同(软文需要),因为我到目前为止还找不到这个“下一代”的证据。事理图谱并没有解决知识图谱的任何问题,存储方式,提取方法等等,没有发生根本性的改变。所以,不存在什么下一代的问题,事理图谱只是一种知识图谱变体罢了,旧瓶换新水,本质上并没有改变。

三、抽象事理图谱是纯学术需求?

对于事理是不是纯学术需求,这个论断困扰我很久,我越来越倾向于说YES。主要原因如下:
1、 抽象事件界定模糊。
什么是事件?什么是抽象事件?怎样才算抽象?抽象事件怎么去显示它?这一系列问题到目前并没有论述清楚。此外,抽象的层级又如何去界定?这些问题都没有解释清楚。
2、无法管理、建模能力差。
正是由于对这种抽象性的界定不清楚,所以无法对整个现实社会的事件类型进行建模,这里所说的建模能力,是指具有可枚举的层级体系的事件认知,但这个显然没有,没有体系的概念,即便可以引入上下位,那也是相当噪声的上下位,局部有效的上下位。没有明确的事件体系和事件类型,整个事理图谱中的数据犹如一盘散沙、形式混乱,这严重导致了事理图谱在管理、可用上的障碍。
3、事件的识别模糊。
抽象的事件,怎么去识别边界?整个事件的抽象问题都没有定义好,这使得抽取的过程沦为了一种思路,怎么抽都行。例如,“我吃了饭,然后去了学校”,识别的事件是“吃了饭”还是“我吃了饭”,“去了学校”,还是“去学校”。这种识别出来的抽象事件其实只是一个事件片段而已,就算抽取出来了,后续的一些再抽象等之类的算法,也只会造成误差传播,没法用。
4、事理图谱单事件对概率的无效性。
这里的无效性,指的是事理图谱在实际的应用过程中,这种概率的无效性,对于一个Ai会出来很多个Bj,针对每一个AiBj都会有条边出来。虽然可以利用统计手段,对事件的条件概率进行估计,或者放到图网络中随机游走给出一个实际的数值,但究其根本,取决于曝光度,那就是编辑们的曝光量,而一旦曝光少,但很有可能,这种统计方式是统计不到的。另外,每个AiBj发生的变量绝非单变量,相反多变量多的我们难以想象,曝光量仅仅只是其中之一。
5、事理图谱单事件链条的无效性。
另外一个方面是多度的误导性。一旦从Ai出来,不断往后延伸,会得到一系列的Bj,Ck,Dm…等等,越往后,整个链条的错误率其实越大,原因是:1)抽象事件本身的问题,事件的抽象问题把握不好,A到B还说的是猪肉问题,B到C已经说到感冒问题,这类问题其实特别常见,本质问题是这种事件的上下文信息即语境信息太少,传递下来,语境变化太差,整个传到逻辑就是错的。2)错误的传播。每条因果关系边都是失真的,让他不断地往后走,失真的会越来越厉害。3)整个传播逻辑的取舍难度大。假设前2个问题都已经解决,从一个起始事件到一个终止事件,可以有很多种路径,但哪条路径的可能性最大,在实现上是很大的问题。
6、对高质量海量语料的高度依赖
对语料的高度依赖性是所谓抽象事理图谱构建的最大问题之一。这种依赖性体现在“质”和“量”两个方面上,这里的“质”是对语料的质量来看,尤其体现在对事理逻辑的表达,因为有的事理不会很直白的表现出来,如政治领域中的文本,越偏向于对公正纯事实的报道就越不可能有事理逻辑的存在,抽象事理是对逻辑的总结,偏向于一种观点。“量”的表达,是另一个决定因素,如果数据量很少,那么即便“质”保证了,整个数量很少,也缺乏了实际意义。

四、事理图谱能用的先决条件

1、 完善的事件体系作为支撑与灵活可用的事件管理机制
以因果事理图谱构建的方式来看,属于一种围绕因果触发词出发的一种因果关联挖掘,而一直没有解决事件的这种抽象性问题,所以后续有事件融合(也称事件共指关系识别)、事件层次抽象的任务。这个任务的最终目标应该是建成一个可用的全局的事件类型体系,采用的是一种自下而上的方式加以构建,难度非常之大。即提出了一个现实问题:是否能够基于现有的大规模的基础数据,自动聚类和搭建起整个事件类型体系。
没有事件体系的事理图谱是一团散沙,有事件体系但缺乏事件管理机制的事理图谱则无法应用。这种管理机制,体现在对事理知识库的动态更新、多类型数据的管理上。
2、 高精准且模块化的事理组件
事理图谱中的事件体系问题是应该是决定事理图谱可用性的根本条件,首先提供高精准的事件类型体系构建方法是相当重要的,如何借助外部知识库辅助体系的构建,如何对冗余的事件体系进行剪枝,如何解决融合和共指问题,是决定体系的必要手段。此外,务必需要确定事理图谱中的事件定义问题,即3.1的问题。此外,语义外部知识库,这里的语义外部知识库包括各种,如同义词词林、hownet, conceptnet等。
3、 必要的领域专家接入
通用的事理图谱只能是死路一条。抽象事理图谱对事件的表示打破了领域与领域之间的墙,使得事理逻辑在不同的领域中随意穿行。领域专家接入,事件的领域分类、事件关系的领域分类都需要花费大量的力气去做。

五、总结

事理图谱,是一种纯学术需求、无法落地、漏洞百出的新技术或新概念?目前的经验告诉我,如果不解决以上几个问题,刻意回避事理图谱的一些本质问题,一味地扯概念,写技术展望帖、刷模型帖,不考虑实际应用需求,那么只能是纸上谈兵。毕竟,现在这样的氛围,太浓了。回到开始,事件体系+事件管理机制+领域事理+人机协同,真正把这个踏踏实实地做好,才能真正应用下去,我们团队,将致力于这方面的工作。

如有自然语言处理、[知识图谱、事理图谱]、社会计算、语言资源建设等问题或合作,如果对事件知识库有兴趣的落地或者研究,可联系我:
1、我的github项目介绍:https://liuhuanyong.github.io
2、我的csdn博客:https://blog.csdn.net/lhy2014
3、about me:刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com
4、懂预言者得天下,得语言者分天下,得知识逻辑者,游得天下。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480385.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文浅尝 | 实体图的预览表格生成

链接:ranger.uta.edu/~cli/pubs/2016/tabview-sigmod16-yan.pdf动机对于结构化数据和关系数据,通常使用Schema图为数据库的使用者提供基本信息。因此,作者提出了生成预览表格(preview table)的方法,为实体图…

万能的BERT连文本纠错也不放过

一只小狐狸带你解锁炼丹术&NLP秘籍作者:孙树兵学校:河北科技大学方向:QA/NLU/信息抽取编辑:小轶背景文本纠错(Spelling Error Correction)技术常用于文本的预处理阶段。在搜索引擎、输入法和 OCR 中有着…

POJ 1664 苹果放盘子(递归)

题目链接:http://poj.org/problem?id1664 m个相同的苹果放在n个相同的盘子里,有多少种不一样的方法。 例如,3个苹果放在4个盘子里有(3,0,0,0)(1,1&#xf…

2019字节跳动秋招笔试

毕业旅行 题目描述: 小明目前在做一份毕业旅行的规划。打算从北京出发,分别去若干个城市,然后再回到北京,每个城市之间均乘坐高铁,且每个城市只去一次。由于经费有限,希望能够通过合理的路线安排尽可能的省…

蚂蚁金服4轮面经(Java研发):G1收集器+连接池+分布式架构

一面 线程池有哪些参数?分别有什么用?如果任务数超过的核心线程数,会发生什么?阻塞队列大小是多少? 数据库连接池介绍下,底层实现说下 hashset底层实现,hashmap的put操作过程 说说HaspMap底层…

浅谈事理图谱认知:系统体系+领域收敛+人机协同+辅助范式

事理图谱,不是简单的事件识别和事件关系识别以及事件三元组存储,是一个需要健全事件体系牵引、具有领域收敛特性、在构建上需要人机协同,在应用上拥有多种辅助范式形成的系统体系工程。–刘焕勇,于中科院软件所,201910…

算法--二分查找--求平方根(循环法/递归法)

二分查找: 数据需要是顺序表(数组)数据必须有序可以一次排序,多次查找;如果数据频繁插入,删除操作,就必须保证每次操作后有序,或者查找前继续排序,这样成本高&#xff0…

论文浅尝 | 在生成式多跳机器阅读任务中引入外部常识知识

Commonsense for Generative Multi-Hop Question Answering Tasks链接: https://arxiv.org/abs/1809.06309背景机器阅读任务按照答案类型的不同,可以大致分为:(1) 分类问题: 从所有候选实体选择一个(2) answer span: 答案是输入文本的一个片段(3) …

Overleaf v2 评测

原文链接:https://www.jianshu.com/p/1d73d4b9e880 Overleaf v2 评测 去年,两个著名的Latex在线编辑器Overleaf和Sharelatex合并了,强强联手,让我们对他们合并之后的新产品充满了期待。最近,他们的新产品发布了&#x…

蚂蚁中间件团队Java面试题:Netty+Redis+Kafka+MongoDB+分布式

蚂蚁中间件一面: 自我介绍 JVM垃圾回收算法和垃圾回收器有哪些,最新的JDK采用什么算法。 新生代和老年代的回收机制。 讲一下ArrayList和linkedlist的区别,ArrayList与HashMap的扩容方式。 Concurrenthashmap1.8后的改动。 Java中的多线…

面试必备!卖萌屋算法工程师思维导图—统计机器学习篇

卖萌屋的妹子们(划掉)作者团整理的算法工程师思维导图,求职/自我提升/查漏补缺神器。该手册一共分为数据结构与算法、数学基础、统计机器学习和深度学习四个部分。下面是第二部分统计机器学习的内容~公众号后台回复【思维导图】获取完整手册&…

【重磅】全行业事理图谱V3.0正式发布:基于实证的由因求果、由果溯因,因果路径发现

我们一直在事理图谱的探索和应用路上不断前行。。。 【中科院软件所】数据地平线的金融事理图谱Demo已经和大家见面有一段时间了(Demo地址:http://eg.zhiwenben.com/),这段时间我们收到了很多用户的建议反馈和合作邀约,大家对产品的认可和喜…

算法--二分查找--查找给定条件的值

文章目录1.数据有序且无重复,查找给定值2.数据有序且有重复,查找第1个给定的值3.查找最后一个值等于给定值的元素4.查找第一个大于等于给定值的元素5.查找最后一个小于等于给定值的元素6.查找IP归属(利用上面#5代码)7.循环有序数组…

1.1 字符串的旋转+1.2 字符串的包含

1 .1 字符串的旋转 题目描述: 给定一个字符串,要求将字符串前面的若干个字符串移到字符串的尾部。例如,将字符串“abcdef”的前三个字符‘a’、‘b’,‘c’移到字符串的尾部,那么原字符串将变成“defabc”。请写一个函…

论文浅尝 | 利用边缘标签的网络嵌入强化方法

链接:https://arxiv.org/pdf/1809.05124.pdf本文主要关注Network embedding问题,以往的network embedding方法只将是网络中的边看作二分类的边(0,1),忽略了边的标签信息,本文提出的方法能够较好的保存网络结构和边的语义信息来进行…

2018阿里集团中间件Java面试题(4面)

持续分享阿里技术面试 最新天猫3轮面试题目:虚拟机并发锁Sql防注入Zookeeper 最新阿里内推高级Java面试题 蚂蚁金服4轮面经(Java研发):G1收集器连接池分布式架构 天猫研发团队(4面全题目):并发压测Mina事…

卷积神经网络中十大令人拍案叫绝的操作

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者:Justin ho来源:https://zhuanlan.zhihu.com/p/28749411前言CNN从2012年的AlexNet发展至今,科学家们发明出各种各样的CNN模型,一个比一个深,一个比一个准确,一个…

【再认识】认知智能下需要的实体知识与事件知识

1,知识图谱理想上双层结构,实际单层 知识图谱是个双层结构。模式层和实例层,模式层,又称为本体层,模式层分成两个部分,一个是概念的上下层级,另一个是概念之间的关系层或者概念的自身属性信息层…

python--从入门到实践--chapter 11 代码测试unittest

编写的代码需要测试是否有Bug 1.函数测试 city_functions.py def city_country(city, country):return str(city) , str(country)city_country_unittest.py import unittest #导入测试模块 from city_functions import city_country as cc class citytest(unittest.TestC…

刘升平 | 基于知识图谱的人机对话系统

本文转载自公众号:AI科技大本营。 分享嘉宾 | 刘升平(云知声 AI Labs 资深技术专家)来源 | AI 科技大本营在线公开课人机对话系统,或者会话交互,有望成为物联…