【再认识】认知智能下需要的实体知识与事件知识

1,知识图谱理想上双层结构,实际单层
知识图谱是个双层结构。模式层和实例层,模式层,又称为本体层,模式层分成两个部分,一个是概念的上下层级,另一个是概念之间的关系层或者概念的自身属性信息层。前者规定了概念类之间的类关系,赋予了概念之间可以继承的特性,后者定义了不同类自身的属性和关系变体。严格意义上来说,知识图谱中的模式层对数据项的取值是有严格定义的,例如数据库中的各种数据类型(字符串型、float型、list型),但这种做法在工业界往往用不到,因为充分适应这种数据类型的规定是非常需要费时费力的。在很多人的认知里,知识图谱就是知识三元组,仅保留实例层,这是现实中的大现实,因为这来的快,拿来就用。表面上看起来很舒服,搞上面这一层太费脑筋,而且有太多业务知识,很多人办不到,尤其是焦虑的工业界。
2,知识图谱是可解释性,也是个灾难。
知识图谱=可解释性,这种论断被炒的很火,不能说对,也不能说错,标杆在于对可解释的定义。大体认为知识图谱是可解释的是沿袭了“眼见为实”的思维,即,我看到的实实在在的东西,可以形式化的显示性地表达出来时,我才认为我可以把一个问题解释给对此毫无背景的人听。也就是看重的是一种过程性的符号佐证,一种缺乏思考能力和基础知识却想掌握某一现象的人来说的。而深度学习中学习到的系数或值缺少实际的物理意义,从而被认为是不了解释的,因为缺乏形式化。如果我们认可了这样一种标杆,那么也自然成立,但这种成立性带来了巨大的灾难,即可解释性的数据荒灾难,为了支持一个既定的事实,背后需要大量的知识作为支撑,但现在的规模是远远不够的,几千亿,几万亿估计都不够。退回来说,这个知识的来源,人工编辑收集的方式很局限,不可面面俱到。基于抽取的方法可以海量的挖掘,撇开技术性能不说,海量挖掘的目的在于知识的曝光度,曝光才是抽取的前提,但有太多长尾的知识是压根不被报道或写出来的,换句话说,目前可以拿到的数据资源可能只是所有重要知识的百分之几,甚至千分之几,万分之几。所以,认定了知识图谱是通向可解释智能的路,那么这条路注定是个big problem.
3,认知需要层级性的动作性和实体性知识基础
知识图谱是认知智能的语义基石,基于知识图谱中所存储的知识,机器可以像人一样去进行知识应用,知识推理笔记看过很多博文的人都会有这种的认同感,这没有什么问题。认知,是人类相较于其他动物最大的区别,在我看来,认知能力主要包括概括能力和类推能力两种,概括能力是能够基于大量既定事实总结经验规律模式,并形成具有一定层级的模式思维能力。类推能力,更像是概括能力的反向用力以及应用,即常说的思考或举一反三。因此,既然认定知识图谱是认知的基础,那势必需要满足这两种基础,即概括基础和类推基础。
概括基础形式化体现出来,是具有概括性的能力,以概括抽象性的能力以及抽象概念性知识库作为输出。说到这个,又要说到人的认知体系问题,人类的认知体系是以名词性实体为核心还是以动词性事件为核心的,不同的核心决定了不同的概括需求。事实上,作为一个由社会活动驱动的人类,是动词性事件为核心的,动词性事件支配名词性实体,因此概括性能力应该包括名词性能力和动词性能力。但即便是如此,人类在显式的表达自己的知识时,还是以选择名词性实体进行表达,是因为名词性实体比事件更为细粒度,也更为稳定,也是好习得,好操作,即先知道what is what再知道do what 。
名词性能力这方面代表性的工作有大词林、wordnet,这两个是我认为真正意义上做到这点的工作,一个是抽象,二是分层,没有进行分层的概念性是零散的(一堆高度稀疏的isa),这方面的工作包括cnprobase,以及conceptgraph。但是,对于这种概括性知识图谱而言,还是基本上集中在名词性实体上,究其原因,一是因为好建模(可以利用实体链接,背后有百科类实体作为支撑,好操作),二是因为数据的可获得性,有大量认为预定好的层级(目录树,网页导航,黄页)等。当然,在这个方面,各大电商,医疗,工业,领域等积累了大量的材料,如阿里商品等,基于商品的挖掘,可以快速搭建一个面向商品消费的层级性实体概括性知识库。
动作性的概括性图谱目前还相对空白。与名词概括性图谱不一样,名词性的概括性可以用is-a表达,而动词性概括图谱更多的是一种part-of关系,事件具有组成性的特征。相关的工作更多的是集中在事件的逻辑性的挖掘上(因果逻辑,条件逻辑,上下位逻辑)。有必要说明的是,其中的上下位(包括基于名词性实体的上下位以及基于动词性实体的上下位)是这种概括性图谱中的一部分。比如结婚这个动作,包括领证、办喜酒、发请帖等几个组成性事件。前者所描述的是一种诸如货币贬值下的美元贬值、人民币贬值、日元贬值。一种在形式上有交集,可以找到规则,另一种没有形式规则可言。所以,前者的挖掘难度要比后者简单地多,而意义上后者则要强得多。
4,事件类图谱的殊途同归:向上概括与向下泛化
漫步的抽象事理图谱。同一个事件知识,如果只关注单个事件集合之间的关系(上下位,组成、因果、时序),那么就会走向具有三层结构的事件类知识库(抽象事理图谱),这类图谱的特点是只考虑事件名以及事件名个体经过加工、抽象、模式规约后形成的体系关系,而不考虑具体的事件富信息。其中的三层结构,第一层是事件顶层,也可称为事件类型,用最顶层的事件类型名称对下沿事件进行统筹。第二层,是事件抽象模式层,也叫事件类簇代表,统筹基于该事件模式下存在不同表述的事件个体。第三层,是事件事例层,属于具体的事件名称(如巴西发生大火)。
周全的领域事件图谱。与漫步的抽象事理图谱不同,它考虑的更为周全,且体现在领域性上。周全,即在满足事件名的基础上,能够以事件槽的方式挖掘事件的不同侧面信息,例如杀人事件中的时间、被害人、犯罪嫌疑人、地点等。领域性,即该事件领域的刻画,领域的事件具有领域的属性特征,具有领域的槽位侧面,用于描述领域性的事件信息。当然,这种领域性包括通用领域和垂直领域(金融、社会治理等),领域的槽位数量和角度都各不相同。领域事件图谱借助这种信息的复杂性,能够支持更多方位的信息检索、分析和追踪服务。但往往会因为包袱过重,无法大规模施展开来。这种包袱体现在槽位的定义,事件的定义上,通用的槽位数量太少(如SEM设计的事件本体)不足以体现领域特性和功效,领域的槽位(如ACE实在有限,framenet略多实则有限)需要精心设计,不具有扩展性,工程周期长。
漫步与包袱互助,事件快跑。抽象事理图谱甩掉了包袱,在抽象概括性知识上深耕,事件类图谱在实例事件上小步慢行。两者分别从向上和向向下两个角度在做(脑补亚里斯多德与阿基米德的画面)。两者融合是一个大方向(或许早已有之,但没有大规模工程化,技术手段需要深思考)能够树立起整个事件知识基石。抽象事理图谱的技术难点和核心在于“抽象”二字,把握抽象粒度,动态变通事件体系,在此基础上再进行平级逻辑挖掘,终极目标在于抽象能力的自主习得和体系的自我构建、更新与完善。领域事件类图谱核心和难点在于“领域”两个字,自动梳理和划分领域事件类别,自我习得既定类别的具体槽位,突破人工手动,解放业务专家。两类图谱,以事件名或者事件实例作为中间键进行连接。
5,实体性知识图谱与事件类图谱的融合
事件类图谱以事件为核心,事件中包括各类实体,在类型划分上,实体可以是领域性实体,也可以是开放域实体,一般来说,实体类型和实体信息越丰富,事件类图谱与实体类知识图谱的联通度和稠密度就越高。以金融领域来说,可以链接公司、商品、货币、医药、水果、人物、高管等实体,开放域的话,可以通过概念性实体的类型进行识别。识别的过程,包括实体识别和实体链接两个部分(对于具有歧义的实体尤其有必要,在实际操作中根据实际情况进行考虑)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480367.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python--从入门到实践--chapter 11 代码测试unittest

编写的代码需要测试是否有Bug 1.函数测试 city_functions.py def city_country(city, country):return str(city) , str(country)city_country_unittest.py import unittest #导入测试模块 from city_functions import city_country as cc class citytest(unittest.TestC…

刘升平 | 基于知识图谱的人机对话系统

本文转载自公众号:AI科技大本营。 分享嘉宾 | 刘升平(云知声 AI Labs 资深技术专家)来源 | AI 科技大本营在线公开课人机对话系统,或者会话交互,有望成为物联…

最强Java面试题全部合集,涵盖BAT大厂面试必考的9大技术!-强烈建议收藏

过去2年我持续分享了BAT TMD为代表的大厂最新面试题目,特别是蚂蚁金服、天猫、淘宝、头条、拼多多等Java面试题目。 过去2年,我已经成功的帮助了部分同学进入了大厂。 2020开始,我依然会为大家带来最新的大厂现场面试专场题目,希…

杨强教授新番!破解机器学习数据孤岛和数据保护难题

一只小狐狸带你解锁 炼丹术&NLP 秘籍移动互联技术这把“温柔刀”,带来巨大便利之余,也将我们的个人数据放进了橱窗,为“推动信息技术发展”而供人调取。我们都清楚网络“裸奔”的行为很混乱,但你知道到底有多乱吗?…

POJ 3122 分披萨(二分查找)

题目链接:http://poj.org/problem?id3122 题目大意: 有 n 块披萨(大小不一样), f 个人分,包含主人自己 f1 人; 每人吃的披萨必须是一块披萨上切下来的。每个人吃的披萨相等,披萨可…

没错,继事理图谱后,我们又搞事情了:数地工场自然语言处理语义开放平台正式对外发布!

2020年的钟声即将敲响,在这辞旧迎新之际,经过近几年在Fintech领域中的自然语言处理技术研发和产品迭代积累,数据地平线Datahorizon迎来重大更新,以数据、事件、逻辑的语义toolbox为愿景的数地工场开放平台V1.0正式对外发布。 数地…

(C语言)链表的实现集合的相关操作

原文链接:https://blog.csdn.net/kobe_jr/article/details/80543611 集合的特征:确定性/ 互异性/ 无序性。常见的操作:1、查找集合中是否包含这个数据元素:Contains();2、添加一个新成员数据,集合中不能存在这个元素。…

论文浅尝 | Understanding Black-box Predictions via Influence Func

Cite: Koh P W, Liang P. Understanding black-box predictions via influence functions[J]. arXiv preprint arXiv:1703.04730, 2017.链接:https://arxiv.org/pdf/1703.04730GitHub项目地址:http://bit.ly/gt-influence本文使用影响函数(Influence fun…

ICLR2020满分论文 | 为什么梯度裁剪能加速模型训练?

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者:苏剑林(来自追一科技,人称“苏神”)前言需要许多时间步计算的循环神经网络,如LSTM、GRU,往往存在梯度爆炸的问题。其目标函数可能存在悬崖一样斜率较大的区域&…

快手高级Java四轮面试题:设计模式+红黑树+Java锁+Redis等

快手Java一面(一个小时十分钟) 1.自我介绍 2.说说B树和B树的区别,优缺点等? 3聊聊Spring,主要IOC等等 4多线程JUC包下的一些常见的类,比如CountDownLatch、Semaphore等 5.锁的概念,锁相关的…

数据结构--跳表SkipList

对单链表查找一个元素的时间复杂度是 O(n)通过对链表建立多级索引的结构,就是跳表,查找任意数据、插入数据、删除数据的时间复杂度均为 O(log n)前提:建立了索引,用空间换时间的思路(每两个节点建立一个索引)索引节点总和 n/2n/4n…

领域词汇知识库的类型、可用资源与构建技术漫谈

词是语言系统中重要的语言单元,词语是开展文本处理的基础,在语义表示上具有比字符更丰富的表达能力。词语具有领域特性,不同的领域具有不同的词汇体系,如军事领域、医疗领域、公共治安领域、金融领域之间存在着很大的差异性。这种…

C语言实现的数据结构之------哈希表

原文链接:https://blog.csdn.net/smstong/article/details/51145786 哈希表原理 这里不讲高深理论,只说直观感受。哈希表的目的就是为了根据数据的部分内容(关键字),直接计算出存放完整数据的内存地址。 试想一下&a…

论文浅尝 | EARL: Joint Entity and Relation Linking for QA over KG

Mohnish Dubey, Debayan Banerjee, Debanjan Chaudhuri, Jens Lehmann: EARL: Joint Entity and Relation Linking for Question Answering over Knowledge Graphs. International Semantic Web Conference (1) 2018: 108-126链接:https://link.springer.com/conten…

百度高级Java三面题目!涵盖JVM +Java锁+分布式等

百度高级Java一面 自我介绍 对象相等的判断,equals方法实现。 Hashcode的作用,与 equal 有什么区别? Java中CAS算法? G1回收器讲一下? HashMap,ConcurrentHashMap与LinkedHashMap的区别 如何在多线程环…

python--从入门到实践--chapter 12 pygame_Alien_Invasion

安装pygame包,把安装好的包copy一份到pycharm工程目录下,不然找不到pygame包 抄一遍书上的代码: settings.py class Settings():def __init__(self):self.screen_width 1200self.screen_height 800self.bg_color (255, 255, 255)self.s…

实时事理学习与搜索平台DemoV1.0正式对外发布

我们团队探索了一种将事件、概念、逻辑、实时学习、多类知识库实时更新串起来的知识服务新模式。一个面向事理的实时学习和搜索系统Demo,取名叫“学迹”,取自“学事理,知行迹”。 项目地址:https://xueji.zhiwenben.com 一、 “学…

卖萌屋算法工程师思维导图part3—深度学习篇

卖萌屋的妹子们(划掉)作者团整理的算法工程师思维导图,求职/自我提升/查漏补缺神器。该手册一共分为数据结构与算法、数学基础、统计机器学习和深度学习四个部分。下面是第三部分深度学习的内容~公众号后台回复【思维导图】获取完整手册&…

1.3 字符串的全排列

字符串的全排列 题目描述:输入一个字符串,打印出该字符串中字符的所有排列。例如,输入字符串“abc”,则输出由字符‘a’,‘b’,‘c’所能排列出来的所有字符串“abc”,“acb”,“bac…

论文浅尝 | Zero-Shot Transfer Learning for Event Extraction

事件抽取的目标是在非结构化的文本中确认事件的触发词(Eventtrigger)和参与者(Event argument),并判断触法词的事件类型(Eventtype),判断参与者在事件中的扮演的角色(Arg…