50万抽象知识图谱项目(实体抽象、性状抽象与动作抽象)

AbstractKnowledgeGraph

AbstractKnowledgeGraph, a systematic knowledge graph that concentrate on abstract thing including abstract entity and action. 抽象知识图谱,目前规模50万,支持名词性实体、状态性描述、事件性动作进行抽象。目标于抽象知识,包括抽象实体,抽象动作,抽象事件。基于该知识图谱,可以进行不同层级的实体抽象和动作抽象,这与人类真实高度概括的认知是一致的。

项目介绍

抽象知识图谱,集中于对知识图谱和事件图谱中的实例事实进行抽象,包括实体抽象、动作抽象以及事件抽象,从而达到对人类真实认知的模拟。本项目目标有三个:
1)论述抽象图谱。对抽象图谱的现实需求进行论述。
2)介绍抽象图谱的相关工作。目前,关于抽象知识图谱的工作已经有一定的积累,如英文中的ConceptNet,MINDNET,verbnet;中文的CN-Probase,Hownet,大词林,百度百科Schema等。
3)提出抽象知识图谱的实施路线并给出抽象接口实践。一个可用的抽象知识图谱构建路线,是对以上两个内容的实践说明。

关于抽象知识图谱

1、抽象知识图谱的现实基础与需求

1)语言的语法特性。定语+主语+状语+谓语+补语+宾语是目前中文成句的重要形式,这种成分的占位与填充为了以词性标注、实体识别、句法分析已经语义角色标注的自然语言处理提供了基础。

2)语言抽象的层级特性。语义三角(包括符号,语义以及语境况三者构成的三角),对人类社会认知进行了很好的刻画。语言形成的过程,是人类对认知(物体,动作,思想)概括和总结的过程。形式化是概括的手段,语言符号及符号体系是概括的结果。层次性是符号体系的一个重要特征,概念之间的上下位,概念之间的总括与构成等,形成构成了语言抽象层级性的物质基础。

3)抽象能力是认知能力的基础。认知的过程,是对现实世界火活动的交互过程,包括内在和外在两个组成部分,内在负责自身知识的总结,抽象,体系的构建过程,即学习过程。外在负责对内在部分形成的知识体系应用的过程,应用包括验证和补充两个部分,验证在于对内在知识形成的证伪,补充在于对新抽象知识的形成与抽象规则的修正两个方面。孩子从出生的一无所知到逐步认知能力的过程,就是对知识不断总结、概括以及应用的过程。

4)抽象数据与抽象规则的获取挑战。让机器能够达到小孩的智力,根本上需要具备抽象能力以及抽象数据基础两个条件。这是解决认知智能的一个方向之一,而目前现有的技术手段,还难以快速满足这两个条件。一方面,健全的抽象数据较难获取,抽象与概括的类型众多,既有对动作的抽象,也有对名词实体的抽象,也有对性状的抽象,抽象的角度以及抽象的粒度很难把握。另一方面,基于这类抽象数据,学习或总结出内在的抽象规则和抽象层级,是难以攻克的一点。

2、抽象知识图谱的构成
1)抽象知识图谱体系架构
在这里插入图片描述

抽象知识图谱包括抽象实体知识图谱和抽象事件图谱两个组成部分,抽象实体知识图谱主要关注静态的实体性知识,抽象事件图谱则关注事件自身的抽象以及事件与事件之间(事理)的知识。抽象事件图谱需要抽象实体图谱作为有效载体,并加以支配;抽象实体图谱以抽象事件图谱作为有效承载,并为其所利用;抽象知识图谱是不同抽象层级的实体事件库,核心在于对事实实例的抽取以及抽象层级的概括两个方面,层级知识体系以及明确的事实实例是抽象的两个重要基础。基于事实实例的抽象是人脑对知识总结概括的过程。

2)抽象知识图谱的抽象角度

a) 名词性实体的抽象
名词性实体的抽象是知识抽象中最为基础也作为宽泛的一种,名词性实体丰富多样,并随着社会的发展以及新事物的产生而增加。苹果是一个公司,也是一种水果,水果又是一种植物,植物又是一种生物,这类层级性的名词性成分能够支持实体聚类、实体泛化等一系列应用。

b) 性状性修饰的抽象
性状性修饰的抽象,指对形容词性状态成分进行抽象,可用于对描述性知识的层级抽象。如美丽一词,属于美好这一层级,美好这一层级又可以归为友好积极的一类;又如悲伤这一词,通过悲伤自身的语义属性,又可以扩展成不同层级的修饰性成分。

c) 动作性事件的抽象
动作性的抽象,是除名词性实体抽象之外语义更为丰富但构建难度更大的一种抽象工作,动作是事件的重要组成部分,动作的层级反映了人类的事件归类和分类的印象。例如,睡觉是一种停止工作的动作,停止这一动作是从动态到静态的状态改变。杀人是犯罪,动刀子是杀人的一个可能步骤,这些动作之间构成的层级性语义网络能够配合名词性和性状性词语的抽象而生成更具有通用性的事件模式,即推动事件演化模式(event logic schema)的构建工作。

中文抽象图谱相关工作

目前中文抽象图谱的工作主要还集中于在实体层级的概念上下位知识库,典型的有CN-Probase, BigCilin,BaikeSchema等四个

  1. CN-probase
    CN-probase是由复旦大学基于百科知识库构建起来的一个大规模实体型概念知识库,该知识库对百度词条的义项进行挖掘,并基于此进行上下位的挖掘。该项目目前不公开数据集,只提供API的调用。地址:http://kw.fudan.edu.cn/apis/cnprobase

  2. HowNet
    HowNet是董振东与董强两个老师研制出来的一款中文版的wordnet,该知识库构建起了具有层级体系的几百个概念,并基于此对超过6万个汉语词语进行了义项的刻画和组织。以HowNet为体系架构的基本组件,在配合词汇挖掘方法,可以形成一个较大规模的抽象知识库。Hownet与其他几个不同,该知识库还关注动词的抽象层级。该项目目前提供源文件的下载,已开源,关于这个的数据资源,可以参考我之前的一个工作,即句子相似度计算项目,地址:https://github.com/liuhuanyong/SentenceSimilarity

  3. BigCilin
    大词林是由哈工大秦兵老师团队基于搜索引擎结果、百科类知识以及结合同义词词林进行概念上下位挖掘的所形成的一个抽象知识库。该知识库关注实体性的知识,在动词性的知识上还暂未涉及,对于大词林的技术细节以及使用样例,可以搜索大词林,查阅其相关文档。该项目目前仅提供demo展示,无法开源调用。地址:https://www.bigcilin.com
    在这里插入图片描述

  4. BaikeSchema
    基于众包方式形成的百科知识库中包含着大量的社会常识知识,这种知识以Taxonomy的方式进行组织。百科类知识库,包括以百度百科、互动百科以及维基百科为首的三大百科,在知识抽象上包括两个方面,一个是百科分类体系树,另一个是百科词条页面中的标签以及义项体系,集成这两个百科的知识体系,可以得到准确率适当的层级效果。不过,在构建过程中,不同的百科中有不同的百科分类体系,往往需要进行对应以及融合。该项目数据分布在百科平台上,需要整理形成使用。关于这方面的工作,可以参考我之前做的一个工作:
    1,百科schema收集项目,地址:https://github.com/liuhuanyong/BaikeKnowledgeSchema
    2,基于百科知识的上下位概念项目,地址:https://github.com/liuhuanyong/HyponymyExtraction

抽象图谱构建技术路线

图谱的构建最忌讳从零开始,因此,可以踩在巨人的肩膀上进行处理。利用howet中的概念层级体系为基础,同时对百科类知识体系进行融合,并使用同义词词林等知识库进行拓展和泛化,并在知识更新上,基于百科概念事实以及模式挖掘提升抽象图谱的数量和质量。下图展示了该技术路线图。

在这里插入图片描述

目前接口效果

目前知识的抽象,本项目从词性的角度出发(词性与知识的类型比较强相关)进行处理,以下分别展示了名词性、状态性、动作性的抽象路径初步结果,文件说明如下:
1)dict/concept_total.txt,词汇与概念文件,存储词语的概念义项。
2)dict/hiearchy.txt,基础概念体系文件,存储基础概念体系。
3)search_concept.py,概念抽象文件,python3.6环境,直接运行即可。效果如下:

1,名词抽象路径
在这里插入图片描述

2,状态词抽象路径

在这里插入图片描述
3,动作抽象路径
在这里插入图片描述

总结

1,本项目提出了一个抽象知识图谱的项目,目的是对知识抽象与泛化提供一个思路并初步实践。
2,本项目介绍了抽象知识图谱,对抽象图谱的现实需求进行论述。
3,本项目介绍了中文抽象图谱的相关工作。摆阔CN-Probase,Hownet,大词林,百度百科Schema等,并给出了之前关联的项目地址。
4,本项目提出了一个可用的抽象知识图谱构建路线,提出抽象知识图谱的实施路线并给出抽象接口实践。基于hownet,同义词词林,从名词性实体抽象、形容词性性状描述抽象以及事件性动词抽象三个角度出发,形成了一个规模约50万的抽象接口。
5,知识图谱体系的再认识。知识图谱包括知识词汇表的挖掘,知识体系的挖掘,知识事实的挖掘三个部分内容,三个部分内容按照先后顺序排序。知识词汇表挖掘负责对知识中的短语名称、组合名称进行挖掘,形成符号基础。知识体系的挖掘,指知识概念层级的挖掘,更多的集中在抽象层级的挖掘;知识事实的挖掘,是目前的实体抽取与实体关系抽取,这也是目前知识图谱所处的阶段。
6,本项目提出了一个较为理想的目标,但技术实现起来仍然还需要一个体系更为健全、技术更为先进的方法来处理。后续这个项目可以长期维护。

If any question about the project or me ,see https://liuhuanyong.github.io/

如有自然语言处理、[知识图谱、事理图谱]、社会计算、语言资源建设等问题或合作,如果对事件知识库有兴趣的落地或者研究,可联系我:
1、我的github项目介绍:https://liuhuanyong.github.io
2、我的csdn博客:https://blog.csdn.net/lhy2014
3、about me:刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com
4、懂预言者得天下,得语言者分天下,得知识逻辑者,游得天下。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480389.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算法--排序--大小写字母数字分离(桶排序思想)

题目: 对D,a,F,B,c,A,z这个字符串进行排序,要求将其中所有小写字母都排在大写字母的前面,但小写字母内部和大写字母内部不要求有序。比如经过排序之后为a,c&a…

2019 最新蚂蚁花呗Java三面题目:红黑树+并发容器+CAS+Solr+分布式等

蚂蚁金服专场 涵盖了蚂蚁金服从Java工程师到技术专家面试题目 支付宝高级Java三面题目:线程锁事务雪崩Docker等 蚂蚁花呗团队面试题:LinkedHashMapSpringCloud线程锁分布式 蚂蚁金服高级Java面试题目 支付宝Java开发四面:NgnixMQ队列集群并发抢购 蚂…

论文浅尝 | 实体图的预览表格生成

链接:ranger.uta.edu/~cli/pubs/2016/tabview-sigmod16-yan.pdf动机对于结构化数据和关系数据,通常使用Schema图为数据库的使用者提供基本信息。因此,作者提出了生成预览表格(preview table)的方法,为实体图…

万能的BERT连文本纠错也不放过

一只小狐狸带你解锁炼丹术&NLP秘籍作者:孙树兵学校:河北科技大学方向:QA/NLU/信息抽取编辑:小轶背景文本纠错(Spelling Error Correction)技术常用于文本的预处理阶段。在搜索引擎、输入法和 OCR 中有着…

POJ 1664 苹果放盘子(递归)

题目链接:http://poj.org/problem?id1664 m个相同的苹果放在n个相同的盘子里,有多少种不一样的方法。 例如,3个苹果放在4个盘子里有(3,0,0,0)(1,1&#xf…

蚂蚁金服4轮面经(Java研发):G1收集器+连接池+分布式架构

一面 线程池有哪些参数?分别有什么用?如果任务数超过的核心线程数,会发生什么?阻塞队列大小是多少? 数据库连接池介绍下,底层实现说下 hashset底层实现,hashmap的put操作过程 说说HaspMap底层…

算法--二分查找--求平方根(循环法/递归法)

二分查找: 数据需要是顺序表(数组)数据必须有序可以一次排序,多次查找;如果数据频繁插入,删除操作,就必须保证每次操作后有序,或者查找前继续排序,这样成本高&#xff0…

论文浅尝 | 在生成式多跳机器阅读任务中引入外部常识知识

Commonsense for Generative Multi-Hop Question Answering Tasks链接: https://arxiv.org/abs/1809.06309背景机器阅读任务按照答案类型的不同,可以大致分为:(1) 分类问题: 从所有候选实体选择一个(2) answer span: 答案是输入文本的一个片段(3) …

Overleaf v2 评测

原文链接:https://www.jianshu.com/p/1d73d4b9e880 Overleaf v2 评测 去年,两个著名的Latex在线编辑器Overleaf和Sharelatex合并了,强强联手,让我们对他们合并之后的新产品充满了期待。最近,他们的新产品发布了&#x…

蚂蚁中间件团队Java面试题:Netty+Redis+Kafka+MongoDB+分布式

蚂蚁中间件一面: 自我介绍 JVM垃圾回收算法和垃圾回收器有哪些,最新的JDK采用什么算法。 新生代和老年代的回收机制。 讲一下ArrayList和linkedlist的区别,ArrayList与HashMap的扩容方式。 Concurrenthashmap1.8后的改动。 Java中的多线…

面试必备!卖萌屋算法工程师思维导图—统计机器学习篇

卖萌屋的妹子们(划掉)作者团整理的算法工程师思维导图,求职/自我提升/查漏补缺神器。该手册一共分为数据结构与算法、数学基础、统计机器学习和深度学习四个部分。下面是第二部分统计机器学习的内容~公众号后台回复【思维导图】获取完整手册&…

【重磅】全行业事理图谱V3.0正式发布:基于实证的由因求果、由果溯因,因果路径发现

我们一直在事理图谱的探索和应用路上不断前行。。。 【中科院软件所】数据地平线的金融事理图谱Demo已经和大家见面有一段时间了(Demo地址:http://eg.zhiwenben.com/),这段时间我们收到了很多用户的建议反馈和合作邀约,大家对产品的认可和喜…

算法--二分查找--查找给定条件的值

文章目录1.数据有序且无重复,查找给定值2.数据有序且有重复,查找第1个给定的值3.查找最后一个值等于给定值的元素4.查找第一个大于等于给定值的元素5.查找最后一个小于等于给定值的元素6.查找IP归属(利用上面#5代码)7.循环有序数组…

论文浅尝 | 利用边缘标签的网络嵌入强化方法

链接:https://arxiv.org/pdf/1809.05124.pdf本文主要关注Network embedding问题,以往的network embedding方法只将是网络中的边看作二分类的边(0,1),忽略了边的标签信息,本文提出的方法能够较好的保存网络结构和边的语义信息来进行…

2018阿里集团中间件Java面试题(4面)

持续分享阿里技术面试 最新天猫3轮面试题目:虚拟机并发锁Sql防注入Zookeeper 最新阿里内推高级Java面试题 蚂蚁金服4轮面经(Java研发):G1收集器连接池分布式架构 天猫研发团队(4面全题目):并发压测Mina事…

卷积神经网络中十大令人拍案叫绝的操作

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者:Justin ho来源:https://zhuanlan.zhihu.com/p/28749411前言CNN从2012年的AlexNet发展至今,科学家们发明出各种各样的CNN模型,一个比一个深,一个比一个准确,一个…

python--从入门到实践--chapter 11 代码测试unittest

编写的代码需要测试是否有Bug 1.函数测试 city_functions.py def city_country(city, country):return str(city) , str(country)city_country_unittest.py import unittest #导入测试模块 from city_functions import city_country as cc class citytest(unittest.TestC…

刘升平 | 基于知识图谱的人机对话系统

本文转载自公众号:AI科技大本营。 分享嘉宾 | 刘升平(云知声 AI Labs 资深技术专家)来源 | AI 科技大本营在线公开课人机对话系统,或者会话交互,有望成为物联…

最强Java面试题全部合集,涵盖BAT大厂面试必考的9大技术!-强烈建议收藏

过去2年我持续分享了BAT TMD为代表的大厂最新面试题目,特别是蚂蚁金服、天猫、淘宝、头条、拼多多等Java面试题目。 过去2年,我已经成功的帮助了部分同学进入了大厂。 2020开始,我依然会为大家带来最新的大厂现场面试专场题目,希…

杨强教授新番!破解机器学习数据孤岛和数据保护难题

一只小狐狸带你解锁 炼丹术&NLP 秘籍移动互联技术这把“温柔刀”,带来巨大便利之余,也将我们的个人数据放进了橱窗,为“推动信息技术发展”而供人调取。我们都清楚网络“裸奔”的行为很混乱,但你知道到底有多乱吗?…