技术动态 | 人工智能开源软件发展现状连载——知识图谱开源软件

本文转载自公众号:中国人工智能开源软件发展联盟,欢迎大家点击文末二维码关注。



知识图谱 (Knowledge Graph)是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”,实体和关系又有其自身的“属性”。实体、关系和属性构成知识图谱的核心三要素。


概述


知识图谱本质上是语义网络(Semantic Network)。目前知识图谱这个概念最早由Google在2012年提出,主要是用来优化现有的搜索引擎。最近,知识图谱慢慢地被泛指各种大规模的知识库。知识图谱的构建属于知识工程的范畴,其发展历程如图1所示。

640?wx_fmt=png

图1知识图谱的发展历程

知识图谱从其知识的覆盖面来看可以分为开放域知识图谱和垂直领域知识图谱,前者主要是百科类和语义搜索引擎类的知识基础,后者在金融、教育、医疗、汽车等垂直领域积累行业内的数据而构成。

知识图谱相关的关键技术包括构建和使用。知识图谱的构建有自顶向下和自底向上两种方法,现在大部分情况会混合使用这两种方法。知识图谱的构建应用了知识工程和自然语言处理的很多技术,包括知识抽取、知识融合、实体链接和知识推理。知识的获取是多源异构的,从非结构化数据中抽取知识是构建时的难点,包括实体、关系、属性及属性值的抽取。对不同来源的数据需要做去重、属性归一及关系补齐的融合操作。同时,根据图谱提供的信息可以推理得到更多隐含的知识,常用知识推理方法有基于逻辑的推理和基于图的推理。知识图谱的使用需要自然语言处理和图搜索算法的支持。

知识图谱在语义搜索、百科知识及自动问答等方面有着很典型的应用。在语义搜索领域,基于知识图谱的语义搜索可以用自然语言的方式查询,通过对查询语句的语义理解,明确用户的真实意图,从知识图谱中获取精准的答案,并通过知识卡片等形式把结果结构化地展示给用户,目前具体应用有Google、百度知心、搜狗知立方等。在百科知识领域,知识图谱构建的知识库与传统的基于自然文本的百科相比,有高度结构化的优势。在自动问答和聊天机器人领域,知识图谱的应用包括开放域、特定领域的自动问答以及基于问答对(FAQ)的自动问答。比如IBM的Watson,Apple的Siri,Google Allo,Amazon Echo,百度度秘以及各种情感聊天机器人、客服机器人、教育机器人等。


开源知识库


Freebase是一个大规模链接数据库,是由硅谷创业公司MetaWeb于2005年启动的基于Creative Commons Attribution协议的语义网项目。Freebase主要采用社区成员协作方式构建,其数据源主要包括Wikipedia、NNDB、Fashion Model Directory、MusicBrainz和社区用户贡献等。Freebase基于RDF三元组模型,共有19亿条三元组,底层采用图数据库进行存储。2010年,Freebase被Google收购作为其知识图谱数据来源之一。2016年,Google宣布将Freebase的数据和API服务都迁移至Wikidata,并正式关闭了Freebase。

WikiData是免费开放、多语言、任何人或机器都可以编辑修改的大规模链接知识库,是由维基百科于2012年启动的基于Creative Commons Attribution协议的项目。WikiData继承了Wikipedia的众包协作构建机制,但与Wikipedia不同,WikiData基于以三元组为基础的知识条目的自由编辑,目前已经有超过4667万条知识条目。

DBPedia是由OpenLink Virtuoso托管和发布的基于GPL协议的开源知识库。DBpedia以互联网挖掘的方式从各种维基媒体项目创建的信息中提取结构化内容,以机器可读的形式存储知识,并提供信息收集、组织、共享、搜索和利用的手段。DBpedia 2014年发布的版本包含30亿条三元组。DBpedia知识库与现有的知识库相比有几个优点:涵盖领域多、代表真实的社区协议、会随着维基百科的变化而自动演变、多语言。DBpedia知识库的用例非常广泛,包括企业知识管理、Web搜索以及维基百科搜索的革命。

YAGO是一种基于链接数据库的开放语义知识库,是由德国马普研究所与巴黎电讯科技大学于2007开始的基于Creative Commons Attribution协议的联合项目。YAGO主要集成了Wikipedia、WordNet和GeoNames三个来源的数据,包含1.2亿条三元组知识,其功能包括作为一个分类单元直接连接到DBpedia云知识库。目前YAGO在SUMO Ontology项目、DBpedia计划、UMBEL Ontology项目以及Freebase等项目中提供相关知识库支持,同时它也是IBM Watson的后端知识库之一。

其他的开放知识图谱有:ConceptGraph、BabelNet、CN-DBPeidia、OpenKG等。

开源构建工具


Protege是基于Java语言开发的本体编辑和知识获取软件,是斯坦福大学医学院生物信息研究中心于1999年发布的基于BSD 2-clause协议的开源软件。Protege提供本体概念类、关系、属性和实例的构建,不基于具体的本体描述语言,因此用户可以在概念层次上构建领域本体模型。

除了Protege,还有Stanford OpenIE、Tuffy、OpenKE、Grakn等应用于知识图谱构建的开源软件。但它们普遍受到的关注度不高,这在一定程度上体现出了知识图谱领域用于构建图谱的开源软件的匮乏。

完整的知识图谱构建还包括知识的存储。知识图谱有两类存储方式,一类是传统的RDF结构存储,RDF 标准的结构化查询语言是SPARQL;另一类是图数据库,它可以弥补传统关系型数据库在存储知识图谱时查询复杂、缓慢的缺陷。目前常用的图数据库软件包括Neo4j、OrientDB、ArangoDB和AllegroGrap等。


小结


知识图谱提供了一种新的数据和知识组织方式,能够让多源异构的数据知识化,基于知识图谱能够建立各种知识服务和智能应用。知识图谱在金融、医疗、农业、法律等很多垂直领域的应用已经得到了迅速地展开,范围越来越广,程度由浅入深。但知识图谱的构建和应用具有很大的技术难度,需要自然语言处理、数据库和语义推理等多重技术的支持。


连载预告


人工智能开源软件发展现状连载预告:

第一集:人工智能开源软件发展历程

第二集:人工智能开源计算平台

第三集:开源机器学习框架

第四集:自然语言处理开源软件

第五集:计算机视觉开源软件

第六集:智能语音开源软件

第七集:无人系统开源软件

第八集:知识图谱开源软件

第九集:虚拟现实与增强现实开源软件

第十集:游戏智能与信息安全开源软件 

第十一集:人工智能开源软件特性分析

第十二集:基于开源软件的人工智能技术典型解决方案

640?wx_fmt=png

《中国人工智能开源软件发展白皮书(2018)》

    为推动人工智能开源软件产业发展,工业和信息化部信息化和软件服务业司指导中国电子技术标准化研究院,联合上海计算机软件技术开发中心、北京大学、中国科学院、北京京东尚科信息技术有限公司、深圳前海微众银行股份有限公司、蚂蚁小微金融服务集团、北京百度网讯科技有限公司、东软集团股份有限公司、顺丰科技有限公司等企事业单位,编撰形成了《中国人工智能开源软件发展白皮书(2018)》。白皮书现已公开发布,点击左下方阅读全文免费获取下载链接。

640?wx_fmt=jpeg



OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480462.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2018 支付宝Java开发四面:Ngnix+MQ队列+集群+并发抢购

一面 介绍项目 java 线程池的实现原理,threadpoolexecutor关键参数解释 hashmap的原理,容量为什么是2的幂次 为什么要同时重写hashcode和equals ConcurrentHashMap如何实现线程安全? 介绍Java多线程的5大状态,以及状态图流转…

ACL2020 | 线上搜索结果大幅提升!亚马逊提出对抗式query-doc相关性模型

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者:机智的叉烧(OPPO算法工程师,擅长Query理解方向)背景搜索和推荐经常会被放在一起对比,其中最突出的区别就是搜索中存在query,需要充分考虑召回内容和query之间的…

微型计算机性能指标以及分类

衡量微型计算机的主要技术指标是?特点是? 2018-11-29 20:38:08 来源:贤集网 赵媛 微型计算机大家应该耳熟能详,它又比称为“微型机”,由于其具备人脑的某些功能,所以也称其为“微电脑”。现在流行的微…

领域应用 | 为电商而生的知识图谱,如何感应用户需求?

本文转载自公众号:阿里技术(ali_tech)。 阿里妹导读:本文从需求分析和体系化构建的角度出发,阐述在电商这一特殊领域的知识图谱构建过程中,形成的一整套概念体系,还有在此过程中,通过算法、工程、产品、…

史上最全阿里Java面试题目大汇总!强烈建议收藏~

阿里面试题目目录 技术一面(基础面试题目) 技术二面(技术深度、技术原理) 项目实战(项目模拟面试) JAVA开发技术常问的问题 阿里必会知识 阿里面试范畴 阿里面试总结 一:阿里技术一面&…

数据结构与算---重点复习知识

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/sakurakider/article/details/82924371 </div><link rel"stylesheet" href"https://csdnimg.cn/release/phoeni…

GPT-3诞生,Finetune也不再必要了,NLP领域又一核弹

本文转载自公众号“夕小瑶的卖萌屋”&#xff0c;专业带逛互联网算法圈的神操作 -----》我是传送门 关注后&#xff0c;回复以下口令&#xff1a; 回复【789】 &#xff1a;领取深度学习全栈手册&#xff08;含NLP、CV海量综述、必刷论文解读&#xff09; 回复【入群】&…

POJ 1363 火车厢排队问题(栈)

题目链接&#xff1a;http://poj.org/problem?id1363 题目大意&#xff1a; A站有编号为1到N&#xff0c;N最大1000&#xff0c;的车厢&#xff0c;车厢进入中转station了就不能回到A&#xff0c;只能停在station内或者进入B站&#xff0c;问能不能按照给定的顺序排成那样的车…

徐阿衡 | 知识抽取-实体及关系抽取(一)

本文转载自公众号&#xff1a;徐阿衡。 这一篇是关于知识抽取&#xff0c;整理并补充了上学时的两篇笔记 NLP笔记 - Information Extraction 和 NLP笔记 - Relation Extraction&#xff0c;梳理了知识抽取的基本方法&#xff0c;包括传统机器学习及经典的深度学习方法。知识抽取…

非常全面的阿里的Java面试题目,涵盖Java基础+高级+架构

阿里技术一面 自我介绍 Java中多态是怎么实现的 Java中的几种锁 数据库隔离级别 脏读 幻读 ACID mysql的隔离级别 mysql索引实现&#xff0c;如何解决慢查询 数据库锁是怎么实现的 死锁的条件&#xff0c;进程和线程区别 tcp/ip模型&#xff0c;tcp和udp区别 Linux查看…

常见数据结构与算法整理总结(上)

原文链接&#xff1a;https://www.jianshu.com/p/230e6fde9c75 常见数据结构与算法整理总结&#xff08;上&#xff09; 最后编辑于 2017.12.04 03:29">2016.09.22 10:51*</span>数据结构是以某种形式将数据组织在一起的集合&#xff0c;它不仅存储数据&#xff…

卖萌屋原创专辑首发,算法镇魂三部曲!

一只小狐狸带你解锁炼丹术&NLP秘籍震惊&#xff01;乐坛新人夕小瑶的卖萌屋今日重磅发布三张原创专辑&#xff01;&#xff01;????点击试听????点击试听????点击试听虽然卖萌屋常常被大家戏称为“仙女屋”、“神仙屋”、“宝藏屋”等&#xff0c;但卖萌屋更希…

POJ 1028 浏览器前进后退(双栈)

题目链接&#xff1a;http://poj.org/problem?id1028 我的相同博文参考&#xff1a;https://blog.csdn.net/qq_21201267/article/details/88938360 LeetCode 5430. 设计浏览器历史记录&#xff08;双栈&#xff09; 解题思路参考上面博文。直接贴出代码&#xff1a; #inclu…

自然语言处理中的中文词性、标记规范及其应用

分词和词性标注是自然语言处理领域的重要组成部分&#xff0c;尤其对于中文而言&#xff0c;作为整条自然语言处理pipeline的源头&#xff0c;分词和词性标注更是起到了关键的作用。我整理这篇文章&#xff0c;主要来源于这几个问题&#xff1a; 一、理解中文词性是否有意义&am…

白雪 | NLP加持知识图谱在金融事件挖掘中的应用

本文转载自公众号&#xff1a;阡寻科技。9月15日讯&#xff0c;涵盖金融科技、人工智能及区块链领域的2018恒生技术开放日于今日开幕&#xff0c;阡寻科技联席CEO、复旦大学人工智能方向博士白雪受邀出席本次大会&#xff0c;分享了金融领域事件特点分析、常用的事件抽取方法以…

2020年,中国AI创业公司将走向何方

前言如果说2012年深度学习的崛起是点燃AI浪潮的星星之火&#xff0c;那么2016年的AlphaGo的成功则是一阵东风&#xff0c;AI之火已成燎原之势。那么&#xff0c;走向21世纪的新的十年&#xff08;2020年&#xff09;&#xff0c;中国AI创业公司将走向何方呢&#xff1f;作者是一…

常见数据结构与算法整理总结(下)

原文链接&#xff1a;https://www.jianshu.com/p/42f81846c0fb 这篇文章是常见数据结构与算法整理总结的下篇&#xff0c;上一篇主要是对常见的数据结构进行集中总结&#xff0c;这篇主要是总结一些常见的算法相关内容&#xff0c;文章中如有错误&#xff0c;欢迎指出。 一、概…

2019蚂蚁金服 Java面试题目!涵盖现场3面真题

蚂蚁Java一面 二叉搜索树和平衡二叉树有什么关系&#xff0c;强平衡二叉树&#xff08;AVL树&#xff09;和弱平衡二叉树&#xff08;红黑树&#xff09;有什么区别 B树和B树的区别&#xff0c;为什么MySQL要使用B树 HashMap如何解决Hash冲突 epoll和poll的区别&#xff0c;…

数据结构--队列Queue--打印杨辉三角

杨辉三角大家很熟悉&#xff0c;不做介绍了&#xff0c;第n行的首末两元素均为1&#xff0c;中间n-2个元素由n-1行相邻两元素相加得到。 将第1行数据入队&#xff08;1&#xff09; -------队列表示&#xff08;队头&#xff0c;… 队尾&#xff09;------- 第2行数据1入队&am…

论文浅尝 | 基于常识知识图谱感知和图注意力机制的对话生成

OpenKG 祝各位读者中秋快乐!链接&#xff1a;http://coai.cs.tsinghua.edu.cn/hml/media/files/2018_commonsense_ZhouHao_3_TYVQ7Iq.pdf动机在以前的工作中&#xff0c;对话生成的信息源是文本与对话记录。但是这样一来&#xff0c;如果遇到 OOV 的词&#xff0c;模型往往难以…