知识图谱的前世今生:为什么我们需要知识图谱?

640?wx_fmt=jpeg

来源:SimmerChan(知乎)

编辑:Debra

摘要:本文主要分为三个部分。第一个部分介绍我们为什么需要知识图谱,第二个部分介绍知识图谱的相关概念及其形式化表示。最后,作一个简单的总结,并介绍该专栏后续文章会涉及的内容。


一、看到的不仅仅是字符串


当你看见下面这一串文本你会联想到什么?


Ronaldo Luís Nazário de Lima


640?wx_fmt=jpeg

估计绝大多数中国人不明白上面的文本代表什么意思。没关系,我们看看它对应的中文:


罗纳尔多·路易斯·纳萨里奥·德·利马


这下大部分人都知道这是一个人的名字了,当然,不出什么意外,还是个外国人。但还是有一部分人不知道这个人具体是谁。下面是关于他的某张图片:


640?wx_fmt=jpeg

从这张图片我们又得到了额外信息,他是一位足球运动员。对足球不熟悉的可能还是对他没有什么印象。那么再看看下面这张图片:


640?wx_fmt=jpeg

我再加上当初那洗脑的广告词:“保护嗓子,请用金嗓子喉片。 广西金嗓子!”。


这下应该许多人都知道他是谁了,毕竟多年前被这洗脑的广告语摧残了很长一段时间。


之所以举这样一个例子,是因为,计算机一直面临着这样的困境——无法获取网络文本的语义信息。尽管近些年人工智能得到了长足的发展,在某些任务上取得超越人类的成绩,但离一台机器拥有一个两三岁小孩的智力这样一个目标还有一段距离。这距离的背后很大一部分原因是机器缺少知识。如同上面的例子,机器看到文本的反应和我们看到罗纳尔多葡萄牙语原名的反应别无二致。为了让机器能够理解文本背后的含义,我们需要对可描述的事物 (实体) 进行建模,填充它的属性,拓展它和其他事物的联系,即,构建机器的先验知识。就以罗纳尔多这个例子说明,当我们围绕这个实体进行相应的扩展,我们就可以得到下面这张知识图。


640?wx_fmt=jpeg

机器拥有了这样的先验知识,当它再次看到 Ronaldo Luís Nazário de Lima,它就会“想”:“这是一个名字叫 Ronaldo Luís Nazário de Lima 的巴西足球运动员。”这和我们人类在看到熟悉的事物,会做一些联想和推理是很类似的。


Notice: 需要说明的是,上面的知识图并不代表知识图谱的实际组织形式,相反,它还会让读者对知识图谱产生一定的误解。在下一个部分,我会给出这张图所包含内容在知识图谱中更形式化的表示。实际上,我看到许多介绍知识图谱的文章都喜欢给出此种类型的图,却又不给出相应的说明,这可能会让读者一开始就进入理解的误区。


Google 为了提升搜索引擎返回的答案质量和用户查询的效率,于 2012 年 5 月 16 日发布了知识图谱 (Knowledge Graph)。有知识图谱作为辅助,搜索引擎能够洞察用户查询背后的语义信息,返回更为精准、结构化的信息,更大可能地满足用户的查询需求。Google 知识图谱的宣传语“things not strings”给出了知识图谱的精髓,即,不要无意义的字符串,而是获取字符串背后隐含的对象或事物。


还是以罗纳尔多为例,我们想知道罗纳尔多的相关信息 (很多情况下,用户的搜索意图可能也是模糊的,这里我们输入的查询为“罗纳尔多”),在之前的版本,我们只能得到包含这个字符串的相关网页作为返回结果,然后不得不进入某些网页查找我们感兴趣的信息;现在,除了相关网页,搜索引擎还会返回一个“知识卡片”,包含了查询对象的基本信息和其相关的其他对象 (C 罗名字简称也为罗纳尔多,搜索引擎只是根据“罗纳尔多”的指代概率返回了“肥罗”这个罗纳尔多的基本资料,但也许你需要 C 罗的相关信息,那么搜索引擎把 C 罗这个实体作为备选项列出),如下图红色方框中的内容。如果我们只是想知道罗纳尔多的国籍、年龄、婚姻状况、子女信息,那么我们不用再做多余的操作。在最短的时间内,我们获取了最为简洁,最为准确的信息。


640?wx_fmt=jpeg


当然,这只是知识图谱在搜索引擎上的一部分应用场景。举这个例子也是为了表明,知识图谱这样一种概念、或者技术,它的诞生是符合计算机科学、互联网发展潮流的。关于知识图谱的更多应用,会在之后的另一篇文章中给出。


二、知识图谱的前世今生


通过上面这个例子,读者应该对知识图谱有了一个初步的印象,其本质是为了表示知识。其实知识图谱的概念并不新,它背后的思想可以追溯到上个世纪五六十年代所提出的一种知识表示形式——语义网络 (Semantic Network)。语义网络由相互连接的节点和边组成,节点表示概念或者对象,边表示他们之间的关系 (is-a 关系,比如:猫是一种哺乳动物;part-of 关系,比如:脊椎是哺乳动物的一部分),如下图。在表现形式上,语义网络和知识图谱相似,但语义网络更侧重于描述概念与概念之间的关系,(有点像生物的层次分类体系——界门纲目科属种),而知识图谱则更偏重于描述实体之间的关联。


640?wx_fmt=jpeg

除了语义网络,人工智能的分支——专家系统,万维网之父 Tim Berners Lee 于 1998 年提出的语义网(Semantic Web)和在 2006 年提出的关联数据(Linked Data)都和知识图谱有着千丝万缕的关系,可以说它们是知识图谱前身。


目前,知识图谱并没有一个标准的定义 (gold standard definition)。我在这里借用一下“Exploiting Linked Data and Knowledge Graphs in Large Organisations”这本书对于知识图谱的定义:


A knowledge graph consists of a set of interconnected typed entities and their attributes.


即,知识图谱是由一些相互连接的实体和他们的属性构成的。换句话说,知识图谱是由一条条知识组成,每条知识表示为一个 SPO 三元组 (Subject-Predicate-Object)。


640?wx_fmt=jpeg

在知识图谱中,我们用 RDF 形式化地表示这种三元关系。RDF(Resource Description Framework),即资源描述框架,是 W3C 制定的,用于描述实体 / 资源的标准数据模型。RDF 图中一共有三种类型,International Resource Identifiers(IRIs),blank nodes 和 literals。下面是 SPO 每个部分的类型约束:


  1. Subject 可以是 IRI 或 blank node。

  2. Predicate 是 IRI。

  3. Object 三种类型都可以。IRI 我们可以看做是 URI 或者 URL 的泛化和推广,它在整个网络或者图中唯一定义了一个实体 / 资源,和我们的身份证号类似。

literal 是字面量,我们可以把它看做是带有数据类型的纯文本,比如我们在第一个部分中提到的罗纳尔多原名可以表示为"Ronaldo Luís Nazário de Lima"^^xsd:string。


blank node 简单来说就是没有 IRI 和 literal 的资源,或者说匿名资源。关于其作用,有兴趣的读者可以参考 W3C 的文档,这里不再赘述。我个人认为 blank node 的存在有点多余,不仅会给对 RDF 的理解带来额外的困难,并且在处理的时候也会引入一些问题。通常我更愿意用带有 IRI 的 node 来充当 blank node,行使其功能,有点类似 freebase 中 CVT(compound value type) 的概念。最后的参考资料会给出一篇写 blank node 缺陷的博客,有兴趣的读者可以看一看。


那么“罗纳尔多的中文名是罗纳尔多·路易斯·纳扎里奥·达·利马”这样一个三元组用 RDF 形式来表示就是:


640?wx_fmt=jpeg

"www.kg.com/person/1"是一个 IRI,用来唯一的表示“罗纳尔多”这个实体。"kg:chineseName"也是一个 IRI,用来表示“中文名”这样一个属性。"kg:"是 RDF 文件中所定义的 prefix,如下所示。


@prefix kg: http://www.kg.com/ontology/


即,kg:chineseName 其实就是"http:// www.kg.com/ontology/chineseName"的缩写。


将上面的知识图用更正式的形式画出来:


640?wx_fmt=jpeg

我们其实可以认为知识图谱就包含两种节点类型,资源和字面量。借用数据结构中树的概念,字面量类似叶子节点,出度为 0。现在读者应该知道为什么我会说之前那幅图不准确,并会误导大家对知识图谱的理解了吧。"罗纳尔多·路易斯·纳萨里奥·德·利马"作为字面量,是不能有指向外部节点的边的,况且之前的图并不能直观地体现知识图谱中资源 / 实体 (用 IRI 表示) 这样一个极其重要的概念。


三、总结


本文通过罗纳尔多这个例子引出了知识图谱的现实需求,继而给出了知识图谱的定义和相关概念,并介绍了知识图谱的 RDF 形式化表示。作为一篇科普文章,文中省略了许多技术细节。后续我会根据语义网技术栈(Semantic Web Stack,如下图)来介绍知识图谱实现过程中所需要的具体技术。另外,可能会结合实践,介绍如何利用关系型数据库中的数据来构建一个知识图谱,并搭建一个简易的基于知识图谱的问答系统 (KBQA)。


640?wx_fmt=jpeg


参考链接:


W3C: RDF 1.1 Concepts and Abstract Syntax


https://www.w3.org/TR/rdf11-concepts/


Exploiting Linked Data and Knowledge Graphs in Large Organisations


Google: Introducing the Knowledge Graph: things, not strings


https://link.zhihu.com/?

target=https%3A//googleblog.blogspot.co.uk/2012/05/introducing-knowledge-graph-things-not.html


Blog:Problems of the RDF model: Blank Nodes


https://link.zhihu.com/?

target=http%3A//milicicvuk.com/blog/2011/07/14/problems-of-the-rdf-model-blank-nodes/


Blog:Compound Value Types in RDF


https://link.zhihu.com/?target=http%3A//blog.databaseanimals.com/compound-value-types-in-rdf


Chen, L., Zhang, H., Chen, Y., & Guo, W. (2012). Blank nodes in rdf. Journal of Software, 7(9).


https://link.zhihu.com/?target=https%3A//www.researchgate.net/publication/276240316_Blank_nodes_in_RDF


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/494615.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

7.Mysql数据库表引擎与字符集

7.Mysql数据库表引擎与字符集 1.服务器处理客户端请求 其实不论客户端进程和服务器进程是采用哪种方式进行通信,最后实现的效果都是:客户端进程向服务器进程发送 一段文本(MySQL语句),服务器进程处理后再向客户端进…

大数据+人工智能正以八种方式撼动商界

来源: 数据观摘要:如果你想帮助你的企业实现更多,那么拥抱大数据和人工智能就很有必要了。事实上,那些没能接受这些新兴技术的企业,用不了多久就会逐渐消失在时代发展的长河中。大数据、人工智能正成为技术界的热点&am…

android 自定义 radiobutton 文字颜色随选中状态而改变

from:http://blog.csdn.net/hpccn/article/details/7591662先看效果主要是写一个 color selector 在res/建一个文件夹取名color res/color/color_radiobutton.xml [html] view plaincopy <?xml version"1.0" encoding"utf-8"?> <selector xml…

Gartner2018新技术成熟度曲线:五大技术趋势成为新热点

来源&#xff1a;网络大数据近日&#xff0c;Gartner发布了2018年新技术成熟度曲线&#xff0c;首次将Biohacking(生物黑客)列为热点技术趋势&#xff0c;再次引发市场关注。Gartner技术成熟度曲线又称技术循环曲线、光环曲线或者技术炒作周期。是方便企业和CIO们评估新技术成熟…

一文了解物联网主控芯片架构之争

文/Boone来源&#xff1a;中关村在线&#xff0c;智慧产品圈等中兴事件引起了全球的轰动&#xff0c;大家的目光聚集在服务器、计算机、存储底层芯片技术缺乏之上。紫光等国产芯片供应商股票应声上涨。此次事件反应出了我国在芯片及其产业链上较为薄弱&#xff1b;毕竟PC时代&a…

AI产业投融资情况回顾、中美科技巨头AI产业投资布局以及领先投资机构AI产业投资布局...

来源&#xff1a;投中研究院编辑&#xff1a;余瑞琦未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能&#xff0c;互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括&#xff1a;建立AI智能系统智商评测体系&#xff0c;开展世界人工智能智商评测&…

❤️ 2021年9月,程序员薪资公布【前排围观】❤️

&#x1f345; 作者主页&#xff1a;不吃西红柿 &#x1f345; 简介&#xff1a;CSDN博客专家&#x1f3c6;、信息技术智库公号作者✌ 华为云享专家、HDZ核心组成员 &#x1f345; 欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; &#x1f345; 简历模板、PPT模板、…

未来的设计:我们正在进入“计算设计”时代

来源&#xff1a;资本实验室摘要&#xff1a;随着各种新技术的引入&#xff0c;设计行业正在经历一场新的变革。聚焦前沿科技创新与传统产业升级根据施耐德电气最近的一份研究&#xff0c;新技术正在推动设计行业进入“计算设计”时代。大数据、人工智能、可视化等技术带来设计…

Unix发展历史

转载于:https://www.cnblogs.com/istrong/archive/2012/11/09/2762958.html

❤️ 爆肝三万字《数据仓库体系》轻松拿下字节offer ❤️【建议收藏】

&#x1f345; 作者主页&#xff1a;不吃西红柿 &#x1f345; 简介&#xff1a;CSDN博客专家&#x1f3c6;、信息技术智库公号作者✌ 华为云享专家、HDZ核心组成员。 简历模板、PPT模板、学习资料、面试题库、技术互助&#xff0c;点击下方「信息技术智库」跳转文末都给你&…

谷歌入华,抢在搜索之前的是Waymo无人驾驶

来源&#xff1a;网易智能摘要&#xff1a;据国家企业信用信息公示系统显示&#xff0c;一家名为慧摩商务咨询&#xff08;上海&#xff09;有限公司&#xff08;以下简称“慧摩公司”&#xff09;5月22日在上海自贸区注册&#xff0c;该公司为WAYMO LLC 100%持股&#xff0c;而…

职场必备《10个超级实用的在线网站》【果断收藏】

1、今日热榜 https://tophub.today/ 互联网时代&#xff0c;最重要的就是信息。信息具有先导性&#xff0c;它的传播具有滞后性。 有了这个综合所有平台、涉及科技、娱乐、财经、人文的热榜&#xff0c;各大平台的时事热搜一目了然。你的视野将会变得更加开阔&#xff0c;思考…

脑分享 | 脑结构、脑工作原理最详细图解

来源&#xff1a;深度学习进阶学习社摘要&#xff1a;这个帖子很好地提醒了小编我&#xff0c;为什么愿意跟如此美丽可爱的大脑一起工作。因为真正的大脑非常不可爱&#xff0c;长得也难看。但是&#xff0c;过去一个月&#xff0c;我一直生活在充斥着红色血管的 Google 图像的…

QQ空间及邮箱验证码登录的校验方式及自动登录的解决方案

目前有很多的SNS社区或类SNS的网站&#xff0c;例如开心、51、校内等&#xff0c;但是发现大多数社区在邀请好友的时候都没有提供对QQ邮箱或者QQ空间好友列表获取的功能&#xff0c;不过似乎海内支持&#xff0c;但是网上相关QQ的文章还不是很多&#xff0c;希望这篇文章能给你…

❤ CSDN精心打造一款插件,让你的浏览器:解锁黑科技、个性十足、沉浸式体验 ❤

&#x1f345; 作者&#xff1a;不吃西红柿 &#x1f345; 简介&#xff1a;CSDN博客专家&#x1f3c6;、HDZ核心组成员&#x1f4aa;、C站总榜前10名✌ &#x1f345; 粉丝专属福利&#xff1a;简历模板、PPT模板、学习资料、面试题库。文末领取 &#x1f345; 如觉得文章…

马云:新一轮技术革命来袭,未来90%的制造业会在互联网上

来源&#xff1a;世界科技创新论坛摘要&#xff1a;这一次技术革命带来的变化远远超出我们的想象&#xff0c;传统制造业必须向新制造转变才有机会。”8月23日&#xff0c;首届中国国际智能产业博览会在重庆开幕&#xff0c;阿里巴巴董事局主席马云表示&#xff0c;新零售之后&…

《算法小白历险记》3.最长公共前缀【python-简单】

&#x1f345; 粉丝专属福利&#xff1a;简历模板、PPT模板、学习资料、面试题库。直接去文末领取 &#x1f345; 如觉得文章不错&#xff0c;欢迎点赞、收藏、评论 题目&#xff1a; 编写一个函数来查找字符串数组中的最长公共前缀。如果不存在公共前缀&#xff0c;返回空字…

这四大因素决定了中国将在2030年领先全球人工智能市场

来源&#xff1a;资本实验室去年7月&#xff0c;中国制定了《新一代人工智能发展规划》&#xff0c;引起了众多外媒的关注。著名未来学家、奇点大学创始人彼得戴曼迪斯对此也表达了自己的看法。他认为四个方面的因素决定了中国将在2030年领导全球AI市场&#xff1a;丰富的数据资…

❤️《10个超级常用Python方法总结》复制即用丨小白捷径【文末赠书2本】❤️

&#x1f345; 作者&#xff1a;不吃西红柿 &#x1f345; 简介&#xff1a;CSDN博客专家&#x1f3c6;、HDZ核心组成员&#x1f4aa;、C站总榜前10名✌ 欢迎点赞、收藏、评论 &#x1f345; 粉丝专属福利&#xff08;文末送书2本&#xff09;&#xff1a;简历模板、PPT模板…

前端开发推荐-创建一个精美的jquery图片库效果

在Web和图形设计的世界&#xff0c;jquery它是使用最广泛的技术。 在他的帮助下&#xff0c;我们可以创建很多伟大的事情。丰富的jQuery插件&#xff0c;在互联网上&#xff0c;使我们能够毫不费力地创建幻灯片&#xff0c;表格&#xff0c;动画和其他各种良好的效果 在本教程中…