斯坦福大学CS520知识图谱系列课程学习笔记:第一讲什么是知识图谱

随着知识图谱在人工智能各个领域的广泛使用,知识图谱受到越来越多AI研究人员的关注和学习,已经成为人工智能迈向认知系统的关键技术之一。之前,斯坦福大学的面向计算机视觉的CS231n和面向自然语言处理的CS224n成为了全球非常多AI研究人员的入门经典学习课程。因此,斯坦福大学于今年3月开设了一门专门面向知识图谱的系列课程CS520,官网课程页:

https://web.stanford.edu/class/cs520/​web.stanford.edu

 

这门课程系统讲解了知识图谱的各项技术及应用。前期,我们已经对这门课程进行了介绍,可以参考链接:

对知识图谱的告白:斯坦福大学CS520课程介绍

 

从现在开始,让我们一起来学习这门知识图谱系列课程。B站上已经同步了课程视频,并带有中英文字幕,只是估计是机器自动翻译,效果大家看看就知道了。第一讲视频的B站地址:

【CS520】斯坦福大学2020春季知识图谱课程(含中英字幕,自动生成)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili​www.bilibili.com图标

本期是CS520的第一讲,主要是简单介绍课程的整体内容和重点讲解知识图谱的一些基本概念,所有内容笔者根据视频学习内容撰写,如有理解有误之处还请提出批评指正。

课程的组织者Vinay K. Chaudhri教授首先介绍了知识图谱的几个典型应用:语义搜索、知识问答和数据集成。前两个是知识图谱最常见的应用,但是知识图谱用于“数据集成”,数据集成百度百科:

数据集成_百度百科​

对于数据集成,百分点科技有一项《基于动态知识图谱的大规模数据集成技术》的研究工作,如有感兴趣可以阅读技术文档:

一文带你读懂基于动态知识图谱的大规模数据集成技术

同时,在很多自然语言处理、计算机视觉和机器学习的相关研究中也都提到了知识图谱,并且越来越普遍。这些领域将知识图谱作为数据存储方式,并通过相应的算法使用和学习知识图谱。

课程大纲:

这个课程系列需要学习的内容从大的方面包括:

  1. 首先问一些简单而基础的问题,例如是什么是知识图谱。
  2. 我们如何构建一个知识图谱。
  3. 如何使用知识图谱来进行推理。
  4. 如何与现代AI算法的结合,并且有哪些高价值的用例。
  5. 在课程尾声,将会讨论知识图谱还存在哪些开放研究挑战问题。

课程设计:

这门课程非常有意思的一点是,每节课都会邀请三名学者形成小组,对于知识图谱的某个方面,每名学者都会带来各自不同的观点。总体上,对于知识图谱将会从来自传统知识表示和数据库的观点,包括在线数据管理系统以及机器学习和自然语言处理。包括30分钟的展示和20分钟的讨论。

好了,接下来就是正式的课程内容了,这一讲的主题是什么是知识图谱并且为什么知识图谱是有用的?

第一位教授首先介绍了Wikidata,这是在2012年启动的一个开放的知识图谱,任何人都可以编辑,支持Wikipedia,提供了结构化的链接数据,包含世界上很多有趣的话题。

具体的一个在Wikidata中的例子,安大略省这个实体和安大略省的一个城市温特图尔这个实体之间有一条边链接这两个实体,这条边有一个标签为孪生行政机构,当然实体和连接关系的标签可以用数字字母组成的id或者包括中文或德语等任何自己喜欢的方式来表示。在Wikidata中,有关于所有城市之间关联关系的图谱表示。

 

当考虑各种实体和关系类别后,会得到一个更全面丰富的知识图谱:

整个知识图谱包括8000多万节点,其中包括基因蛋白质,病毒,城市中的人的各种事物等等。同时,知识图谱中的边也就是关系数量已经突破了10亿。

除了Wikidata,美国国会图书馆也出版了大型RDF知识图谱(上图左),并且这个知识图谱的数据已经和Wikidata的数据进行了融合,前者的实体标识符是以n开头的,而后者的实体标识符是以q开头的。因此,将不同知识图谱进行融合就能得到一个大型知识图谱。

有了这么多的三元组,我们能做什么呢?

上图中这样的模式可以匹配出所有出生在温特图尔的人,继续扩展可以得出更多模式。使用构建的图数据库和匹配模式就可以得到我们想要的查询结果。

总结:

  • 知识图谱很容易融合,数据库无法直接拼接在一起,但是知识图谱的融合就很容易,只要知道哪些节点具有相互关系就可以就行融合。
  • 知识图谱支持推理,当你知道两个城市是姊妹城市也就可以知道这两个是孪生机构。
  • 从开放源上取得大量的知识图谱,并将其整合建立自己的知识图谱。
  • 可以采用图模式作为查询语言,比如SPARQL。
  • 和机器学习相比,知识图谱具有很强的可解释性,可以给出每个节点具体表示什么,因此更易于编辑和更改等。

第二位讲者主要从一款知识图谱建模软件出发,从两个角度介绍了知识图谱:基于文档和文本的知识图谱和基于事件的知识图谱,由于没有太多概念和理论性的内容,如果感兴趣可以去看视频(33:43开始)。

重点来了:

相比于前两位讲者,第三位讲者的课程内容感觉更像传统意义上的知识图谱概念介绍和讲解,因此,我们对这一部分进行重点学习。

可以看到,将会从知识图谱的定义,知识图谱的表示(例如现在比较流行的知识图谱嵌入向量表示),以及从逻辑、数据库、计算机视觉和自然语言处理等多个角度理解知识图谱和应用。

 

定义知识图谱可以有多种形式:

  • 正式的数学形式:这个是在知识图谱相关的学术论文中最常见的对知识图谱的定义,给定实体集合E和关系集合R,知识图谱就是一个包含很多三元组的有向多关系图。
  • 定义模式:针对不同的主题的领域,定义一个模式,与任意实体相互关联,感觉这种更像是所谓的本体建模。
  • 包括模式和实例:这种从字面理解上应该就是包括本体建模和实例知识图谱。
  • 任意RDF/LPG/RDF* 都是一个知识图谱,查阅资料了解到这里RDF和LPG都是比较主流的图数据模型,LPG是一种属性图,而且我们熟知的Neo4j提出了为 LPG 图数据库创建标准查询语言的建议(来源:

观点|抛开炒作看知识图谱,为什么现在才爆发?_开放知识图谱-CSDN博客_知识图谱为什么在现在​

)。一般认为LPG是工业界应用更广泛的模型,RDF在学术界见的更多,学术研究中使用的知识图谱一般都是以RDF标准构建的包含三元组的知识图谱。

知识图谱可以理解为结构化的世界模型,每一个领域例如歌唱领域有很多实体和关系来描述,在图中生命科学的数据集是棕色的,政府数据集是灰色的,图中每一个小泡都是一个小的知识图谱。因此,如何编码这些世界模型和实体与关系,其实也就是如何进行知识图谱的表示。这里给出了两个极性:符号表示和向量表示

当使用符号来表示知识图谱时:

我们将实体和关系看成是一些字符串数组表示,将我们的所有对象都放在一个高维空间中,符号表示经常在符号推理系统中使用,也大量用于数据库系统中。向量表示经常用在一些CV和NLP的任务中。此外,知识图谱还有一些特点,比如开放世界假设和封闭世界假设,开放世界假设意味着在知识图谱中显式地给出的事实默认可能正确的,而时间演变意味着但是随着时间的演变,这些事实可能会被改变,例如某个国家的总统随着时间会发生改变。

这是一个在符号表示的角度给出的关于小罗伯特唐尼(I am Iron Man)的三元组的例子,包括8个实体和6个关系。我们能够编码小罗伯特唐尼在哪里出生,住在哪以及他的哪些电影,这里关系表示中用的dbp是知识出版社的名称。

用向量表示的知识图谱:

就是实体和关系都被从符号表示的空间嵌入到低维的空间中,例如实体保存在特定大小的张量中。因此,我们就可以用求和等函数来对知识图谱中的实体进行计算,在语义上相似的实体嵌入表示更加靠近,比如和小罗伯特唐尼有关的实体比如复联和钢铁侠数值表示也比较接近,这是知识图谱嵌入算法最大的优势。

接下来,我们从不同角度理解知识图谱。

首先是从逻辑的角度,也是数据库中用的经典方法:

其中,关系都是一些二元谓词。逻辑描述通常由三部分组成:TBox、ABox和RBox。

第一部分是TBox,包含一些模式和本体,本体定义了一些概念之间的关系。例如,成功的作家是至少有一项工作杰出的人物以及畅销书。第二部分是ABox,可以称其为事实实例,例如SuccessfulAuthor(StanLee)表示斯坦李是一位成功的作家。第三部分是RBox,表示谓词之间的层次结构,定义属性和子属性。

从数据库的角度理解知识图谱:

对于不同数据源建立统一的视图,采用语义数据集成机制。将XML格式或CSV格式的数据转换为知识图谱,实体是表中的单元格,关系是表头。

从计算机视觉中的知识图谱:

可以建立一个由图片中识别出的对象构成的知识图谱,目前场景图生成在很多有关视觉推理的任务得到了广泛利用,包括image captioning,VQA,Visual Dialogue等。在具有一定关系的图中,例如人骑马,而马在山前面,需要从图片中推理出这些关系,并且目前有很多这样关系数据集。

自然语言处理中的知识图谱:

如何从文本中构建知识图谱,这就需要一些传统的NLP的技术来解析我们的句子。对于一个句子,我们先知道哪些是命名实体,比如图中左侧给出的例子,爱因斯坦是德国出生,那爱因斯坦和德国应该存在一定的隐性关系,同时能够知道相对论是理论物理学的一部分。完成这一任务需要两个重要技术,也就是需要实现更好的命名实体识别和关系链接。

 

在不同的问题中,相同名称的实体可能具有不同的类别标签,例如Apple可以是水果,Apple也可以是具有Apple这个音乐专辑的公司,Apple也可以是硬件生产商。知识图谱可以是命名实体识别的附加信息,比如在问题Who is the CEO of Apple?中,这个Apple肯定不会是苹果树的果实,也不是音乐专辑,宁愿识别成硬件生产商。

关系链接:

上图中,四个问题中的所有关系都指向同一个谓词。知识图谱Wikidata为我们提供了这些关系的list,同义词,关系的层级结构和关系的约束。

问答系统中的知识图谱:

当有知识图谱作为背景数据时,就可以回答自然语言问题。针对图中的例子:小罗布特唐尼出演了多少部漫威电影?就可以用SPARQL查询来得到问题的答案。当然,首先得将自然语言问题转换为查询语句,得到小罗伯特唐尼出演的所有电影并计算这个电影集合中的总数。

语言模型中的知识图谱:

很多人都在使用语言预训练模型来完成下游任务。传统的语言模型只接受大型语料库的文本训练。对预训练模型就行微调,在很多任务上就能得到很好的效果。最新的趋势是在预训练语言模型中加入知识图谱。例如上图中,知识图谱提供了小罗布特唐尼的确切的事实,可以直接得到和小罗布特唐尼有关的例如托尼斯塔克等实体信息,而不是像是从Wikipedia等非结构化文本中遍历整个Wikipedia。讲者表示这是一个很有发展前景的领域,明年会很很多论文涌现。

总结:

我们从图结构的世界模型来认识什么是知识图谱,实体和关系能够以不同的逻辑模式进行组织,这个应该是和数据的领域相关。符号表示的知识图谱在很多领域都很有用,包括人文和社会学科,例如即使一个实体有几百种语言的标签,我们都可以用一个实体来表示,这是很酷的。此外,知识图谱带给机器学习和其他应用更多的可扩展性。

 

往期精选:

知识图谱最新权威综述论文解读:关系抽取

知识图谱最新权威综述论文解读:实体发现

知识图谱最新权威综述论文解读:知识图谱补全部分

对知识图谱的告白:斯坦福大学CS520课程介绍

知识图谱最新权威综述论文解读:知识表示学习部分

手把手教你搭建一个中式菜谱知识图谱可视化系统

 

后续我们还会更新CS520接下来的课程的学习笔记。

如果对文章感兴趣欢迎关注知乎专栏人工智能遇上知识图谱“,也欢迎关注同名微信公众号“人工智能遇上知识图谱”,让我们一起学习并交流讨论人工智能与知识图谱技术。

                                                            

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482165.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数学三大核心领域概述:代数、几何、分析

来源 :数学与人工智能摘选自《数学史海揽胜》有删改数学发展到现在,已经成为科学世界中拥有100多个主要分支学科的庞大的“共和国”。大体说来数学有三大核心领域:数学中研究数的部分属于代数学的范畴;研究形的部分,属…

斯坦福大学CS520知识图谱系列课程学习笔记:第二讲如何构建知识图谱

上一讲我们学习了知识图谱的一些基本概念: 斯坦福大学CS520知识图谱系列课程学习笔记:第一讲什么是知识图谱 本节课程关于如何构建知识图谱,因为知识图谱的构建是整个知识图谱领域的一个非常核心且基础的工程,如何将现有的数据以…

神经复杂系统前沿:关于认知大脑的两种观念

来源: 集智俱乐部作者:David L. Barack, John W. Krakauer译者:JawDrin审校:陈贺 编辑:邓一雪 导语人类的高级认知能力怎样从包含上百亿神经元的大脑复杂系统中涌现出来,是神经科学的核心问题之一。学界中存…

斯坦福大学CS520知识图谱系列课程学习笔记:第三讲高级的知识图谱是什么样的

这一讲的主题是:一些高级的知识图谱是什么样的。三位讲者分别从他们各自带领的团队构建出来的高质量的知识图谱实例出发,从中我们可以认识到一些大佬们构建的优秀的知识图谱产品有哪些特点和优势,从中对我们自己构建知识图谱也可以得到一定的…

人工智能与量子计算在新型忆阻器中的融合

EQUINOX GRAPHICS/UNIVERSITY OF VIENNA来源:IEEE电气电子工程师近年来,计算在两个主要方面取得了进展:机器学习的突破,开发出了可根据经验自动改进的算法;量子计算机的研究,从理论上证明了量子计算机比任何…

第一个关于中式菜谱的智能问答机器人小程序正式上线啦

为了满足大家对菜品烹饪的各类问题能直接得到答案的需求,我开发了目前第一个真正关于菜谱的智能问答系统,并在微信小程序发布上线。这套系统支持对于8600多种菜品的问答功能,并能实现快速问答响应,整套系统后端依托于搭建的中式菜…

数学在自然科学中不可思议的有效性

来源:数学争鸣作者:尤金维格纳翻译:鲍永成 校对:袁向东数学在自然科学中不合理的有效性1959年5月11日在纽约大学Courant数学科学讲座上的讲演作者简介:尤金维格纳(Eugene P. Wigner)美国物理学…

已嵌入微信公众号内的小图聊天机器人介绍和使用说明

小图是一个融合常识与专业知识的智能聊天机器人,进入“人工智能遇上知识图谱”公众号,并在聊天窗口中发送消息就可以开始聊天,同时支持多轮多对话,小图能够提供闲聊、生活服务咨询、智能助手、休闲娱乐、文艺女青年等17种对话聊天…

图像预训练模型的起源解说和使用示例

来源:Deephub Imba三十多年来,许多研究人员在图像识别算法和图像数据方面积累了丰富的知识。如果你对图像训练感兴趣但不知道从哪里开始,这篇文章会是一个很好的开始。这篇文章简要介绍了过去的演变,并总结了现在的一些热门话题。…

介绍一些知识图谱的实际应用类项目

目前已经有很多方法来构建知识图谱,在实际项目中,我们更加关注可以用构建好的知识图谱来干些什么,因此,我找到了网上一些对于当前知识图谱的应用的介绍,分享给大家。 1 国内外知识图谱项目 国外: 常识知…

语言生成类人工智能如何改变科学

来源:ScienceAI编辑 :萝卜皮密歇根大学安娜堡分校新兴技术治理专家 Shbita Parthasarathy 表示,从大量文本中生成流利语言的机器学习算法可能会改变科学研究的方式,但不一定会变得更好。在2022 年 4 月 27 日发布的一份报告中&…

美国最牛的100个AI团队在哪里?

来源:Forbes撰文:海外来电图片:海外来电AI领域的关键玩家都有谁?企业为了保持竞争优势,需要快速有效地扩大人工智能(AI)能力。而Vectice最新一份报告,列出了100家公司拥有增长最快的…

介绍几个专门面向中文的命名实体识别和关系抽取工具

知识图谱已经在人工智能的各个领域发挥越来越重要的作用,例如视觉问答、对话系统、推荐系统等。知识图谱构建是应用这些知识图谱的基础,而面对生活和企业中数据的爆发式增长,自动化知识图谱构建显得越来越重要。从非结构化文本中自动抽取三元…

一文梳理类脑计算的前世今生 | 中科院自动化所研究员李国齐

来源:智源社区整理:王光华编辑:李梦佳导读:众所周知,人类大脑活动是复杂而连续的动力学过程,其复杂程度远超当前算力资源所能模拟的上限。大脑约有1000亿个神经元,100万亿个突触,单个…

常识推理相关最新研究进展

以深度学习为代表的智能感知技术已经取得了突破性进展,并已在各行各业产生了巨大的价值。目前,人工智能的研究领域已经逐渐从感知智能向认知智能领域过渡,其中,深度学习无法解决的一个主要问题是常识推理问题。常识知识是人类智能…

全球半导体厂商TOP 10

来源:数据观综合编辑:蒲蒲近日,IC Insights 分析了全球主要半导体供应商(不含纯代工厂)的市场份额,并公布排名前十的半导体厂商排名。从分析情况来看,全球半导体市场份额越来越集中于排名靠前的…

常识知识在AI不同领域应用的最新研究进展

上期,我们一起学习了常识推理的最新研究进展。这次,我们一起来看看常识知识在AI不同的领域都有哪些应用,泽宇找到几篇最新或有代表性的研究和大家分享学习。 Commonsense Knowledge Aware Conversation Generation with Graph Attention Aut…

MIT 团队的新测试,将 AI 推理与人类思维进行比较

来源:ScienceAI编辑:萝卜皮人工智能获得洞察力和做出决策的方式通常是神秘的,这引发了人们对机器学习的可信度的担忧。现在,在一项新研究中,研究人员揭示了一种新方法,用于比较人工智能软件的推理与人类推理…

年末巨制:知识图谱嵌入方法研究总结

泽宇对自己的研究方向也就是知识图谱嵌入(KG Embedding)技术进行了总结,并制作了一套slides,力求让大家只看slides就可以理解并掌握知识图谱嵌入的相关知识和最新研究情况,包括知识图谱嵌入的基本概念、方法分类和经典…

吴恩达:未来十年,人工智能将向以数据为中心转变

来源:AI前线作者:Eliza Strickland译者:平川策划:凌敏本文最初发布于 IEEE Spectrum。吴恩达在人工智能领域可谓声名显赫。2000 年底,他与斯坦福大学的学生一起开创了使用图形处理单元(GPU)训练…