知识图谱简介

01 什么是知识图谱

我们可以从不同的视角去审视知识图谱的概念。

在Web视角下,知识图谱如同简单文本之间的超链接一样,通过建立数据之间的语义链接,支持语义搜索。
在自然语言处理视角下,知识图谱就是从文本中抽取语义和结构化的数据。
在知识表示视角下,知识图谱是采用计算机符号表示和处理知识的方法。
在人工智能视角下,知识图谱是利用知识库来辅助理解人类语言的工具。
在数据库视角下,知识图谱是利用图的方式去存储知识的方法。

目前,学术界还没有给知识图谱一个统一的定义。在谷歌发布的文档中有明确的描述,知识图谱是一种用图模型来描述知识和建模世界万物之间关联关系的技术方法。

知识图谱还是比较通用的语义知识的形式化描述框架,它用节点表示语义符号,用边表示语义之间的关系,如图3-1所示。在知识图谱中,人、事、物通常被称作实体或本体。

图片

▲图3-1 知识图谱示例

知识图谱的组成三要素包括:实体、关系和属性。

实体:又叫作本体(Ontology),指客观存在并可相互区别的事物,可以是具体的人、事、物,也可以是抽象的概念或联系。实体是知识图谱中最基本的元素。
关系:在知识图谱中,边表示知识图谱中的关系,用来表示不同实体间的某种联系。如图3-1所示,图灵和人工智能之间的关系,知识图谱和谷歌之间的关系,谷歌和深度学习之间的关系。
属性:知识图谱中的实体和关系都可以有各自的属性,如图3-2所示。

图片

▲图3-2 知识图谱中的属性

知识图谱的构建涉及知识建模、关系抽取、图存储、关系推理、实体融合等多方面技术。知识图谱的应用则体现在语义搜索、智能问答、语言理解、决策分析等多个领域。

02 知识图谱的价值

知识图谱最早应用于搜索引擎,一方面通过推理实现概念检索,另一方面以图形化方式向用户展示经过分类整理的结构化知识,从而使人们从人工过滤网页寻找答案的模式中解脱出来,可应用到智能问答、自然语言理解、推荐等方面。

知识图谱的发展得益于Web技术的发展,受KR、NLP、Web以及AI等方面的影响。知识图谱的价值归根结底是为了让AI变得更智慧。

  1. 助力搜索

搜索的目的是在万物互联的网络中,能够使人们方便、快速地找到某一事物。目前,我们的搜索习惯和搜索行为仍然是以关键词为搜索目的,知识图谱的出现可以彻底改变这种搜索行为模式。

在知识图谱还没有应用到搜索引擎上时,搜索的流程是:从海量的URL中找出与查询匹配度最高的URL,按照查询结果把排序分值最高的一些结果返回给用户。在整个过程中,搜索引擎可能并不需要知道用户输入的是什么,因为系统不具备推理能力,在精准搜索方面也略显不足。

而基于知识图谱的搜索,除了能够直接回答用户的问题外,还具有一定的语义推理能力,大大提高了搜索的精确度。图3-3所示是知识图谱助力搜索示意图。

图片

▲图3-3 知识图谱助力搜索

  1. 助力推荐

推荐技术和搜索技术非常相似,但是稍有区别。搜索技术采用信息拉取的方式,而推荐技术采用信息推送的方式,所以在推荐技术中有一些问题,比如冷启动和数据稀疏问题。

以电商推荐为例介绍知识图谱在推荐上的应用。假设我买了手机,手机的强下位关系是手机壳,这样系统就可以给我推荐手机壳,同时也可以推荐相似或互补的实体。图3-4为知识图谱助力推荐示意图。

图片

▲图3-4 知识图谱助力推荐

  1. 助力问答

问答与对话系统一直是NLP在人工智能实现领域的关键标志之一。知识图谱相当于是给问答与对话系统挂载了一个背景知识库。

对于问答与对话系统或者聊天机器人来说,其除了需要实体知识图谱和兴趣知识图谱等开放领域的稀疏大图外,还需要针对机器人和用户个性化的稠密小图。同时,知识图谱是需要动态更新的。图3-5是知识图谱助力问答示意图。

图片

▲图3-5 知识图谱助力问答

03 知识图谱的架构

知识图谱的架构涉及知识表示、知识获取、知识处理和知识利用等多个方面。

一般情况下,知识图谱构建流程如下:首先确定知识表示模型,然后根据不同的数据来源选择不同的知识获取手段并导入相关的知识,接着利用知识推理、知识融合、知识挖掘等技术构建相应的知识图谱,最后根据不同应用场景设计知识图谱的表现方式,比如:语义搜索、智能推荐、智能问答等。

从逻辑上,我们可以将知识图谱划分为两个层次:数据层和模式层。数据层可以是以事实为单位存储的数据库,可以选用的图数据库有RDF4j、Virtuoso、Neo4j等三元组。

<实体,关系,实体>或者<实体,属性,属性值>可以作为基本的表达方式,存储在图数据库中。模式层建立在数据层之上,是知识图谱的核心。通常,通过本体库来管理数据层,本体库的概念相当于对象中“类”的概念。借助本体库,我们可以管理公理、规则和约束条件,规范实体、关系、属性这些具体对象间的关系。

知识图谱有自顶向下和自底向上两种构建方式。自顶向下构建是指借助百科类数据源,提取本体和模式信息,并加入知识库中。自底向上构建是指借助一定的技术手段,从公开的数据中提取资源,选择其中置信度较高的信息,经人工审核后,加入知识库中。

在知识图谱发展初期,多数企业和机构采用自顶向下的方式构建知识图谱,目前大多企业采用自底向上的方式构建知识图谱。

知识图谱的架构如图3-6所示。

图片

▲图3-6 知识图谱的架构

知识源:包括结构化数据、非结构化数据和半结构化数据。
信息抽取:就是从各种类型的数据源中提取实体、属性以及实体间的相互关系,在此基础上形成本体的知识表述。知识图谱的构建过程中存在大量的非结构化或者是半结构化数据,这些数据在知识图谱的构建过程中需要通过自然语言处理的方法进行信息抽取。从这些数据中,我们可以提取出实体、关系和属性。
知识融合:主要工作是把结构化的数据以及信息抽取提炼到的实体信息,甚至第三方知识库进行实体对齐和实体消歧。这一阶段的输出应该是从各个数据源融合的各种本体信息。
知识加工:知识加工阶段如图3-6所示,其中知识推理中重要的工作就是知识图谱的补全。常用的知识图谱的补全方法包括:基于本体推理的补全方法、相关的推理机制实现以及基于图结构和关系路径特征的补全方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478634.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

流量运营数据产品最佳实践——美团旅行流量罗盘

背景 互联网进入“下半场”后&#xff0c;美团点评作为全球最大的生活服务平台&#xff0c;拥有海量的活跃用户&#xff0c;这对技术来说&#xff0c;是一个巨大的宝藏。此时&#xff0c;我们需要一个利器&#xff0c;来最大程度发挥这份流量巨矿的价值&#xff0c;为酒旅的业务…

开源开放 | OMAHA 联合 OpenKG 发布新冠诊疗图谱数据

本文转载在公众号&#xff1a;OMAHA联盟。今年新型冠状病毒肺炎爆发期间&#xff0c;大数据、云计算、人工智能等新一代信息技术支撑着我国建立和健全疫情防控机制。知识图谱作为机器认知智能实现的基础之一&#xff0c;是人工智能的重要组成部分&#xff0c;在“抗疫”行动中赋…

LeetCode 498. 对角线遍历

1. 题目 给定一个含有 M x N 个元素的矩阵&#xff08;M 行&#xff0c;N 列&#xff09;&#xff0c;请以对角线遍历的顺序返回这个矩阵中的所有元素&#xff0c;对角线遍历如下图所示。 输入: [[ 1, 2, 3 ],[ 4, 5, 6 ],[ 7, 8, 9 ] ]输出: [1,2,4,7,5,3,6,8,9]2. 解题 横…

图灵奖得主Jeff Ullman:机器学习不是数据科学的全部!统计学也不是!

文 | Jeff Ullman源 | 智源社区3月31日&#xff0c;2020年图灵奖重磅出炉&#xff0c;颁给了哥伦比亚大学计算机科学名誉教授 Alfred Vaino Aho 和斯坦福大学计算机科学名誉教授 Jeffrey David Ullman。Jeff Ullman 是数据科学领域的巨擘&#xff0c;他的研究兴趣包括数据库理论…

深度学习及AR在移动端打车场景下的应用

本文内容根据作者在美团Hackathon 4.0中自研的项目实践总结而成。作为美团技术团队的传统节目&#xff0c;每年两次的Hackathon已经举办多年&#xff0c;产出很多富于创意的产品和专利&#xff0c;成为工程师文化的重要组成部分。本文就是2017年冬季Hackathon 4.0一个获奖项目的…

开源开放 | 熵简科技 AI Lab 开源金融领域中文预训练语言模型 FinBERT

1 背景及下载地址为了促进自然语言处理技术在金融科技领域的应用和发展&#xff0c;熵简科技 AI Lab 近期开源了基于 BERT 架构的金融领域预训练语言模型 FinBERT 1.0。相对于Google发布的原生中文BERT、哈工大讯飞实验室开源的BERT-wwm 以及 RoBERTa-wwm-ext 等模型&#xff0…

前端如何做极致的首屏渲染速度优化

这里说的极致是技术上可以达到最优的性能。 这里不讨论常见的优化手段&#xff0c;比如&#xff1a;Script标签放到底部、DNS预解析、HTTP2.0、CDN、资源压缩、懒加载等。 这里讨论的是如何使First Contentful Paint的时间降到最低&#xff0c;这个指标决定了白屏的时间有多长…

LeetCode 209. 长度最小的子数组(滑动窗口)

1. 题目 给定一个含有 n 个正整数的数组和一个正整数 s &#xff0c;找出该数组中满足其和 ≥ s 的长度最小的连续子数组。 如果不存在符合条件的连续子数组&#xff0c;返回 0。 示例: 输入: s 7, nums [2,3,1,2,4,3] 输出: 2 解释: 子数组 [4,3] 是该条件下的长度最小的连…

京东 | NLP人才联合培养计划

01 京东AI项目实战课程安排覆盖了从经典的机器学习、文本处理技术、序列模型、深度学习、预训练模型、知识图谱、图神经网络所有必要的技术。项目一、京东健康智能分诊项目第一周&#xff1a;文本处理与特征工程| Bag of Words模型| 从tf-idf到Word2Vec| SkipGram与CBOW| Hiera…

论文小综 | Pre-training on Graphs

本文转载自公众号&#xff1a;浙大KG。作者&#xff1a;方尹、杨海宏&#xff0c;浙江大学在读博士&#xff0c;主要研究方向为图表示学习。在过去几年中&#xff0c;图表示学习和图神经网络(Graph Neural Network, GNN)已成为分析图结构数据的热门研究领域。图表示学习旨在将具…

初探下一代网络隔离与访问控制

概述 安全域隔离是企业安全里最常见而且最基础的话题之一&#xff0c;目前主要的实现方式是网络隔离&#xff08;特别重要的也会在物理上实现隔离&#xff09;。对于很小的公司而言&#xff0c;云上开个VPC就实现了办公网和生产网的基础隔离&#xff0c;但对于有自建的IDC、网络…

LeetCode 189. 旋转数组(环形替换)

1. 题目 给定一个数组&#xff0c;将数组中的元素向右移动 k 个位置&#xff0c;其中 k 是非负数。 示例 1:输入: [1,2,3,4,5,6,7] 和 k 3 输出: [5,6,7,1,2,3,4] 解释: 向右旋转 1 步: [7,1,2,3,4,5,6] 向右旋转 2 步: [6,7,1,2,3,4,5] 向右旋转 3 步: [5,6,7,1,2,3,4]要求…

吴恩达:机器学习应以数据为中心

源 | 新智元今天是吴恩达45岁生日。他是国际最权威的ML学者之一&#xff0c;学生遍布世界各地。在最近的一期线上课程中&#xff0c;吴恩达提出了以模型为中心向以数据为中心的AI。吴恩达发推称&#xff0c;「大家为自己送上最好的礼物就是&#xff0c;观看这个视频观看并提出自…

如何开发小程序开发者工具?

最近集团内部在自研小程序&#xff0c;我负责小程序开发者工具的调试部分。经过一段时间的探索&#xff0c;摸索出不少经过实际检验的可行手段。接下来将会用几篇文章总结一下思路。 文章的内容主要会分为以下几部分&#xff1a; 如何建立逻辑层运行时容器&#xff08;两种方…

美团点评基于Storm的实时数据处理实践

背景 目前美团点评已累计了丰富的线上交易与用户行为数据&#xff0c;为商家赋能需要我们有更强大的专业化数据加工能力&#xff0c;来帮助商家做出正确的决策从而提高用户体验。目前商家端产品在数据应用上主要基于离线数据加工&#xff0c;数据生产调度以“T1”为主&#xff…

会议交流 | 大规模知识图谱的构建及应用分享

本文转载自公众号&#xff1a;DataFunTalk。论坛出品&#xff1a;张伟 阿里巴巴 资深算法专家分享时间&#xff1a;12月19日&#xff0c;9:00-12:00导读&#xff1a;12月19日&#xff0c;9&#xff1a;00-12&#xff1a;00。在DataFunTalk年终大会上&#xff0c;由阿里巴巴资深…

机器翻译小记

神经网络翻译面临的挑战

赛尔原创 | N-LTP:基于预训练模型的中文自然语言处理平台

论文名称&#xff1a;N-LTP: A Open-source Neural Chinese Language Technology Platform with Pretrained Models论文作者&#xff1a;车万翔&#xff0c;冯云龙&#xff0c;覃立波&#xff0c;刘挺原创作者&#xff1a;冯云龙论文链接&#xff1a;https://arxiv.org/abs/200…

LeetCode 49. 字母异位词分组(哈希)

1. 题目 给定一个字符串数组&#xff0c;将字母异位词组合在一起。字母异位词指字母相同&#xff0c;但排列不同的字符串。 示例:输入: ["eat", "tea", "tan", "ate", "nat", "bat"], 输出: [["ate",…