扩展学习|一文读懂知识图谱

一、知识图谱的技术实现流程及相关应用

文献来源:曹倩,赵一鸣.知识图谱的技术实现流程及相关应用[J].情报理论与实践,2015, 38(12):127-132.

(一)知识图谱的特征及功能

        知识图谱是为了适应新的网络信息环境而产生的一种语义知识组织和服务的方法,通过把用户查询的关键词映射到语义知识库的概念上,使计算机能够理解人类的语言交流模式,从而更加智能地反馈给用户需要的答案。知识库是知识图谱的核心,采用某种知识表示方式来存储管理互相关联的知识片集合,它必须包含丰富的数据,数据来源于原有的关系型数据库、LOD中的部分关联数据集、 领域本体、用户数据、从半结构化和非结构的数据内容中抽取出的理论知识、事实数据、启发式知识等。知识库是服从于本体控制的知识单元的载体,覆盖了各种概念、实例、属性、关系等要素,并保持高效率地更新,以便随时满足用户的知识需求。以谷歌知识图谱为例,它在2012年5月发布时已包含5亿多的对象实体和关于这些实体的超过35亿的事实关系,仅仅6个月后,实体数量增长到5. 7亿,事实关系增长到180亿,到目前为止,还在不断地更新扩展。

        知识图谱的功能主要体现在知识组织、展示与搜索方面: 第一,给用户提供正确的理想答案,在一定程度上克服自然语言的歧义性; 第二,通过信息元侧边栏,把经过梳理、总结的知识提供给用户; 第三,通过信息推荐, 提供更深入更广阔的知识,知识图谱尝试通过对其他用户相关的搜索记录进行推理,帮助用户在提问之前就回答出下一个问题,激发用户对知识的搜索兴趣,从而进行一次全新的查询操作。

(二)知识图谱的实现流程及关键技术

        知识图谱的实现流程可总结为6个模块,即知识获取、知识融合、知识存储、查询式的语义理解、知识检索和可视化展现,见图1。其中知识库的构建是知识图谱实现的核心,知识库中存储的内容需要经过广泛的知识获取及充分的知识融合,当用户进行查询检索时,用户的自然语言查询式经过语义分析处理后进入检索系统,和知识库中的内容进行匹配,整合后的反馈结果以可视化的形式展现给用户。

1.知识获取

        为了提高知识服务的质量,提供用户满意的答案,知识图谱不仅要包含各个领域的常识性知识,还要及时发现并添加新知识,知识的数量和质量决定了其所能提供的知识服务的广度和深度以及解决问题的能力,因此知识图谱的构建需要以高效的知识获取作为支撑。

        常识性知识的获取主要来自百科类站点和各种垂直站点的结构化数据,如从DBpedia中抽取某一主题的知识, 根据一定的抽取策略提取出领域相关的事实,包括主题下的细分知识以及扩展的相关类别知识等。同时还要从一些半结构化和非结构化数据中抽取实例和属性来丰富相关实体的描述。

        随着用户交互大量涌现,用户生成内容( UGC)不断增加,大量用户投入到网络信息的创建、组织和传播中,这其中产生的一些知识也是知识图谱知识获取中重要的一方面。新知识可以从用户的查询日志中发现新的实体属性,不断地扩展知识的覆盖率。此外,由于知识图谱要根据用户的兴趣提供相关的知识推荐,所以用户相关的行为数据也要抽取,包括用户所在的国家,能确定用户身份的信息、查询语句使用的语言、 查询时间、以往的访问日志数据等。例如在用户查询过程中可以分析用户的兴趣: 根据用户筛选后点击的链接,以及 “长点击”与 “短点击”判断用户对答案的满意度及感兴趣程度,从而获得用户行为数据, 也可以根据这些数据抽取对应的实体。

        知识获取实现的主要技术包括机器学习、知识挖掘、自然语言处理、基于内在机理的知识发现技术等。在大数据环境下,智能化的数据抽取、提炼与挖掘技术显得尤为重要,大量的知识资源为后续的知识推理融合奠定了坚实的基础。

2.知识融合

        由于知识图谱中的知识来源广,存在知识质量良莠不齐、来自不同数据源的知识重复、知识间的关联不够明确等问题,所以必须要进行知识的融合。知识融合是高层次的知识组织,使来自不同知识源的知识在同一框架规范下进行异构数据整合、实体重要度计算和推理验证等步骤,达到数据、信息、方法、经验以及人的思想的融合。

        异构数据整合要进行数据清洗、实体对齐、属性值决策以及关系的建立。数据清洗包括对拼写错误的数据、相似重复数据、孤立数据、数据时间粒度不一致等问题进行处理; 实体对齐解决来自不同数据源的相同实体中对同一特性的描述、格式等方面不一致的问题,对实体描述方式和格式进行规范统一,如 “籍贯”与 “出生地” 的表述差别,日期书写格式的不同等; 属性值决策主要是针对同一属性出现不同值的情况下,根据数据来源的数量和可靠度进行抉择,提炼出较为准确的属性值; 关系是知识图谱中非常重要的知识,任何实体概念都不是孤立的,都处在和周围概念一定的逻辑关系中,如等同关系、属分关系和相关关系等。从本质上看,知识图谱建立关系的过程可以简化为相关实体挖掘,即寻找用户类似查询中共现的实体或是在同一个查询中被提到的其他实体,通过对链接的提取统计以及对用户查询日志的分析,发掘查询式的主题分布,把同一主题中的相关实体进行类型验证并建立关联。

        实体的重要度主要通过Page Rank等算法进行计算, 实体属性和实体间的关系、不同实体和语义关系的流行程度、抽取的置信度等都会影响实体重要度计算的结果。 用户查询式中的实体被识别后,关于该实体的结构化摘要就会展现给用户,当查询涉及多个实体时,就需要选择与查询更相关且更重要的实体展现出来。如查询 “李娜”, 同名实体有超过20个,就要根据重要度的计算对这些实体进行排序。

        推理的规则一般涉及两类,针对属性和针对关系的。 通过推理验证可以检测逻辑矛盾,提高知识质量; 也可以获取属性值和实体间隐含的关系,从而建立更多实体间的关联。通过推理形成新的数据对知识进行再扩展,提高知识的完整性,并通过知识的聚合、分类等技术把知识具体化和分类整合。

3.知识存储

        知识图谱中的知识存储在它的知识库中,是一个规模庞大的关联集合。杂乱的信息经过前期的融合与处理,形成了有序、关联可用的知识,按照知识的类别以规范化的形式分类存储在知识库中不同的知识模块里,生成索引, 以便在知识检索时更加智能有效地匹配以及进行知识的深度挖掘

        知识库中知识节点和节点间映射关系的数目是庞大的,并且在不断增长。另外,知识库中的知识与规则要保证及时的更新、纠错与维护,一些知识会长期存储保留, 而一些时效较短的知识就要及时删除或修改,知识的变化还会打乱其内部像网络一样的关联关系,这给知识存储带来了很大的挑战。因此,知识图谱中的知识依赖合适的存储介质和合理的存储方式进行有效存储,既保证知识的可读性和稳定性,又不影响系统运行效率和对数据的操纵管理能力。知识库中知识的更新修订遵守一定的原则, 使得新知识的加入与老知识的更新不会引起知识库结构发生变化,修改后的知识库不应该依赖原始知识库或新公式的语法形式,同时要保持知识表达的充足性和连贯一致性,新知识应该尽可能多地被接受,而许多老知识也应该尽量保持,这样更有利于知识库大量吸收并储备各方面的知识。

        总之,知识图谱的知识存储依赖于海量数据存储技术来管理大规模分布式的数据,以实现海量存储系统大容量、可扩展、高可靠性和高性能的要求。

4.查询式的语义理解

        用户的查询式一般可分为4种: 定义型,如 “什么是知识组织”; 事实型,如 “Knowledge Graph的出现时间”;肯定否定型,如 “Tim Berners-Lee是万维网之父吗”; 意见型,如 “如何看待大数据时代”。针对用户不同的查询式问题,经过自然语言处理,可以根据以上类型大致归类,系统分类理解查询式,方便答案的反馈。

        知识图谱中对查询式的语义分析包括以下几个关键步骤: 1对查询式进行分词、词性标注和查询纠错。

        2对句法进行分析,基于一些通用词典和本体库等实现实体识别,同时对实体进行过滤和消歧; 基于模式挖掘实现属性识别,对实体属性进行归一处理。因为用户的表达方式不一样,不同用户对实体、属性等都有不同的描述方式,因而对不同的描述进行归一,进而和知识库中的相关知识匹配。

        3用户情感及语境的理解分析,在不同语境下用户查询式中的实体会有差别,知识图谱要识别用户的情感,以反馈用户此刻需要的答案。

        4查询式扩展,明确了查询的确切所指以及用户的信息意图后,加入与其语义相关的其他概念来实施扩展。查询式语义分析后会生成标准查询语句,以SPARQL为代表,SPARQL查询语句是基于模板匹配的一种标准化的格式,可以与知识库中的知识更好地衔接; 另外,它还是基于需求重要度排序后的查询语句,反馈的知识结果会展现出优先顺序。

        查询式的语义理解涉及的相关技术主要包括自然语言处理技术和人工智能等。

5.知识检索

        知识检索是基于之前的知识组织体系,实现知识关联和概念语义检索的智能化检索方式。知识图谱中的知识检索包含两类核心任务: 一是利用相关性在知识库中找到相应的实体; 二是在此基础上根据实体的类别、关系及相关性等信息找到关联的实体。

        用户输入的查询式经过语义分析理解后生成的标准查询语句进入检索系统后被解析,与知识库中的知识匹配, 并进行统计、排序、推理、推荐、预测等工作。系统会基于对查询词表达的概念和语义内涵的深度理解作为搜索依据,同时对该词的同义词、近义词、广义词、狭义词检索,进行概念的扩充,扩大检索,避免漏检; 另外,还会进行相关概念的联想检索,做好推荐预测的工作。通过对知识库进行深层次的知识挖掘与提炼后,检索系统为用户反馈出具有重要性排序的准确且完整的知识,并推荐用户可能感兴趣的相关知识。

        知识检索阶段涉及信息检索、知识挖掘等关键技术, 比如相似性、重要性计算。

6.可视化展现

        知识图谱可视化的结果展现提升了用户的使用体验,它将知识库中的信息转化为更方便用户理解的方式进行呈现,通常整合为简洁明了的内容放在一个信息栏中,用户可以一目了然地了解到他需要的知识,快速解答疑惑; 同时提供了更加丰富的富文本信息,除文字外还有图片、列表等可以直接消费的形式,增加了更多的用户交互元素,提升用户体验,如图片浏览、点击试听等,引导用户在短时间内获取到更多的知识。例如,在百度中搜索 “十大元帅”,信息栏中既有文字的介绍,还有每一位元帅的照片; 搜索 “周星驰和吴孟达的电影”,信息栏中整合了所有符合条件的电影结果,还可以按照类型、地区、 年代、最新、最热、用户好评等标签缩小搜索范围,帮助用户快速锁定目标; 在搜狗搜索中输入 “梁启超儿子的太太的好友”,信息栏中简洁地给出答案: 泰戈尔和金岳霖,并配有他们的照片,另外还显示了问题答案的推理说明。

        知识图谱可视化的展现不仅注重答案的精准,注重内容显示粒度上的把握,还关注页面中显示的位置、知识模块位置的安排等细节,还考虑了在智能手机和平板电脑等多种设备上显示的效果等问题。需要涉及Web客户端技术、可视化技术、人机交互等技术来帮助用户实现高效答案获取和知识学习。

二、知识组织研究现状

文献来源:司莉,何依,郭晓彤.国外知识组织研究主题、特征及思考[J].情报资料工作,2024,45(01):12-22.

        知识组织的探索从古希腊柏拉图、亚里士多德开始,一直伴随着人类文明史发展的整个过程。其发展不仅是内部变革使然,也是外部技术驱动的结果。本文从理论视角全方位、系统性探索了新科技浪潮对KO的影响,深入揭示国外KO研究主题、研究方法及领域应用的特征。研究结果发现,过去二十年间KO研究主题持续深入细化,关注点从概念理论等表层问题转向核心价值、伦理道德、质量评估、教学培训等深层问题的探讨,方法体系从面向纸质文献的书目描述、分类标引到面向多源异构多模态资源的语义关联,技术手段从依赖于专家人工操作到辅以众包及自动化技术,不断得到继承与发展。研究方法形成“实践-理论-实践”的发展路径,实证研究逐渐成为主流。应用范围从图书情报向生物医学、教育法学等领域扩展,且呈现向药物安全监测、课程建模管理、新闻浏览等特定场景发展的趋势。鉴于此,我国可在教学培训、理论和实践应用方面进一步拓展KO疆域,包括:建立合理的评估体系,重视KO质量;关注中文数据基础设施建设,推动语义化、关联化进程;从实证研究出发,关注领域知识组织研究,促进研究成果转化;“群体+技术+专家”三轮驱动,加快海量数据的组织;扩展特定领域应用实践,提升KO服务水平;更新教学内容,优化理论基础课与实践进阶课,培养伦理道德、跨文化意识。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/832286.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

fastdfs-client获取最新版FastDFS的storage节点时port为0

报错: com.github.tobato.fastdfs.exception.FdfsConnectException: 无法获取服务端连接资源:cant create connection to/192.168.152.128:0 很明显,他认为我storage的port是0,应该是23000才对。打断点,发现是 com.…

C语言知识点补充——输入输出

1、如何输入转义字符&#xff08;"\n"、"\t"&#xff09;文本 可以使用双反斜杠来取消转移字符的特殊含义。 代码如下&#xff1a; #include <stdio.h> int main() {printf("\\n");printf("\\t");return 0; } 运行结果&…

常用六大加密软件排行榜|好用加密文件软件分享

为了保障数据安全&#xff0c;越来越多的企业开始使用文件加密软件。哪款加密软件适合企业哪些办公场景呢&#xff1f; 今天就给大家推荐一下文件加密软件排行榜的前六名&#xff1a; 1.域智盾 这款软件专为企业和政府机构设计&#xff0c;提供全面的文件保护解决方案。 点…

SOLIDWORKS Electrical电气智能零部件的运用

电气2D向电气3D转型&#xff0c;3D模型无疑是重中之重&#xff0c;精准、正确的3D模型有利于电线长度、空间大小、耗材的计算。而线槽、导轨因为要根据实际情况裁剪&#xff0c;所以即使同一规格的线槽、导轨&#xff0c;在装配时也得根据实际情况&#xff0c;修改长度&#xf…

STM32 FreeRTOS 常用API

任务间同步 1&#xff0c;信号量 信号量分为二进制信号量 和计数型信号量 信号&#xff1a;起通知作用 量&#xff1a;还可以用来表示资源的数量 当"量"没有限制时&#xff0c;它就是"计数型信号量"(Counting Semaphores) 当"量"只有0、1两…

一文带你了解多数企业系统都在用的 RBAC 权限管理策略

前言 哈喽你好呀&#xff0c;我是 嘟老板&#xff0c;今天我们来聊聊几乎所有企业系统都离不开的 权限管理&#xff0c;大家平时在做项目开发的时候&#xff0c;有没有留意过权限这块的设计呢&#xff1f;都是怎样实现的呢&#xff1f;如果现在脑子里对于这块儿不够清晰&#…

【爬虫】爬取A股数据写入数据库(一)

1. 对东方财富官网的分析 步骤&#xff1a; 通过刷新网页&#xff0c;点击等操作&#xff0c;我们发现https://datacenter-web.eastmoney.com/api/data/v1/get?请求后面带着一些参数即可以获取到相应数据。我们使用python来模拟这个请求即可。 我们以如下选择的页面为切入点…

经典的设计模式和Python示例(一)

目录 一、工厂模式&#xff08;Factory Pattern&#xff09; 二、单例模式&#xff08;Singleton Pattern&#xff09; 三、观察者模式&#xff08;Observer Pattern&#xff09; 一、工厂模式&#xff08;Factory Pattern&#xff09; 工厂模式&#xff08;Factory Pattern…

项目|保障房房产管理系统,政务房产解决方案

一、系统概况 保障房管理系统是是为了落实中央关于住房保障的相关政策&#xff0c;实现对低收入家庭住房状况的调查管理、保障计划及落实管理、保障申请及审核管理、保障户和保障房源档案管理等。 针对政府保障房产管理的一站式解决方案&#xff0c;专注于为解决复杂、繁琐的…

【STM32嵌入式系统设计与开发】——18DAC(DAC输出应用)

这里写目录标题 STM32资料包&#xff1a; 百度网盘下载链接&#xff1a;链接&#xff1a;https://pan.baidu.com/s/1mWx9Asaipk-2z9HY17wYXQ?pwd8888 提取码&#xff1a;8888 一、任务描述二、任务实施1、工程文件夹创建2、函数编辑&#xff08;1&#xff09;主函数编辑&#…

Kubernetes 文档 / 概念 / Kubernetes 架构 / 节点

Kubernetes 文档 / 概念 / Kubernetes 架构 / 节点 此文档从 Kubernetes 官网摘录 中文地址 英文地址 节点上的组件包括 kubelet、 容器运行时以及 kube-proxy。 管理 向 API 服务器添加节点的方式主要有两种&#xff1a; 节点上的 kubelet 向控制面执行自注册&#xff1b…

Eclipse 安装 lombok 和配置

如 Eclipse 不配置的话&#xff0c;是没有办法编译 lombok 项目的。 下载 Jar 如果你项目使用的是 maven&#xff0c;那么 jar 应该下载下来了。 到 pom.xm 文件中找到有关 lombok 的依赖。 <dependency><groupId>org.projectlombok</groupId><artifac…

基于python的动漫分析系统的设计与实现

基于python的动漫分析系统的设计与实现 Design and Implementation of an Anime Analysis System based on Python 完整下载链接:基于python的动漫分析系统的设计与实现 文章目录 基于python的动漫分析系统的设计与实现摘要第一章 绪论1.1 研究背景1.2 研究目的与意义1.3 研究…

PHP基础【介绍,注释,更改编码,赋值,数据类型】

源码 <?php //单行注释 /* 多行注释 *///通过header()函数发送http头的请求信息用来指定页面的字符集编码 header("Content-type:text/html;Charsetutf-8"); //告诉浏览器&#xff0c;当前页面的内容类型是HTML&#xff0c;并且页面内容使用的是UTF-8编码。//ph…

css 居中方法

行内元素水平居中: 行内元素指的是&#xff1a;text、image、超链接等&#xff0c;在父元素中使用如下代码&#xff1a; #parentId {text-align: center; }块级元素水平居中 块级元素指的是&#xff1a;div、h1-h6、ul等&#xff0c;在当前元素中使用如下代码&#xff0c;必…

Agent AI智能体的未来发展与挑战

Agent AI&#xff0c;作为一种具有自主感知、理解环境、决策和执行行动能力的智能体&#xff0c;正在成为AI时代业务场景的主流形式。相较于大模型&#xff0c;Agent AI更加注重对环境的感知和主动行动&#xff0c;不仅仅是依靠提示词进行交互。它具有以下核心特征&#xff1a;…

[含1-4问完整代码]2024深圳杯数模D题成品论文42页word版

基于有限元分析的音板振动模态分析与参数识别 2024深圳杯D题42页成品论文1-4小问完整代码高清结果图https://www.jdmm.cc/file/2710609 摘 要 本文针对音板振动建模与参数识别的一系列问题,采用了多种数学建模方法和求解算法,对相关问题进行了深入分析和求解。问题1的 Kirch…

Leetcode 3137. Minimum Number of Operations to Make Word K-Periodic

Leetcode 3137. Minimum Number of Operations to Make Word K-Periodic 1. 解题思路2. 代码实现 题目链接&#xff1a;3137. Minimum Number of Operations to Make Word K-Periodic 1. 解题思路 这一题的话我们只需要将原始的字符串按照k个字母为一组进行分组&#xff0c;…

unity滑动地图上气泡随之移动旋转

前言 最近在做世界地图,需要实现一个气泡提示的功能。大概描述:地图上可上下左右滑动,地图上有若干个资源点,玩家最多可开采1个资源点 当玩家有正在开采的资源点时,需要在资源点上方显示带有方向的气泡提示,当资源点滑动到 显示屏幕外时,气泡需要在可视屏幕边缘,且指向…

节能洗车房车牌识别项目实战

项目背景 学电子信息的你加入了一家节能环保企业&#xff0c;公司的主营产品是节能型洗车房。由于节水节电而且可自动洗车&#xff0c;产品迅速得到了市场和资本的认可。公司决定继续投入研发新一代产品&#xff1a;在节能洗车房的基础上实现无人值守的功能。新产品需要通过图…