知识运维概述

文章目录

    • 知识运维
    • 研究现状
    • 技术发展趋势

知识运维

    由于构建全量的行业知识图谱成本很高,在真实的场景落地过程中,一般遵循小步快走、快速迭代的原则进行知识图谱的构建和逐步演化。知识运维是指在知识图谱初次构建完成之后,根据用户的使用反馈、不断出现的同类型知识以及增加的新的知识来源进行全量行业知识图谱的演化和完善的过程,运维过程中需要保证知识图谱的质量可控及逐步的丰富衍化。知识图谱的运维过程是个工程化的体系,覆盖了知识图谱的从知识获取至知识计算等的整个生命周期。

    知识图谱的运维包括两个方面的关注点:一个是从数据源方面的基于增量数据的知识图谱的构建过程监控,另一个是通过知识图谱的应用层发现的知识错误和新的业务需求:例如错误的实体属性值、缺失的实体间关系、未识别的实体、重复实体等问题。这些运维暴露的问题会在知识图谱构建的流程、算法组合、算法调整、可新增业务知识优先级排列等方面进行修正,提升知识质量和丰富知识的内容。知识图谱运维需要基于用户反馈和专家人工的问题发现及修正、自动的运行监控、算法调整后的更新相结合,因此是一个人机协同,专家和算法相互配合的一个过程。知识运维的全过程如下图所示:

图片名称
知识运维

研究现状

    构建知识图谱是一个持续和增量的过程,随着数据的不断更新(爬虫数据不断积累、业务数据持续更新等),如何持续地对图谱进行更新成为了一个重要的问题。普通的知识图谱增量更新包括新元素的加入(节点、边或对应的属性)、旧元素属性的更改。在更复杂的场景下可能会涉及到已有元素的删除操作。工程上高效、自动的增量更新策略对于维护一个动态更新、准确性高的知识图谱意义重大。根据不同的使用场景和不同的数据来源,主要存在以下两种增量方式: 数据从消息队列导入图谱、利用工作流引擎定时更新图谱。

图片名称
数据从消息队列导入图谱
图片名称
利用工作流引擎定时更新图谱

    如果知识运维人员要高效的进行知识图谱的运维工作,需要对知识图谱中的实体、本体、属性、关系进行统计,掌握目前的知识图谱的规模和状况,也可以对图谱中的知识进行上传或者下载操作,方便进行图谱内知识的管理。同时系统需具备对图谱运行中间产生的各种异常情况进行集中的展示、问题提醒等功能,报告知识图谱中出现的问题,方便运维人员及时进行修正。

    按照业务的正确率的要求程度、数据的量级等角度考虑,需要对知识图谱有明确的新增知识入库的标准和流程。对于准确率要求高的知识图谱支撑应用,对新识别的实体、变更的实体属性、实体或关系冲突等,需要通过明确的列表的方式呈现并由有相关知识背景的专家来进行审核确认后方能入库,审核入库过程要有记录。对已经构建好的知识图谱需要有可以直接增、删、改的途径。此外由于知识图谱中非事实型的行业知识往往具有模糊性,在构建和运维图谱的时候需要有套冲突检测以及多人协同编辑的功能,如果系统自动检测到冲突点或者不同的知识运维人员运维同一知识点产生认知的不一致,那么需要系统提供多人协同工作讨论确定对知识的统一认知和编辑加入知识图谱。

    在知识图谱的管理中,可以引入版本概念,按照知识的更迭进行管理,可以设置当前对外服务的知识版本,可以对历史的知识版本进行作废或者回滚处理。基于版本的知识图谱运维可以实现知识图谱的升级切换,方便线上应用业务的平滑升级,也可以在新版本知识图谱上线出现问题情况下快速切换回原有版本,降低对业务的冲击,同时避免误操作后的知识丢失。

    知识图谱在构建的过程中往往倾向于将各种不同来源的数据进行融合构建成为一个完整的知识体系,这样的好处是打破数据壁垒造成的知识缺失。融合的知识对于决策与分析价值更大,但是也减低了原始数据源中的数据访问权限的控制,带来了数据的安全风险。因此对于不同部门或者层级的人员可见或者使用的知识范围要有明确的限定,对知识的上层应用要控制开放的知识范围,降低因为知识融合产生的知识泄密风险。针对此挑战,需要引入权限管理,对维护、使用知识的人员、系统进行账号分配、权限分配,对于人员权限可能需要对接组织已经建设的统一登录和单点登录系统,将知识图谱管理和使用的权限和人员在组织内的角色有机结合,降低人员变动后的数据安全风险。在整个知识图谱的运行过程中,要有日志监控、操作记录、变更内容的记录等,便于追踪异常,堵住漏洞。

    一个知识图谱可能含有上亿个节点以及上百亿的边,单台机器很明显无法存储和处理如此海量的数据,保证分布式图谱服务在某个或者某些节点失效时还能稳定可用就是知识图谱高可用的定义。一个完善的知识图谱通常拥有重大的价值,高可用只保证了服务阶段的可用性,保证在意外发生的时候图谱数据不至于完全丢失是图谱灾备需要解决的重要问题,如下图所示。

图片名称
知识容灾备份

技术发展趋势

    知识运维是知识图谱可以持续健康发展并且支持业务的关键,但是运维工作往往技术难度大,涉及步骤多,所有知识构建及使用人员都是参与者,各部分人员的技能有一定差异,沟通成本比较高,因此需要将知识运维纳入到整个知识图谱的构建体系中来看待,为了降低知识图谱构建的难度并提高运维的可控性,便于知识高效运维,出现了知识图谱平台化的发展趋势。通过建设知识图谱平台的方式将知识图谱构建过程中涉及的所有步骤、技术进行整合,实现知识图谱构建过程的全生命周期管理,加快知识图谱的构建速度,降低知识运维难度,同时对知识图谱的质量和扩展可控可管理。

    具备知识运维能力的知识图谱平台主要功能宜包括:本体的构建,针对多种数据来源的结构化、半结构化、非结构化的数据类型在不同的技术下的知识获取,实体识别、关系识别、实体链接、实体属性抽取的实现,基于本体概念和实体知识图谱间的验证,构建流程与运维过程的监控,对知识图谱构建过程中的各种异常情况的记录和反馈,对入库知识图谱的人工审核。此外,通过在知识图谱平台的知识库以版本的形式进行管理,避免知识运维中因为新知识的错误发布对现有业务的影响,提供给运维人员上线发布前的质量检测方法,并将经过严格测试验证的知识图谱版本正式生效上线,最终保证知识图谱全生命周期各环节的数据质量。

    此外,面向按照不同领域和范围下多个知识图谱的构建和运维,有待开发一套完备的平台对多个不同知识应用提供支撑。该平台本身需具备完整的安全管控及权限管理,并可满足动态本体的多人协同构建、冲突检测及讨论确定统一的版本的机制及功能,最终可对外开放给上层应用,提高应用的智能化。同时,通过应用的使用记录及问题反馈带动知识图谱的运维优化,形成闭环全周期的多知识图谱间的运维管控。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/20652.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小白跟做江科大32单片机之对射式红外传感器计次

原理部分 1中断示意图,中断会打断主函数的执行,终端执行完成之后再返回主函数继续执行 2.STM32中断 这些灰色的是内核中断 这些白色的是普通中断 3.NVIC统一管理中断,每个中断通道都拥有16个可编程的优先等级,可对优先级进行分组…

Redis缓存(笔记一:缓存介绍和数据库启动)

目录 1、NoSQL数据库简介 2、Redis介绍 3、Redis(win系统、linux系统中操作) 3.1 win版本Redis启动 3.2 linux版本Redis启动 1、NoSQL数据库简介 技术的分类:(发展史) 1、解决功能性的问题:Java、Jsp、RDBMS、Tomcat、HTML、…

Filter和ServletContext和Listener

目录 Filter案例 解决全站乱码问题 登录权限校验 ServletContext对象 Listener(监听器) Filter案例 解决全站乱码问题 我们每次访问每个servlet都要书写处理请求和响应乱码的代码,这样代码十分冗余,所以我们可以在过滤中 We…

Java——变量

一、变量介绍 变量就是申请内存来存储值。也就是说,当创建变量的时候,需要在内存中申请空间。内存管理系统根据变量的类型为变量分配存储空间,分配的空间只能用来储存该类型数据。 1、变量声明和初始化 变量的声明: int a; i…

44-1 waf绕过 - WAF的分类

一、云 WAF 通常包含在 CDN 中的 WAF。在配置云 WAF 时,DNS 需要解析到 CDN 的 IP 上。请求 URL 时,数据包会先经过云 WAF 进行检测,如果通过检测,再将数据包流向主机。 二、硬件IPS/IDS防护、硬件WAF 硬件IPS/IDS防护&#xff…

VS Code 开发小技巧

VS Code的开发小技巧 添加代码片段 平时开发的时候,可以快速创建一个空白的模板。 一个快速生成代码片段的网站:https://snippet-generator.app/ 打开网站,把常用的模板代码复制进去,就会自动生成VS Code可以使用的代码片段了。…

从零到一建设数据中台 - 关键技术汇总

一、数据中台关键技术汇总 语言框架:Java、Maven、Spring Boot 数据分布式采集:Flume、Sqoop、kettle 数据分布式存储:Hadoop HDFS 离线批处理计算:MapReduce、Spark、Flink 实时流式计算:Storm/Spark Streaming、…

2024.05.30更新票星球抢购软件

文章目录 软件功能订阅须知早期代码软件功能 自持自定义搜索演唱会信息支持添加、删除观影人信息支持多账号并发抢票支持捡漏模式支持IP代理订阅须知 订阅后如果有问题,请联系博主,如果不懂可以免费提供讲解和远程服务早期代码 def enter_concert(self):print(u###打开浏览器…

Unity DOTS技术(一)简介

文章目录 一.概述二.将会介绍的内容三.DOTS技术与传统方式的不同传统问题DOTS技术 四.插件安装 一.概述 传统的游戏开发中,如果有成千上万的物体在场景中运动,那么你一定会认为是疯了.但有了Dost技术这一些都将变成可能.如图场景中有10000个物体在同时运动,帧率即能保持在60Fp…

Science:论文写不出来?这三个方法让你一天完成一篇论文

我是娜姐 迪娜学姐 ,一个SCI医学期刊编辑,探索用AI工具提效论文写作和发表。 众所周知,干了学术研究这一行,论文就是你研究质量和数量的衡量标准,可以说,你的一切“输入”-读文献、做实验、分析数据&#x…

k8s之PV、PVC

文章目录 k8s之PV、PVC一、存储卷1、存储卷定义2、存储卷的作用2.1 数据持久化2.2 数据共享2.3 解耦2.4 灵活性 3、存储卷的分类3.1 emptyDir存储卷3.1.1 定义3.1.2 特点3.1.3 用途3.1.4 示例 3.2 hostPath存储卷3.2.1 定义3.2.2 特点3.2.3 用途3.2.4 示例 3.3 NFS存储卷3.3.1 …

【C语言】柔性数组

前言 你是否听说过柔性数组呢?如果没有的话,就一起了解一下吧。 (没有malloc free calloc realloc 四个函数的前置知识的朋友最好先阅读一下我的“动态内存管理”一文,因为下面会涉及到。) 介绍 C99中,…

python找出100~999之间的水仙花数字

水仙花数字:个位,十位,百位的立方之和等于这个数本身 例如:153 1^35^33^3 for i in range(100, 1000):bw i // 100sw i % 100 // 10gw i % 10if bw ** 3 sw ** 3 gw ** 3 i:print(i)

LeetCode题练习与总结:路径总和Ⅱ--113

一、题目描述 给你二叉树的根节点 root 和一个整数目标和 targetSum ,找出所有 从根节点到叶子节点 路径总和等于给定目标和的路径。 叶子节点 是指没有子节点的节点。 示例 1: 输入:root [5,4,8,11,null,13,4,7,2,null,null,5,1], target…

FreeRTOS同步互斥与通信

本章简介: 本章是概述性的内容。可以把多任务系统当做一个团队,里面的每一个任务就相当于团队里的一个人。团队成员之间要协调工作进度(同步)、争用会议室(互斥)、沟通(通信)。多任务系统中所涉及的概念,都可以在现实生活中找到例子。 各类RT…

Java大厂面试题第2季

一、本课程前提要求和说明 面试题1: 面试题2: 面试题3: 面试题4: 面试题5: 高频最多的常见笔试面试题目 ArrayList HashMap 底层是什么东东 JVM/GC 多线程与高并发 java集合类

【科研基础】证明积累

1-Bayesian Estimation (P317) Suppose that x = θ + ν w h e r e ν i s a n N ( 0 , σ ) random variable and θ is the value of a n N ( θ 0 , σ 0 ) random variable θ (Fig. 8-7). Find the bayesian estimate θ o f θ . \begin{align…

大学校园广播“录编播”与IP校园公共广播系统技术方案

一、项目概述 1、校园IP网络广播系统概述 大学校园广播系统是学校整个弱电系统中的子系统,它是每个学校不可缺少的基础设施之一,在传递校园文化、传播校园新闻资讯方面发挥着重要的作用。近几年来,虽然视频技术和网络技术在飞速发展&#xf…

操作系统的体系结构:宏内核和微内核

操作系统的体系结构是一个开放的问题。操作系统在核心态为应用程序提供公共的服务,那么操作系统在核心态应该提供什么服务、怎样提供服务?有关这个问题的回答形成了两种主要的体系结构:宏内核和微内核。 宏内核:大而全 宏内核系统…

word里面没有Acrobat选项

加载项被禁止,选择项里面,没有Acrobat选项 文件-》选项 加载项-》com加载项-》转到 添加Acrobat 出现Acrobat选项