知识图谱存在的挑战---基础知识库相关和开发工具相关

文章目录

    • 基础知识库相关
    • 开发工具相关

基础知识库相关

    基础知识库是构建知识图谱的主要数据来源,包括维基百科、Freebase、YAGO、及国内的Zhishi.me、CN-Dbpedia、X-lore等。但在构建大规模知识图谱时将涉及不同基础知识库数据,而且在不同基础知识库的融合过程中会出现数据不一致、格式不统一、数据质量参差不齐等问题。应该如何对不同基础数据库的数据进行判断,如何建立判断标准,若涉及的相关基础数据库对该信息的描述都不完整,又该如何抉择?若同一个问题,不同基础数据库从不同维度进行描述,又该进行怎样选取,是选择其中认为较为认可的描述知识信息,还是整合两者描述信息?这些问题都是基础知识库融合将面临的问题。

    目前基础知识库多集中在通用百科领域,缺乏垂直领域的知识库。虽然百科知识库会涉及部分垂直领域相关知识,但缺乏专业、成体系的描述,如专业性要求较高的医疗领域、司法领域等。如果想构建比较完整的知识图谱,需要丰富知识的广度和深度,则亟待各构建垂直领域的专业知识库,实现对现有百科知识库的补充和完善。而且,在垂直领域知识库构建过程中,会面临知识获取问题、知识库边界问题及专业知识的正确性验证问题。

    目前个别企业或机构已建立了自有的领域知识库,由于投入了大量的人力和资金,导致不愿意对社会免费开放,进而形成了封闭域数据,影响了该领域知识的有效利用率。此外,该知识库知识的补充仅限于该机构本身,无法发挥众包的优势,不利于知识的丰富和发展。甚至可能由于该机构的资金、人力等原因,导致该知识库的停止使用和维护,这些因素都将影响垂直领域知识库构建的进程。

    上述问题都将影响基础知识库的构建和开放利用,进而影响知识图谱的构建,如何去克服这些问题,打造在百科知识库的基础上建立各垂直领域知识库,形成开放的知识库生态,是知识库构建及知识图谱深远发展面临的重要挑战。

开发工具相关

    随着业内构建知识图谱的需求增多,很多信息化厂商和大学开始通过抽象知识图谱构建过程,总结归纳图谱构建相关方法学,尝试搭建图谱构建工具。当前业内这类工具通常会覆盖从Schema构建到构建知识图谱及最后的图谱融合和实体对齐等功能,辅助业务人员构建知识图谱,减轻从业者对图谱业务知识的依赖。但由于知识图谱本身属于人工智能领域较为新兴的技术方向,使得该领域内目前市场上各类知识图谱开发工具的水平参差不齐。对于如何构建出完整、易用、高效的知识图谱构建工具还存在和诸多挑战。

    而对于业内知识图谱技术有关的厂商还没有建设出来覆盖知识图谱全生命周期的平台类产品来支持知识图谱技术的发展与应用。目前实际构建知识图谱的过程中,对于多数知识图谱生命周期的流程,还处于基于非专业工具,甚至没有可利用的工具的阶段。由于功能模块的短板及专业工具的匮乏,使得贯穿知识图谱全生命周期的平台严重缺失,这不仅降低了知识图谱构建以及搭建应用的效率,也大大增加了由于工具的不专业性使得构建出的知识图谱中存在极大的风险。如何构建出可以贯穿知识图谱全生命周期的平台型产品成为业内非常重要的挑战。

    随着人工智能技术的发展,目前行业大部分知识谱图相关的厂商声称自己利用机器学习技术在数据中自动抽取并构建知识图谱。但是对于特定垂直行业来说,由于需要非常缜密的知识逻辑结构及丰富的业务知识尚无法实现,通常会选择算法、工具、领域专家三者进行深度人机协同的方式来进行。由算法将知识从数据中进行抽取和剥离,并将这些知识通过工具进行可视化,并且可供使用者在工具上对知识进行编辑,最后由业务领域专家对已经抽取出来的知识进行二次编辑与业务知识摄入。而如何构建出提高知识编辑效率的工具,其既能深入融合算法与数据接口满足高效地抽取出精确知识的需求,又能为业务领域专家提供良好用户体验,对于构建此类工具的厂商而言,也是一个充满挑战的。

    大多数实体关系的均蕴含在文本数据中,如何利用好这部分数据成为能否构建出高质量知识图谱的关键。虽然随着人工智能技术的发展,越来越多的算法可以从文本数据中抽取实体,并构建实体间对应的关系,但是通常这类计算需要人工对数据进行大量标注来支撑监督学习的模型构建。为了解决这类问题,最近衍生出远程监督学习的概念来利用Freebase等知识库已经标注好的知识来构建模型,但是对于大多数垂直领域,此类知识库目前还非常匮乏。而且中文领域目前没有类似的开源知识库供中文文本进行类似的计算与建模。如何让图谱构建工具更能利用中文文本数据中汲取知识来构建知识图谱是图谱构建工具的一大挑战。

    由于语言语系种类的关系,在利用文本数据进行知识抽取时会存在不小的差异。从各语言知识储量来看,英文领域中已经存在的可用于知识图谱的数据相对较多,例如通用知识领域可Wiki、Freebase等。但是由于机器翻译的精度问题及手工实体对齐的工作量巨大,从语序上来看中文和英文通常是“主-谓-宾”的语序结构,而日文是“主-宾-谓”,这就让关系识别的计算方法在各语言间也不能通用。如何针对不同语言构建更适合的知识抽取算法集成到工具中,以及如何构建跨语言语系的知识图谱构建也急需建设。

    在构建好知识图谱之后,如何基于知识图谱构建出符合业务需求的工具也是非常重要的过程。目前基于图谱的诸多应用,例如基于图谱的检索系统、KB-QA等应用的构建都需要很多的人工参与及查询语言规则的指定。如何整理出一个可以基于知识图谱构建应用的方法学,将之利用到一个平台类产品中,并能通过平台以低人工投入并能构建出高质量知识图谱相关应用,将成为知识图谱中间件的建设关键。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/26940.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

是否可以购买外链?

答案是可以,但要看你买什么外链,有价值的自然外链价格肯定也高,随便到某些平台发的外链,哪怕是相关的高权重平台,作用也有限,当然,你要大批量购买,说不定也能出一点效果,…

基于Java的诊所医院管理系统,springboot+html,MySQL数据库,用户+医生+管理员三种身份,完美运行,有一万一千字论文

演示视频 基本介绍 基于Java的诊所医院管理系统,springboothtml,MySQL数据库,用户医生管理员三种身份,完美运行,有一万一千字论文。 用户:个人信息管理、预约医生、查看病例、查看公告、充值、支付费用...…

【CT】LeetCode手撕—53. 最大子数组和

目录 题目1-思路2- 实现⭐53. 最大子数组和——题解思路 3- ACM 实现 题目 原题连接:53. 最大子数组和 1-思路 动规五部曲 1. 定义 dp 数组 dp[i] 含义为:下标为 i 的数组的最大子数组和 2. 递推公式 因为所求的是最大子数组的和,即当前 n…

快速掌握JUnit等测试框架的使用,进行Java单元测试

1. 单元测试简介 单元测试(Unit Testing)是一种软件测试方法,通过对软件中的最小可测试单元进行验证,确保它们按预期工作。单元测试通常用于测试一个类的单个方法,以确保其逻辑正确、边界情况处理妥当、异常处理合适。…

【HarmonyOS - UIAbility组件和UI的数据同步】

简述 基于HarmonyOS的应用模型,可以通过以下几种方式来实现UIAbility组件与UI之间的数据同步。 使用EventHub进行数据通信:基于发布订阅模式来实现,事件需要先订阅后发布,订阅者收到消息后进行处理。使用globalThis进行数据同步…

unity 打包PC安装包中常见文件的功能

目录 前言 一、打包好的文件 二、常用文件 1.文件夹XXX_Data 2.文件夹MonoBleedingEdge 3.文件夹XXX_Data内部 三、文件的应用 1.如果你替换了一个图片 2.如果你新增了或减少了图片和资源 3.场景中有变动 4.resources代码加载的资源改了 5.如果你代码替换了 四、作…

Vue11-键盘事件

一、键盘事件:keydown和keyup事件 keydown 和 keyup 是两种常用于处理键盘输入事件的JavaScript事件。当你在网页的输入框或其他可输入元素上按下或释放键盘上的某个键时,这些事件就会被触发。 1-1、keydown 事件 当用户按下键盘上的某个键时&#xff…

vue3第三十九节(TS中的高级类型,分类以及使用注意事项)

前言:为什么需要使用高级类型,正常的类型不能满足日常的业务需求,对于复杂的数据结构、函数签名、类型转换,我们需要使用高级类型来处理,常用的高级类型包含以下几种: 常用的类型定义: 基本类…

SQL入门大全

SQL(Structured Query Language,结构化查询语言)是一种用于管理关系型数据库的标准编程语言。它具有数据操纵和数据定义等多种功能,为数据库管理系统提供了强大的交互性特点,能够极大地提高计算机应用系统的工作质量与…

【源码】html+JS实现:24小时折线进度图

<!DOCTYPE html> <html lang"en"> <head> <meta charset"UTF-8"> <meta name"viewport" content"widthdevice-width, initial-scale1.0"> <title>24小时折线进度图</title> <st…

安全等保评测-什么是“等保“?

等级保护测评是经公安部认证的具有资质的测评机构&#xff0c;依据国家信息安全等级保护规范规定&#xff0c;受有关单位委托&#xff0c;按照有关管理规范和技术标准&#xff0c;对信息系统安全等级保护状况进行检测评估的活动。 等保测评全称为信息安全等级保护测评&#xf…

基于SpringBoot3+Vue3宠物小程序宠物医院小程序的设计与实现

大家好&#xff0c;我是程序员小孟。 最近开发了一个宠物的小程序&#xff0c;含有详细的文档、源码、项目非常的不错&#xff01; 一&#xff0c;系统的技术栈 二&#xff0c;项目的部署教程 前端部署包&#xff1a;npm i 启动程序&#xff1a;npm run dev 注意事项&…

qmt量化交易策略小白学习笔记第30期【qmt编程之获取行业概念数据--如何获取板块分类信息数据以及板块成分股数据】

qmt编程之获取行业概念数据 qmt更加详细的教程方法&#xff0c;会持续慢慢梳理。 也可找寻博主的历史文章&#xff0c;搜索关键词查看解决方案 &#xff01; 感谢关注&#xff0c;咨询免费开通量化回测与获取实盘权限&#xff0c;欢迎和博主联系&#xff01; 获取行业概念数…

【通信协议-RTCM】GPS-RTK可观测消息 ---- 对应RTCM十六进制 编码ID(3E9 3EA 3EB 3EC)

1. 消息头的内容&#xff0c;类型1001、1002、1003、1004:GPS RTK消息 DATA FIELDDF NUMBERDATA TYPENO. OF BITS Message Number(e.g.,“1001” 0011 1110 1001) - 消息编号 DF002 uint12 12 Reference Station ID - 参考值ID DF003 uint12 12 GPS Epoch Time (TOW) - 周内秒…

深度学习的点云分割

深度学习的点云分割 点云分割是计算机视觉中的一个重要任务&#xff0c;特别是在三维数据处理和分析中。点云数据是由大量三维点构成的集合&#xff0c;每个点包含空间坐标&#xff08;x, y, z&#xff09;&#xff0c;有时还包含其他信息如颜色和法向量。点云分割的目标是将点…

Hadoop 3.X HA集群部署

准备工作 1、确认各个服务器网络是否互通、时间是否同步 2、确认各个节点部署那些组件 ip地址host名部署组件192.168.190.130h202406131 NameNode ResourceManager QuorumPeerMain JournalNode DFSZKFailoverController JobHistoryServer 192.168.190.131h202406132 NameNod…

React中“WebSocket is closed before the connection is established“

在 React 中你需要将它添加到你useEffect的return useEffect(() > {const socket new WebSocket(address);return () > {if (socket.readyState 1) { // <-- This is importantsocket.close();}} }, []);然而&#xff0c;这不仅仅是最好的解决方案&#xff01;您需…

uniapp地图选择位置

直接上代码 通过一个点击事件调用官方api即可调用 点击调用成功后显示如下 然后选择自己所需要的位置即可

RAM IP核配置

REVIEW 之前已经学习过&#xff1a; ROM:FPGA寄存器 Vivado IP核-CSDN博客 串口接收&#xff1a;Vivado 串口接收优化-CSDN博客 1. 今日摸鱼计划 RAM创建与测试 小梅哥视频&#xff1a; 21C_嵌入式块存储器RAM介绍_哔哩哔哩_bilibili 21D_嵌入式块存储器RAM实现和仿真_哔哩…

TrustZone 详解

标签: TrustZone 详解; TrustZone; TrustZone 详解 概述 TrustZone 是由 ARM 公司开发的一种安全技术,嵌入在其处理器中,用于在单个处理器上创建两个隔离的执行环境:普通世界(Normal World)和安全世界(Secure World)。这种双世界架构允许在一个设备上同时运行安全…