知识图谱存在的挑战---数据相关和算法相关

文章目录

    • 数据相关
    • 算法相关

数据相关

    数据是知识图谱的基石,知识图谱的数据来源主要有两种:自有数据(自身采集 或拥有等)和外源数据。自有数据由建设者因特定的业务需求而采集获取或经过特定加工处理形成且被自己所拥有的数据;外源数据是通过互联网爬取、开放共享或和数据交易所获得的数据。实际应用中,数据来源多样性造成数据标准不统一、数据质量差,导致多源数据歧义、噪声大、数据间关联关系不明确等问题。数据歧义和关系不明确对知识图谱构建和推理形成了巨大的阻碍,对知识图谱应用成效的提升和技术的进步提出了巨大的挑战。

    多源数据依托于不同的业务目需求和工具产生,行业跨度大且缺乏统一的业务数据模型标准和描述规范,异构、歧义、噪声大特征显著,尤其是通过互联网获取的网络知识。对于知识图谱而言,数据歧义体现为实体、概念的属性描述缺乏精确性、一致性或者实体间关系错置、扭曲,导致图谱结构混乱及语义描述相互冲突、推理机制紊乱、推理结果扭曲失真,最终对图谱应用成效产生巨大副作用。噪声大是互联网数据一大显著特征,海量的噪声数据稀释了数据信息内容和价值密度。数据充斥大量的噪声,将会在图谱中产生大量孤立、无用的实体和属性关系,这些实体和关系还会占据大量的存储空间和关系路径,使图谱实体层变得冗余、繁杂,不仅不能加快图谱推理速率、提升推理精度,反而导致存储资源的浪费和图谱推理应用的低效。

    关联是知识图谱的核心和本质所在,知识图谱依赖于关系连接的方式将一个个实体、概念进行关联形成关系网以实现知识的表示、推理,完成知识服务引擎。数据间的关联性是否明确、完备是决定图谱实体间关系是否清晰、完整的关键。然而,在实际应用当中,多源异构数据之间的关联性并非严格明确的。其一,数据间的关联性指向类型不明确,具体表现为关联性作用为相关关系还是因果关系,有方向性还是无方向性。其二,即使明确关联性存在,但现有关联性的作用有多强,是单独体现还是联合其他关系共同体现也很难明确。

算法相关

    知识图谱技术是对语义网标准与技术的一次扬弃与升华,但知识图谱中的知识抽取、知识融合及知识计算等技术依然面临着许多困难与挑战,亟待学术界与工业界协力去解决。在未来几年时间内,知识图谱仍将是人工智能前沿研究问题。

    知识图谱系统从获取、建模、融合、计算等,每个环节均涉及不同的算法,目前各步骤所用到的算法根据现状和需求不同存在不同挑战。知识抽取是知识图谱组织构建、进行问答检索的主要任务,对于深层语义的理解以及处理具有重要的意义。现有的知识元素(实体、关系)抽取技术与方法往往是在限定领域、主题的数据集上进行,虽然取得了较好的效果,但由于制约条件较多方法的可扩展能力不够强,未能很好地适应大规模、领域独立、高效的开放式信息抽取要求。而且,基于大规模开放域的知识抽取研究仍处于起步阶段,尚需研究者努力去攻关开垦。

    知识融合对于知识图谱的构建、表示均具有重要的意义。指代消解和实体对齐均是知识融合中的关键步骤,虽然相关研究已取得了较为丰硕的成果,但仍有广阔的发展空间。对指代消解而言,虽然英文指代消解的研究取得了很大的成就,研究方法从基于规则的方法到基于统计的方法,但由于汉语和英文在构词、语法和句型等许多方面都存在较大的差异,因此,汉语指代消解的问题不能完全照搬英文中相关的消解技术,必须针对汉语自身的特点利用汉语有关的知识资源进行指代消解。

    对实体对齐而言,首先,经过命名实体识别流程获取的实体名通常是有歧义的,也就是说一个实体名通常会指代知识库中的多个实体,比如:网球运动员李娜与《青藏高原》的演唱者李娜并不属于同一个实体。如何将实体名链接到知识库中的正确实体是实体链接需要解决的问题。其次,对通用领域知识库进行的实体链接还会带来额外的挑战,例如实体量巨大对候选实体增加了大量噪音,而且也需要对实体进行相关领域判断。

    在对短文本输入进行的实体链接也会带来额外的挑战。在大多数情况下,输入文本只是输入一个句子,甚至是一个词组。与针对长文本或者文档的实体识别与链接方法不同,短文本输入的上下文信息非常缺乏并且几乎没有共现实体的信息。但是现实生活中,大部分的文本信息都是以短文本的方式存在,这需要着重发掘词语与实体的关系,从而从极少的文本中提取到语义信息。

    从实体识别到关系抽取、共指消解、实体对齐整个流程的误差会从第一个环节开始层层传播,使得实体对齐最终获得的实体质量急剧衰减。除此之外,各环节的预测任务相互独立且鲜有互动,无法处理全局的依赖关系。而且,目前尚无受到广泛认可的实体链接评测框架,不同实体链接研究在问题定义、基本假设、评测数据集等多个维度均存在较大差异,难以进行有效的比较。

    现有的知识推理模型往往需要大量高质量的样本进行训练学习,这需要耗费很大的代价去获取样本。然而,人往往凭借相关先验知识只需少量样本就能快速学习推理。在此过程中,大脑感知外部环境,对感兴趣或待学习的信息保持关注,并通过与已有先验知识的结合快速建立起新的知识,而后经过神经元的加工整理,形成难以被遗忘的长时记忆。目前已有一些用神经网络模拟人脑的学习和推理的研究,但复杂度较高且需要大量训练样本的支撑。另一方面,现有的知识推理实现方式,可以解决大部分领域和业务场景的复杂计算需求,但对于计算资源和存储资源的占用较大,且现有算法效率存在瓶颈,应用到大规模数据集时往往需要较长时间,无法满足许多领域实时、准实时或及时的计算决策要求。

    目前的算法仍然是基于(实体1、关系、实体2)三元组形式的语义解析,算法严重依赖现有的数据集。当客户有新需求、数据变更和扩充时需要修改数据结构及业务逻辑,因此算法的扩展性差、对客户响应慢、维护成本高已成为算法所面临的一系列问题。同时,随着时间和空间的发展,知识图谱的数据规模不断的增大,数据会动态进行增加、修改和删除,算法若对数据的动态变化不能进行很好的复用和拓展,修改数据结构和算法逻辑会对整个知识图谱的构建过程造成不可估量的影响。

    算法的鲁棒性是指在异常和危险的情况下算法生存的关键,指在被测数据受到干扰时算法得出的结果是否相对稳定。知识图谱是需要建立在海量数据之上的一种应用,在构建知识图谱的关系时数据来自不同的数据源,常见的数据源包括:公开信息、业务数据、三方数据、用户授权数据等。在构建过程中,从不同来源的数据中抽取的知识可能存在大量噪声和冗余,甚至算法输入的数据可能恶意生成样本和训练数据污染,面对噪声数据的干扰、多源异构数据的复杂性及AI安全所带来的恶意增加的干扰数据,现有算法模型的鲁棒性还有待进一步提高。

    现阶段,随着知识图谱构建和应用需求的不断增加,针对知识图谱的各算法技术也在不断的更新和发展,针对知识图谱的歧义性、动态性和非规范性等问题,机器学习、深度学习、自然语言处理等领域都提出了针对性的算法技术。现阶段,在学术研究中上,众多文献中对同一任务不同算法的评测指标都是针对开源数据集的研究,但在实际算法需求中数据的来源、格式、任务需求等存在差异。目前大规模知识图谱的应用场景都是针对特定的任务需求,如何选择恰当的算法并对不同的算法进行统一的评定,进而实现图谱的智能化应用仍然是一个研究重点。因此,对不同的算法进行统一的评测是现阶段存在的挑战之一。

    可解释性是指判别过程是否可以转化成具备逻辑关系的规则。目前对深度学习领域中的一个显著的问题:随着模型复杂性的增加,模型可解释性按照同样的速度降低。此外,对算法可解释性的要求,各行业、各情况下也有不同。在不同的领域下,对算法可解释性的要求不同;在样本集数量不同时,对可解释性的要求也不同。而且,对于算法可解释性的标准,目前各领域也缺乏一致意见。所以,对算法可解释性的要求、定义和标准细则都有待进一步研究和明确。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/26576.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

kotlin 协程之初识挂起函数

什么是挂起函数 官方文档 在 Kotlin 协程:从基础概念到开发实践 文章中,提到 kotlin协程 是一个可挂起计算的实例,可以在一个线程中挂起并在另一个线程中恢复继续执行,这期间不会阻塞线程。 这种挂起和恢复的能力就是通过挂起函数来实现的。 在使用示例中,我们用到了 w…

定时器0电机控制PWM输出

/*立式不锈钢波纹管机控制板2021 2 26 pcb PAST******/ #include <REG52.H> #include <intrins.H> #define uint unsigned int #define uchar unsigned char #define …

vue使用

if (this.$isPGY) {typeof window.tabCreateFn "function" && window.tabCreateFn("对账单 - 新增", "/vues/account/add", "")} else {this.$router.push({ name: "AccountAdd" })}

JVM性能优化案例:优化垃圾回收器的年轻代和老年代占比

JVM性能优化案例&#xff1a;优化垃圾回收器的年轻代和老年代占比 我们有一款在线交易系统&#xff0c;要求低延迟和高吞吐量。系统运行在Ubuntu服务器上&#xff0c;使用OpenJDK 11&#xff0c;并启用了G1垃圾回收器。以下是系统的基本配置和GC日志信息&#xff1a; 操作系统…

vscode react我常用的开发插件汇总

console-log – 此插件用于快捷键生成console,当然你也可以在其他模板中自定义快捷生成内容CodeGeeX – 一个内嵌在vscode插件列中的AI工具,让我们可以直接获取AI信息而不必麻烦的到其他AI软件或平台搜索Git History – 此插件用于在vscode中提供一个查询当前选中tab页签的组件…

CID引流电商下的3C产品选品策略深度解析

​摘要&#xff1a;随着电商行业的迅猛发展和消费者需求的日益多样化&#xff0c;CID引流电商作为一种新兴的电商模式&#xff0c;逐渐受到了广泛关注。在这一模式下&#xff0c;3C产品作为高客单价、高技术含量的代表品类&#xff0c;其选品策略的制定显得尤为重要。本文将从多…

新建pdb 打不开 ORA-65104 ORA-25153

select * from pdb_plug_in_violations&#xff1b; 有个waring service_name 冲突&#xff0c;应该是不影响的 -------------------------------------service 冲突解决------------------- Select message, action from DB_PLUG_IN_VIOLATIONS and get the result: MESSAG…

angular编程规范

目录 文章目录 **一、单一职责****1. 单一法则**2. 简单函数 **二、命名****1. 总体命名指导原则****2. 使用点和横杠来分隔文件名****3. 符号名与文件名****4. 服务名****5. 指令选择器****6. 为组件添加自定义前缀****7. 为指令添加自定义前缀****8. 管道名****9. 单元测试文…

北京Web前端大会:探索未来技术的无限可能

北京Web前端大会&#xff1a;探索未来技术的无限可能 在科技日新月异的今天&#xff0c;Web前端技术作为互联网发展的核心驱动力之一&#xff0c;正以前所未有的速度不断演进。北京Web前端大会作为行业内的一次盛会&#xff0c;汇聚了众多前端领域的专家和精英&#xff0c;共同…

KEYSIGHT N1000A与KEYSIGHT 86100D 区别?

N1000A与86100D设计理念和应用领域 N1000A&#xff1a;N1000A是一款宽带宽示波器主机&#xff0c;主要用于高速数字设计的精确测量&#xff0c;从50 Mb/s到超过80 Gb/s。它适用于光收发机设计和生产测试、ASIC/FPGA/IC设计和表征、串行总线设计、电缆和印刷电路板&#xff08;P…

如何使您的IT资产审计变得轻而易举?

无论您在审核准备方面处于哪个阶段&#xff0c;强大的资产管理策略都至关重要。现在&#xff0c;不可否认的是最初的障碍——精确追踪每一台设备、软件许可证和外围设备可能会让人感到不知所措。 然而&#xff0c;好消息是有简化流程可以帮助您将资产管理从一项令人望而却步的…

Elasticsearch 第二期:倒排索引,分析,映射

前言 正像前面所说&#xff0c;ES真正强大之处在于可以从无规律的数据中找出有意义的信息——从“大数据”到“大信息”。这也是Elasticsearch一开始就将自己定位为搜索引擎&#xff0c;而不是数据存储的一个原因。因此用这一篇文字记录ES搜索的过程。 关于ES搜索计划分两篇或…

0613# 3 八股

拷贝初始化和直接初始化 string str1("I am a string");//语句1 直接初始化 string str2(str1);//语句2 直接初始化,str1是已经存在的对象,直接调用拷贝构造函数对str2进行初始化 string str3 = "I am a string";//语句3 拷贝初始化,先为字符串”I am …

Python私教张大鹏 Vue3整合AntDesignVue之Checkbox 多选框

何时使用 在一组可选项中进行多项选择时&#xff1b; 单独使用可以表示两种状态之间的切换&#xff0c;和 switch 类似。区别在于切换 switch 会直接触发状态改变&#xff0c;而 checkbox 一般用于状态标记&#xff0c;需要和提交操作配合。 案例&#xff1a;多选框组件 核心…

微信小程序游戏与APP游戏:比较与对比

随着移动互联网的迅猛发展&#xff0c;游戏作为一个重要的应用领域&#xff0c;不仅在娱乐消遣中扮演着重要角色&#xff0c;也在商业上展现出巨大的潜力。在游戏开发和发布的选择上&#xff0c;开发者需要考虑多种因素&#xff0c;其中微信小程序游戏和独立APP游戏是两种常见的…

Hack The Box-Blurry

总体思路 CVE-2024-24590->修改脚本/劫持python库 信息收集&端口利用 nmap -sSVC blurry.htbStarting Nmap 7.94SVN ( https://nmap.org ) at 2024-06-10 21:40 EDT Nmap scan report for app.blurry.htb (10.10.11.19) Host is up (0.20s latency).PORT STATE S…

【电机】了解无刷直流电机BLDC

1 介绍 无刷直流电机&#xff08;Brushless Direct Current Motor&#xff0c;简称BLDCM&#xff09;由电动机主体和驱动器组成&#xff0c;是一种典型的机电一体化产品。无刷电机是指无电刷和换向器&#xff08;或集电环&#xff09;的电机&#xff0c;又称无换向器电机。这是…

本地靶场搭建

1、windows service2003 链接&#xff1a;https://pan.baidu.com/s/1RIealrcfcDWKu1AIuYFbAQ?pwd4bv8 提取码&#xff1a;4bv8 2、asp环境搭建&#xff08;虚拟机内&#xff09; ①asp工作原理&#xff1a; 客户发送网站请求&#xff0c;iis接收客户请求&#xff0c;解析…

基于JSP的超市管理系统

你好呀&#xff0c;我是计算机学长猫哥&#xff01;如果有相关需求&#xff0c;文末可以找到我的联系方式。 开发语言&#xff1a;Java 数据库&#xff1a;MySQL 技术&#xff1a;JSP MyBatis 工具&#xff1a;IDEA/Eclipse、Navicat、Maven 系统展示 员工管理界面图 管…

Android Display管理服务DMS

1 获得显示设备信息&#xff1a; DisplayManagerService 启动后从SurfaceFlinger当中获取到系统默认的Display 与HDMI display的信息。 2 应用程序端指定其应用ContextImpl的Display。 3 应用程序获得Surface和配置Surface&#xff0c;这个surface对应于SurfaceFlinger中的L…