应用实践 | 网络智能运维下的知识图谱

本文转载自公众号:网络人工智能园地。


让AI更智能,谷歌要用知识图谱让AI像人一样理解世界。

让AI更智能,我们要用知识图谱让AI像网络专家一样了解网络。

 

知识图谱引领人工智能从感知阶段演进到认知阶段,成为当前的热点技术之一,受到ICT产学研界的重点关注。

 

为什么人们如此重视知识图谱技术?

 

因为知识图谱不仅能够通过为万事万物建立起全方位的链接,支撑基于常识知识和概念知识的搜索类需求,催生了Google、百度、Amazon  Go、微软  Bing等搜索技术的智能化升级,而且让各行业应用在知识图谱加持下获得新进展,诞生出各种领域知识图谱应用,如智能问答、金融征信、医药研发、公安技侦、互联网+生活服务等等。

 

不同行业不同场景对不同的知识领域提出了各种诉求,催生出知识图谱工程和NLP各种技术的爆炸式增长,同时对知识抽取和数据处理技术提出了各种各样的技术需求。

 

 

华为网络人工智能在知识图谱领域的探索 

华为网络人工智能希望能够利用知识图谱技术解决网络领域典型场景下的智能化运维问题,也对如何构建图谱、应用图谱提出了各种诉求:从知识内容看,不同于百科类知识图谱,网络领域知识图谱更关注网络领域的知识深度和完备性,从人机交互技术角度讲,不同于开放式聊天的交互方式,网络领域更关注面向解决问题的目标导向性问答体验。比如说,一个电信核心网络运维专家可以回答和解决的一些专业领域问题,机器是否也能做到,甚至进行更为深刻的理解和推理演绎,进而让机器能辅助人达到提高运维效率,降低运维成本和节省时间的目的;未来演进到网络自动驾驶的高级阶段,可以减少甚至消除网络运维工程师和网络专家的运维值守压力和起夜率,提供更精准更人性化的智能服务,善莫大焉。

 

构建知识图谱的流程主要可以分为知识获取、知识融合、知识验证、知识计算、知识应用等几个步骤,华为网络人工智能基于NAIE平台需要知识图谱工程系统在此基础上设立领域知识标准规范、细化知识加工技术链条、完善运营运维与可信能力等等。总体构想如下图所示:

 

打开来看看这一块、那一块、方方面面都有啥:

 

 

知识来源

 

从来源形式上看,知识蕴藏在结构化(例如:告警、指标等)、半结构化(例如:配置、日志、规范化产品文档)、非结构化(例如:实践手册、故障案例、分享帖子)数据中,甚至在专家的脑子里。这些网络知识来源于support网站的产品文档,运维专家的维护文档,发生告警故障时的现网抓包数据,现网环境的配置文档数据,运维专家的经验沉淀文档或者故障传播知识采集等,相应的我们需要配套对接获取这些数据的工具,可以复用现有NAIE平台的数据采集工具,也需要补齐诸如抓包数据获取工具、接口,文档数据获取链接通道与管理工具等,以便从不同来源、不同结构的数据源中获取知识语料。

 

 

知识建模

 

有了语料,我们面临的第一个重要问题是,我们需要什么样的知识?或者说我们需要在数据中提取出哪些有价值的知识才能解决我们面临的故障运维问题?这就需要有效的知识组织结构,我们在数据获取之前就需要先设计知识模式,建立知识图谱的数据模式(schema)。通常模式设计方法有两种:一种是自顶向下的方法,网络专家与建模专家利用知识图谱建模工具手工编辑schema;另一种是自底向上的方法,基于来源数据的结构、语料的规范标准,以图技术组织知识结构设计,包括:实体(点)建模、属性建模、关系(边)建模,将数据中蕴含的知识组织形式以图的方式表达建立起来,从现有的高质量数据源中进行映射。数据建模的重要性在于这项工作是知识图谱工程所有工作的基础,因此标准规范的  schema设计能有效降低领域知识抽取使用对接的总体成本。

 

举个例子,我们做故障传播知识图谱,就需要定义故障在哪里发生(产品对象),发生了什么故障(告警、指标异常、故障现象、日志异常),所发生的故障之间有什么传递或依赖关系(告警间的关系、告警与指标异常的关系、指标异常间的关系、故障现象间的关系等等)。要注意的一点是,分类标准定义数据中蕴含的很重要的知识,需要在设计中体现出来。此外只有这个业务知识还是不够,对于支撑良好的人机交互还需要补齐网络领域的语义知识。比如:当NE这个缩略语出现时,要知道这里说的是“网元”,不是“东北”;当“Pod起不来”出现时,说的是一个进程失败故障现象,不是叫Pod的家伙睡懒觉。

 

 

知识存储

 

有了知识模型,知识的组织和摆放就有了货架,知识如何按货架摆放就需要知识存储,要存好还要好用是知识存储技术的关键,重要考虑的是选什么样的数据库按设计好的schema来存。要不要选关系数据库或者NoSQL数据库?要用什么样的图数据库?这些都需要根据数据场景仔细选择。

 

WikiData选择了Virtuso,CN-DBpedia  实际上是基于mongo 数据库,一般基于特定领域的知识图谱都可能会按需用到某个图数据库,选择RDF Store还是Property  Graph,需要综合考虑知识来源、使用方式和应用特点。网络故障知识不仅需要图查询、图计算,也需要理解语义、承载故障问题的答案,因而最理想的图数据库是即能并行化部署、支撑关系存储、支持图计算,又能有效存储RDF形式的知识,支撑语义理解所需的词典表、三元组、符号化知识表示,目前受限于实体名单的限制,我们只能在合规的开源图数据库和自研图数据库中做选择,这也催生了我们对自研图数据库的一些关键诉求——多能力融合,当满足该需求的版本正式发布后,相信对开发者来说是一个值得期待的选择。

 

 

知识抽取

 

我们知道,分布在网上的知识常常以分散、异构的形式存在,传统的数据清洗抽取方式不一定适用于知识抽取,很多问题不能解决,因此需要针对知识来源格式和知识抽取目标有针对性的设计抽取工具能力。目前我们利用自研的基于正则表达的无码化抽取工具TIE作为机器数据知识抽取工具;对于文档知识抽取,情况稍微复杂些,首先我们需要保留产品文档组织结构中的章节段落分类分层知识,利用文档元数据解析XML标签,获得段落句子级别的抽取中粒度知识,然后需要利用神经网络模型和NLP工具针抽取词级别的细粒度知识,包括实体词和特征词间的分类、关系等。通常抽取结果需要迭代和验证来提高新词发现准确率,这样来将不同源不同结构的数据融合成统一表示的不同颗粒度的知识,存入知识库中。

 

 

知识表示和知识融合

 

单靠抽取获得的知识,在关系表达层面往往是稀疏的,说白了就是关系是不足的,往往需要通过各种算法自动挖掘、发现新的关系,做知识补全。我们需要的知识补全能力不仅包括实体间的关系补全,也包括各种故障特征传导关系的补全。例如故障A的可能原因可能与故障B的可能影响表达的是一个意思,那就需要在“原因”与“影响”间补全一个相似关系。这样的知识补全是对细粒度级别知识抽取的有效补充。

 

纯文本数据中获取知识会涉及到的实体识别、实体链接、关系识别、概念抽象等,需要用到许多自然语言处理的技术,包括但不仅限于分词、样本标注、词性标注、同义词提取等等。

 

做好知识加工准备,只是完成了AI应用开发的一部分准备工作,如何利用获取到的知识,最重要的是解决关键应用场景问题,实现业务价值,才能体现技术的价值。

 

2020年华为开发者大会HDC.Cloud上,华为网络人工智能将线上直播对知识图谱构建和应用场景做一个系统性介绍,希望我们在开发过程中的一些创新尝试和实践经验能够给广大开发者提供一些有益的参考,敬请期待!


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479208.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

还在买白酒?算法工程师们,量化投资了解一下

文 | 阿财知乎 本文已获作者授权,禁止二次转载赚取你认知中的Alpha坚持用量化的观点去看待宇宙的终极问题:买不买,卖不卖。很多人的在互联网这一片方寸之地,表现出来的行为是矛盾的。举个例子,相信技术指标在交易实践毫…

LeetCode 969. 煎饼排序

1. 题目 给定数组 A&#xff0c;我们可以对其进行煎饼翻转&#xff1a;我们选择一些正整数 k < A.length&#xff0c;然后反转 A 的前 k 个元素的顺序。我们要执行零次或多次煎饼翻转&#xff08;按顺序一次接一次地进行&#xff09;以完成对数组 A 的排序。 返回能使 A 排…

论文浅尝 | 用于低资源条件下知识图谱补全的关系对抗网络

论文作者: 邓淑敏&#xff0c;浙江大学在读博士&#xff0c;研究方向为低资源条件下知识图谱自动化构建关键技术研究。Ningyu Zhang, Shumin Deng, Zhanlin Sun, Jiaoyan Chen, Wei Zhang, Huajun Chen. Relation Adversarial Network for Low Resource Knowledge Graph Comple…

Spring Boot引起的“堆外内存泄漏”排查及经验总结

背景 为了更好地实现对项目的管理&#xff0c;我们将组内一个项目迁移到MDP框架&#xff08;基于Spring Boot&#xff09;&#xff0c;随后我们就发现系统会频繁报出Swap区域使用量过高的异常。笔者被叫去帮忙查看原因&#xff0c;发现配置了4G堆内内存&#xff0c;但是实际使用…

Facebook刷新开放域问答SOTA:模型训模型!Reader当Teacher!

文 | Sherry 不是小哀编 | 小轶一部问答系统发展史就是一部人工智能发展史。早在1950年的图灵测试就提出&#xff1a;如果人类无法通过问答将机器和人区分开&#xff0c;那么这个机器就可以被认为具有智能。问答系统和人工智能有着密不可分的关系。从基于规则和结构化数据的自动…

LeetCode 1038. 从二叉搜索树到更大和树(逆中序-右根左-降序)

1. 题目 2. 解题 二叉搜索树 逆中序遍历&#xff08;右根左&#xff09;是降序的 class Solution { public:TreeNode* bstToGst(TreeNode* root) {stack<TreeNode*> stk;int sum 0;TreeNode *rootcopy root;while(root || !stk.empty()) {while(root){stk.push(root);…

Inode 导致 电脑的网络适配器和访问点出现问题

1 电脑好好的&#xff0c;由于项目原因需要安装inode去访问外网的数据集。安装好inode没有什么问题&#xff0c;网络依然可以用。然后不小心重启了一下电脑&#xff0c;发现电脑所有的网络均不正常。网络诊断是电脑的适配器和访问点出现故障。根据网络上的解决方案&#xff0c;…

应用实践 | 南方科技大学研发基于新型冠状病毒知识图谱模式挖掘系统

本文转载自公众号&#xff1a;南方科技大学计算机科学与工程系。随着新型冠状病毒疫情的不断发展&#xff0c;有关疫情的各类信息也在不断更新&#xff0c;如何利用知识图谱从大量新型冠状病毒肺炎信息中高效挖掘相关频繁模式&#xff08;如病毒的宿主、传播途径&#xff09;成…

java.lang.NoClassDefFoundError: * : Landroid/support/v7/gridlayout/R$styleable 异常终极解决办法

该问题解决办法适用于任何类似问题。 问题的标准异常描述为&#xff1a;java.lang.NoClassDefFoundError: Failed resolution of: Landroid/support/v7/gridlayout/R$styleable 今天由于项目需要&#xff0c;想在项目中使用GridLayout&#xff0c;无奈&#xff0c;标准库中的…

训练一个130亿参数的模型要用几个GPU?微软:一个就够

文&#xff5c;蛋酱、张倩源&#xff5c;机器之心现在的模型动辄数百、数千亿参数&#xff0c;普通人训不动怎么办&#xff1f;前不久&#xff0c;谷歌发布了参数量为 1.6 万亿的语言模型Swith Transformer&#xff0c;将 GPT-3 创下的参数量记录&#xff08;1750 亿&#xff0…

技术年货:美团技术沙龙合辑大放送——85个演讲,70+小时视频

你好&#xff0c;2019 再见&#xff0c;2018 又到了一年辞旧迎新的时候&#xff0c;大家应该也和美美一样&#xff0c;在忙着总结回顾和展望规划吧。 按老惯例&#xff0c;我们该献上技术年货了。今年首先出场的&#xff0c;是我们的技术沙龙大套餐&#xff01; 美团技术沙龙是…

LeetCode 442. 数组中重复的数据

1. 题目 给定一个整数数组 a&#xff0c;其中1 ≤ a[i] ≤ n &#xff08;n为数组长度&#xff09;, 其中有些元素出现两次而其他元素出现一次。 找到所有出现两次的元素。 你可以不用到任何额外空间并在O(n)时间复杂度内解决这个问题吗&#xff1f; 示例&#xff1a;输入:…

如何恢复在 PyCharm 中误删的整个项目文件

如何恢复在 PyCharm 中误删的整个项目文件 方案1: 在误删项目的原始文件地址下新建相同文件名的空文件夹,即新文件夹与被误删项目的路径相同. 在 PyCharm 中打开该新文件夹,右键文件夹,点击 Local History 下的 Show History. 页面左侧为删除的文件信息(时间等),点击文件名右…

征稿 | ​2020年全国知识图谱与语义计算大会

China Conference on Knowledge Graph and Semantic Computing(CCKS 2020)www.sigkg.cn/ccks2020征稿启事&#xff08;第二轮&#xff09;2020年8月15日-18日&#xff0c;南昌征稿截止: 2020年5月21日第十四届全国知识图谱与语义计算大会&#xff08;CCKS: China Conference o…

新手福利:百度官方中文教程,过年也要深度学习!

很多小伙伴在后台给我留言&#xff0c;零基础如何入门深度学习&#xff1f;想要做算法工程师&#xff0c;自学了python基础&#xff0c;现在还来得及吗&#xff1f;这个问题很大。很难说一篇文章几句话就能解决这个问题。今天我给大家说一下自己的一些个人经验&#xff0c;比较…

LeetCode 232. 用栈实现队列(双栈法-队列)

1. 题目 使用栈实现队列的下列操作&#xff1a; push(x) – 将一个元素放入队列的尾部。 pop() – 从队列首部移除元素。 peek() – 返回队列首部的元素。 empty() – 返回队列是否为空。 来源&#xff1a;力扣&#xff08;LeetCode&#xff09; 链接&#xff1a;https://le…

论文浅尝 | Tree-to-sequence 学习知识问答

论文笔记整理&#xff1a;谭亦鸣&#xff0c;东南大学博士生&#xff0c;研究兴趣&#xff1a;知识图谱问答。来源&#xff1a;Neurocomputing 372: 64-72 (2020)链接&#xff1a;https://sciencedirect.xilesou.top/science/article/abs/pii/S0925231219312639对于知识图谱问答…

别再搞纯文本了!多模文档理解更被时代需要!

文 | Ryan都已经2021年了&#xff0c;互联网已经今非昔比&#xff0c;20年前纯文本的日子已经一去不复返&#xff0c;文字已经满足不了网页、文章的需求&#xff0c;绝大部分都会有着精心设计的表格、图片&#xff0c;甚至视频。PDF文档这种富文本格式拥有更加复杂的结构信息&a…

iOS 覆盖率检测原理与增量代码测试覆盖率工具实现

背景 对苹果开发者而言&#xff0c;由于平台审核周期较长&#xff0c;客户端代码导致的线上问题影响时间往往比较久。如果在开发、测试阶段能够提前暴露问题&#xff0c;就有助于避免线上事故的发生。代码覆盖率检测正是帮助开发、测试同学提前发现问题&#xff0c;保证代码质量…

LeetCode 199. 二叉树的右视图(DFS 按层queue)

文章目录1. 题目2. 解题2.1 DFS2.2 queue按层从右边遍历1. 题目 给定一棵二叉树&#xff0c;想象自己站在它的右侧&#xff0c;按照从顶部到底部的顺序&#xff0c;返回从右侧所能看到的节点值。 示例:输入: [1,2,3,null,5,null,4] 输出: [1, 3, 4] 解释:1 <--…