知识图谱及其在安全领域的应用

知识图谱及其在安全领域的应用

人工智能技术与咨询 

关注微信公众号:人工智能技术与咨询。了解更多咨询!

本文作者作者:Toky,由 Seebug Paper 发布

1. 知识图谱是什么?

1.1 知识(Knowledge)是什么?

知识图谱(Knowledge Graph)正如其名,其本质是为了表示知识[1]。那么知识是该如何定义呢?我们来看一下维基百科中的定义:

知识是对某个主题确信的认识,并且这些认识拥有潜在的能力为特定目的而使用。意指透过经验或联想,而能够熟悉进而了解某件事情;这种事实或状态就称为知识,其包括认识或了解某种科学、艺术或技巧。此外,亦指透过研究、调查、观察或经验而获得的一整套知识或一系列资讯。

可以从这块相对抽象的定义里得到一个主观的感受,那就是知识是一种认知,其既是一种事实,也是一种状态。比如,“我会加减乘除”是一种事实也是在表述我通过学习和实践,使得现在已经掌握这项技能的一种状态。并且这种认知是相对复杂的,有从时间变化的纵向维度,也有涉及到关系、概念、实践等等横向维度的变化。但不变的是,知识是有一个主题的,以及由主题衍生出来的各个“属性”组成,类似于树状结构,这一棵树,就是一条知识。

如果用官方一点的定义呢,每条知识是表示为一个SPO三元组,即Subject(主体)——Predicate(谓语)——>Object(客体)[1]。

那个回到“表示知识”这个关键点,我们创造出知识图谱这个概念,就是为了帮助我们更快、更好地用来表示出多条独立的“知识”。更进一步说,知识图谱就是用来组织和描述SPO三元组的。

那么如何描述呢?请看下一部分

1.2 如何描述三元组?

前面我们介绍了知识的概念和SPO三元组,我们已经知道了,知识图谱是一条条知识组成的,一条条知识又是三元关系(Subject——Predicate——>Object)组成的,那么问题就来了,如何描述这个三元关系呢?

使用RDF来表示

在知识图谱中,我们用RDF形式化地表示这种三元关系。[1] 从定义上来看,RDF(Resource Description Framework),即资源描述框架,是W3C制定的,用于描述实体/资源的标准数据模型。[1] 为什么我们描述知识要用“Web”的形式去描述呢?因为网络、Web中的各项关系,其实和知识的抽象概念很像,这是一种即像树,又像网的东西。

有唯一确定主体、有连接属性的谓语、有明确属性值。

那么RDF框架下,对三元组是如何具体定义的呢?我们先来了解一下RDF图中定义的三种类型:International Resource Identifiers(IRIs),blank nodes 和 literals[1]。RDF通过定义出来的这三种属性对SPO三元组进行约束:

  1. Subject可以是IRI或blank node。

  2. Predicate是IRI。

  3. Object三种类型都可以。

可以看到,主体必须是能唯一表示的,或者干脆就是匿名资源(Blank Node,这个概念可以向外引申,在这里可以先忽略)。唯一表示就会用到IRI,相当于是URL和URI的推广[1],用于唯一定义一个实体或是资源。(说白了,就是我们要通过一个确定的方式来找到唯一的它)

谓语也是要唯一表示的,就像你都不知道要和另一个人建立什么关系,你又怎么能跑过去说我们在一起吧。这个“在一起的两个人“这个关系描述得就太模糊,不能唯一确定。举个例子,两个男的可以是朋友、可以是仇人也可以是情侣。

那我们整理一下RDF定义三种类型的用处:

  • IRI —— 在整个网络或者图中唯一定义了一个实体/资源

  • blank node —— 没有IRI和literal的资源,或者说匿名资源[1],暂不详细分析

  • literal —— 字面量,可以看作是带有数据类型的纯文本

回到刚刚那个例子,架设有两个男人一个为A,一个为B,我们的主体Subject是男人A,我们给他一个IRI:www.man-a/relation;我们的谓语是表示与主体是朋友的关系,我们给他一个带有prefix的IRI:kg:firiends;然后我们的客体就是男人B的名字,我们给他一个字面量:man-b

那么这个描述两个男人间朋友关系的这个知识就可以表述为:www.man-a/relation ——kg:firiends——man-b

是不是一下子就很清楚了。这就是RDF的作用,使用标准数据模型的方式来进行资源描述。

使用属性图来表示

介绍完RDF来表示关系,是不是感觉略有一点复杂,确实,这种方式比较严谨,更贴近知识图谱原始的定义。但实际在工业界应用过程中,还是会有相当多的场景会选择用属性图(Property Graph)的形式来描述“关系”。那么下面我们来介绍一下属性图的方式。

属性图(Property Graph)的逻辑其实特别好理解,就是主体会和很多客体有关系,比如主体是一个普通人A的话,他会有手机号、会有性别、会有家人,这些就是他的客体。而他和他的手机号之间,就是“拥有”的关系、他和他的父亲,就是父子关系,这种关系就是主体和客体的关系。以上三种,主体、关系、客体,都可以有相应的属性。例如普通人A,属性可以是他的名字(也可以成为一种主客体关系);他和他的手机号之间是拥有的关系,“拥有”关系可以有属性“何时拥有”、”如何拥有“等;手机号也可以有属性,比如归属的运营商名字等等。

这种同样描述主客体关系,但支持实体或关系拥有属性的方式,就称为属性图表示。

1.3 从知识到知识图谱

我们从知识的定义讲到了如何表示使用RDF定义单条知识,那么知识图谱的具体形象就呼之欲出了,知识图谱就是有多条知识组成的树状或网状结构,总体来说是图的结构。

主体必须唯一确定,谓语需要清楚描述,客体可以是另一条“子知识“也可以是字面量(也就是带数据类型的纯文本)。

以下是一个使用RDF描述的知识图谱,可以看到其通过RDF标准来表示出了单条的知识以及总体的关系:

图片

图:罗纳尔多知识图谱[1]

以下是一个由属性图来表示的知识图谱,注意其支持实体或关系拥有属性,而RDF形式的就不支持:

图片

图:一个简单的属性图[2]

其实更严谨地说,这两种不同的描述关系的方式,其实也是代表了两种知识图谱的存储方式:

  • 基于RDF存储的形式

  • 基于图数据库的存储

以下是两者之间的比较:

图片

图:RDF和图数据库方式的比较[2]

1.4 知识图谱的作用

知识图谱提供了从“关系”的角度去分析问题的能力。知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。[2]

从这个概念上来说,知识图谱主要解决的问题是一个复杂关联信息的查询和表示。那么我们来看看它的应用需求应该是如何的,换句话说,就是什么样的情况下,我们可以考虑采用知识图谱:

图片

图:对采用知识图谱的需求分析

2. 在安全领域的应用

2.1 安全知识图谱

安全知识图谱(Cyber Security Knowledge Graph)是知识图谱在网络安全领域的实际应用,包括基于本体论构建的安全知识本体架构,以及通过威胁建模等方式对多源异构的网络安全领域信息( Heterogeneous Cyber Security Information)进行加工、处理、整合,转化成为的结构化的智慧安全领域知识库。[3]

上面说到了知识图谱的作用,我们再回顾一下,知识图谱可以解决复杂关系信息的查询和表示。因此,在安全领域,我们在进行应用的时候,同样要考虑以下几点:

  • 是否有强烈可视化需求?

  • 是否有较高的语义分析需求?

  • 是否本事拥有海量的多源异构数据,且存在一定的信息孤岛问题?

  • 是否有对关系进行深入搜索、挖掘、分析的需求?

  • 是否有资源和能力去搭建系统,并且能进行运营?

其实思考这几个问题的时候,我们的需求和对应的应用场景,有经验的同学应该就比较清晰了。知识图谱需要解决的问题,它的应用,主要是:

  • 从海量数据中挖掘、表示威胁的实体相关信息

  • 提高威胁分析的效率,从关系出发去挖掘事件(Incident)、表示事件

  • 对于基于语义分析的威胁发现具有相对的优势

因此,我们也可以用一句话来说明安全知识图谱的作用:从威胁实体和实体关系的视角出发,主要针对多源异构数据,利用语义分析的特点,识别威胁以及对威胁进行评估。

以下是一个用安全知识图谱表示的永恒之蓝攻击防御场景:

图片

图:利用知识图谱构建攻击场景[4]

2.2 从需求到应用

2.2.1 分析需求

偏向于事件分析

知识图谱的关键点在于对“关系”的描述。对于事件来说,我们需要一个更高纬度的知识表达,主要来说,可以主要从这几个方面出发:威胁主体、攻击方法、资产、隐患和防御手段[4]。

使用基于属性图的知识图谱构建,我们需要定义好主客体的关系以及三者各自的属性;使用基于RDF的知识图谱构建,我们需要更加关注于严格的推理关系、将属性的表达用确定的关系谓语代替。

偏向于情报分析

对于情报分析来说,我们很多时候不是要关注自己怎么样,而是要关注对手怎么样,所以知识图谱在安全情报分析中的应用,主要的关注于:

  • 对手是谁(Who):包括威胁行为体,赞助商和雇主

  • 对手使用什么(What):包括他们的能力和基础设施

  • 对手的行动时(When):确定行动的时间表和规律

  • 对手的目的(Why):包括他们的动机和意图

  • 对手的目标行业和地理区域(Where):详细说明行业,垂直行业和地理区域

  • 对手如何运作(How):关注于他们的行为和规律

以上的5W1H[5]可以作为安全情报知识图谱构建时的参考,例如使用基于属性图的知识图谱构建,我们可以这样去构建:

  • 威胁行为体作为Subject,赞助商和雇主可以作为其属性(Property)

  • 基础设施作为威胁行为体的Object,用“自身拥有”或是”非法占用“来描述他们的关系(Predicate)

  • ...

偏向于特定威胁分析

在这边我对它的定义主要用于分析某种特定恶意行为。这种特定的恶意行为需要有较明确,且相对唯一的攻击链。例如,我们可以把对恶意钓鱼邮件的攻击视为一种特定威胁,我们对恶意钓鱼邮件的分析,从规则、模型到专家经验转换等等,都是在对其进行特定威胁的分析。

从另一方面来说,一种特定的技战术组合也可以称为一种特定威胁,因为它的杀伤链也相对固定,对于这部分的知识图谱构建,可以帮助我们从整体角度观察威胁。

2.2.2 展示需求

也许部分同学一看到展示需求,心里就会冒出来“大屏”、“给领导看的”、“没啥用”这些想法,虽然这确实也是一种现象,但我们也应该好好考虑一下这部分。

因为做安全的最终目的,还是说为了提高总体的安全能力,这个安全能力小到个人水平,大到国家安全。我们实际点讲,怎么才能提高企业的安全呢?企业安全由于其复杂性,不是某一方向上的技术很酷就能起到提高整日安全能力的。

企业安全的关键还是在于从检测——分析——响应——优化的闭环。这个闭环是关键,而这个闭环中,所要参与到的各个部门、乃至同部门的各个方向、同个方向上的各个人员,他们的先验知识都是不一样的。我们使用知识图谱进行展示的本意,是为了结构化地表达知识。从而降低闭环中各个环节的成本。这个成本包含很多方面,有时连沟通成本也是。

3. 总结

本文主要是学习和整理了知识图谱的相关概念,以及对其在安全领域的应用做了一个简单的分析。这块仍是处于一个探索阶段,还是有许多新的思路和落地方案需要补充。欢迎各位师傅批评指正

图片

关注微信公众号:人工智能技术与咨询。了解更多咨询!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481821.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度残差网络的无人机多目标识别

深度残差网络的无人机多目标识别 人工智能技术与咨询 来源:《图学学报》。作者翟进有等 摘要:传统目标识别算法中,经典的区域建议网络(RPN)在提取目标候选区域时计算量大,时间复杂度较高,因此提出一种级联区域建议…

让 AI “读懂”人类价值观!朱松纯团队工作登上 Science 头条

来源&#xff1a;AI科技评论作者&#xff1a;朱松纯团队今日&#xff08;7月14日&#xff09;&#xff0c;国际顶级学术期刊<Science Robotics >发表了朱松纯团队&#xff08;UCLA袁路遥、高晓丰、北京通用人工智能研究院郑子隆、北京大学人工智能研究院朱毅鑫等作者&…

《加强5G公众移动通信系统无线电频率共享管理》最新解读来啦

《加强5G公众移动通信系统无线电频率共享管理》最新解读来啦&#xff01; 人工智能技术与咨询 近日&#xff0c;工业和信息化部印发了《关于加强5G公众移动通信系统无线电频率共享管理有关事项的通知》&#xff08;下称《通知》&#xff09;&#xff0c;现就《通知》有关内容…

李祎博士谈类脑研究:学科交叉、软硬件突破、学术界与工业界的协同攻关

来源&#xff1a;DOIT传媒类脑计算系统是借鉴人脑信息处理方式&#xff0c;打破“冯诺依曼”架构束缚&#xff0c;适于实时处理非结构化信息、具有自主学习能力的超低功耗新型计算系统。作为生命科学最尖端、最前沿的领域&#xff0c;脑科学是人类最难攻克的科学堡垒之一&#…

如何做嵌入式人工智能

如何做嵌入式人工智能 人工智能技术与咨询 来源&#xff1a;PerfXLab澎峰科技 澎峰科技是中科院的技术团队&#xff0c;做过国际知名的开源矩阵计算库OpenBLAS&#xff0c;获得过中国计算机学会科技进步二等奖、中国科学院杰出科技成就奖&#xff0c;是国家高新技术企业、中…

如果宇宙是答案,那么问题是什么?

来源&#xff1a;未读利昂莱德曼&#xff08;Leon Max Lederman&#xff0c;1922&#xff0d;2018&#xff09;&#xff0c;前费米国家加速器实验室主任&#xff0c;美国科学促进会理事会主席。他主持设计了超导超级对撞机建造计划&#xff0c;是“上帝粒子”一词的提出者。198…

通信网信息传输与分发技术国家级重点实验室2021年度预研基金项目申请指南

通信网信息传输与分发技术国家级重点实验室2021年度预研基金项目申请指南 人工智能技术与咨询 人工智能技术与咨询 北京龙腾亚太教育咨询有限公司依托中国管理科学研究院职业资格认证培训中心成立于2016年9月30日,并于2020年开始与中华文化促进会、中国国家人事人才培训网合…

寻找可落地的因果科学范式:从因果推理到因果学习

来源&#xff1a;集智俱乐部作者&#xff1a;丁善一 编辑&#xff1a;邓一雪导语目前在互联网的交互框架内&#xff0c;用户和消费者只被允许做“有限的表达”&#xff0c;比如被设计好的制式问题、按钮、案件、关键词命中等等&#xff0c;从而臆测主观诉求&#xff0c;然后希望…

液体火箭发动机技术国家级重点实验室2021年度对外开放项目指南

液体火箭发动机技术国家级重点实验室2021年度对外开放项目指南 人工智能技术与咨询 国家级重点实验室 简介 西安航天动力研究所液体火箭发动机技术国家级重点实验室瞄准面向航天运输系统对液体火箭发动机技术的需求&#xff0c;重点开展基础性、创新性和重大关键技术的预先研…

迈向可验证的 AI: 形式化方法的五大挑战

来源&#xff1a;前沿科技作者&#xff1a;Sanjit A. Seshia, Dorsa Sadigh, S. Shankar Sastry编译&#xff1a;李梅、黄楠编辑&#xff1a;陈彩娴人工智能试图模仿人类智能的计算系统&#xff0c;包括人类一些与智能具有直观联系的功能&#xff0c;例如学习、解决问题以及理性…

数字孪生及其在航空航天中的应用

数字孪生及其在航空航天中的应用 人工智能技术与咨询 来源&#xff1a;《航空学报》&#xff0c;作者孟松鹤等 摘要: 数字孪生已引起国内外的广泛重视&#xff0c;可看作是连接物理世界和数字世界的纽带。其通过建立物理系统的数字模型、实时监测系统状态并驱动模型动态更新实…

【综述专栏】马毅沈向洋曹颖最新AI综述火了!

来源&#xff1a;量子位在科学研究中&#xff0c;从方法论上来讲&#xff0c;都应“先见森林&#xff0c;再见树木”。当前&#xff0c;人工智能学术研究方兴未艾&#xff0c;技术迅猛发展&#xff0c;可谓万木争荣&#xff0c;日新月异。对于AI从业者来说&#xff0c;在广袤的…

水声被动定位中的机器学习方法研究进展综述

水声被动定位中的机器学习方法研究进展综述 人工智能技术与咨询 来源&#xff1a;《信号处理》&#xff0c;作者牛海强等 摘 要&#xff1a; 本文对基于机器学习方法的水声被动定位研究进展进行了综述。所涉及的机器学习方法有多层感知机(前馈神经网络)、支持向量机、随机森…

不盲追大模型与堆算力!沈向洋、曹颖与马毅提出理解 AI 的两个基本原理:简约性与自一致性...

来源&#xff1a;AI科技评论论文作者&#xff1a;马毅、曹颖、沈向洋整理&#xff1a;西西编辑&#xff1a;陈彩娴近两年&#xff0c;“大力&#xff08;算力&#xff09;出奇迹”的大模型成为人工智能领域多数研究者的追求趋势。然而&#xff0c;其背后巨大的计算成本与资源耗…

微服务技术发展的现状与展望

微服务技术发展的现状与展望 人工智能技术与咨询 来源&#xff1a;计算机研究与发展&#xff0c;作者冯志勇等 摘 要 随着云计算、物联网等技术迅速发展&#xff0c;用户对软件系统的需求趋于多样化&#xff0c;面向服务的体系架构(service oriented architecture, SOA)需要…

规则引导的知识图谱联合嵌入方法

规则引导的知识图谱联合嵌入方法 人工智能技术与咨询 本文来自《计算机研究与发展》 &#xff0c;作者姚思雨等 摘 要 近年来&#xff0c;大量研究工作致力于知识图谱的嵌入学习&#xff0c;旨在将知识图谱中的实体与关系映射到低维连续的向量空间中.且所学习到的嵌入表示已…

潘云鹤院士获吴文俊人工智能最高成就奖!第十一届“吴文俊人工智能科学技术奖”揭晓...

来源&#xff1a;中国人工智能学会文章整理&#xff1a;自央视新闻、北京日报链接&#xff1a;https://content-static.cctvnews.cctv.com/snow-book/video.html?item_id7729020039002188616&t1657962648440&toc_style_idvideo_default&share_towechat&track_…

基于深度强化学习的区域化视觉导航方法​​

基于深度强化学习的区域化视觉导航方法 ​​人工智能技术与咨询​​ 本文来自《上海交通大学学报》&#xff0c;作者李鹏等 在环境中高效导航是智能行为的基础,也是机器人控制领域研究的热点之一.实现自主导航的传统方法是结合一系列硬件和算法解决同步定位和建图、路径规划…

智源就“抄袭事件”发布最新通报:2 处属于抄袭,已得到原作者谅解,相关责任人均已主动离职...

来源&#xff1a;AI前线整理&#xff1a;冬梅大模型论文抄袭事件&#xff0c;终于有了结果。今年 4 月&#xff0c;一篇名为《A Roadmap for Big Model》&#xff08;大模型路线图&#xff09;的论文被爆出抄袭&#xff0c;该篇论文中涉及国内 19 家机构和百名 AI 学者&#xf…

人工智能技术在智能制造中的典型应用场景与标准体系研究

人工智能技术在智能制造中的典型应用场景与标准体系研究 人工智能技术与咨询 来源&#xff1a;《中国工程科学》 &#xff0c;作者李瑞琪等 摘要&#xff1a; 针对人工智能在智能制造领域应用不断深入的趋势&#xff0c;本文基于企业关键绩效指标&#xff08;KPI&#xff09…