基于机器学习的网络安全态势感知

人工智能技术与咨询

点击蓝字 · 关注我们

来源:《计算机科学与应用》 ,作者杨怡等

关键词: 机器学习;态势感知;关联分析;攻击场景重建

摘要:

  摘要: 在传统网络防御手段抵御攻击的基础上,提出了一种利用机器学习的方法来达到网络安全态势感知的新方案。为了有效地获得告警事件,本文引入了告警关联分析的技术,通过分析多源告警信息的关联度从而降低误报率;为了准确地重建攻击场景,本文引入CEP技术处理海量告警信息,并利用基于马尔可夫性质的因果关联分析构建起知识库。分析表明,该方案具有可靠性强、适用性好、计算量小、准确度高的特点,特别适合于大数据环境。

1. 引言

随着信息技术的飞跃式发展和互联网的快速普及,用户在体验到新技术带来的便捷、高效的同时也深受网络攻击引发的破坏。目前,我们熟知的网络威胁有:网络病毒、木马、DOS/DDOS攻击等等。这些攻击带来的告警信息是海量的,冗余的,然而传统的网络安全技术还不能完全地、及时地处理这些告警数据。

现今主流的网络防御手段还是在保护、检测、响应的模型下开展的。虽然一个网络环境中部署多个安全防御设备起到了一定的作用,但是却在工作的同时产生了大量的,价值密度低的告警和日志信息。通常情况下一个攻击往往是分多步实施的,但告警信息却只指针对于其中某一步,是单一的,分散的,以至于还原攻击场景或是攻击过程是困难的。因此这些大量的、繁杂的安全事件数据不仅没有有效地对攻击进行防御,还在无形中给决策者带来了更大的工作量。网络安全态势感知就是将网络攻击场景通过重建的方式,有效地,准确地还原攻击活动的全貌,达到对整个网络安全态势进行监控的目的,这在网络安全防御中显得至关重要,这也是网络安全态势感知领域中面临的一个难题之一。

针对网络攻击高效的告警预测提出一种基于机器学习的网络安全态势感知的关联分析方法 [1],利用该方法获取价值密度高的告警事件,通过聚类、关联分析构建出规则知识库,并对攻击场景进行重建,从而达到告警预测的目的。

2. 基于地址相关性的告警事件聚类

利用因果关联分析的方法进行关联分析,首先是要把具有相关性的告警事件聚成一类,然后对同一类簇中的告警事件进行因果关联分析 [2]。具体而言聚类就是把抽象的对象集合根据类似的特征分成多个类的过程。首先把原始告警数据进行预处理,对来自不同安全设备的告警事件进行统一格式,提取出不同事件关键的描述字段,包括以下12条属性,用这12条属性就可以清楚的描述一个安全事件。如表1所示。

根据告警事件处理的原则,依照事件严重等级、攻击行为强度、攻击持续时间等依据从12条属性中挑选出具有代表性的7个属性作为告警事件聚类时的匹配格式:

其中attacktime是安全事件发生的时间;attacktype是安全事件所属的类型;sourceIP是发起攻击或安全事件中的源IP地址;sourcePort是发起安全事件发生的源端口;targetIP是发起攻击或安全事件中的目的IP地址;targetPort是发起安全事件发生的目标端口;severity是安全事件所属的威胁等级。

Table 1. Key fields of a security event

表1. 安全事件的关键字段

由于例如一个DDOS攻击,它们攻击的每一步之间的IP地址一定存在相关性,所以就可以利用IP相关性进行聚类。同样地,其他的攻击也一定存在着这种相关性。那么就可以根据多步攻击之间的IP地址肯定具有相关性,即上一步的攻击 a1a1 中目的IP很有可能是下一个攻击 a2a2 的源IP,或者说上一个攻击 a1a1 的源IP地址或目的IP地址之中总有一个和攻击 a2a2 的目的地址或源地址相同。快速把告警事件聚类在一起。如图1是聚类的流程图。

Figure 1. Flow chart based on alarm clustering algorithm

图1. 基于告警聚类算法的流程图

3. 攻击场景重建

将分散的告警事件依据地址相关性进行聚类后,得到了一个个的告警类簇。下面就是要根据这些类簇展开关联分析。具体地:通过统计大量告警事件,分析上一个告警事件发生后到下一个告警事件发生它们之间的必然联系,即上一个事件发生后下一个事件一定发生的可能性大小,然后根据实际需求人为的设置好的支持度a,当支持度达到值a的时候,就认为它们两个攻击之间的发生存在必然性,就可以将它们之间的关联度纳入规则知识库中,这样就在关联分析的同时建立了关联规则知识库,有利于在发现新的告警的时候实时地增加进去 [3]。

如图2所示,是对假设可能的攻击行为构建的一步转移概率矩阵模型,将告警事件写成行列的形式,表示各个告警事件发生之间的关联度。例如0.4表示当告警事件a发生后b发生的概率为0.4。在一步转移概率矩阵 D={dij}D={dij} 中每一个元素 dijdij 表示当前时刻i到下一时刻j的条件概率为 p(i|j)p(i|j)。因为马尔可夫链的性质要求各个状态的转移概率之和必须为1,这样就得到了一个个独立的因果知识矩阵。假如当遍历一个告警序列时,出现了新的告警事件类型,这时只要在矩阵中再加入新的一行 (ai+1)(ai+1) 一列 (aj+1)(aj+1),这样既能确保矩阵完全包含新的攻击类型,又能快速加入新出现的告警类型,做到实时检测,动态添加,不重不漏。

Figure 2. A one-step transition probability matrix between attack types

图2. 攻击类型间的一步转移概率矩阵

图2也可以用马尔可夫链模型来表示,其中的每一个状态都代表一个攻击类型,各个状态之间的转移概率表示一个攻击转移到下一个攻击的条件概率。因为马尔可夫链具有无后效性,也就是说,每一个攻击的发生只与它的上一个攻击有关,与其它均无关。如图3所示,即

Figure 3. Markov chain model

图3. 马尔可夫链模型

4. 系统测试

4.1. 整体方案设计

为了实现网络安全态势的动态感知和实时的告警预测,需要对告警事件进行深入挖掘,研究告警事件之间存在的某些必然联系,进而利用它们的关联关系,分析并掌握整个网络的发展趋势,从而达到态势感知的目的 [4]。为此设计了如图4的方案整体框架:

Figure 4. Overall scheme framework

图4. 方案整体框架

利用三个模块构建对告警数据进行采集、预处理、关联分析最终到攻击场景重建。

数据采集模块:利用搭建的数据处理平台中的各个代理从不同环境采集系统日志信息、应用日志信息、安全日志信息和网络日志信息等格式未统一的数据,然后经过数据库统一整合后将这些信息递交给数据处理模块。

数据处理模块:由于从数据采集模块获得的安全事件格式是不一致的,而且它们往往存在重复冗余、误报率高、分散独立、价值密度低等问题。利用数据处理模块中已有的告警数据库比对,首先对这些数据进行预处理,合并在同一时刻重复的信息,去除误报信息,将针对同一属性的信息进行聚类融合,并统一格式,这个过程同时是迭代更新的,不断比对告警数据,不断增加新的告警信息 [5]。针对每一个告警类簇进行关联分析,统计出每条攻击之间的关联度,并构建起规则知识库。

攻击场景重建模块:再根据得到的具有关联规则的安全事件,还原出攻击场景,并提交到控制中心,当接下来再得到安全事件时,可直接与规则知识库进行匹配,来判断攻击类型。供决策者进行下一步处理。

4.2. 方案实现

测试采用的是DARPA2000的攻击场景测评数据集LLDOS1.0来进行因果关联分析的。DARPA2000是当下最具权威性的入侵检测攻击场景测评数据集,并被广泛用于验证针对各类告警事件的关联规则的有效性中。

DARPA2000是一个DDOS攻击的测评数据集,具体的攻击过程可以分为五个阶段,如图5所示:预探测网络环境,也就是初步探测是否具备攻击条件,漏洞扫描,通过扫描获得多个可以实施攻击的漏洞,root权限获取,安装木马软件以及实施远程DDOS攻击。

Figure 5. DDOS Attack process based on sadmind vulnerability

图5. 根据Sadmind漏洞进行的DDOS攻击流程

首先针对这五个阶段的告警事件进行基于地址相关性的聚类,从而得到了6个类簇: A1~A6A1~A6 然后再利用基于马尔可夫性质的因果关联知识挖掘算法对得到的6个告警类簇进行因果知识挖掘。得到同一类簇中各告警之间的关联度,如表2所示 [6]。

Table 2. The attack step is related to the corresponding alarm

表2. 攻击步骤对对应的告警关联度

然后对各个攻击类型进行编号,如表3所示:

Table 3. Attack types and their corresponding Numbers

表3. 攻击类型及其对应编号

根据因果知识关联分析算法所得到的攻击类型之间的转移概率,再结合表2对各攻击类型的编号可以得出12种攻击类型的12 * 12转移概率矩阵 [7]。矩阵中各行和各列所对应的数值表示发生该行告警事件后发生该列告警事件的概率。例如a12 = 0.633表示当发生告警事件1 (ICMP PING)后发生告警事件2 (FTP Bad Login)和转移概率为0.633。如图6所示:

Figure 6. Based on DARPA2000 alarm type shift probability matrix

图6. 基于DARPA2000告警攻击类型转移概率矩阵

图7是对概率矩阵图形化的表示,也是一个完整的攻击场景重建。

Figure 7. Causal knowledge of markov chain models for DDOS attack scenarios

图7. DDOS攻击场景的马尔可夫链模型因果知识

根据攻击场景的重现,可以直观地展示出DDOS攻击的全过程,它主要分为了五个阶段:预探测网络环境(RPC Sadmind UDP PING)、漏洞的扫描(RPC sadmind UDP NETMGT_PROC_SERVICE CLIENT_DOMAIN overflow attempt)、利用solaris的漏洞sadmind进入系统(RSERVICES rsh root)、安装木马软件mstream DDOS (DDOS mstream Handler to client或DDOS mstream client to Handler)以及发起远程DDOS攻击(BAD-TRAFFIC Loopback traffic)。并且清楚地看到每一步攻击之间的转移概率为:a46 = 0.257、a68 = 0.260、a89 = 0.500或a810 = 0.250以及a11,12 = 0.143。也可以发现,攻击者在采取关键攻击的同时,也会尝试采取一些其他的攻击活动。

5. 结束语

本课题主要研究了基于机器学习的网络安全态势感知技术,以机器学习方法作为主要手段,将关联分析法和事件因果关系相结合,在构建贝叶斯网络的基础下,对数据进行去除、分类和识别等处理,然后利用马尔可夫链模型,产生概率矩阵并构建出动态规则知识库。从而达到告警预测和攻击场景重建的目的,并向决策者提供处理意见。对传统的网络安全监控进行了改进,更适用于大数据、复杂网络的环境下。

通过试验发现各个看似独立分散的告警数据之间的确存在着必然的联系,例如源IP或目的IP地址相同的告警事件就很有可能是一个攻击行为中多个步骤。利用机器学习中因果关联分析的方法在对数据从采集、挖掘、处理到分析的全过程中,可以有效地快速地挖掘告警数据之间的关联度,并建立起规则知识库,从而达到针对现有的告警事件推测出下一步具有大概率发生的攻击的可能性,也能够对已发生的攻击进行场景还原,得到可视化的转移图,更加直观地为决策者提供支持。测试结果表明:

1) 一个攻击行为的确是分为多步实施的;

2) 具有地址相关性的告警事件的确存在必然联系;

3) 针对告警事件关联度预测可能发生的攻击是有效,可靠的;

4) 基于马尔可夫性质的告警关联规则能够更好地满足攻击种类不断更新的现状;

5) 因果知识库的动态建立提高了效率,更加适应于大数据环境下;

6) 对攻击类型一步转移矩阵的图形化表示,更加直观,清晰,有利于对网络态势的整体掌握。

关注微信公众号:人工智能技术与咨询。了解更多咨询!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481695.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

「Python」为什么Python里面,整除的结果会是小数?

原文:https://www.cnblogs.com/bEngi1/p/9155297.html  ‘//’明明是整除,为什么结果不是整数,而会出现小数? 首先,关于除法有三种概念:传统除法、精确除法和地板除 1 2 3 4 5 6 7 #1、传统除法&#x…

《Nature》创新技术发现环境变化影响活细胞的RNA形状

来源:生物通通过创新技术,揭示了环境条件对活细胞中RNA动态结构的影响。这项研究是Dame Caroline Dean FRS教授和Yiliang Ding博士团队合作的结果,增加了我们对细胞水平对环境信号的反应的理解。这增加了我们利用这些知识来微调作物或开发基于…

C/C++预处理指令#define,#ifdef,#ifndef,#endif…

原文https://www.cnblogs.com/zi-xing/p/4550246.html 管理 C/C预处理指令#define,#ifdef,#ifndef,#endif… 本文主要记录了C/C预处理指令,常见的预处理指令如下: #空指令,无任何效果 #include包含一个源代码文件 #define定义宏 #undef取消…

面向制造领域人机物三元数据融合的本体自动化构建方法

面向制造领域人机物三元数据融合的本体自动化构建方法 人工智能技术与咨询 点击蓝字 关注我们 摘要 当前,智能制造面临的许多问题都具有不确定性和复杂性,单纯地利用专家经验和机理模型难以有效解决.鉴于此,面向跨层跨域的复杂制造系统网络化协同控制机制,提出一种基于本…

“中国脑计划”:向最后的前沿进发

来源:神经科技编辑:Yezi审阅:mingzlee7大脑是人类智慧的集结,是已知宇宙当中最复杂的产物,但我们对大脑认知却很晚,比如我们常说心想事成、心外无物,在很长的历史时期当中,我们都以为…

基于人机协作的无人集群搜索方法研究

基于人机协作的无人集群搜索方法研究 人工智能技术与咨询 点击蓝字 关注我们 关键词: 无人集群 ; 人机协作 ; 动态规划 ; 多Agent系统 摘要: 人与机器人交互是当前一项研究热点,人与无人集群协作搜索是人机交互的典型场景,通过结…

chatbot1_2 RNN简单实现

chatbot1.2 如何处理多义词的embedding? 每个意思一个向量,多方叠加。在某个切面与其相同意思的向量相近 如何识别和学习词组的向量? 多次出现在一起,认为是词组 如何处理未曾见过的新词? 语境平均,语…

DeepMind创始人Demis Hassabis:AI 的强大,超乎我们的想象

来源:微信公众号“雷锋网”撰文:黄楠、王玥编辑:陈彩娴有人认为 AI 已经穷途末路,但一些绝顶聪明的人还在继续求索。近日,DeepMind 的创始人 Demis Hassabis 作客 Lex Fridman 的播客节目,谈了许多有趣的观…

组网雷达融合处理组件化设计与仿真

人工智能技术与咨询 点击蓝色 关注我们 关键词: 组网雷达 ; 点迹融合 ; 航迹融合 ; 组件化设计 ; 仿真 摘要 数据融合处理是多雷达组网的核心。以典型防空雷达网为参考对象,采用组件化设计方式,将组网数据融合处理过程划分为不同的组件&…

chatbot2 RNN语言模型

基于RNN的语言模型 RNN语言模型理论基础 参考文献 cbow/skip gram 的局限性#### 解决方案 rnn模型细节 数学表示 一个输入一个输出的不是循环神经网络。 RNN语言模型实践 demo1 1A. 优化上一节课的RNN模型 在第一个版本里面,我们将上一节课的代码包装为Class&…

脑机接口:人工智能下一站?

来源:《光明日报》 作者:杨义先、钮心忻,北京邮电大学教授 随着人工智能的发展,脑机接口也逐渐从科幻走进现实。有人希望以此造就“超人”,更多的人则希望能够解决实际问题——让盲人复明、让瘫痪在床的患者重新走路…

仅活了 5 年!谷歌官宣停掉 IoT Core 服务:“现有连接将被关闭”

来源:AI前线整理:冬梅谷歌云 IoT Core 服务推出 5 年后“退役”近日,据外媒报道,谷歌宣布自 2023 年 8 月起,将关闭其物联网(IoT Core)服务,此次官宣 IoT Core 的退役,也…

tensorflow1、2会话、变量、feed、fetch、最小二乘法

第一节课 tensorboard–可以查看训练效果 安装ananconda(略) tensorflow简介 tensorflow结构 是个数据流动的趋势, graph1:默认图 graph2:W*xb->ReLU 2-1 基本计算-会话的使用 import tensorflow as tf # 创建一个常量op,1*…

《Nature》十年努力,“合成”胚胎与大脑和跳动的心脏

来源:生物通研究人员已经用小鼠干细胞创造出了模型胚胎,这些干细胞形成了大脑、跳动的心脏和身体所有其他器官的基础——这是重建生命第一阶段的新途径。小鼠胚胎的小脑由Magdalena Zernicka-Goetz教授领导的研究小组在没有卵子或精子的情况下开发了胚胎…

tensorflow3 非线性回归、mnist、简单神经网络

mnist数据集 手写数字的数据集。60000行训练数据集,10000行测试数据集下载地址:http://yann.lecun.com/exdb/mnist/index.html mnist数据集是形状为[60000,784]的张量,60000张图片,每个图片有784个像素点,这些个像素点…

【院士思维】张钹:我们正处在AI算法不可控的危险状态

来源:清华大学人工智能国际治理研究院8月19日,2022世界机器人大会主论坛正式开幕,期间,有三位院士到场,就“未来机器人:目标、路径和挑战”的主题进行了一场深刻的谈话。三位院士分别为中国科学院院士&…

tensorflow4 代价函数、dropout、优化器

这次扔使用上次的mnist数据集分类的简单版本程序,使用不同的代价函数做计算 二次代价函数 激活函数 使用二次代价函数的运行结果 # 使用二次代价函数的结果-精度 # losstf.reduce_mean(tf.square(y-prediction)) # 0.8322 # 0.8698 # 0.8818 # 0.8882 # 0.8935 #…

强化学习先驱Richard Sutton:将开发新型计算智能体

来源:机器之心编辑:陈萍、小舟DeepMind 和阿尔伯塔大学联合成立的人工智能实验室未来几年要研究什么?2017 年,DeepMind 在加拿大的 Edmonton 成立了其首个英国之外的人工智能研究实验室,并和阿尔伯塔大学大学紧密合作&…

不隐身的“隐身战斗机”

7月19日,韩国KF-21战斗机原型机完成首飞,韩国国防部将该机定位为4代半战斗机。凭借该机,韩国将成为第9个能够研制超音速战斗机的国家。 所谓4代半战斗机,即部分采用隐身技术,同时无法完全达到5代机性能标准的战斗机。…

国科大高级人工智能笔记1-搜索

1.搜索问题 搜索问题——对原问题的建模 构成: 状态空间 包含环境中每一个细节搜索状态:只保留行动需要的细节 后继函数 行动,消耗 初始状态和目标测试 解: 一个行动序列,将初始状态–>目标状态 表示 状态空间图 搜…