[机器学习笔记]Note13--异常检测

继续是机器学习课程的笔记,本节课内容是异常检测,它是一个非监督学习算法,用于发现可能不应该属于一个已定义的组中的数据。

密度估计

首先是给出一个例子,如下图所示,是一个测试飞机引擎的例子,给定数据集{x(1),x(2),,x(m)},假设数据集是正确的,我们希望知道新的数据xtest是不是异常的,即这个测试数据不属于该组数据的几率如何。我们所构建的模型应该能根据该测试数据的位置告诉我们其属于一组数据的可能性p(x)

这里写图片描述

在上图中,在蓝色圈内的数据属于该组数据的可能性较高,而越是偏远的数据,其属于该组数据的可能性就越低。

这种方法称为密度估计,表达如下:

ifp(x){ϵanomaly>ϵnormal

异常检测主要用来识别欺骗。

例如,在线采集而来的有关用户的数据,一个特征向量中可能会包含如:用户多久登陆一次,访问过的页面,在论坛发布的帖子数量,甚至是打字速度等。尝试根据这些特征构建一个模型,可以用这个模型来识别那些不符合该模式的用户。

再一个例子是检测一个数据中心,特征可能包含:内存使用情况,被访问的磁盘数量,CPU的负载,网络的通信量等。根据这些特征可以构建一个模型,用来判断某些计算机是否有可能出错了。

高斯分布

接下来回顾下高斯分布的基本知识。

通常如果我们认为变量x符合高斯分布,即xN(μ,σ2),则其概率密度函数为:

p(x,μ,σ2)=1(2π)σexp((xμ)22σ2)

下图是μσ2取不同值时,高斯分布的曲线图例子:

这里写图片描述

我们可以利用已有的数据来预测总体中的μσ2,计算方法如下:

μ=1mi=1mx(i)σ2=1mi=1m(x(i)μ)2

注意,机器学习中对于方程,我们通常只除以m而非统计学中的(m-1)。

异常检测算法

这里将使用高斯分布来开发异常检测算法。

对于给定数据集{x(1),x(2),,x(m)},我们要选择一个认为可以找出异常例子的特征xi,然后计算其μσ2的估计值。

μj=1mi=1mx(i)σ2j=1mi=1m(x(i)jμj)2

一旦获得了μσ2的估计值,给定新的一个训练实例,根据模型计算p(x):

p(x)=j=1np(xj;μj,σ2j)=j=1n1(2π)σjexp((xjμj)22σ2j)

然后设置一个阈值ϵ,当p(x)<ϵ时,可以认为该测试数据是一个异常数据。

下图是一个有两个特征的训练集,以及特征的分布情况:

这里写图片描述

下面的三维图表示的是密度估计函数,z轴为根据两个特征的值所估计的p(x)值:

这里写图片描述

我们选择一个ϵ,将p(x)=ϵ作为我们的判定边界,当p(x)>ϵ时预测数据为正常数据,否则就是异常数据。

评价一个异常检测系统

接下来是介绍如何评价一个异常检测系统。

异常检测算法是一个非监督学习算法,意味着我们无法根据结果变量y的值来告诉我们数据是否真的是异常的。我们需要另一种方法来帮助检验算法是否有效。

当我们开发一个异常检测系统时,我们从带标记(异常或者正常)的数据着手,从其中选择一部分正常数据用于构建训练集,然后用剩下的正常数据和异常数据混合的数据构成交叉验证集和测试集。

例如,我们有10000台正常引擎的数据,20台异常引擎的数据。我们可以这样分配数据:

  • 6000台正常引擎的数据作为训练集
  • 2000台正常引擎和10台异常引擎的数据作为交叉验证集
  • 2000台正常引擎和10台异常引擎的数据作为测试集

具体的评价方法如下:

  1. 根据测试集数据,我们估计特征的平均值和方差并构建p(x)函数
  2. 对交叉验证集,尝试使用不同的ϵ值作为阈值,并预测数据是否异常,根据F1值或者查准率与查全率的比例来选择ϵ
  3. 选出ϵ后,针对测试集进行预测,计算异常检验系统的F1值或者查准率与查全率之比。

异常检测与监督学习之比

上一小节在评估异常检测算法的时候,是使用带有标记的数据,这与监督学习有些相似,两者的对比如下所示。

异常检测监督学习
非常少量的正向类(异常数据 y=1),大量的负向类(y=0)同时有大量的正向类和负向类
许多不同种类的异常,非常难根据非常少量的正向类数据来训练算法有足够多的正向类,足够用于训练算法
未来遇到的异常可能与已掌握的异常非常的不同未来遇到的正向类实例可能与训练集中国的非常相似
使用的例子,有如欺诈行为检测,生产(如飞机引擎),检测数据中心的计算机运行状况。使用的例子,如邮件过滤器,天气预报,肿瘤分类

选择特征

对于异常检测算法,使用的特征是至关重要的,下面将介绍如何选择特征。

异常检测假设特征符合高斯分布,如果数据的分布不是高斯分布,异常检测算法也能够工作,但最好还是将数据转换成高斯分布。例如使用对数函数x=log(x+c),其中c为非负尝试;或者x=xc,c是0-1之间的一个小数,等方法。如下图是一个使用对数函数进行转换成高斯分布的例子。

这里写图片描述

对于如何选择特征,可以借助误差分析。我们希望的是对于正常数据可以得到大的p(x),而异常数据是得到小的p(x)值。

但一个常见的问题是一些异常的数据也会有较高的p(x)值,因而被认为是正常的。

这种情况下误差分析能够帮助我们,我们可以分析那些被算法错误预测为正常的数据,观察能否找出一些问题。我们可能能从问题中发现我们需要增加一些新的特征,增加这些特征后获得的新算法能够帮助我们更好地进行异常检测。

我们通常可以通过将一些相关的特征进行组合,来获得一些新的更好的特征(异常数据的该特征值异常地大或小)

例如在检测数据中心的计算机状况的例子中,我们可以用CPU负载与网络通信量的比例作为一个新的特征,如果该值异常地大便有可能意味着该服务器是陷入了一些问题中。

多元高斯分布

假设有两个相关的特征,而且这两个特征的值域范围比较宽,这种情况下,一般的高斯分布模型可能不能很好地识别异常数据。其原因在于,一般的高斯分布模型尝试的是去同时抓住两个特征的偏差,因此创造出一个比较大的判定边界。

下图是两个相关特征,红色的线(根据ϵ的不同,范围也可大可小)是一般的高斯分布模型获得的判断边界,很明显绿色的X所代表的数据点可能是异常值,但是其p(x)值却仍然在正常范围内。多元高斯分布将创建像图中蓝色曲线所示的判断边界。

这里写图片描述

在一般的高斯分布模型中,计算p(x)的方法如下:

p(x)=j=1np(xj;μj,σ2j)=j=1n1(2π)σjexp((xjμj)22σ2j)

通过分别计算每个特征对应的几率,然后将其累乘起来,在多元高斯分布模型中,我们将构建特征的协方差矩阵,用所有的特征一起计算p(x)

首先计算所有特征的平均值:μ=1mmi=1x(i);

其次,计算协方差矩阵:=1mmi=1(x(i)μ)(x(i)μ)T=1m(Xμ)T(Xμ)

注意,其中μ是一个向量,其每一个单元都是原特征矩阵中一行数据的的均值。

最后计算多元高斯分布的p(x)=1(2π)n2||12exp(12(xμ)T1(xμ))

其中:

  • ||是定矩阵,在Octave中用det(sigma)计算
  • 1是逆矩阵

下面看看协方差矩阵是如何影响模型的:

这里写图片描述

上图是5个不同的模型,从左往右依次分析:

  1. 是一个一般的高斯分布模型
  2. 通过协方差矩阵,令特征1有较小的偏差,同时保持特征2的偏差
  3. 通过协方差矩阵,令特征2有较大的偏差,同时保持特征1的偏差
  4. 通过协方差矩阵,在不改变两个特征的原有偏差的基础上,增加两者之间的正相关性
  5. 通过协方差矩阵,在不改变两个特征的原有偏差的基础上,增加两者之间的负相关性

多元高斯分布模型与原高斯分布模型的关系:

可以证明的是,原本的高斯分布模型是多元高斯分布模型的一个子集,即像上图中的第1,2,3个例子,3个例子所示,如果协方差矩阵只在对角线的单位上有非零的值时,即为原本的高斯分布模型了。

原高斯分布模型与多元高斯模型比较如下:

原高斯分布模型多元高斯分布模型
不能捕捉特征之间的相关性但可以通过将特征进行组合的方法来解决自动捕捉特征之间的相关性
计算代价低,能适应大规模的特征计算代价较高
训练集较小时也同样适用必须要有m>n,不然的话协方差矩阵是不可逆的,通常需要m>10n,另外特征冗余也会导致协方差矩阵不可逆

原高斯分布模型被广泛使用着,如果特征之间在某种程度上存在相互关联的情况,我们可以通过构造新特征的方法来捕捉这些相关性。

如果训练集不是太大,并且没有太多的特征,我们可以使用多元高斯分布模型。

小结

本节内容,主要是介绍异常检测算法,其实现的具体细节以及应用的一些场景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/409046.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[机器学习笔记]Note14--推荐系统

继续是机器学习课程的笔记&#xff0c;本节课将介绍推荐系统的内容。 问题形式化 推荐系统是机器学习的一个非常重要的应用&#xff0c;在很多音乐、购物等网站都有推荐系统&#xff0c;如豆瓣&#xff0c;淘宝&#xff0c;网易云音乐等都是有使用到推荐系统的&#xff0c;因…

[机器学习笔记]Note15--大规模机器学习

继续是机器学习课程的笔记&#xff0c;本节内容主要是介绍大规模机器学习的内容。 大型数据集的学习 对于一个过拟合的模型&#xff0c;增加数据集的规模可以帮助避免过拟合&#xff0c;并获得一个更好的结果。 但是对于一个大规模的数据&#xff0c;比如有100万个数据量的训…

[机器学习笔记]Note16--应用示例:图像文字识别

继续是机器学习课程的笔记&#xff0c;本节课是最后一节内容了&#xff0c;主要是介绍一个应该–图中文字的识别。 问题描述和流程图 图像文字识别应用就是从给定的图片中识别文字。这比从一份扫描文档中识别文字要复杂得多。一个例子图片如下所示&#xff1a; 为了完成这样的…

python小老鼠编程_邯郸pythonnot学习费用多少

邯郸pythonnot学习费用多少更新时间&#xff1a;2020-08-02 12:49:04注意&#xff1a;如果出现错误&#xff0c;可能是因为安装时未勾选AddPython3.5toPATH选项&#xff0c;此时卸载Python后重新安装时勾选AddPython3.5toPATH选项即可。1.2Mac中安装Python3Mac系统中自带了Pyth…

论文阅读(2)--Picking Deep Filter Responses for Fine-grained Image Recognition

这次阅读的文章是Picking Deep Filter Responses for Fine-grained Image Recognition&#xff0c;这篇文章是来自上海交通大学Xiaopeng Zhang等人的工作&#xff0c;该文章提出了一种对深度网络中的filter进行挑选的方法&#xff0c;基于挑选的filter的结果构建复杂特征表达。…

论文阅读(3)--SPDA-CNN: Unifying Semantic Part Detection and Abstraction for Fine-grained Recognition

这篇文章是来自罗格斯大学的Han Zhang等人的工作。由题目可知与上一篇文章一样&#xff0c;本文的作者也关注到了富有语义的局部(利用Part&#xff0c;Part&#xff0c;Part&#xff0c;重要事情强调三遍)&#xff0c;作者不满足于CUB-2011数据库提供的head和body的定位结果&am…

论文阅读(4)--Part-Stacked CNN for Fine-Grained Visual Categorization

这篇文章是来自悉尼科技大学Shaoli Huang等人的工作&#xff0c;与前两篇文章的出发点类似&#xff0c;本篇文章也是在Parts上寻找Fine-Grained的线索&#xff0c;但与前两篇文章相比&#xff0c;在框架中人工的参与更少。同其它Fine-Grained分类任务相似&#xff0c;这篇文章也…

仙元天下试玩感受

仙元天下是安讯网洛旗下的游戏&#xff0c;在官网注册账号的时候就遇到了问题&#xff0c;注册页面无法打开&#xff0c;服务器网址错误&#xff0c;只有返回到官网首页进行快捷注册。 画面2D&#xff0c;有自动打怪&#xff0c;画面感一般&#xff0c;反应比较迟钝&#xff0c…