如何开发一个异常检测系统:异常检测 vs 监督学习

异常检测算法先是将一些正常的样本做为无标签样本来学习模型p(x),即评估参数,然后用学习到的模型在交叉验证集上通过F1值来选择表现最好的ε的值,然后在测试集上进行算法的评估。这儿用到了带有标签的数据,那么为什么不直接用监督学习对y=1和y=0的数据进行学习呢?而是要用到异常检测算法(先对无标签数据进行建模(当成无标签数据,其实都是正常的样本))。

异常检测与监督学习有哪些区别?

 

异常检测系统中一般正例样本(即异常的样本)很少(一般0-20个或者50个,50也是很常见的),这些异常样本用于交叉验证集与测试集中;负例样本(即正常的样本)数量很大,这些正常的样本用于拟合p(x),用于拟合参数u和σ2.

监督学习中,正例样本与负例样本都一样多。

对于异常检测算法通常有多种不同种类的异常,如引起飞机引擎故障的原因有很多种,你的正例样本较少里面可能只包含了5种、10种原因,如果我们根据这些有问题的样本来建立了一个学习模型,来了一个新的有问题的样本,故障的原因不在里面,我们就很难预测出这个是否是异常的飞机引擎,因为我们从来没有见过。

如果我们有大量的正例样本,这样就可以使用监督学习构建学习算法(学习大量的正样本与负样本),这样来了一个正例样本我们就可以通过看是否与训练集中的相似来判断

关键的区别:在异常检测算法中,我们只有少量的正样本(异常情况),因此学习算法不可能从这些正样本中学到太多东西,故我们会使用大量的负样本(正常情况),从这些负样本中学习p(x),同时我们会使用那部分少量的正样本(异常情况)来评估我们的算法(用于交叉验证集与测试集).

在垃圾邮件问题中,虽然垃圾邮件的种类会非常多(如购物邮件,钓鱼邮件等),但是因为我们有很多这些垃圾邮件的样本,我们可以从这些邮件中学习到垃圾邮件识别算法,因此我们一般会使用监督学习来进行垃圾邮件的识别。

异常检测与监督学习的一些应用

 

通常欺诈检测使用的是异常检测,但是如果你有大量的用户欺诈的数据,也可以使用监督学习。

在工业生产中,我们一般希望出现问题的产品很少,这时使用异常检测,如果出现问题的产品很多时,我们也可以转化为监督学习来进行学习。

总结

1>正样本(有问题的样本、异常样本)的数量很少时,使用异常检测系统

转载于:https://www.cnblogs.com/yan2015/p/7404921.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/428864.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

浙江省高等学校计算机等级考试有什么用,06秋年秋浙江省高等学校计算机等级考试试卷(三级数据库技术及应用)...

2006年秋浙江省高等学校(三级网络技术)试题1判断题用√和表示对和错(每小题1分,共10分)1.WWW是基于客户机和超文本技术建立的,其工作方式是客户机/服务器模式。T(1)2.计算机网络中信息的传输速率的单位是帧/秒。F(2)3.…

7-6 列出连通集 (25 分)(C语言实现)

给定一个有N个顶点和E条边的无向图&#xff0c;请用DFS和BFS分别列出其所有的连通集。假设顶点从0到N−1编号。进行搜索时&#xff0c;假设我们总是从编号最小的顶点出发&#xff0c;按编号递增的顺序访问邻接点。 输入格式: 输入第1行给出2个整数N(0<N≤10)和E&#xff0c…

KVM--安装及初步使用

KVM是Kernel-based Virtual Machine的简称,是一个开源的虚拟化模块,今天我将在CentOS7的操作系统上安装KVM,以下是我的安装步骤. 一.环境信息 系统: CentOS 7.2 IP: 10.0.0.12/24 在虚拟机安装时,需要启用CPU的虚拟化功能 二. KVM安装步骤 1. 安装qemu-kvm和libvirt [rootkvm-…

微机化远动系统与计算机网络,远动技术教案_第3章_微机监控系统数据通信网络结构及原理.pdf...

Generated by Foxit PDF Creator © Foxit SoftwareFor evaluation only.第三章数据通信网络结构及原理远动监控系统信息传输及网络通信技术主讲&#xff1a;申惠华东交通大学电气与电子工程学院Generated by Foxit PDF Creator © Foxit SoftwareFor evaluation only.…

7-9 六度空间 (30 分)(C语言实现)

“六度空间”理论又称作“六度分隔&#xff08;Six Degrees of Separation&#xff09;”理论。这个理论可以通俗地阐述为&#xff1a;“你和任何一个陌生人之间所间隔的人不会超过六个&#xff0c;也就是说&#xff0c;最多通过五个人你就能够认识任何一个陌生人。”如图1所示…

中南大学和中山大学计算机专业哪个好,中山大学和中南大学哪个实力更强?一字之差,一起来看看吧!...

原标题&#xff1a;中山大学和中南大学哪个实力更强&#xff1f;一字之差&#xff0c;一起来看看吧&#xff01;我国好大学有很多&#xff0c;但是各大学之间的实力参差不齐&#xff0c;就算是985也有很大区别&#xff0c;今天我们就谈一谈两个名字&#xff0c;比较相似的&…

在latex或者mathtype中如何输入花体,如拉式量L

这个问题困扰我很久&#xff0c;知道我找到这个答案&#xff1a;把 \mathcal{L}直接黏贴到mathtype的编辑框中就可以产生花体L了转载于:https://www.cnblogs.com/www-caiyin-com/p/7410050.html

7-3 旅游规划 (25 分)(C语言实现)

有了一张自驾旅游路线图&#xff0c;你会知道城市间的高速公路长度、以及该公路要收取的过路费。现在需要你写一个程序&#xff0c;帮助前来咨询的游客找一条出发地和目的地之间的最短路径。如果有若干条路径都是最短的&#xff0c;那么需要输出最便宜的一条路径。 输入格式: …

计算机软件专利申请期限,软件发明专利申请期限为何那么长

一、发明专利1.适用范围发明专利申请适用范围较广&#xff0c;不但包括方法、工艺、配方、中西药、计算机软件、电子商务等技术领域&#xff0c;还可包括机械设备、机、电产品等具有立体形状和功能结构的工业品和日用品&#xff0c;但前者只能申请发明专利&#xff0c;后者还可…

Drozer快速使用指南

Drozer快速使用指南 1、简介&#xff1a; Drozer是一款用于测试android应用程序漏洞的安全评估工具&#xff0c;能够发现多种类型的安全的漏洞&#xff0c;免费版本的相关资源下载地址&#xff1a; https://www.mwrinfosecurity.com/products/drozer/community-edition/ 其中包…

7-5 公路村村通 (30 分)(C语言实现)

现有村落间道路的统计数据表中&#xff0c;列出了有可能建设成标准公路的若干条道路的成本&#xff0c;求使每个村落都有公路连通所需要的最低成本。 输入格式: 输入数据包括城镇数目正整数N&#xff08;≤1000&#xff09;和候选道路数目M&#xff08;≤3N&#xff09;&#…

银行招聘网计算机类笔试,中国人民银行计算机类笔试模拟题

银行招聘网(Yinhangzhaopin.com)温馨提示&#xff1a;凡告知“加qq联系、无需任何条件、工作地点不限”&#xff0c;收取服装费、押金、报名费等各种费用的信息均有欺诈嫌疑&#xff0c;请保持警惕。银行招聘网文章标签:银行笔试人民网络齐鲁这是我自己总结的中国人民银行计算机…

Akka(19): Stream:组合数据流,组合共用-Graph modular composition

akka-stream的Graph是一种运算方案&#xff0c;它可能代表某种简单的线性数据流图如&#xff1a;Source/Flow/Sink&#xff0c;也可能是由更基础的流图组合而成相对复杂点的某种复合流图&#xff0c;而这个复合流图本身又可以被当作组件来组合更大的Graph。因为Graph只是对数据…

7-2 地下迷宫探索 (30 分)(C语言实现)

7-2 地下迷宫探索 (30 分) 地道战是在抗日战争时期&#xff0c;在华北平原上抗日军民利用地道打击日本侵略者的作战方式。地道网是房连房、街连街、村连村的地下工事&#xff0c;如下图所示。 我们在回顾前辈们艰苦卓绝的战争生活的同时&#xff0c;真心钦佩他们的聪明才智。在…

计算机软考有学历限制吗,软考中级职称申请积分还需要学历吗?

档案学历都要审&#xff0c;而且社保基数要求大于等于社平工资&#xff0c;我也是用的职称&#xff0c;现在已经受理了&#xff0c;等审批。软考中级证书的作用1、软考中级证书可以帮助评中级职称&#xff0c;可聘任工程师职务&#xff0c;评上了职称对于升职加薪是有好处的。2…

CSS-posiziton

1. 想要实现&#xff0c;”返回顶部”永远位于页面的右下角。需要用到position函数。CSS:层叠样式表。用到了分层的功能。 position:fixed; 永远固定在一个地方。 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8">&…

7-4 哈利·波特的考试 (25 分)(C语言实现)

7-4 哈利波特的考试 (25 分) 哈利波特要考试了&#xff0c;他需要你的帮助。这门课学的是用魔咒将一种动物变成另一种动物的本事。例如将猫变成老鼠的魔咒是haha&#xff0c;将老鼠变成鱼的魔咒是hehe等等。反方向变化的魔咒就是简单地将原来的魔咒倒过来念&#xff0c;例如aha…

ubuntu下sogou突然不能用

方法一&#xff1a;重启搜狗输入法 通过下面的命令重启搜狗输入法&#xff0c;看重启后是否可以正常使用&#xff1a; ~$ killall fcitx ~$ killall sogou-qinpanel~$ fcitx转载于:https://www.cnblogs.com/gisalameda/p/7424822.html

1016 部分A+B (15 分)

1016 部分AB (15 分) 简单题。 #include<iostream> #include<string> using namespace std; int main() {int a0,b0;string str1,str2;char ch1,ch2;cin>>str1>>ch1>>str2>>ch2;int len1str1.length(),len2str2.length();for (int i0;i&l…

计算机专业的第二批本科大学,第二批本科院校

第二批本科院校篇一&#xff1a;2015年普通高校招生本科第二批投档分数线 篇二&#xff1a;2014全国二本院校排名及介绍全国二本大学排名榜(仅供参考) 名单上海二本&#xff1a;1.上海对外贸易学院(财经类院校总是最热门的&#xff0c;虽然实力一般&#xff0c;但只要将来就业好…