Imbalanced class problem(ROC, Confusion Matrix)

1 何为 Imbalanced class problem

在分类问题中,有时候一种类别的数据会远远的多于另外一种类别,

但正是这些少量的类别的数据,往往又是极其重要的。

比如信用卡欺诈事件,该事件远远地小于信用卡未被欺诈的事件。

要从信用卡操作的数据中,识别出欺诈这一类别的事件,比例极其小,但确是及其重要的。

在大量的操作数据中找到欺诈事件,犹如大海捞针。

这个时候如果继续使用精度来评估分类器就不准确了。

因为即使把所有的信用卡操作数据,都判断为未欺诈类别,

其正确率也可以达到99.999......%,这种分类器明显是无用的。

针对Imbalanced class problem, 研究者提出了许多其它的参数来评估模型。

 

2 Confusion Matrix

2.1 相关概念

在Confusion Matrix中,

    

由Confusion Matrix 定义一些参数:

2.2 计算实例

实例中的分类器,虽然正确率达到了99.1%,但是Recall参数只有0.1, 对于class=Yes 类别的预测,

正确率只有10%,非常低。

2.3 分类问题的拓展参数

还是类似的的confusion matrix


 

3 ROC(Receiver Operating Characteristic)

ROC 发展于20世纪50年代的信号检测理论, 用于显示检测率和误报警率之间的权衡。

ROC曲线显示TPR与FPR的关系,用ROC曲线上的一个点表示模型的性能,

改变分类器的阈值参数会改变点的位置

(TPR,FPR)

  • (0,0):把所有数据判别为负类;
  • (1,1):把所有数据判别为正类;
  • (1,0):理想情况

对角线是一条假想线,低于该线表示于正确的类别相反。

 

4 基于ROC的模型比较

没有一种模型总是好于另一种

上图中,对于小的FPR值,M1 更好

对于大的FPR值,M12更好

 

5 如何构建一个ROC曲线

  • 为每个实例,使用分类器产生一个连续值的分数,该实例在+ class 的可能性越高,得分越高
  • 根据分数,按照降序排列实例
  • 应用一个阈值在每个独特价分数值
  • 在每个阈值计算TPFP, TN, FN的数量,

TPR = TP / (TP + FN)

FPR= FP / (FP + TN)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/492151.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

浅谈 EHT 黑洞照片拍摄原理

来源:东晓科学网博客前几天,EHT (Event Horizon Telescope)(事件水平线望远镜)研究团队发布重大新闻,公布了人类首次拍到的黑洞“照片“”,同时公布了7篇由200多名科学家署名的相关论文。所谓黑…

积分图像(Integral image)

1 问题起源 给定一幅灰度图像,其灰度值如下图所示, 要计算图中深色区域的所有像素点的灰度值之和。 最直接,简单的方法就是将这9个像素值直接相加。 如果深色区域扩大,里面包含成千上万个像素,这种算法的时间复杂度…

vue3(七)-基础入门之事件总线与动态组件

一、事件总线 事件总线使用场景&#xff1a; 两个兄弟组件之间的传参&#xff0c;或者两个没有关联的组件之间的传参 html &#xff1a;引入 publicmsg 与 acceptmsg 自定义组件 (自定义组件名称必须小写) <body><div id"app"><publicmsg></…

机器学习竞争其实是一场数据上的竞争

来源&#xff1a;网络大数据摘要&#xff1a;人工智能的三大发展要素已经是老生常谈了。算法、算力和数据对机器学习的重要性和声望不亚于“谦哥”的喝酒、烫头和抽烟。那些热衷竞争实施机器学习的公司现在惊讶地发现&#xff0c;其实&#xff0c;实施一些算法使机器变得对某一…

实验五 — — Java网络编程及安全

java的第五个实验——Java网络编程及安全 北京电子科技学院 实 验 报 告 课程&#xff1a;Java程序设计  班级&#xff1a;1352  姓名&#xff1a;林涵锦  学号&#xff1a;20135213 成绩&#xff1a; 指导教师&#xff1a;娄嘉鹏    实验日期&…

Viola-Jones人脸检测详解

在人脸检测中&#xff0c;Viola-Jones算法是一种非常经典的算法&#xff0c;该算法在2001年的CVPR上提出&#xff0c;因其高效快速的检测而被广泛使用。 这个算法用来检测正面的人脸图像&#xff0c;对于侧脸图像的检测不是很稳健。 算法可以被分为以下几个部分&#xff1a; …

中国的高铁世界第一,为何汽车却和德国、日本差距很大?

来源&#xff1a;中国经济大讲堂摘要&#xff1a;靠引进技术发展&#xff0c;可以换来制造技术&#xff0c;建成一定规模、一定水平的体系。但我们在抓住机遇、引进技术发展的同时&#xff0c;或者发展的后期&#xff0c;等我们有了市场&#xff0c;有了钱之后&#xff0c;应该…

硬核干货|揭示波士顿动力机器人背后的专利技术(上)

来源&#xff1a;超凡知识产权&#xff0c;机器人大讲堂整理发布摘要&#xff1a;如果说在腿足机器人领域里&#xff0c;有一个让人闻之色变的变态企业&#xff0c;那就非波士顿动力莫属了。深耕几十年的技术积累加上“不谙世事”的科研态度&#xff0c;使得BD一直保持在腿足机…

(Python+Tensorflow)编程踩坑集锦

(PythonTensorflow)编程踩坑集锦 1 开发环境安装 推荐视频&#xff1a;https://www.icourse163.org/learn/PKU-1002536002?tid1452937471#/learn/content?typedetail&id1229556595&cid1246770451&replaytrue 1.1 Tensorflow2安装过程&#xff08;Win10平台&am…

复盘亚马逊从优秀到卓越的24年

来源&#xff1a;方证证券4月18日&#xff0c;据报道&#xff0c;亚马逊公司计划在今年7月中旬关闭其在中国的本土电商业务&#xff0c;将业务重点转移至更有盈利空间的海外购和云服务上。对此&#xff0c;亚马逊方面4月18日回应澎湃新闻记者称&#xff0c;“明确的是&#xff…

深度!移动机器人(AGV)产业链全分析

来源&#xff1a;广证恒生、乐晴智库精选产业链&#xff1a;下游需要求旺盛带动下游产业链发展 移动机器人(AGV)是工业机器人的一种。它由计算机控制&#xff0c;具有移动、自动导航、多传感器控制、网络交互等功能&#xff0c;在实际生产中最主要的用途是搬运&#xff0c;可以…

英国前首相:为什么欧洲没有诞生互联网巨头?

David William Donald Cameron&#xff08;戴维威廉唐纳德卡梅伦&#xff09;见面会现场来源&#xff1a;世界科技创新论坛英国当地时间2019年4月12日&#xff0c;世界科技创新论坛伦敦峰会成功举行&#xff0c;本次峰会特别邀请了出身牛津大学、英国近两百年历史上最年轻的首相…

IIS解决 上传文件大小限制

目的&#xff1a;通过配置文件和IIS来解决服务器对上传文件大小的限制 1&#xff1a;修改配置文件&#xff08;默认为4M 值的大小根据自己情况进行修改&#xff09; <httpRuntime maxRequestLength"2048000" /> 2&#xff1a;修改IIS配置 打开C:\Windows\Syst…

脑内世界模型:脑科学基础上的意识问题哲学解说

来源&#xff1a;《华侨大学学报》哲学社会科学版2018年第5期作者&#xff1a;方圆&#xff08;中国科学院大学人文学院博士后研究人员&#xff09;本文旨在以当今时代脑科学研究结论为基础&#xff0c;在哲学层面回答“意识是什么”这一问题&#xff0c;并试图给出一种在科学与…

直击5G的机遇与挑战,全新商业模式、规模化经济效益、最新技术进展…全解读...

来源&#xff1a;TechRepublic、物联网智库编译摘要&#xff1a;报告指出&#xff0c;5G将改善用户体验&#xff0c;带来新的应用以及新的商业模式&#xff0c;产生显著的经济效益&#xff0c;但同时&#xff0c;5G的发展也面临着许多不可避免的挑战。毫无疑问&#xff0c;5G是…

simulink仿真学习(实现半波整流、方波输出) day1

** simulink仿真学习常用模块及具体案例实现&#xff08;第一天&#xff09; ** simulink简介 Simulink是美国Mathworks公司推出的MATLAB中的一种可视化仿真工具。Simulink是一个模块图环境&#xff0c;用于多域仿真以及基于模型的设计。它支持系统设计、仿真、自动代码生成…

深度报告解密华为汽车业务!布局三大领域,对标世界级Tier1

来源&#xff1a;智东西摘要&#xff1a;华为进军汽车电子领域&#xff0c;定位世界级Tier1供应商。汽车电子产业链 Tier1 系统集成厂商目前处于国际寡头垄断的市场格局&#xff0c;全球前十大汽车电子供应商拥有 70%市场占有率。即使国内市场也被博世、大陆、电装等国际 Tier1…

simulink仿真学习(关系运算及逻辑模块、离散时间积分模块)day2

1.关系运算模块&#xff08;应用实例&#xff09; 关系运算分为单目运算和双目运算&#xff0c;单目运算左侧输入为一个变量&#xff0c;双目运算左侧输入为两个变量。输出可能逻辑真或逻辑假。其中&#xff0c;逻辑真为1&#xff0c;逻辑假为0。 下图为双目关系运算的逻辑关…

保研之旅(中科院空天院、武汉大学、华南理工大学、 北京理工大学、中科院国家空间科学中心)

保研之旅&#xff08;总结过往&#xff0c;启程未来&#xff09;目录个人背景5月 中科院空天信息创新研究院信息方向7月 武汉大学测绘遥感信息工程国家重点实验室7月 北京理工大学雷抗所7月 华南理工大学电子信息学院7月中科院国家空间科学中心往年去向最后结语目录 个人背景 …

这5家纳米技术公司正在推动医疗检测的变革

来源&#xff1a;资本实验室纳米技术自发明已来&#xff0c;已经在多个领域得到应用。特别是在医疗领域&#xff0c;纳米医学已经成为现代医疗的一个重要发展方向。目前&#xff0c;纳米技术已经成功地用于各种疾病的检测与治疗&#xff0c;美国FDA也已经批准了超过60种含有纳米…