机器学习分类模型性能评估:应对类别不平衡的策略与指标

在机器学习的世界里,模型们就像一群努力破案的侦探,而数据就是它们的“犯罪现场”。今天,咱们的主角——一个自命不凡的分类模型,接到了一个看似简单的任务:揪出那些患有罕见疾病的患者。这听起来是不是很容易?毕竟,只要随便猜猜,就能蒙对大部分结果,轻松拿下高得吓人的准确率。

可别急,事情没那么简单!这个任务背后藏着一个巨大的陷阱,那就是数据的“偏见”——患病的人太少啦!这就像是在一个全是好人的人群里找坏蛋,要是随便抓几个好人当嫌疑人,那可就太冤枉人家了。我们的模型侦探们必须使出浑身解数,用各种聪明的指标来衡量自己的表现,才能真正找到那些隐藏在人群中的“坏蛋”。

接下来,就让我们一起看看,这些模型侦探们是怎么一步步解开这个谜团的吧!

用性能指标评估分类模型

封面图

亲爱的机器学习小伙伴们,快来看看这个有趣的情景吧:

假设你被安排去构建一个机器学习模型,用来检测医学患者是否感染了一种罕见疾病。这种疾病实在是太罕见了,患者感染的概率只有1%。你的上司希望你构建的模型能达到最高的准确率。这将是一个二分类器,以患者的信息作为输入,然后告诉你患者是否患有该疾病,我们可以将输出分别编码为1(患病)或0(未患病)。

接下来的几天,你充分发挥自己的机器学习技能,构建了一个准确率达到85%的模型。干得漂亮!

然而,你的快乐并没有持续太久,因为你的上司告诉你,团队里的另一个成员只花了大约10分钟就构建了一个更简单的模型,轻松实现了99%的准确率。

啥?!这是咋回事呢?难道那个团队成员是个超级天才,还是公司给的指令有问题,或者我不是自己想象中的那么厉害的机器学习从业者?

让我们来一探究竟吧!

性能指标

在机器学习的任何领域,我们都应该从最基本的定义和原理出发。

我们先从混淆矩阵说起,它展示了我们的模型预测得好不好。对于我们的二分类问题,它看起来像一个2×2的网格:第一列给出了实际患有疾病患者的数量,第二列给出了实际未患病患者的数量;行则对应模型做出的预测。举个例子:

混淆矩阵示例

从现在开始,我们将疾病检测称为“阳性”结果,没有检测到疾病为“阴性”结果。也就是说,当模型认为检测到疾病实例时,就会发出阳性信号。

混淆矩阵中的每个单元格代表一定的数量:

  • 真阳性(TP):模型预测患者患有疾病,且患者实际确实患有疾病的人数。
  • 假阳性(FP):模型预测患者患有疾病,但患者实际并没有患病的人数。
  • 假阴性(FN):模型预测患者没有患病,但患者实际患有疾病的人数。
  • 真阴性(TN):模型预测患者没有患病,且患者实际确实没有患病的人数。

以下是混淆矩阵的示意图:

混淆矩阵各指标位置

回想一下,公司让你构建一个优化准确率的模型。分类器的准确率正确分类点的比例

准确率 = TP + TN TP + FP + FN + TN \text{准确率} = \frac{\text{TP} + \text{TN}}{\text{TP} + \text{FP} + \text{FN} + \text{TN}} 准确率=TP+FP+FN+TNTP+TN

由于这是一个比例,准确率的值将在0到1之间,我们也可以将其转换为百分比。

医学奇迹

让我们暂停一下,思考一下公司给我们的分类任务。我们知道,我们数据中只有1%的患者实际上患有这种疾病。因此,如果我们的数据集中有1000名患者,那么只有10人真正患有这种疾病。对于这个问题,分类器的最佳混淆矩阵场景如下:

理想混淆矩阵

事实上,对于任何混淆矩阵,最优分类器是其混淆矩阵仅在主对角线上有值的那个。

按照上面给出的公式,这个分类器的准确率是

准确率 = 10 + 990 10 + 0 + 0 + 990 = 1 \text{准确率} = \frac{10 + 990}{10 + 0 + 0 + 990} = 1 准确率=10+0+0+99010+990=1

🤔 你能看出我们如何构建一个准确率达到99%的超简单分类器吗?

💡 我们只需预测每个患者都没有患病即可。这被称为天真分类器,其混淆矩阵如下:

天真分类器混淆矩阵

对应的准确率现在是

准确率 = 0 + 990 0 + 0 + 10 + 990 = 0.99 \text{准确率} = \frac{0 + 990}{0 + 0 + 10 + 990} = 0.99 准确率=0+0+10+9900+990=0.99

瞧!毫不费力就实现了99%的准确率。现在我们知道同事是怎么轻松实现这么高准确率的了……

但更重要的问题是,我们同事的分类器是不是一个好的分类器呢?尽管准确率很高,但它的设计并没有真正检测出任何疾病的实例!它只是默认说任何数据实例都没有疾病。

主要问题是:准确率指标并不适合像我们正在讨论的这种存在严重类别不平衡的数据集

所以,使用准确率作为模型的性能指标并不总是明智的。那我们该怎么办呢?

召回率

鉴于疾病诊断的背景,我们希望一个优先检测疾病的分类器。我们可以使用的一个指标是召回率

召回率 = TP TP + FN \text{召回率} = \frac{\text{TP}}{\text{TP} + \text{FN}} 召回率=TP+FNTP

分类器的召回率告诉我们,被模型分类为患有疾病的实际患有疾病的患者比例。

另一种说法是:在所有模型预测患有疾病的患者中,实际患有疾病的百分比是多少?

对于医疗诊断来说,这个指标比准确率更适合,因为我们不希望模型遗漏任何疾病的实例。我们不太关心模型输出了多少假阳性(即模型预测患者患病,但实际上患者并没有患病)。相反,我们需要尽可能降低假阴性值,否则就会有患有罕见疾病的患者却不知道自己患病。

尽管假阳性很不方便,但假阴性是有害的

让我们看看天真分类器的召回率是什么样的:

召回率 = 0 0 + 10 = 0 \text{召回率} = \frac{0}{0 + 10} = 0 召回率=0+100=0

哦,这下就对了。

精确率

召回率性能指标适用于我们不想出现太多假阴性的情况。但如果在某些情境下,标记假阳性太不方便而不能忽视呢?

精确率是另一个性能指标,它衡量实际为正的正分类的比例:

精确率 = TP TP + FP \text{精确率} = \frac{\text{TP}}{\text{TP} + \text{FP}} 精确率=TP+FPTP

当希望向模型强调不要不必要地标记假阳性时,这个指标很有用。例如,在电子邮件垃圾邮件检测的情境中,过多的假阳性可能意味着重要邮件最终会出现在你的垃圾邮件文件夹中!这当然不太理想。

F1 分数

你的问题背景可能需要结合精确率和召回率的一些特点。F1 分数在精确率和召回率之间提供了平衡:

F1 分数 = 2 × 精确率 × 召回率 精确率 + 召回率 \text{F1 分数} = 2 \times \frac{\text{精确率} \times \text{召回率}}{\text{精确率} + \text{召回率}} F1 分数=2×精确率+召回率精确率×召回率

也就是说,F1 分数是精确率和召回率的调和平均值。我们也可以用 TP、FP 和 FN 来表示 F1 分数公式:

F1 分数 = 2 × TP 2 × TP + FP + FN \text{F1 分数} = \frac{2 \times \text{TP}}{2 \times \text{TP} + \text{FP} + \text{FN}} F1 分数=2×TP+FP+FN2×TP

我们可以看到,当 FP 和 FN 的算术平均值较高时,F1 分数会受到影响。特别是,仅最小化 FP 或 FN 中的一个是不够的。

总的来说,F1 分数是在处理不平衡数据集时的一个有用指标。

小小的注意事项

似乎对于混淆矩阵中预测值和实际值应该如何显示,并没有全球统一的共识。在本文中,我将预测值放在行上,实际值放在列上。总之,当查看在线资源时要小心,因为有些可能使用的是我所描述的转置版本。

总结一下

性能指标对于评估模型性能至关重要,有助于以符合预测目标的方式进行评估。希望这篇文章能帮你理解模型评估时需要考虑的细微差别。现在,像往常一样,简单总结一下:

  • 准确率:告诉你模型正确分类的数据点比例。这个指标并不适合包含类别不平衡的数据集。
  • 召回率:表示实际为正的数据点中被预测为正的比例。当你希望尽量减少模型漏掉的阳性结果时,这个指标很理想。召回率关注混淆矩阵的第一列。
  • 精确率:表示被预测为正的数据点中实际为正的比例。当你希望尽量减少模型做出的错误阳性预测时,这个指标很理想。精确率关注混淆矩阵的第一行。

下面的动画中,绿色和红色的高亮显示帮助我记住召回率和精确率在混淆矩阵中的位置:

召回率和精确率记忆动画

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/903294.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue3代码规范管理;基于vite和vue3、 eslint、prettier、stylelint、husky规范;git触发eslint校验

前言 为提高前端代码格式化和规范开发。主要使用eslint、prettier、husky完成对git提交commit信息校验和代码eslint格式化校验,不符合要求的代码,提交不到仓库。 参考链接1 参考链接2 文章目录 前言一、效果图1.git提交触发eslint规范校验2.版本与分支名…

GCC 内建函数汇编展开详解

1. 引言 GNU 编译器集合(GCC)是广泛使用的开源编译器套件,支持多种编程语言,其中 C 语言编译器是其核心组件之一。在 C 语言编译过程中,GCC 不仅处理用户编写的标准 C 代码,还提供了一类特殊的函数——内建…

uniapp利用生命周期函数实现后台常驻示例

在 Uniapp 中,利用生命周期函数实现“后台常驻”主要是通过监听应用的前后台状态变化( onHide 和 onShow ),并结合 定时器、后台任务或状态保持逻辑 来实现。但需注意: 纯前端 JS 代码无法突破系统对后台应用的限制&am…

layui时间范围

//时间范围String time_range para.getString("time_range", "");if (!StrUtil.isEmpty(time_range)) {String dateArr[] time_range.split("-");if (dateArr.length 2) {para.put("start_date", dateArr[0].trim().replace("…

入门版 鸿蒙 组件导航 (Navigation)

入门版 鸿蒙 组件导航 (Navigation) 注意:使用 DevEco Studio 运行本案例,要使用模拟器,千万不要用预览器,预览器看看 Navigation 布局还是可以的 效果:点击首页(Index)跳转到页面&#xff08…

VUE3:封装一个评论回复组件

之前用React封装的评论回复组件,里面有三个主要部分:CommentComponent作为主组件,CommentItem处理单个评论项,CommentInput负责输入框。现在需要将这些转换为Vue3的组件。 Vue3和React在状态管理上有所不同,Vue3使用r…

制作一款打飞机游戏27:精灵编辑器UI

继续开发我们的编辑器——Sprit Edit。我们已经创建了这个小编辑器,它可以显示很多精灵(sprites),并且我们可以遍历所有精灵。这真的很棒,我们可以创建新的精灵,这也不错。但是,唉,我…

k8s(9) — zookeeper集群部署(亲和性、污点与容忍测试)

一、部署思路 1、前期设想 zookeeper集群至少需要运行3个pod集群才能够正常运行,考虑到节点会有故障的风险这个3个pod最好分别运行在3个不同的节点上(为了实现这一需要用到亲和性和反亲和性概念),在部署的时候对zookeeper运行的pod打标签加…

WXT+Vue3+sass+antd+vite搭建项目开发chrome插件

WXTVue3sassantdvite搭建项目开发chrome插件 前言一、初始化项目二、项目配置调整三、options页面配置四、集成antd五、集成sass六、环境配置七、代码注入 vue3:https://cn.vuejs.org/ axios:https://www.axios-http.cn/docs/api_intro antd:…

JSAPI2.4——正则表达式

一、语法 const str 一二三四五六七八九十 //判断内容 const reg /二/ //判断条件 console.log(reg.test(str)); //检查 二、test与exec方法的区别 test方法:用于判断是否符合规则的字符串,返回值是布尔值 exec方法&…

燃气用户检修工考试精选题

燃气用户检修工考试精选题: 我国国家标准规定民用天然气中硫化氢含量最高允许浓度是( )。 A. 20mg/m B. 15mg/m C. 5mg/m D. 50mg/m 答案:A 城市燃气应具有可以察觉的臭味,当无毒燃气泄漏到空气中,达到爆炸…

【前端】1h 搞定 TypeScript 教程_只说重点

不定期更新,建议关注收藏点赞。 目录 简介使用基本类型、类型推断和类型注解接口、类型别名、联合类型类与继承泛型GenericsReact 与 TS 进阶高级类型装饰器Decorators模块系统TypeScript 编译选项 简介 TypeScript(简称 TS)是一种由微软开发…

MyBatis 参数绑定

一、MyBatis 参数绑定机制 1.1 核心概念 当 Mapper 接口方法接收多个参数时,MyBatis 提供三种参数绑定方式: 默认参数名:arg0、arg1(Java 8)或 param1、param2Param 注解:显式指定参数名称POJO/DTO 对象…

【解决方案】Linux解决CUDA安装过程中GCC版本不兼容

Linux解决CUDA安装过程中GCC版本不兼容 目录 问题描述 解决方法 安装后配置 问题描述 Linux环境下安装 CUDA 时,运行sudo sh cuda_10.2.89_440.33.01_linux.run命令出现 “Failed to verify gcc version.” 的报错,提示 GCC 版本不兼容,查…

人工智能数学基础(一):人工智能与数学

在人工智能领域,数学是不可或缺的基石。无论是算法的设计、模型的训练还是结果的评估,都离不开数学的支持。接下来,我将带大家深入了解人工智能数学基础,包括微积分、线性代数、概率论、数理统计和最优化理论,并通过 P…

Shell脚本-嵌套循环应用案例

在Shell脚本编程中,嵌套循环是一种强大的工具,可以用于处理复杂的任务和数据结构。通过在一个循环内部再嵌套另一个循环,我们可以实现对多维数组、矩阵操作、文件处理等多种高级功能。本文将通过几个实际的应用案例来展示如何使用嵌套循环解决…

勘破养生伪常识,开启科学养生新篇

​在养生潮流风起云涌的当下,各种养生观点和方法层出不穷。但其中有不少是缺乏科学依据的伪常识,若不加分辨地盲目跟从,不仅难以实现养生目的,还可能损害健康。因此,勘破这些养生伪常识,是迈向科学养生的关…

Nacos-3.0.0适配PostgreSQL数据库

🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,精通Java编…

机器学习第三篇 模型评估(交叉验证)

Sklearn:可以做数据预处理、分类、回归、聚类,不能做神经网络。原始的工具包文档:scikit-learn: machine learning in Python — scikit-learn 1.6.1 documentation数据集:使用的是MNIST手写数字识别技术,大小为70000,数据类型为7…

如何在 IntelliJ IDEA 中编写 Speak 程序

在当今数字化时代,语音交互技术越来越受到开发者的关注。如果你想在 IntelliJ IDEA(一个强大的集成开发环境)中编写一个语音交互(Speak)程序,那么本文将为你提供详细的步骤和指南。 一、环境准备 在开始编…