成为AI产品经理——模型评估（混淆矩阵）

成为AI产品经理——模型评估（混淆矩阵）

news/2025/7/6 21:58:39/文章来源:https://blog.csdn.net/m0_54231818/article/details/134628876

一、混淆矩阵

1.混淆矩阵的介绍

混淆矩阵有两个定义positive（正例）和negative（反例）。分别代表模型结果的好和坏。

下图就是一个分类问题的混淆矩阵。横行代表真实的情况，而竖行代表预测的结果。

为了便于理解，我在这里举一个分出瓜的好坏的分类问题。

TP：True Positive，真正例。表示这个瓜实际上是一个好瓜，预测出来的结果也是好瓜，所以它是一个真的好瓜，是一个真正例。预测结果正确。

FP：False Positive，假正例。表示这个瓜本身是一个坏瓜，预测结果却是一个好瓜，所以它是一个假的好瓜，是一个假正例。预测结果错误。

FN：False Negative，假反例。表示这个瓜本身是一个好瓜，预测结果是坏瓜，所以它是一个假的坏瓜，是一个假反例。预测结果错误。

TN：Truen Negative，真反例。表示这个瓜本身是一个坏瓜，预测结果也是一个坏瓜，所以它是一个真的坏瓜，是一个真反例。预测结果正确。

需要明确，明确T和F代表模型预测结果的对错，P和N代表模型预测出来的结果。

接下来，我们举个例子，便于我们学习混淆矩阵指标：准确率、精准率和召回率。

有100个瓜，实际上由40个好瓜，60个坏瓜。但是模型预测出来的结果为50个好瓜，50个坏瓜。在这50个好瓜里面，有30个预测对了，有20个预测错了。

此时预测的50个好瓜里面，30个预测对了，即真好瓜（TP）；20个预测错了，即假好瓜。所以TP = 30，FP = 20。

我们可以知道，40个好瓜=真的好瓜+预测错的坏瓜；60个坏瓜 = 真的坏瓜+假的好瓜。如下图：

根据以上式子，我们计算出了混淆矩阵所有的值。

根据以上条件，我们能够写出混淆矩阵。

我们期待的结果是预测结果和真实结果相一致，但是往往不太可能，所以我们需要评估的好坏，这里我们需要用到混淆矩阵的指标：准确率、精确率、召回率。

2.准确率

准确率是预测准确的样本数在所有预测样本数的比例。在我们这里就是预测的真的好瓜和真的坏瓜在总瓜数的占比。

准确率的计算公式为： $accuracy =\frac{TP + TN}{TP+FP+TN+FN}$

通过准确率我们可以看出模型的分类能力。

但是准确率的弊端是：如果在样本不均衡的情况下，占比大的对样本的影响比较大。

考虑一个极端的例子，其中有100个样本，其中99个属于类别A，1个属于类别B。如果一个模型将所有样本都预测为类别A，那么它的分子中，预测准确的A样本为99，预测准确的B样本为0，除以分母100。 $accuracy = \frac{99+0}{100}=0.99$

准确率将是99%。尽管准确率很高，但模型对于类别B的预测几乎完全失败。所以这是不对的。

这种情况下，我们需要借助精准率（precision）。

3.精确率

精准率（precision），是用来计算模型预测的多准的指标，又名查准率。

精准率的计算公式为： $precision =\frac{TP}{TP+FP}$

精确率关注的是在所有模型认为是正类别的样本中，有多大比例是真实的正类别。因此，精确率通常被解释为模型有多准确地"查准"了正类别，即模型有多能够确保它的正类别预测是准确的。

在一些应用中，比如垃圾邮件过滤，我们希望模型尽可能地准确地标识出正类别（即真正的垃圾邮件），同时避免将负类别（即正常邮件）错误地分类为正类别。在这种情况下，我们希望精确率尽可能高，以确保模型的正类别预测是可靠的。

3.召回率

如果说精确度是模型预测的多准的指标，那么召回率就是模型广度的指标，又被称为查全率。

召回率的计算公式为： $recall= \frac{TP}{TP+FN}$

公式表示需要分类的类别，在实际的该种类总数中，占比多少。好瓜在实际好瓜的总数是多少。所以召回率（查全率）是指模型在多大程度上能够预测出我需要的类别。

比如说：我有100个好瓜，你识别出50个，那么你的就在识别出我所需要的类别的能力就有50%。

在实际的评估工作中，我们通常使用精确率和召回率来评估模型的效果。通过召回率看找到了多少我们想要找的好瓜，通过精确率来看我们找好瓜有多准。

召回率关注的是在实际为正类别的样本中，模型有多大程度地能够成功地识别出来。因此，召回率通常被解释为模型有多好地"查找"或"捕捉"了正类别，即模型有多能够找到所有实际存在的正类别样本。

在一些应用中，如医学诊断或欺诈检测，对于正类别的遗漏是不可接受的，因为这可能导致严重的后果。在这种情况下，我们希望模型的召回率尽可能高，以确保尽可能多地捕捉到所有真实的正类别。

由于精确率和召回率相互矛盾。模型如果想要查找的更准确，会减少识别的范围，所以精准率高，召回率低；反之，如果想要召回率高一点，那么精确率也会随之下降。

所以我们一般给算法同学提需求的时候会同时考虑。比如：30%的召回率下精准率提升5倍。

4.F1值

F1指标可以综合反映召回率和精准率，F1值越高，代表模型在精确率和召回率的综合表现越高。

F1的计算公式： $F1 = \frac{2*precision*recall}{precision+recall}$

5.总结

准确率：比较容易理解，在样本不均衡的时候指标偏差过大。

精确率：模型预测的准确度。宁肯不预测，也不能预测错，秉持宁缺毋滥的原则。比如在刷脸支付的场景下，我们宁可检测不通过，而不能预测出错。

召回率：关注筛选的结果是不是全面的场景，秉持宁可错杀一千，也不放过一个的原则。

PS：如果对于这几个指标还是不明白，推荐大家看这篇博文，讲的比较清晰。

准确率，精准率，召回率，真正率，假正率，ROC/AUC-CSDN博客

参考文献：刘海丰——《成为AI产品经理》

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/177619.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

新疆大学与优艾智合机器人成立联合创新实验室

新疆大学与优艾智合机器人成立联合创新实验室

11月22日至24日，第五届中国工业互联网大赛新疆赛站决赛在新疆维吾尔自治区昌吉回族自治州昌吉市举行。在大赛中崭露头角的优秀解决方案，将为绿色工厂、绿色园区、绿色供应链等建设提供新的动能，促进工业绿色发展。作为大赛的成果延伸&#…

阅读更多...

面试常问-如何判断链表有环、？

面试常问-如何判断链表有环、？

如何判断链表有环题目：解决方案一：解决方案二：解决方案三： 题目： 给你一个链表的头节点 head ，判断链表中是否有环。如果链表中有某个节点，可以通过连续跟踪 next 指针再次到达，…

阅读更多...

MSB3541 Files 的值“＜＜＜＜＜＜＜ HEAD”无效。路径中具有非法字符。

MSB3541 Files 的值“＜＜＜＜＜＜＜ HEAD”无效。路径中具有非法字符。

MSB3541 Files 的值“<<<<<<< HEAD”无效。路径中具有非法字符。一般来说出现这个问题是因为使用git版本控制工具合并代码出现了问题，想要解决也很简单。如图点击错误后定位到文件，发现也没有什么问题。根据错误后边的提示&a…

阅读更多...

使用pymongo对MongoDB数据库进行增删改查

使用pymongo对MongoDB数据库进行增删改查

当使用Python和 pymongo连接MongoDB时，可以执行各种操作来增加、修改、删除和查询文档。以下是常用操作： 增加数据： add_one(table, data): 插入单个文档到指定的集合中，并返回插入的文档的ID。add_many(table, data_list): 插入多…

阅读更多...

JVM内存模型和结构详解(五大模型图解)

JVM内存模型和结构详解(五大模型图解)

目录方法区（Method Area）: 堆（Heap）: 栈（Stack）: 本地方法栈（Native Method Stack）: 程序计数器（Program Counter Register）: Java Virtual Machine (J…

阅读更多...

SpringCloudAlibaba之sentinel 流量卫兵(流控，熔断降级) ——详细讲解

SpringCloudAlibaba之sentinel 流量卫兵(流控，熔断降级) ——详细讲解

目录一、什么是sentinel 二、sentinel使用 1. sentinel dashboard的安装 2.启动 3.访问web界面编辑 4.登录三、sentinel 实时监控服务 1.创建项目引入依赖 2.配置 3.启动服务 4.访问dashboard界面查看服务监控 5.开发服务 6.启动进行调用 7.查看监控界面四、senti…

阅读更多...

肠道菌群16s检测粪便采样工具包粪便采样套装

肠道菌群16s检测粪便采样工具包粪便采样套装

肠道菌群16s检测是一种常见的分子生物学技术，用于研究人体肠道中的微生物群落。该技术通过分析16s rRNA基因序列，可以快速、准确地鉴定并定量不同种类的肠道微生物。肠道菌群16s检测通常通过采集粪便样本进行分析。在实验室中，通过提取微生物…

阅读更多...

leetcode面试经典150题——33 最小覆盖子串（滑动窗口）

leetcode面试经典150题——33 最小覆盖子串（滑动窗口）

题目： 最小覆盖子串描述： 给你一个字符串 s 、一个字符串 t 。返回 s 中涵盖 t 所有字符的最小子串。如果 s 中不存在涵盖 t 所有字符的子串，则返回空字符串 “” 。注意： 对于 t 中重复字符，我们寻找的子字符串中…

阅读更多...

Android NDK开发中常用的gradle配置

Android NDK开发中常用的gradle配置

文章目录 externalNativeBuild1.配置通用的 CMake 构建选项2.指定 CMakeLists.txt 文件的位置和 CMake 版本指定ndk版本 externalNativeBuild 下面的gradle代码包含两个externalNativeBuild {} android {defaultConfig {externalNativeBuild {cmake {cppFlags ""}…

阅读更多...

【三维重建】摄像机标定（张正友相机标定法）

【三维重建】摄像机标定（张正友相机标定法）

摄像机标定的目的是为了求解摄像机的内、外参数求解投影矩阵M 通过建立特殊的场景，我们能过得到多对世界坐标和对应图像坐标根据摄像机几何可知 ： ，M是一个3*4的矩阵，令通过一对点可以得到两个方程组，M中一共有11个…

阅读更多...

SpringBoot : ch09 整合Redis

SpringBoot : ch09 整合Redis

前言当你的应用程序需要一个快速、可扩展的内存数据库时，Redis是一个非常流行的选择。通过将Redis与Spring Boot集成，你可以轻松地利用Redis的功能，例如缓存、会话存储和消息队列等，从而提升应用程序的性能和可伸缩性。在本教…

阅读更多...

1043 Is It a Binary Search Tree （二叉搜索树建树，性质）

1043 Is It a Binary Search Tree （二叉搜索树建树，性质）

题意：给定一个二叉树的前序遍历，判断是否为二叉搜索树 （碎碎念：一直拿不到满分，尝试了多种解法，最后挑了一个最常规的解法去一直debug才满分通过了，，这题花费了快4个小时了&#xf…

阅读更多...

Java Elasticsearch 指标聚合

Java Elasticsearch 指标聚合

Elasticsearch指标聚合，就是类似SQL的统计函数，指标聚合可以单独使用，也可以跟桶聚合一起使用，下面介绍Java Elasticsearch指标聚合的写法。实例： // 首先创建RestClient，后续章节通过RestClient对象进行…

阅读更多...

时间序列预测学习笔记

时间序列预测学习笔记

目录魔改测试代码： Basisformer论文介绍魔改测试代码： import torch.nn as nn import torch.nn.utils.weight_norm as wn import matplotlib.pyplot as plt import torch import torch.nn.functional as F import time import math import numpy as npclass MLP_bottle(…

阅读更多...

mongodb查询数据库集合的基础命令

mongodb查询数据库集合的基础命令

基础命令启动mongo服务 mongod -f /usr/local/mongodb/mongod.conf //注意配置文件路径停止mongo服务关闭mongodb有三种方式： 一种是进入mongo后通过mongo的函数关闭； use admin db.shutdownServer()一种是通过mongod关闭； mongod --s…

阅读更多...

Selenium 学习（0.14）——软件测试之测试用例设计方法——因果图法2【基本步骤及案例】

Selenium 学习（0.14）——软件测试之测试用例设计方法——因果图法2【基本步骤及案例】

1、因果图法的基本步骤 2、案例分析 1）分析原因和结果 2）关联原因和结果投入1元5角或2元，按下“可乐”，送出“可乐”【暂时忽略找零】投入2元，按下“可乐”或“雪碧”。找零5角，送出“可乐”或“雪…

阅读更多...

软件测试测试文档编写

软件测试测试文档编写

在软件测试中的流程中，测试文档也是一个重要的流程，所以测试人员也需要学习测试文档的编写和阅读。一、定义： 　　测试文档（Testing Documentation）记录和描述了整个测试流程，它是整个测试活动中非常重要…

阅读更多...

vscode注释插件「koroFileHeader」

vscode注释插件「koroFileHeader」

前言在vscode上进行前端开发，有几个流行的注释插件： Better CommentsTodo TreekoroFileHeaderDocument ThisAuto Comment Blocks 在上面的插件中我选择 koroFileHeader 做推荐，原因一是使用人数比较多（最多的是 Better Commen…

阅读更多...

NAS-DIP: Learning Deep Image Prior with Neural Architecture Search

NAS-DIP: Learning Deep Image Prior with Neural Architecture Search

NAS-DIP: 用神经结构搜索学习深度图像先验论文链接：https://arxiv.org/abs/2008.11713 项目链接：https://github.com/YunChunChen/NAS-DIP-pytorch Abstract 最近的研究表明，深度卷积神经网络的结构可以用作解决各种逆图像恢复任务的结构…

阅读更多...

《算法通关村——位运算在查找重复元素中的妙用》

《算法通关村——位运算在查找重复元素中的妙用》

《算法通关村——位运算在查找重复元素中的妙用》在海量数据中，此时普通的数组、链表、Hash、树等等结构有无效了 ，因为内存空间放不下了。而常规的递归、排序，回溯、贪心和动态规划等思想也无效了，因为执行都会超时&#xff0c…

阅读更多...

最新文章