数据挖掘——模型的评价

数据挖掘——模型的评价

  • 模型的评价
    • 混淆矩阵
    • ROC曲线
      • 如何构建ROC曲线
    • 模型过分拟合和拟合不足
    • 减少泛化误差

模型的评价

混淆矩阵

在这里插入图片描述
准确率= a + d a + b + c + d \frac{a+d}{a+b+c+d} a+b+c+da+d= T P + T N T P + T N + F P + F N \frac{TP+TN}{TP+TN+FP+FN} TP+TN+FP+FNTP+TN

其他度量
在这里插入图片描述
查全率VS查准率

  • 地震的预测:对于地震的预测,我们希望的是recall非常高,也就是说每次地震我们都希望预测出来。这个时候我们可以牺牲precision。情愿发出1000次警报,把10次地震都预测正确了,也不要预测100次,对了8次,漏了2次。
  • 嫌疑人定罪:基于不错怪一个好人的原则,对于嫌疑人的定罪我们希望是非常准确的(precision高),及时有时候放过了一些罪犯(recall低),但也是值得的。

F1 score: F 1 = 2 r p r + p F_1=\frac{2rp}{r+p} F1=r+p2rp
r表示召回率(recall),p表示精确率(precision)

ROC曲线

接收者操作特征曲线(ReceiverOperating Characteristic Curve,或者叫ROC曲线)是一种坐标图式的分析工具,用于

  • 选择最佳的分类模型、舍弃次佳的模型。
  • 在同一模型中设定最佳阈值。

给定一个二元分类模型和它的阈值,就能从所有样本的(阳性/阴性)真实值和预测值计算出一个 (X=FPR,Y=TPR)坐标点。
在这里插入图片描述

(FPR,TPR):

  • (0,0):任何分类都是阴性
  • (1,1):任何分类都是阳性
  • (0,1):理想分类

对角线:

  • 随机猜测结果
  • 对角线以下:预测结果与真实结果相反

ROC曲线下方面积:AUC
ideal:Area=1
Random guess:Area=0.5

在这里插入图片描述

如何构建ROC曲线

首先利用分类器计算每个数据记录的后验概率P(+|A)

将这些数据记录对应的P(+|A)从高到低排列:

  • 由低到高, 对于每个P(+|A)值(threshold,阈值),把对应的记录以及那些值高于或等于阈值指派为阳性类positive, 把那些值低于阈值指派为阴性类negative
  • 统计 TP,FP,TN,FN
  • 计算TPR=TP/(TP+FN)和FPR=FP/(FP+TN)

绘出诸点(FPR,TPR)并连接它们

模型过分拟合和拟合不足

分类模型的误差大致分为两种:

  • 训练误差:是在训练记录上误分类样本比例
  • 泛化误差:是模型在未知记录上的期望误差

一个好的分类模型不仅要能够很好的拟合训练数据,而且对未知样本也要能准确分类。

换句话说,一个好的分类模型必须具有低训练误差和低泛化误差。

当训练数据拟合太好的模型(较低训练误差),其泛化误差可能比具有较高训练误差的模型高,这种情况成为模型过分拟合

根据少量训练记录做出分类决策的模型也容易受过分拟合的影响。

由于训练数据缺乏具有代表性的样本,在没有多少训练记录的情况下,学习算法仍然细化模型就会产生过分拟合。
在这里插入图片描述

减少泛化误差

过分拟合的主要原因一直是个争辩的话题,但数据挖掘研究界普遍认为模型的复杂度对模型的过分拟合有影响。

如何确定正确的模型复杂度?理想的复杂度是能产生最低泛化误差的模型的复杂度。

奥卡姆剃刀定律:在解释一个现象或问题时,应当尽量简洁地使用最少的假设。

根据奥卡姆剃刀原则

  • 引入惩罚项,使较简单的模型比复杂的模型更可取
    • 引入正则项
    • 神经网络中,引入dropout机制

在这里插入图片描述
使用验证集

该方法中,不是用训练集估计泛化误差,而是把原始的训练数据集分为两个较小的子集,一个子集用于训练,而另一个称为验证集,用于估计泛化误差。

该方法为评估模型在未知样本上的性能提供了较好办法。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/65922.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

常用的数据结构API概览

List ArrayList 1、在初始化一个ArrayList的时候&#xff0c;如果我想同时set一些值 比如存放int[ ] List<int[]> list new ArrayList(Arrays.asList(new int[]{intervals[0][0],intervals[0][1]}));//或者int[] temp new int[]{intervals[0][0],intervals[0][1]}…

OceanBase到MySQL实时同步方案

概述 本方案基于OceanBase Binlog服务&#xff0c;采用数据库实时复制软件Beedup订阅捕获OceanBase数据库的Binlog事件&#xff0c;复制软件将Binlog事件还原为MySQL支持的DML或DDL&#xff0c;然后交由MySQL数据库执行。 配置Binlog任务 启用OceanBase Binlog服务&#xff…

【数据库系统概论】绪论--复习

1. 数据库的四个基本概念 数据&#xff1a;指经过处理的、可用于计算机操作的原始信息&#xff08;或者也可以理解成是——描述事务的符号&#xff0c;数字、图像、符号、音频、视频、文字、图形等都可以是数据&#xff09;。数据库&#xff1a;是长期存储在计算机内有组织、可…

Git 下载问题及解决方法

在某些网络环境下&#xff0c;可能会遇到 Git 无法下载的问题&#xff0c;通常是由于网络限制或需要通过代理访问导致的。以下是常见的解决方法&#xff0c;包括设置代理、取消代理以及其他诊断方法。 1. 设置 Git 代理 在一些网络环境下&#xff0c;可能会使用工具&#xff0…

《从入门到精通:蓝桥杯编程大赛知识点全攻略》(一)-递归实现指数型枚举、递归实现排列型枚举

本篇博客将聚焦于通过递归来实现两种经典的枚举方法&#xff1a;指数型枚举和排列型枚举。这两种枚举方式在计算机科学和算法竞赛中都有广泛应用&#xff0c;无论是在解题中&#xff0c;还是在实际工作中都极具价值。 目录 前言 斐波那契数列递归 递归实现指数型枚举 算法思…

大模型 LangChain 开发框架-初探

大模型 LangChain 开发框架-初探 一、LangChain 概述 LangChain 是一个强大的由大型语言模型&#xff08;LLM&#xff09;驱动的应用程序开发框架。它的核心价值在于提供了标准化组件接口、高效的任务编排能力以及可观察性和评估机制。通过这些特性&#xff0c;LangChain 有效…

生成埃里克卡特曼人工智能语音听起来像他或配音视频

您是《南方公园》和迷人角色埃里克卡特曼的忠实粉丝吗&#xff1f;您是否渴望获得标志性的埃里克卡特曼 AI 语音&#xff0c;将他的动画魅力融入到您的数字内容、游戏或流媒体体验中&#xff1f;如果答案是肯定的&#xff0c;那么您来对地方了&#xff01; 在本文中&#xff0…

BLDC无感控制的驱动逻辑

如何知道转子已经到达预定位置&#xff0c;因为我们只有知道了转子到达了预定位置之后才能进行换相&#xff0c;这样电机才能顺滑的运转。转子位置检测常用的有三种方式。 方式一&#xff1a;通过过零检测&#xff0c;三相相电压与电机中性点电压进行比较。过零检测的优点在于…

【Vue教程】使用Vite快速搭建前端工程化项目 | Vue3 | Vite | Node.js

&#x1f64b;大家好&#xff01;我是毛毛张! &#x1f308;个人首页&#xff1a; 神马都会亿点点的毛毛张 &#x1f6a9;今天毛毛张分享的是关于如何快速&#x1f3c3;‍♂️搭建一个前端工程化的项目的环境搭建以及流程&#x1f320; 文章目录 1.前端工程化环境搭建&#…

手机租赁平台开发全攻略打造高效便捷的租赁服务系统

内容概要 手机租赁平台开发&#xff0c;简单说就是让用户能轻松租赁各类手机的高效系统。这一平台不仅帮助那些想要临时使用高端手机的人们节省了不少资金&#xff0c;还为商家开辟了新的收入渠道。随着智能手机的普及&#xff0c;很多人并不需要长期拥有一部手机&#xff0c;…

[最佳方法] 如何将视频从 Android 发送到 iPhone

概括 将大视频从 Android 发送到 iPhone 或将批量视频从 iPhone 传输到 Android 并不是一件容易的事情。也许您已经尝试了很多关于如何将视频从 Android 发送到 iPhone 15/14 的方法&#xff0c;但都没有效果。但现在&#xff0c;通过本文中的这 6 种强大方法&#xff0c;您可…

记录一下图像处理的基础知识

记录一下自己学习的图像处理的基础知识。 一、图像的文件格式以及常用的图像空间 1、文件格式 常见的图像文件格式有 jpg, png, bmp, gif &#xff08;1&#xff09;jpg&#xff1a;有损压缩算法&#xff0c;大幅减小文件大小&#xff0c;便于存储和传输&#xff0c;兼容性…

【Java回顾】Day3 继承|Override/Ovverload|多态|抽象类|封装|接口|枚举

学习资料 菜鸟教程 https://www.runoob.com/java/java-interfaces.html 继承|Override/Ovverload|多态|抽象类|封装|接口|枚举 继承 创建分等级层次的类&#xff0c;子类继承父类的特征、行为、方法 class 父类{ } class 子类 extends 父类{ super(); }一些性质 Java 不支持…

2025年AI和AR谁才是智能眼镜的未来

在2025年&#xff0c;智能眼镜市场正迎来一场技术革新的浪潮&#xff0c;其中AI和AR技术的竞争尤为激烈。那么&#xff0c;究竟谁才是智能眼镜的未来呢&#xff1f;让我们来一探究竟。 AI眼镜的崛起 AI眼镜通过集成人工智能技术&#xff0c;提供了语音识别、环境感知和个性化服…

在Unity中用Ab包加载资源(简单好抄)

第一步创建一个Editor文件夹 第二步编写BuildAb&#xff08;这个脚本一点要放在Editor中因为这是一个编辑器脚本&#xff0c;放在其他地方可能会报错&#xff09; using System.IO; using UnityEditor; using UnityEngine;public class BuildAb : MonoBehaviour {// 在Unity编…

丢弃法hhhh

一个好的模型需要对输入数据的扰动鲁棒 丢弃法&#xff1a;在层之间加入噪音&#xff0c;等同于加入正则 h2和h5变成0了 dropout一般作用在全连接隐藏层的输出上 Q&A dropout随机置零对求梯度和求反向传播的影响是什么&#xff1f;为0 dropout属于超参数 dropout固定随…

mysql 报错 ERROR 1396 (HY000) Operation ALTER USER failed for root@localhost 解决方案

参考:https://blog.csdn.net/m0_74824534/article/details/144177078 mysql 修改密码 ALTER USER ‘root’‘localhost’ IDENTIFIED BY ‘123’; 时&#xff0c;报错 ERROR 1396 (HY000): Operation ALTER USER failed for rootlocalhost 解决方案&#xff1a; 2024-4-3 段子…

Three.js Journey (notes2)

ref Three.js中文网 Three.js Journey — Learn WebGL with Three.js Part 1 Fullscreen and resizing When the double click happens, we will toggle the fullscreen —meaning that if the window is not in fullscreen, a double-click will enable fullscreen mode, …

深入理解Python中的常用数据格式(如csv、json、pickle、npz、h5等):存储机制与性能解析

在数据科学与工程领域&#xff0c;数据的存储与读取是日常工作中不可或缺的一部分。选择合适的数据格式不仅影响数据处理的效率&#xff0c;还关系到存储空间的利用与后续分析的便捷性。本文将以通俗易懂的方式&#xff0c;深入探讨Python中几种常用的数据读写格式&#xff08;…

Ubuntu开机The root filesystem on /dev/sdbx requires a manual fsck 问题

出现“Manual fsck”错误可能由以下几种原因引起&#xff1a; 不正常关机&#xff1a;如果系统意外断电或被强制重启&#xff0c;文件系统可能未能正确卸载&#xff0c;导致文件系统损坏。磁盘故障&#xff1a;硬盘的物理损坏可能会引发文件系统错误。文件系统配置问题&#x…