数据挖掘——模型的评价

数据挖掘——模型的评价

  • 模型的评价
    • 混淆矩阵
    • ROC曲线
      • 如何构建ROC曲线
    • 模型过分拟合和拟合不足
    • 减少泛化误差

模型的评价

混淆矩阵

在这里插入图片描述
准确率= a + d a + b + c + d \frac{a+d}{a+b+c+d} a+b+c+da+d= T P + T N T P + T N + F P + F N \frac{TP+TN}{TP+TN+FP+FN} TP+TN+FP+FNTP+TN

其他度量
在这里插入图片描述
查全率VS查准率

  • 地震的预测:对于地震的预测,我们希望的是recall非常高,也就是说每次地震我们都希望预测出来。这个时候我们可以牺牲precision。情愿发出1000次警报,把10次地震都预测正确了,也不要预测100次,对了8次,漏了2次。
  • 嫌疑人定罪:基于不错怪一个好人的原则,对于嫌疑人的定罪我们希望是非常准确的(precision高),及时有时候放过了一些罪犯(recall低),但也是值得的。

F1 score: F 1 = 2 r p r + p F_1=\frac{2rp}{r+p} F1=r+p2rp
r表示召回率(recall),p表示精确率(precision)

ROC曲线

接收者操作特征曲线(ReceiverOperating Characteristic Curve,或者叫ROC曲线)是一种坐标图式的分析工具,用于

  • 选择最佳的分类模型、舍弃次佳的模型。
  • 在同一模型中设定最佳阈值。

给定一个二元分类模型和它的阈值,就能从所有样本的(阳性/阴性)真实值和预测值计算出一个 (X=FPR,Y=TPR)坐标点。
在这里插入图片描述

(FPR,TPR):

  • (0,0):任何分类都是阴性
  • (1,1):任何分类都是阳性
  • (0,1):理想分类

对角线:

  • 随机猜测结果
  • 对角线以下:预测结果与真实结果相反

ROC曲线下方面积:AUC
ideal:Area=1
Random guess:Area=0.5

在这里插入图片描述

如何构建ROC曲线

首先利用分类器计算每个数据记录的后验概率P(+|A)

将这些数据记录对应的P(+|A)从高到低排列:

  • 由低到高, 对于每个P(+|A)值(threshold,阈值),把对应的记录以及那些值高于或等于阈值指派为阳性类positive, 把那些值低于阈值指派为阴性类negative
  • 统计 TP,FP,TN,FN
  • 计算TPR=TP/(TP+FN)和FPR=FP/(FP+TN)

绘出诸点(FPR,TPR)并连接它们

模型过分拟合和拟合不足

分类模型的误差大致分为两种:

  • 训练误差:是在训练记录上误分类样本比例
  • 泛化误差:是模型在未知记录上的期望误差

一个好的分类模型不仅要能够很好的拟合训练数据,而且对未知样本也要能准确分类。

换句话说,一个好的分类模型必须具有低训练误差和低泛化误差。

当训练数据拟合太好的模型(较低训练误差),其泛化误差可能比具有较高训练误差的模型高,这种情况成为模型过分拟合

根据少量训练记录做出分类决策的模型也容易受过分拟合的影响。

由于训练数据缺乏具有代表性的样本,在没有多少训练记录的情况下,学习算法仍然细化模型就会产生过分拟合。
在这里插入图片描述

减少泛化误差

过分拟合的主要原因一直是个争辩的话题,但数据挖掘研究界普遍认为模型的复杂度对模型的过分拟合有影响。

如何确定正确的模型复杂度?理想的复杂度是能产生最低泛化误差的模型的复杂度。

奥卡姆剃刀定律:在解释一个现象或问题时,应当尽量简洁地使用最少的假设。

根据奥卡姆剃刀原则

  • 引入惩罚项,使较简单的模型比复杂的模型更可取
    • 引入正则项
    • 神经网络中,引入dropout机制

在这里插入图片描述
使用验证集

该方法中,不是用训练集估计泛化误差,而是把原始的训练数据集分为两个较小的子集,一个子集用于训练,而另一个称为验证集,用于估计泛化误差。

该方法为评估模型在未知样本上的性能提供了较好办法。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/65922.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ubuntu 22.04安装ollama

1. 顺利的情况 按照官网的提示,执行下面的命令: curl -fsSL https://ollama.com/install.sh | sh如果网络畅通,github访问也没有问题,那就等待安装完成就行 2. 不顺利的情况 由于众所周知的情况,国内网络访问githu…

常用的数据结构API概览

List ArrayList 1、在初始化一个ArrayList的时候&#xff0c;如果我想同时set一些值 比如存放int[ ] List<int[]> list new ArrayList(Arrays.asList(new int[]{intervals[0][0],intervals[0][1]}));//或者int[] temp new int[]{intervals[0][0],intervals[0][1]}…

Pycharm 中 virtualenv、pipenv、conda 虚拟环境的用法

文章目录 前言虚拟环境的通俗介绍虚拟环境和非虚拟环境该怎么选?通过 Virtualenv 方式创建虚拟环境通过 Pipenv 方式创建虚拟环境通过 Conda 方式创建虚拟环境前言 在网上找了好一些资料,发现介绍 Pycharm 虚拟环境的不多,查了一些资料,并做个总结。 本文主要是介绍 Pycha…

OceanBase到MySQL实时同步方案

概述 本方案基于OceanBase Binlog服务&#xff0c;采用数据库实时复制软件Beedup订阅捕获OceanBase数据库的Binlog事件&#xff0c;复制软件将Binlog事件还原为MySQL支持的DML或DDL&#xff0c;然后交由MySQL数据库执行。 配置Binlog任务 启用OceanBase Binlog服务&#xff…

【数据库系统概论】绪论--复习

1. 数据库的四个基本概念 数据&#xff1a;指经过处理的、可用于计算机操作的原始信息&#xff08;或者也可以理解成是——描述事务的符号&#xff0c;数字、图像、符号、音频、视频、文字、图形等都可以是数据&#xff09;。数据库&#xff1a;是长期存储在计算机内有组织、可…

2、C#基于.net framework的应用开发实战编程 - 设计(二、四) - 编程手把手系列文章...

二、设计&#xff1b; 二&#xff0e;四、制定设计规范&#xff1b; 编码规范在软件编程里起到了非常重要的作用&#xff0c;主要是让代码更加的规范化&#xff0c;更加的简洁&#xff0c;更加的漂亮&#xff0c;更加的能够面向对象显示。 以前那个系列就有发布C#的编码规范的文…

Git 下载问题及解决方法

在某些网络环境下&#xff0c;可能会遇到 Git 无法下载的问题&#xff0c;通常是由于网络限制或需要通过代理访问导致的。以下是常见的解决方法&#xff0c;包括设置代理、取消代理以及其他诊断方法。 1. 设置 Git 代理 在一些网络环境下&#xff0c;可能会使用工具&#xff0…

《从入门到精通:蓝桥杯编程大赛知识点全攻略》(一)-递归实现指数型枚举、递归实现排列型枚举

本篇博客将聚焦于通过递归来实现两种经典的枚举方法&#xff1a;指数型枚举和排列型枚举。这两种枚举方式在计算机科学和算法竞赛中都有广泛应用&#xff0c;无论是在解题中&#xff0c;还是在实际工作中都极具价值。 目录 前言 斐波那契数列递归 递归实现指数型枚举 算法思…

react 优化方案

更详细的 React 优化方案可以分为性能优化、代码结构优化、开发效率提升等多个方面,结合实际项目需求,逐步应用这些优化策略。 一、性能优化 1. 避免不必要的重新渲染 React.memo: 缓存组件,防止组件在父组件重新渲染时无意义的重新渲染。 const ChildComponent = Reac…

大模型 LangChain 开发框架-初探

大模型 LangChain 开发框架-初探 一、LangChain 概述 LangChain 是一个强大的由大型语言模型&#xff08;LLM&#xff09;驱动的应用程序开发框架。它的核心价值在于提供了标准化组件接口、高效的任务编排能力以及可观察性和评估机制。通过这些特性&#xff0c;LangChain 有效…

java class类对象 加载时机

java class类对象 是在什么时候被加载的&#xff1f; 在 Java 中&#xff0c;类对象的加载时机通常指的是类加载机制中的“加载”阶段&#xff0c;而实例化则是指创建类的实例对象的过程。这两个过程是分开的&#xff0c;下面是详细的解释&#xff1a; 类加载时机&#xff1a;…

生成埃里克卡特曼人工智能语音听起来像他或配音视频

您是《南方公园》和迷人角色埃里克卡特曼的忠实粉丝吗&#xff1f;您是否渴望获得标志性的埃里克卡特曼 AI 语音&#xff0c;将他的动画魅力融入到您的数字内容、游戏或流媒体体验中&#xff1f;如果答案是肯定的&#xff0c;那么您来对地方了&#xff01; 在本文中&#xff0…

BLDC无感控制的驱动逻辑

如何知道转子已经到达预定位置&#xff0c;因为我们只有知道了转子到达了预定位置之后才能进行换相&#xff0c;这样电机才能顺滑的运转。转子位置检测常用的有三种方式。 方式一&#xff1a;通过过零检测&#xff0c;三相相电压与电机中性点电压进行比较。过零检测的优点在于…

【Vue教程】使用Vite快速搭建前端工程化项目 | Vue3 | Vite | Node.js

&#x1f64b;大家好&#xff01;我是毛毛张! &#x1f308;个人首页&#xff1a; 神马都会亿点点的毛毛张 &#x1f6a9;今天毛毛张分享的是关于如何快速&#x1f3c3;‍♂️搭建一个前端工程化的项目的环境搭建以及流程&#x1f320; 文章目录 1.前端工程化环境搭建&#…

js 中的递归应用+异步递归

文章目录 递归详解递归算法优化复杂应用中递归应用递归过程中应该注意的一些事异步递归及实例 递归详解 尾递归优化 原理&#xff1a;尾递归是指在函数的最后一步调用自身。在这种情况下&#xff0c;编译器或解释器可以通过优化&#xff0c;将递归调用转换为循环&#xff0c;从…

手机租赁平台开发全攻略打造高效便捷的租赁服务系统

内容概要 手机租赁平台开发&#xff0c;简单说就是让用户能轻松租赁各类手机的高效系统。这一平台不仅帮助那些想要临时使用高端手机的人们节省了不少资金&#xff0c;还为商家开辟了新的收入渠道。随着智能手机的普及&#xff0c;很多人并不需要长期拥有一部手机&#xff0c;…

[最佳方法] 如何将视频从 Android 发送到 iPhone

概括 将大视频从 Android 发送到 iPhone 或将批量视频从 iPhone 传输到 Android 并不是一件容易的事情。也许您已经尝试了很多关于如何将视频从 Android 发送到 iPhone 15/14 的方法&#xff0c;但都没有效果。但现在&#xff0c;通过本文中的这 6 种强大方法&#xff0c;您可…

记录一下图像处理的基础知识

记录一下自己学习的图像处理的基础知识。 一、图像的文件格式以及常用的图像空间 1、文件格式 常见的图像文件格式有 jpg, png, bmp, gif &#xff08;1&#xff09;jpg&#xff1a;有损压缩算法&#xff0c;大幅减小文件大小&#xff0c;便于存储和传输&#xff0c;兼容性…

算法-各位数相加,直至和为个位数

给定一个非负整数 num&#xff0c;反复将各个位上的数字相加&#xff0c;直到结果为一位数。返回这个结果。 示例 1: 输入: num 38 输出: 2 解释: 各位相加的过程为&#xff1a; 38 --> 3 8 --> 11 11 --> 1 1 --> 2 由于 2 是一位数&#xff0c;所以返回 2。…

Openwrt 下移植 源码安装Cmake

Openwrt 下源码编译安装Cmake cmake介绍源码下载安装configure问题/usr/bin/ld: cannot find -ldlCould NOT find OpenSSL运行CMake Error: Could not find CMAKE_ROOT !!!Openwrt opkg不支持cmake安装,本文尝试在目标板上基于cmake源码编译安装cmake, 并将遇到的问题和解决方…