机器学习基础——模型评估与选择(部分)

目录

一、前言:误差与拟合

(一)经验误差

(二)过拟合、欠拟合

二、评估方法

(一)评估总体的思路

(二)如何划分训练集和测试集

1.留出法

2.k折交叉验证

3.自助法

三、性能度量

(一)均方误差

(二)错误率&精度

(三)查准率&查全率

补充:

(四)F1&Fβ

(五)ROC&AUC


        为了实现对模型指导,实现自主建模,我们会对模型进行选择和评估,主要有以下几个问题:

一、前言:误差与拟合

(一)经验误差

        使用上述流程理解,其中 a 为预测错误的个数,m为使用的样本数量,则有以下概念:

  • 错误率(error rate):分类错误的样本数占样本总数的比例。即在 m 个样本中有 a 个样本分类错误,则错误率E = a / m
  • 精度(accuracy):精度=1 - a / m ,即 精度 = 1 - 错误率
  • 误差(error):学习器的预测输出与样本之间的差异。其中:学习器在训练集上的误差称为“训练误差(training error)”或“经验误差(empirical error)”,在新样本上的误差称为“泛化误差(generalization error)”。

(二)过拟合、欠拟合

        对于机器学习而言,泛化误差越小越好,但经验误差不一定越小越好,因为会出现“过拟合”问题,西瓜书中就有这样一个例子:

过拟合(overfitting):学习器在训练样本中表现得过于优越,导致在验证数据集以及测试数据集中表现不佳。

可能原因:

  1. 建模样本选取影响,如样本数量太少,选样方法错误,样本标签错误等,导致选取的样本数据不足以代表预定的分类规则;
  2. 样本噪音(无关影响因素)干扰,使得机器将部分噪音认为是特征从而扰乱了预设的分类规则;
  3. 参数太多,模型复杂度过高;

欠拟合(underfitting):可能由于模型过于简单或特征量过少等原因,相对于过拟合,学习器对训练样本的一般性质尚未学好,不能很好地捕捉到数据特征。

二、评估方法

(一)评估总体的思路

        在学习过程中,应尽量减少欠拟合或过拟合对模型的影响,选择泛化误差最小的模型。

        泛化误差是无法直接获得的,因此会将数据分为训练集(training set)和测试集(testing set),训练集用于投喂给模型进行学习,而测试集用来“测试”所得到的模型对新样本的泛化能力,然后,以测试集上的“测试误差”(testing error)作为泛化误差的近似。

  • 评估方法的关键在于:怎么获得“测试集” (test set) 
  • 此外可能有些地方会有“验证集”(validation set),验证集的存在一般是为了调节参数

(二)如何划分训练集和测试集

1.留出法

        将训练集和测试集简单地37分或28分

        注意事项:

  • 测试集和训练集在总体中独立同分布,如使用分层采样的方式进行数据划分
  • 测试集应该尽可能与训练集互斥
  • 通常进行若干次随机划分、重复实验评估取平均值最为评估结果
  • 测试集数量不能极端,太大或太小都不合适  ( 如: 1/5~1/3 如此划分)

        代码实现:

        如对于一个有监督学习,X 为原数据集(如顾客特征),y 为数据对应标签(是否购买某物品),可以使用 train_test_split() 函数进行数据集的划分:

# Splitting the dataset into the Training set and Test set
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)

        函数详细用法参见:python机器学习 train_test_split()函数用法解析及示例 划分训练集和测试集 以鸢尾数据为例 入门级讲解-CSDN博客

2.k折交叉验证

        k折交叉验证即将原本数据集分成 k 分,每次取其中一块当测试集,每次的测试结果平均值作为标准

        这种方法可以通过 sklearn 中 model_selection 模块的 cross_val_score() 函数实现

        例:先生成一个名为 “classifier” 的SVN模型,进行交叉验证后以其均值作为模型精度方差作估计误差

# Fitting Kernel SVM to the Training set
from sklearn.svm import SVC
classifier = SVC(kernel = 'rbf', random_state = 0)
classifier.fit(X_train, y_train)####################################
# Applying k-Fold Cross Validation #
####################################
from sklearn.model_selection import cross_val_score#######################################################
# Split training set into 10 folds                    #
# 10折交叉验证,指定训练模型、数据集、数据标签、迭代次数  #
#######################################################
accuracies = cross_val_score(estimator = classifier, X = X_train, y = y_train, cv = 10)accuracies.mean() # Get mean as accuracy of model performance
accuracies.std() # Get standard deviation to evaluate variance

         亦有其他代码可实现,再此不多赘述

        补充关于留一法:

        直接将样本分成 m 分,每份一个样本,这样做不会受样本划分方式的影响,但在数据量大的情况下对算力有很高要求,结果也未必一定会更准确

3.自助法

        该方法通常用于样本量较小的情况,对于含有 m 个数据的样本进行放回抽样,在进行 m 次后,有 36.8% 的样本是不会被取到的,这由以下这个高数中的重要极限得出

         被取到的概率为 1/m,不被取到的概率为 1-1/m,进行 m 次抽取

注意事项:

  • 该方法在数据集较小且难以划分时使用
  • 会改变数据分布,引入误差

三、性能度量

        旨在评价模型的准确度,衡量其泛化能力,实际中什么样的模型是“好”的,不仅取决于算法和数据, 还取决于任务需求

(一)均方误差

        对于回归任务,最常用的是均方误差,公式如下:

(即:输出值减去实际值平方进行累加后取平均) 

        字母恐惧的伙伴也别急,这里有解释:

  • D:给定的样集D={(x1,y1),(x2,y2),...(xm,xm)},此处为实际的特征 x 和实际标签 y
  • m:样集中的样本个数
  • f:学习器/模型f
  • f(x):模型对于每个 x 输出的预测值
  • y:数据中每个 x 对应的实际标签

(二)错误率&精度

        这两个指标十分易于理解,也在文章开头就做了介绍,总言之就是模型预测正确的样本及错误样本的占比

(三)查准率&查全率

        又称准确率和召回率

        上面这个图叫作混淆矩阵,在实际应用中很有用,先知道几个概念

  • 真正例(True Positive):实际结果为positive,模型预测结果也为positive
  • 假正例(False Positive):实际结果为negative,模型预测结果却为positive
  • 假反例(False Negative):实际结果为positive,模型预测结果却为negative
  • 真反例(True Positive):实际结果为negative,模型预测结果也为negative

        这里的正反例,比如一个顾客购买了,可以说是正例,某疾病检测结果显示阴性(健康)也可以说是正例,真假则是反应的模型输出结果与实际结果是否一致

        此基础上有查准率与查全率公式:

        换成人话理解即:

  • 查准率=预测正确的的正例所有预测结果为正例的比例,即所有 f(x) 中的准确率,反应所有预测为正例中正确样本的占比,看查的准不准

        如模型预测100人购买,实际上只有75人购买,预测正确,则查准率为75%,有25%被错误地预测为购买

  • 查全率=预测正确的的正例所有实际为正例的比例,反应所有真实正例中被预测正确的占比,就是有没有把它们找出来,查的全不全

        如模型预测100位顾客购买,实际上有125人购买,则查全率80%,有20%被错误地预测为未购买

        由于FN与FP负相关,查准率和查全率是一对矛盾的度量,两者呈负相关趋势

(P-R图像) 

阈值-PR图像,阈值越小要求低,精确度则越低,找的越全,反之同样道理) 

        阈值可以大致理解为找出正例的那个标准,关于这两指标的意义文章健康检测的例子举的非常好,可参考【机器学习】模型评估与选择(理论)_提高阈值,查准率查全率-CSDN博客

补充:

平衡点(Break-Event Point,简称 BEP):

        是“查准率=查全率”时的取值。如右图中,学习器C的BEP是0.64,而基于BEP的比较,可认为学习器A优于B

模型性能比较:

        实际上P-R曲线可以用来比较多个模型的效果,如上图中模型B在任何情况下PR值均比模型C高,效果就比模型C好,那对于模型A和B的比较:

  • 比较AB面积
  • 根据平衡点进行比较
  • 使用指标F1及Fβ

        在 sklearn 中可用以下方法查看混淆矩阵:

        假设已有预测结果 y_pred 与真实结果 y_test:

print(y_test)
print('-------------------------------')
print(y_pred)[0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 1 0 1 0 0 0 0 0 1 1 0 0 0 00 0 1 0 0 0 0 1 0 0 1 0 1 1 0 0 0 1 1 0 0 1 0 0 1 0 1 0 1 0 0 0 0 1 0 0 10 0 0 0 1 1 1 0 0 0 1 1 0 1 1 0 0 1 0 0 0 1 0 1 1 1]-------------------------------[0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 1 0 0 1 0 1 0 1 0 0 0 0 0 0 1 0 0 0 00 0 1 0 0 0 0 1 0 0 1 0 1 1 0 0 0 1 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 1 0 0 00 0 1 0 1 1 1 1 0 0 1 1 0 1 0 0 0 1 0 0 0 0 0 0 1 1]

        可得到混淆矩阵: 

# Making the Confusion Matrix
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)
cmarray([[65,  3],[ 8, 24]], dtype=int64)

(四)F1&Fβ

        由于P与R各有侧重,F1实际上是查全率P与查准率R的加权平均,

 则有:

         在一些应用中,对查准率和查全率的重视程度有所不同,会对两者进行加权调和平均计算

对于β:

  • 𝛽 > 0:度量了查全率对查准率的相对重要性
  • 𝛽 = 1:为标准的 𝐹1 
  • 𝛽 > 1 时查全率 R 有更大影响;𝛽 < 1 时查准率 P 有更大影响

        上述问题主要对于单个二分类问题,对于多分类问题,除了直接使用某些算法,也可以看成 n 个二分类问题(one vs one 或 one vs rest),多个二分类问题会产生多个P值、R值,若要衡量总体效果,可以:

(1.先计算再求平均)

(2.先平均再计算)

        法2即将多次分类得到的真正例真反例等等个数进行平均,再计算 F 值

(五)ROC&AUC

        受试者特征曲线 ROC 由以下两部分构成:

        TPR 真正利率,其实就是召回率FPR 假正例率就是反例被错误地分成正例的比率

        AUC 即 Area Under Curve,表示一条曲线下面的面积,ROC曲线的AUC值可以用来对模型进行评价。一个纯随机分类器 ROC 曲线下面积是等于 0.5的,可以以此判断一个模型效果如何

        同一模型真正例预测出来的越多,假正例自然也会越多,因为总体预测为正例的数量多了

        在有实际测试样例时,会得到如下图类似的图像

        曲线的绘制过程:假设m﹢个正例与m﹣个反例,在得分排序后,阈值最大时所有样例都为反例,即 (0,0),接下来就是移动坐标连线:

         每检测出一个真正例或假正例,则在对应轴上增加1/m﹢或1/m﹣,我们一般希望假正例率增加的越慢越好的

        关于代价损失、代价敏感错误率与代价曲线部分内容理解还不够深刻,待日后涉及到了再补更

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/781835.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

代码学习记录31---动态规划开始

随想录日记part31 t i m e &#xff1a; time&#xff1a; time&#xff1a; 2024.03.29 主要内容&#xff1a;今天开始要学习动态规划的相关知识了&#xff0c;今天的内容主要涉及四个方面&#xff1a; 理论基础 ; 斐波那契数 ;爬楼梯 ;使用最小花费爬楼梯。 理论基础 509. 斐…

SQLServer sys.default_constraints介绍

sys.default_constraints 是 SQL Server 的系统视图&#xff0c;它包含了数据库中所有默认约束的信息。默认约束是数据库对象&#xff08;如表中的列&#xff09;的约束&#xff0c;它为列定义了一个默认值&#xff0c;当在插入新行时没有为该列提供值时&#xff0c;将使用这个…

【保姆级教程】DeepLabV3+语义分割:训练自己的数据集

一、DeepLabV3图像语义分割原理 DeepLabV3架构采用扩张卷积&#xff08;也称为空洞卷积&#xff09;来捕捉多尺度信息&#xff0c;从而在不损失空间分辨率的情况下实现对图像的精细分割。 二、DeepLabV3代码及预训练权重下载 2.1 下载deeplabv3代码 这里使用的是B站大佬Bu…

axios+springboot上传图片到本地(vue)

结果&#xff1a; 前端文件&#xff1a; <template> <div> <input type"file" id"file" ref"file" v-on:change"handleFileUpload()"/> <button click"submitFile">上传</button> </div&g…

基于ssm的留学生交流互动论坛网站(java项目+文档)

风定落花生&#xff0c;歌声逐流水&#xff0c;大家好我是风歌&#xff0c;混迹在java圈的辛苦码农。今天要和大家聊的是一款基于ssm的留学生交流互动论坛网站。项目源码以及部署相关请联系风歌&#xff0c;文末附上联系信息 。 项目简介&#xff1a; 留学生交流互动论坛网站…

Solana 2024 投资新风口:挖掘 DeFi、硬件开发与交易创新

将区块链的技术红利带给所有用户&#xff0c;Solana 自 2017 年诞生以来就致力于赋予开发者、消费者、投资人等各路人士的优越应用体验。在“以太坊杀手”林立的公链竞争阶段&#xff0c;Solana 凭借高性能公链的独特定位&#xff0c;朝着去中心化、安全性、低成本的目标不断精…

刷爆LeetCode:两数之和 【1/1000 第一题】

&#x1f464;作者介绍&#xff1a;10年大厂数据\经营分析经验&#xff0c;现任大厂数据部门负责人。 会一些的技术&#xff1a;数据分析、算法、SQL、大数据相关、python 作者专栏每日更新&#xff1a;LeetCode解锁1000题: 打怪升级之旅https://blog.csdn.net/cciehl/category…

设计模式之建造者模式精讲

也叫生成器模式。将一个复杂的构建与它的表示分离&#xff0c;使得同样的构建过程可以创建不同的表示。 在建造者模式中&#xff0c;有如下4个角色&#xff1a; 抽象建造者&#xff08;Builder&#xff09;&#xff1a;用于规范产品的各个组成部分&#xff0c;并进行抽象&…

c++使用类的一些注意事项

前言&#xff1a; 本篇内容为前面的补充&#xff0c;介绍了我们使用类时需要注意些什么以及一些编译器的优化&#xff0c;可能有些理解不到位或者错误&#xff0c;请斧正。 目录 前言&#xff1a; 1.再谈构造函数 2.&#xff08;c98&#xff09;隐式类型转换中的编译器的优…

Codeforces Round 934 (Div. 2) D. Non-Palindromic Substring

题目 思路&#xff1a; #include <bits/stdc.h> using namespace std; #define int long long #define pb push_back #define fi first #define se second #define lson p << 1 #define rson p << 1 | 1 const int maxn 1e6 5, inf 1e9, maxm 4e4 5; co…

【初阶数据结构】——牛客:CM11 链表分割

文章目录 1. 题目介绍2. 思路分析3. 代码实现 1. 题目介绍 链接: link 这道题是给我们一个链表和一个值X &#xff0c;要求我们以给定值x为基准将链表分割成两部分&#xff0c;所有小于x的结点排在大于或等于x的结点之前。 最终返回重新排列之后的链表的头指针。 2. 思路分析…

Redis 的慢日志

Redis 的慢日志 Redis 的慢日志&#xff08;Slow Log&#xff09;是用于记录执行时间超过预设阈值的命令请求的系统。慢日志可以帮助运维人员和开发人员识别潜在的性能瓶颈&#xff0c;定位那些可能导致 Redis 性能下降或响应延迟的慢查询。以下是 Redis 慢日志的相关细节&…

hcip综合实验2

目录 实验拓扑&#xff1a; 实验要求&#xff1a; 实验思路&#xff1a; 实验步骤&#xff1a; 1.配置设备接口IP 2.通过配置缺省路由让公网互通 3.配置ppp 1.R1和R5间的ppp的PAP认证&#xff1b; 2.R2与R5之间的ppp的CHAP认证; 3. R3与R5之间的HDLC封装; 4.构建R1、…

K8S故障处理指南:pod驱逐问题处理

更多技术博客,请关注微信公众号:运维之美 在K8S集群故障处理过程中,你可能遇到过pod的各种状态,Evicted状态代表你的K8S环境遇到了资源驱逐的问题,本节通过对驱逐问题的解决,参数的调整,问题的处理思路,希望给你解决此类问题提供帮助。 一、pod驱逐问题 pod出现状态为…

如何系统的自学python?

系统地自学Python是一个循序渐进的过程&#xff0c;以下是一份详细的指南&#xff0c;帮助你从零开始逐步掌握这门语言&#xff1a; 1、了解Python及其应用场景&#xff1a; 阅读关于Python的简介&#xff0c;理解它为何流行&#xff0c;以及在哪些领域&#xff08;如Web开发…

GitHub | Pages 部署 Vue 项目但页面空白,报错:net::ERR_ABORTED 404 (Not Found)

目录 报错信息 解决方法 报错信息 如下所示&#xff08;地址已盲&#xff09;&#xff1a; 控制台报错说找不到这些资源&#xff0c;但是 dist 目录下都有这些 JS 文件啊&#xff0c;这是为什么&#xff1f; 解决方法 在 Vue 项目的 vue.config.js 文件中&#xff0c;添加 …

FANUC机器人故障诊断—报警代码更新(三)

FANUC机器人故障诊断中&#xff0c;有些报警代码&#xff0c;继续更新如下。 一、报警代码&#xff08;SRVO-348&#xff09; SRVO-348DCS MCC关闭报警a&#xff0c;b [原因]向电磁接触器发出了关闭指令&#xff0c;而电磁接触器尚未关闭。 [对策] 1.当急停单元上连接了CRMA…

在ROS上快速验证PID算法

在ROS上快速验证PID算法 前言 最近有在外面出差授课的工作任务&#xff0c;其中有一个环节是给大家讲述PID相关的内容&#xff0c;在制作相关PPT的时候查询了很多资料&#xff0c;但是写着写着突然意识到一个问题&#xff0c;PID已经在控制专业学习过程以及工程开发时间中那么…

Electron 读取本地配置 增加缩放功能(ctrl+scroll)

最近&#xff0c;一个之前做的electron桌面应用&#xff0c;需要增加两个功能&#xff1b;第一是读取本地的配置文件&#xff0c;然后记载配置文件中的ip地址&#xff1b;第二就是增加缩放功能&#xff1b; 第一&#xff0c;配置本地文件 首先需要在vue工程根目录中&#xff0…

创建第一个51文件

1.找一个文件目录创建一个main.c 比如我的 F:\my_project\project_of_51\0.first_of_51 什么你不会&#xff1f; 先把这里的文件扩展名打开; 再创建一个文本文件&#xff0c;重新命名为main.c // 修改.c 后弹出一个确认修改的框&#xff0c;选确认即可 2.kei操作: 1&#xf…