机器学习分类与性能度量

机器学习分类与性能度量

数据集:训练集(Training Set)、验证集(Validation Set)和测试集(Test Set)

1、 当模型无需人为设定超参数,所用参数都通过学习得到,则不需要验证集。验证集适合多个不同超参数训练多个模型,通过验证集,选择最好的模型及其相应的超参数。
2、监督学习(supervised learning ): 有导师学习,分类和回归
从给定的训练数据集中学习出一个函数(模型参数),当输入新数据时,可以根据这个函数预测结果。

  • 分类(classification): 输出是离散型变量,是一种定性输出,如+1、-1。
  • 回归(regression):输出是是连续型变量,是一种定量输出。

3 、无监督学习(unsupervised learning):无导师学习,聚类和维度约简。
输入数据没有标签,样本数据类别未知,需要根据样本间的相似性对样本集进行划分是类内差距最小化,类间差距最大化

  • 基于概率密度函数估计的直接方法
  • 基于样本间相似性度量的聚类方法

4、强化学习(reinforcement learning):再励学习、评价学习或增强学习
用于描述和解决智能体(agent) 在与环境的交互过程中通过学习策略以达成汇报最大化或实现特定目标的问题。

  • 不同于监督学习和无监督学习,强化学习不要求预先给定任何数据,而是通过接受环境对动作的奖励( 反馈)获得学习信息并更新模型参数。

误差(error)

指的是模型输出与真值的偏离程度,通常定义一个损失函数来衡量误差大小。

  • 经验误差/训练误差:在训练集上产生的误差,大小反应了模型在训练数据上拟合效果的好坏。
  • 泛化误差:模型在未知样本上的误差,通常将测试误差作为泛化误差的近似值,泛化误差用于衡量训练好的模型对未知数据的预测能力。

过拟合和欠拟合

1、过拟合:模型在训练样本中表现的过于优越,导致在验证集以及测试集上表现不佳。
2、欠拟合:指模型在训练和预测时表现的都不好。


评估方法

1、留出法
数据集分为互斥的训练集和测试集。数据分布保持一致。测试集比例保持在1/3 至1/5。
2、交叉验证法
数据集平均分为互斥的k份,每次训练从数据集中选择出一份作为测试集,经过k次后,就k份测试集,求误差的平均值。
3、 自助法
数据集D中包含m个样本,对数据集D进行m次有放回采样,采样到的数据构成数据集S,将S作为训练集,未出现在S中的数据作为测试集。

样本不出现在S中的概率为:

在这里插入图片描述
适合小数据集,不会减小训练集规模,但改变了数据分布,易引起估计偏差。


性能度量

分类模型性能度量方法

1、混淆矩阵(confusion matrix):误差矩阵,主要用于分类结果和实例的真实信息。以二分类为例,如下。
在这里插入图片描述
真正TP:模型预测为正的正样本
假正FP:模型预测为正的负样本
假负FN:模型预测为负的正样本
真负TN:模型预测为负的负样本

  • 准确率:正确预测的正反例数/总数
    Accuracy=TP+TNTP+FN+FP+TN\frac{TP+TN}{TP+FN+FP+TN}TP+FN+FP+TNTP+TN

  • 精确率:正确预测的正例数/预测正例总数
    Precision=TPTP+FP\frac{TP}{TP+FP}TP+FPTP

  • 召回率:正确预测的正例数/实际正例数总和
    Recall=TPTP+FN\frac{TP}{TP+FN}TP+FNTP

  • F-score : precision和recall的调和值
    a = β2β^2β2
    F-score=(1+a)precision∗Recalla∗precision+Recall\frac{precision*Recall}{a* precision+Recall}aprecision+RecallprecisionRecall
    β=1时,称为F1-score或F1-Measure,精确率和召回率都很重要,权重相同。
    β<1时,精确率更重要。
    β>1时,召回率更重要。

F1-score:precision和Recall的调和平均评估指标。
F1-score=2*precision∗Recallprecision+Recall\frac{precision*Recall}{precision+Recall}precision+RecallprecisionRecall

2、ROC曲线:根据结果计算得到ROC空间中相应的点,连接这些点形成ROC曲线。值越大代表预测准确率越高。

真正率(TPR):预测为正的正样本/正样本实际数。
TPR=TP/(TP+FN)
假正率(FPR):预测为正的负样本数/负样本实际数
FPR=FP/(FP+TN)

3、AUC:ROC曲线下的面积(ROC的积分)

  • AUC=1 ,100%完美识别正负类,不管阈值怎么设定都能得出完美预测;
  • 0.5<AUC<1;优于随机猜测。

4、PR曲线:precision对recall的曲线

  • 在同一测试集,上面的曲线比在下面的曲线好。
  • 光滑曲线比不光滑曲线好。

5、PR曲线与ROC曲线

  • 相同点:采用TPR(Recall)来衡量,用AUC来衡量分类器效果。
  • 不同点:ROC曲线使用了FPR,PR曲线使用了precision。

回归模型性能度量

在这里插入图片描述
1、解释变异:给定数据中的变异能被数学模型所解释的部分,通常方差来量化变异。

Explainedvariance(y,y_)=1- Var(y−y)Vary\frac{Var(y-y_)}{Var y}VaryVar(yy)

2、决定系数:回归关系已经解释的y值变异在其总变异中所占的比率。
在这里插入图片描述

3、兰德指数(rand index)
给定实际类别信息C,假设K是聚类结果,a表示在C与K中都是同类别的元素对数,b表示在C与K都是不同类别的元素对数。
在这里插入图片描述
4、调整兰德指数

ARI=RI−E(RI)max(RI)−E(RI)\frac{RI-E(RI)}{max(RI)-E(RI)}max(RIE(RI)RIE(RI),ARI取值范围[-1,1]

5 、 互信息:用来衡量两个数据分布的吻合程度。
假设U与V是对N个样本标签的分布情况,则:
在这里插入图片描述
其中P(i,j)=∣Ui∩Vj∣N\frac{|U_i∩V_j |}{N}NUiVj

6、 标准化互信息NMI
在这里插入图片描述

7、调整互信息
在这里插入图片描述

8、轮廓系数
对于单个样本,设a是它与同类别中其他样本的平均距离,b是与它距离最近不同类别中样本的平均距离

S=b−amax⁡(a,b)\frac{b-a}{max⁡(a,b)}max(ab)ba,取值范围[-1,1]。

适用于实际类别信息未知的情况。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/484085.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

中国人民大学孟小峰教授:“科学数据智能——人工智能在科学发现中的机遇与挑战”...

来源&#xff1a;国家自然科学基金委员会微信公号 孟小峰 博士&#xff0c;中国人民大学教授&#xff0c;博士生导师&#xff0c;CCF会士。主要研究方向为数据库理论与系统、大数据管理系统、大数据隐私保护、大数据融合与智能、大数据实时分析、社会计算等。摘 要随着全球各科…

Java 面向对象语言基础

面向过程 就是分析出解决问题所需要的步骤&#xff0c;然后用函数把这些步骤一步一步实现&#xff0c;使用的时候一个一个依次调用就可以了。 面向对象 是把构成问题事务分解成各个对象&#xff0c;建立对象的目的不是为了完成一个步骤&#xff0c;而是为了描叙某个事物在整个解…

全球首例!这台机器人发明了两项新技术,已获专利授权!

文章来源&#xff1a;EETOP几天前前人工智能系统专利申请权有最新发展。南非率先成为第一个授予人工智能专利权的国家&#xff0c;承认人工智能机器人DABUS为「发明者」&#xff0c;6日澳大利亚联邦法院也做出裁决&#xff1a;发明者可以是非人类。 这算是有历史里程碑意义的判…

成员变量、局部变量、实例变量、静态变量、类变量、常量

成员变量&#xff1a; 直接在类中声明的变量叫成员变量(又称全局变量) ▲ 初始化&#xff1a; 如果未对成员变量设置初始值&#xff0c;则系统会根据成员变量的类型自动分配初始值&#xff1a;int分配初始值0、boolean分配初始值false&#xff0c;而自定义类型则分配初始值null…

行业洞见 | 一文了解自动驾驶汽车

文章来源&#xff1a;ancholabs.medium.com文字翻译&#xff1a; 新能源情报局封面配图&#xff1a;原作者驾驶是人类日常从事的活动中最困难的之一。遵循交通规则&#xff0c;通过眼神与其他司机沟通交流、对天气状况做出反应是成为优秀司机的先决条件。在自动驾驶汽车中&…

MATLAB高光谱图像处理基础

介绍高光谱图像的基本知识&#xff0c;便通过MATLAB对高光谱图像进行基本的处理。 文章目录前言一、高光谱图像二、MATLAB高光谱图像处理1.加载.MAT文件数据2.图像的显示3.图像维度变换总结前言 高光谱图像是一个立方体结构&#xff0c;维度为M x N x B&#xff0c;M为水平方向…

中国千亿科技巨头,成功收购英国最大芯片制造商!

来源&#xff1a;世界先进制造技术论坛内容来源&#xff1a;每日经济新闻综合自每经App、界面新闻、财联社等本期编辑&#xff1a;小艾 在全球缺芯的背景下&#xff0c;8月15日&#xff0c;国产芯片巨头闻泰科技&#xff08;600745.SH&#xff09;披露&#xff0c;旗下全资子公…

MATLAB图自编码器

通过MATLAB来实现图自编码器&#xff0c;用于高光谱图像特征的提取。 文章目录前言一、MATLAB相关知识二、编写算法1.图自编码器搭建2.可视化相关参数总结前言 算法输入数据&#xff1a; 图节点属性矩阵&#xff1b;邻接矩阵&#xff1b;概率p&#xff1b; W为自编码器的隐藏…

考夫曼:破解大脑代码并创建真正的人工智能

来源&#xff1a;CSDN博主「CDA数据分析师」原文链接&#xff1a;https://blog.csdn.net/yoggieCDA/article/details/1045567421955年&#xff0c;计算机科学家约翰麦卡锡&#xff08;John McCarthy&#xff09;首次创造了“人工智能”一词。当时&#xff0c;人工智能是对可以表…

MATLAB高光谱图像构建KNN图

在高光谱图像的特征提取过程中&#xff0c;采用非线性降维的方式对高光谱图像降维的过程中&#xff0c;采用图自编码器来对数据进行降维&#xff0c;需要将利用高光谱图像的结构信息和内容信息&#xff0c;则需要将高光谱图像数据构造为一个图结构&#xff0c;图结构的构建需要…

类脑量子叠加脉冲神经网络:从量子大脑假说到更好的人工智能

来源&#xff1a;神经现实作者&#xff1a;曾毅研究团队 |封面&#xff1a;Mario De Meyer排版&#xff1a;光影以深度神经网络为代表的现代人工智能模型在识别图像、语音、文字等模式信息任务取得优异表现。然而&#xff0c;生物大脑具有处理复杂多变的环境信息的能力&#xf…

遥感图像分类原理

1.原理 1.1 每一个像元作为一个样本&#xff0c;波段作为特征&#xff0c;理想情况下&#xff0c;同类地物应该具有相同或相似的特征描述&#xff0c;因此像元在n维特征空间中聚集在一起&#xff0c;而不同地物应该具有不同的特征描述&#xff0c;因此不同特征地物像元在n维空间…

2019第一次作业

10.实验代码 include <stdio.h> int main(void) { int i, f, X, N; scanf("%d",&N); int a [N]; scanf("%d",&X); f0; for(i0;i<N;i){ scanf("%d",&a[i]); if(a[i]X){ printf("%d",i); f; } } if(f0){ printf(&q…

分布式——ACID原则 CAP理论

分布式计算的原理 分布式计算就是将计算任务分摊到大量的计算节点上&#xff0c;一 起完成海量的计算任务。而分布式计算的原理和并行计算 类似&#xff0c;就是将一个复杂庞大的计算任务适当划分为一个个 小任务&#xff0c;任务并行执行&#xff0c;只不过分布式计算会将这些…

Matlab高光谱样本相关性分析

一.高光谱图像数据分析 1.分析光谱波段的相关性 1.1 对于维度为(m,n,b)的高光谱数据&#xff0c;使用reshape函数将其变换为(N,b)维度的&#xff0c;其中N m x n&#xff0c;表示像素数量&#xff0c;b表示波段数。 1.2 分析样本(像素)间波段的相关性&#xff0c;采用函数c…

万众瞩目的特斯拉AI日,会有哪些惊喜?

来源&#xff1a;华尔街见闻作者&#xff1a;方凌8月19日&#xff0c;特斯拉AI日即将举行。马斯克此前曾表示&#xff0c;此次AI日将展示特斯拉在人工智能方面硬件和软件开发的进展&#xff0c;并且招募顶级人才。活动的日子日渐临近&#xff0c;对于特斯拉究竟将在放出什么“大…

第一次会议(2019/02/22)

小组名称及成员介绍 小组名称&#xff1a;Triple兔成员介绍&#xff08;均为1703班&#xff09;项目经理&#xff1a;刘晓丽&#xff08;右上&#xff09;前端开发&#xff1a;刘晓丽&#xff08;右上&#xff09;、王亚群&#xff08;右下&#xff09;后端开发&#xff1a;乔疏…

JVM 工作原理和流程

作为一名Java使用者&#xff0c;掌握JVM的体系结构也是必须的。 说起Java&#xff0c;人们首先想到的是Java编程语言&#xff0c;然而事实上&#xff0c;Java是一种技术&#xff0c;它由四方面组成&#xff1a;Java编程语言、Java类文件格式、Java虚拟机和Java应用程序接口(Jav…

中国未来技术学院盘点

来源&#xff1a;科学网8月19日&#xff0c;上海交通大学未来技术学院正式揭牌成立。香港首富、宁德时代公司董事长曾毓群担任未来技术学院名誉院长&#xff0c;宁德时代首席制造官和工程制造及研发体系联席总裁倪军出任首任院长。一家市值超万亿的高科技龙头企业掌门人和高管&…

QT高级编程之QT基本概览

QT高级编程 主要从以下几个方面来介绍QT高级编程&#xff0c;并介绍QT相关的概念。 1、 QT部件Widget&#xff1b; 2、 QT信号与槽机制&#xff1b; 3、 对象树关系&#xff1b; 4、 布局管理&#xff1b; 5、标准对话框以及自定义对话框&#xff1b; 6、文件与目录&#xff…