【机器学习合集】优化目标与评估指标合集 ->(个人学习记录笔记)

文章目录

  • 优化目标与评估指标
    • 1. 优化目标
      • 1.1 两类基础任务与常见优化目标
      • 1.2 分类任务损失
        • 0-1损失
        • 交叉熵损失与KL散度
        • softmax损失的理解与改进
        • Hinge损失
      • 1.3 回归任务损失
        • L1/L2距离
        • L1/L2距离的改进 Huber loss
    • 2. 评测指标
      • 2.1 分类任务中评测指标
        • 准确率(查准率)/召回率(查全率)/精确度/PR曲线
        • ROC曲线/AUC面积
        • 混淆矩阵
      • 2.2 回归任务中的评测指标
        • IoU(Intersection-over-Union)
        • AP(Average Precision)/mAP
        • 峰值信噪比PSNR
        • 结构一致性相似SSIM

优化目标与评估指标

1. 优化目标

在这里插入图片描述

1.1 两类基础任务与常见优化目标

在这里插入图片描述

1.2 分类任务损失

在分类任务中,常见的损失函数包括交叉熵损失(Cross-Entropy Loss)、均方误差(Mean Squared Error, MSE)、Hinge损失(Hinge Loss)、对比损失(Contrastive Loss)、以及多类别对数损失(Multi-Class Log Loss)等。这些损失函数有不同的特点和用途,下面将简要介绍它们的区别:

  1. 交叉熵损失(Cross-Entropy Loss)

    • 用于多类别分类任务。
    • 计算模型的输出与真实标签之间的差异,鼓励模型为正确的类别分配更高的概率。
    • 常见的变体包括二元交叉熵和多类别对数损失。
  2. 均方误差(Mean Squared Error, MSE)

    • 通常用于回归任务,但也可以用于二元分类。
    • 计算模型的输出和真实标签之间的平方误差,不适用于多类别分类。
  3. Hinge损失(Hinge Loss)

    • 通常用于支持向量机(SVM)等模型,也用于二元分类任务。
    • 鼓励模型使正确类别的分数高于其他类别的分数,以增加分类的边际。
  4. 对比损失(Contrastive Loss)

    • 用于度量学习和相似度学习任务。
    • 鼓励相似样本之间的距离小于不相似样本之间的距离。
  5. 多类别对数损失(Multi-Class Log Loss)

    • 类似于交叉熵损失,用于多类别分类任务。
    • 计算模型对每个类别的对数概率,鼓励正确类别的概率高,常用于多标签分类任务。
  • 这些损失函数的选择通常取决于任务的性质和所使用的模型。交叉熵损失在深度学习中应用最广泛,因为它在多类别分类任务中效果良好,且容易优化。但对于其他任务,不同的损失函数可能更为合适。根据任务的具体要求和数据类型,选择合适的损失函数非常重要。
0-1损失

在这里插入图片描述

交叉熵损失与KL散度

在这里插入图片描述
在这里插入图片描述

softmax损失的理解与改进

在这里插入图片描述

Hinge损失

在这里插入图片描述

1.3 回归任务损失

在回归任务中,常见的损失函数包括均方误差(Mean Squared Error, MSE)、平均绝对误差(Mean Absolute Error, MAE)、L1损失(L1 Loss)、L2损失(L2 Loss),以及 Huber损失。以下是它们的主要区别:

  1. 均方误差(MSE)

    • 计算模型的预测值与真实标签之间的平方差,然后取平均。
    • MSE对异常值敏感,因为平方差会放大异常值的影响。
    • MSE通常用于普通的线性回归任务。
  2. 平均绝对误差(MAE)

    • 计算模型的预测值与真实标签之间的绝对差,然后取平均。
    • MAE鲁棒性更好,不太受异常值的影响。
    • MAE适用于对异常值敏感的任务,如金融风险评估。
  3. L1损失(L1 Loss)

    • 也称为绝对损失或L1范数损失,计算模型的预测值与真实标签之间的绝对差的总和。
    • 类似于MAE,L1损失对异常值鲁棒性更好。
    • L1损失通常用于稀疏建模和特征选择。
  4. L2损失(L2 Loss)

    • 也称为均方损失或L2范数损失,计算模型的预测值与真实标签之间的平方差的总和。
    • L2损失对异常值敏感,因为平方会放大异常值的影响。
    • L2损失通常用于正则化线性回归或神经网络。
  5. Huber损失

    • 一种折中方法,结合了L1和L2损失的特性。
    • 在接近真实值时使用平方损失,远离真实值时使用线性损失,从而在一定程度上抵抗异常值。

总的来说,MSE和MAE分别度量了平方差和绝对差的平均值,对异常值的敏感性不同。L1损失和L2损失分别度量了绝对差和平方差的总和。Huber损失是这些损失函数的折中,既有MSE的平滑性,又有MAE的鲁棒性。损失函数的选择通常取决于任务的性质和数据的特点,以及对异常值的处理需求。

L1/L2距离

在这里插入图片描述

L1/L2距离的改进 Huber loss

在这里插入图片描述

2. 评测指标

在机器学习和深度学习任务中,有多种常见的评测指标用于度量模型的性能。这些指标根据任务类型和需求的不同而有所变化。以下是一些常见的评测指标:

1. 分类任务评测指标:

  • 准确度(Accuracy):分类正确的样本数占总样本数的比例。
  • 精确度(Precision):真正例(True Positives)占真正例和假正例(False Positives)之和的比例。用于度量模型预测正例的准确性。
  • 召回率(Recall):真正例占真正例和假负例(False Negatives)之和的比例。用于度量模型检测正例的能力。
  • F1分数(F1 Score):精确度和召回率的调和平均值,用于综合评估模型性能。
  • ROC曲线(Receiver Operating Characteristic Curve):以不同的分类阈值绘制真正例率(True Positive Rate)和假正例率(False Positive Rate)之间的曲线。AUC(Area Under the Curve)用于度量ROC曲线下的面积。
  • PR曲线(Precision-Recall Curve):以不同的分类阈值绘制精确度和召回率之间的曲线。AP(Average Precision)用于度量PR曲线下的平均精确度。

2. 回归任务评测指标:

  • 均方误差(Mean Squared Error, MSE):预测值与真实值之间的平方差的平均值。
  • 平均绝对误差(Mean Absolute Error, MAE):预测值与真实值之间的绝对差的平均值。
  • 均方根误差(Root Mean Squared Error, RMSE):MSE的平方根,以与原始单位一致的方式度量误差。
  • R平方(R-squared):用于度量模型对总方差的解释比例,值范围在0到1之间。
  • 相关系数(Correlation Coefficient):用于度量模型预测值与真实值之间的线性关系。

3. 聚类任务评测指标:

  • 轮廓系数(Silhouette Score):用于度量聚类的紧凑性和分离度,值范围在-1到1之间。
  • Calinski-Harabasz指数:用于度量聚类的紧凑性和分离度,值越大表示聚类效果越好。
  • Davies-Bouldin指数:用于度量聚类之间的平均相似性,值越小表示聚类效果越好。
  • 这些评测指标根据任务类型和需求的不同,可以帮助您评估模型的性能和效果。选择适当的评测指标取决于具体任务的性质和目标。

在这里插入图片描述

2.1 分类任务中评测指标

准确率(查准率)/召回率(查全率)/精确度/PR曲线

这些指标是用于评估分类模型性能的重要工具:

  1. 准确率(Accuracy)

    • 准确率是指模型正确分类的样本数量与总样本数量的比例。
    • 公式:准确率 = (真正例 + 真负例) / (总样本数)。
    • 准确率度量了模型在所有类别上的分类正确性。然而,当类别分布不平衡时,准确率可能不是一个很好的度量标准。
  2. 召回率(Recall)(也称为查全率):

    • 召回率是指模型成功检测到的真正例的数量与真正例的总数量之比。
    • 公式:召回率 = 真正例 / (真正例 + 假负例)。
    • 召回率度量了模型检测正例的能力。高召回率意味着模型能够捕捉更多的正例,但可能伴随着更多的假正例。
  3. 精确度(Precision)

    • 精确度是指模型正确分类为正例的样本数量与所有分类为正例的样本数量之比。
    • 公式:精确度 = 真正例 / (真正例 + 假正例)。
    • 精确度度量了模型的预测中正例的准确性。高精确度意味着模型的正例预测更可信,但可能伴随着较低的召回率。
  4. PR曲线(Precision-Recall Curve)

    • PR曲线是一个图形表示,描述了不同分类阈值下精确度和召回率之间的关系。
    • 横轴是召回率,纵轴是精确度。通过在不同阈值下计算精确度和召回率,可以绘制PR曲线。
    • PR曲线可以帮助选择适当的分类阈值,以平衡精确度和召回率。面积下面积(AP)是PR曲线下的平均精确度,用于综合评估模型性能。

准确率、召回率和精确度是常见的二元分类评测指标,用于评估模型在正例和负例的分类中的表现。PR曲线则提供了精确度和召回率之间的权衡关系,有助于根据任务需求选择合适的分类阈值。这些指标对于不平衡数据集和不同任务的评估都非常重要。

真正例、真负例、假正例、假负例的区分

在二元分类问题中,混淆矩阵(Confusion Matrix)用于度量模型的分类性能,它包括四个主要元素,分别是真正例、真负例、假正例和假负例:

  1. 真正例(True Positives, TP)

    • 真正例是指模型正确地将正例(Positive)样本分类为正例的情况。
    • 换句话说,模型正确地检测到了正例。
  2. 真负例(True Negatives, TN)

    • 真负例是指模型正确地将负例(Negative)样本分类为负例的情况。
    • 换句话说,模型正确地识别了负例。
  3. 假正例(False Positives, FP)

    • 假正例是指模型错误地将负例样本分类为正例的情况。
    • 这种情况也被称为“误报”或“假阳性”。
  4. 假负例(False Negatives, FN)

    • 假负例是指模型错误地将正例样本分类为负例的情况。
    • 这种情况也被称为“漏报”或“假阴性”。

混淆矩阵的构成是为了帮助评估二元分类模型的性能,这四个元素允许您了解模型对正例和负例的分类准确性。基于这些元素,可以计算各种评测指标,如准确率、召回率、精确度等,以更全面地评估模型的性能。

看个样例:

让我们通过一个二元分类问题的示例来说明准确率、召回率、精确度和PR曲线的计算和解释。

假设我们正在解决一个垃圾邮件分类任务,其中模型的任务是将电子邮件标记为垃圾邮件(正例)或非垃圾邮件(负例)。

假设我们有以下混淆矩阵(Confusion Matrix):

 True Positives (TP): 100False Positives (FP): 20False Negatives (FN): 10True Negatives (TN): 300

基于这个混淆矩阵,我们可以计算以下指标:

  1. 准确率(Accuracy)

    • 准确率表示模型正确分类的样本占总样本数量的比例。
    • 准确率 = (TP + TN) / (TP + FP + FN + TN) = (100 + 300) / (100 + 20 + 10 + 300) = 400 / 430 ≈ 0.9302(约为93.02%)。
  2. 召回率(Recall)

    • 召回率表示模型成功检测到的垃圾邮件(真正例)的数量与所有垃圾邮件的数量之比。
    • 召回率 = TP / (TP + FN) = 100 / (100 + 10) = 100 / 110 ≈ 0.9091(约为90.91%)。
  3. 精确度(Precision)

    • 精确度表示模型正确分类为垃圾邮件的样本数量与所有分类为垃圾邮件的样本数量之比。
    • 精确度 = TP / (TP + FP) = 100 / (100 + 20) = 100 / 120 ≈ 0.8333(约为83.33%)。
  4. PR曲线(Precision-Recall Curve)

    • PR曲线通过在不同分类阈值下计算精确度和召回率来绘制。这里提供示例数据,而不是真正的PR曲线。
    • 根据不同分类阈值,可以绘制不同点,然后连接这些点以获得PR曲线。

这些指标可以帮助您了解模型在分类任务中的性能。在这个示例中,模型的准确率为93.02%,召回率为90.91%,精确度为83.33%。通过PR曲线,您可以选择适当的分类阈值,以在精确度和召回率之间进行权衡,具体取决于任务需求。

在这里插入图片描述

ROC曲线/AUC面积

在这里插入图片描述

混淆矩阵

在这里插入图片描述

2.2 回归任务中的评测指标

IoU(Intersection-over-Union)

在这里插入图片描述

AP(Average Precision)/mAP

在这里插入图片描述

峰值信噪比PSNR
  • PSNR越高,则代表图片质量越高
  • 255表示灰度范围
  • 在人眼感知的指标,表现不是很好
    在这里插入图片描述
结构一致性相似SSIM

在这里插入图片描述

注: 部分内容来自阿里云天池

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/117808.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

入门人工智能 —— 学习数据持久化、使用 Python 将数据保存到mysql(7)

入门人工智能 —— 学习数据持久化、使用 Python 将数据保存到mysql 什么是数据持久化?使用 Python 进行数据持久化步骤 1: 安装 MySQL步骤 2: 安装必要的 Python 库步骤 3: 连接到 MySQL 数据库步骤 4: 创建数据表步骤 5: 插入数据步骤 6: 查询数据步骤 7: 关闭连接…

类图表示法

设计模式,用设计图表示的话,主要用到类图。常见UML类图如下: 1、类图:矩形框,代表一个类(Class)。类图分为三层,第一层显示类的名称,如果是抽象类,则用斜体显…

mac安装nodejs,跑vue程序

1. 下载node.js for mac,地址:Node.js。一路安装就可以了,无需修改。 2. mac终端,查看node和npm的版本。 3. 配置环境变量, vim .bash_profile增加PATH$PATH:/usr/local/bin/ 4. 但是毕竟npm安装一些东西还是太慢了所…

霍尔电流传感器如何应用在数据中心电量监测的-安科瑞 蒋静

摘要:数据中心供电电源质量的好坏直接影响到IT设备的安全运行,因此对数据中心直流列头柜电源进出线实行监测非常重要,而通过霍尔电流传感器可以采集主进线电流、多路支路直流电流和漏电流。 关键词:数据中心;直流列头…

好用的Visio绘图文件工具 VSD Viewer最新 for mac

VSD Viewer是一款可以查看Microsoft Visio绘图文件的工具,适用于Windows和macOS操作系统。它具有以下优点: 直观易用:VSD Viewer的用户界面非常简单直观,易于使用。支持多种文件格式:VSD Viewer支持多种Visio文件格式…

Rust逆向学习 (2)

文章目录 Guess a number0x01. Guess a number .part 1line 1loopline 3~7match 0x02. Reverse for enum0x03. Reverse for Tuple0x04. Guess a number .part 20x05. 总结 在上一篇文章中,我们比较完美地完成了第一次Rust ELF的逆向工作,但第一次编写的R…

公司电脑屏幕录制软件有什么功能

电脑屏幕录制软件有很多,今天简单说说说它的基础功能和附属功能: 基础功能: 1、屏幕录像 支持对所选电脑的屏幕进行录制,并且支持调整截屏频度、画面质量、单个视频时长等。 2、实时屏幕 可以对对方电脑进行实时屏幕查看&…

linux网络测试命令

文章目录 一.route命令解释二.traceroute命令三.nslookup命令四.本地主机映射文件五.修改网络配置文件六.设置网络接口参数 一.route命令解释 Destination(目标):这一列显示要路由的目标网络或主机的IP地址。它标识了数据包要发送到的目的地。…

浙江环保用电计量adw300-hj治污产污生产设备监测

浙江环保用电计量表,浙江环保用电能表,浙江环保督查计量电表,环保设备能耗采集表 企业基本信息 企业名称:XXXXXXXXXXX 企业地址:XX省XX市 工 程 量:X台监测仪表 预计工期:X天 监测点位信息…

实战经验分享:打造千万级直播项目,如何选择适合的长连接技术,告别CRUD开发

前言 其实不管大厂、小厂,做业务开发的同学都知道,写一个功能,有中台,有架构,有API,有SDK,很多可复用的代码直接调一下RPC接口或者一个注解就搞定了复杂的操作,所以很多螺丝钉们都没…

OPC UA:工业领域的“HTML”

OPC UA是工业自动化领域的一项重要的通信协议。它的特点是包括了信息模型构建方法。能够建立工业领域各种事物的信息模型。在工业自动化行业,OPCUA 类似互联网行业的HTTP协议和“HTML”语言。能够准确,可靠地描述复杂系统中各个元素,并且实现…

机器学习中常见的特征工程处理

一、特征工程 特征工程(Feature Engineering)对特征进行进一步分析,并对数据进行处理。 常见的特征工程包括:异常值处理、缺失值处理、数据分桶、特征处理、特征构造、特征筛选及降维等。 1、异常值处理 具体实现 from scipy.s…

桶装水订水送水小程序开发搭建;

上门送水小程序桶装水配送是一款的同城上门配送平台,为用户提供便捷的桶装水配送服务。解决用户在获取干净健康的饮用水方面的需求,提供高效、便捷的在线预约和下单服务。 小程序平台开发,具备强大的技术支持和良好的用户体验。用户可以通过…

跨平台开发技术

目录 1.Qt1.简介2.优势3.劣势 2.NET CoreVue1.简介2.优点 3.Flutter1.简介2.优点3.缺点 4.Maui1.简介2.优点3.缺点 5.Avalonia1.简介2.优点3.缺点 6. Cordova1.简介2.优点3.缺点 7.Electron1.简介2.优点3.缺点 个人搜集资料并总结了一些跨平台开发技术,如有不足欢迎…

分享一下怎么做一个房间预定链接

在旅游行业中,房间预定是非常重要的一环。随着互联网的普及和旅游业的发展,越来越多的人选择在网上预订房间。本文将介绍如何制作一个房间预定链接,以及推广该链接的方法和策略,帮助读者更好地了解房间预定的需求和实现方式。 一、…

隧道代理 vs 普通代理:哪种更适合您的爬虫应用?

前言 随着互联网的普及,爬虫技术在多个领域得到广泛应用。在进行爬虫开发时,代理服务器是不可或缺的工具之一。代理服务器可以隐藏客户端的真实 IP 地址和位置,从而保护客户端的隐私,同时通过代理可以绕过一些网络限制和安全机制…

什么是React中的高阶组件(Higher Order Component,HOC)?它的作用是什么?

聚沙成塔每天进步一点点 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 欢迎来到前端入门之旅!感兴趣的可以订阅本专栏哦!这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友们量身打造的。无论你是完全的新手还是有一些基础的开发…

迅为itop-3568开发板qt学习手册上新

基于RK3568的QT教程他来了~从C基础到QT编程实例再到项目实战,《iTOP-3568开发板QT学习手册》带你打通QT的任督二脉。 界面布局 3.5.1 水平布局 l Horizontal Layout:水平方向布局,组件自动在水平方向上分布 使用时先选中组件&#xff0…

设计模式中的黄金原则:引领你的代码风格,提升可维护性与扩展性

中国的先贤说过: 有道无术,术可求.有术无道,止于术. 术指的是技能、技术或方法,而道指的是原则、道德、智慧和理念。 西方古代的哲人也说过同样的话: 智慧之路从感性开始,却终极于理性.为什么要说设计原则呢, 因为设计模式通常需要遵循一些设计原则&…

Ant-Design-Pro-V5 :QueryFilter高级筛选组件、Table以及Pagination组件结合实现查询。

需求:根据 分类条件选择不同类型, table表格调取不同接口,展示不同数据。 代码: import React, { useRef, useState, Fragment, useEffect } from react; import { getNoticeInfo, getBannerList, delNotice } from ./service; …