【笔记】深度学习模型评估指标

推荐链接:
(0)多分类器的评价指标

(1)泛化误差的评价方法:【机器学习】模型评估与选择(留出法、交叉验证法、查全率、查准率、偏差、方差)

(2)机器学习:数据分布的漂移问题及应对方案

(3)机器学习:准确率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲线、PR曲线

0.背景+名词解释

在这里插入图片描述名词解释:
(1)过拟合:是指学习模型对训练样本预测得很好,但对新样本预测很差的现象。这通常是由于学习模型能力过于强大,以至于把训练样本自身的一些特点当做了一般性质。过拟合是无法彻底避免的,只能缓解。模型选择就是要旨在避免过拟合并提高模型的预测能力。
(2) 准确性:模型在训练数据集上的性能。
(3)泛化能力:模型在新数据集上的性能。
(4)过拟合:模型在训练数据集上表现良好,但在新数据集上表现差。
(5)欠拟合:模型在训练数据集和新数据集上表现差。
(6)验证集:用于评估模型性能的数据集,与训练集和测试集不同。
(7)交叉验证:在多个子集上进行验证,以减少验证集的随机性。

1.训练效果(泛化能力)评价指标

在这里插入图片描述

机器学习模型评估指标(有大量错误,需核对)

1.1.名词解释

  • 损失函数(Loss Function):深度学习模型在训练过程中使用损失函数来衡量预测值与真实值之间的差异。通常,通过优化算法(如梯度下降)最小化损失函数来调整模型的权重和参数。较低的损失值通常表示模型在训练数据上的拟合程度较好。
  • 准确率(Accuracy):准确率是评估深度学习模型分类性能的常见指标。它衡量模型在所有样本中正确分类的比例。准确率可以通过在测试集上计算正确分类的样本数除以总样本数得到。
  • 验证集(Validation Set):在训练过程中,可以将一部分数据集分离出来作为验证集,用于评估模型在未见过的数据上的性能。通过在验证集上计算损失和准确率等指标,可以判断模型的泛化能力。
  • 混淆矩阵(Confusion Matrix):混淆矩阵是用于评估分类模型性能的工具。它展示了模型在不同类别上的分类结果,包括真正例(True Positive,TP)、真负例(True Negative,TN)、假正例(False Positive,FP)和假负例(False Negative,FN)。基于混淆矩阵,可以计算出精确度(Precision)、召回率(Recall)和F1值等指标。
  • ROC曲线和AUC值:ROC曲线和AUC是用于评估二分类模型性能的指标。ROC曲线是以不同阈值下真正例率(True Positive Rate,TPR)和假正例率(False Positive Rate,FPR)为横纵轴绘制的曲线。AUC(Area Under Curve)是ROC曲线下的面积,用于衡量模型在所有可能阈值下的平均性能。
  • 平均精确度(Average Precision):平均精确度是用于评估目标检测和图像分割等任务的指标。它基于不同阈值下的精确度-召回率曲线,计算出曲线下的平均精确度。特定任务的指标:对于特定任务,可以选择适合的指标来评估模型的性能。例如,对于语言生成任务,可以使用BLEU(Bilingual Evaluation Understudy)指标来衡量生成文本的质量。

1.2.名词解释

  • 准确性(Accuracy):准确性是最常用的性能指标之一,用于衡量模型在整体数据集上的预测准确率。它可以通过计算正确预测的样本数量与总样本数量的比例来得到。

  • 损失函数(Loss Function):损失函数衡量了模型的预测输出与实际标签之间的差异。常见的损失函数包括均方误差(Mean Squared Error,MSE)、交叉熵损失(Cross-Entropy Loss)等。较低的损失函数值表示模型的预测与真实标签之间的差异较小。

  • 精确率(Precision)和召回率(Recall):精确率和召回率是用于评价二分类问题的性能指标。精确率表示被正确预测为正类的样本数量占所有被预测为正类的样本数量的比例,而召回率表示被正确预测为正类的样本数量占真实正类样本数量的比例。

  • F1分数(F1 Score):F1分数综合考虑了精确率和召回率,是一个综合评价指标。它是精确率和召回率的调和平均值,可以帮助综合评估模型的性能。

  • ROC曲线(Receiver Operating Characteristic Curve)和AUC(Area Under the Curve):ROC曲线是以真阳性率(True Positive Rate)为纵轴,假阳性率(False Positive Rate)为横轴绘制的曲线。AUC表示ROC曲线下的面积,用于衡量模型在不同阈值下的分类性能。

  • 交叉验证(Cross-Validation):交叉验证是一种用于评估模型性能的技术。它将数据集分成多个子集,每次使用其中一个子集作为验证集,其余子集作为训练集,多次重复训练和验证,计算模型在不同子集上的性能指标的平均值。

  • 超参数调优(Hyperparameter Tuning):深度学习模型通常有许多超参数,例如学习率、批量大小、正则化参数等。通过尝试不同的超参数组合,并使用评估指标来比较它们的性能,可以找到最佳的超参数配置。

1.3.多分类器训练效果示例

在这里插入图片描述在这里插入图片描述

kappa一致性评价

链接

p0被称为观测精确性或一致性单元的比例;pc被称为偶然性一致或期望的偶然一致的单元的比例。kappa计算结果为-1到1,但通常kappa是落在 0到1 间,可分为五组来表示不同级别的一致性:0.0到0.20极低的一致性(slight)、0.21到0.40一般的一致性(fair)、0.41到0.60 中等的一致性(moderate)、0.61到0.80 高度的一致性(substantial)和0.81到1几乎完全一致(almost perfect)。

例子:

混淆矩阵
在这里插入图片描述在这里插入图片描述k即kappa值,为0.8228,说明一致性良好

2.训练数据评价指标

目标类别分布是指训练数据中不同目标类别的比例。均衡的目标类别分布可以促进模型的泛化能力,使其能够有效地检测各种目标。不均衡的目标类别分布可能会导致模型对某些类别目标的检测精度较低。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/64980.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux运维常见命令

vi/vim快捷键使用 1)拷贝当前行 yy ,拷贝当前行向下的5行 5yy,并粘贴(输入p)。 2)删除当前行 dd ,删除当前行向下的5行5dd 3)在文件中查找某个单词 [命令行下 /关键字,回车查找 ,输入n就是查找下一个 ] 4)设置文件的行号&…

评估大语言模型在药物基因组学问答任务中的表现:PGxQA

​这篇文献主要介绍了一个名为PGxQA的资源,用于评估大语言模型(LLM)在药物基因组学问答任务中的表现。 研究背景 药物基因组学(Pharmacogenomics, PGx)是精准医学中最有前景的领域之一,通过基因指导的治疗…

AI芯片常见概念

文章目录 AI芯片常见概念前言常见概念AI芯片分类按照芯片的技术架构分GPU半定制化的 FPGA全定制化 ASIC神经拟态芯片 按应用场景分训练卡推理卡 按部署位置分国产AI卡资料汇总 AI芯片算力和能效比AI芯片算力AI芯片能效比 封装相关Chiplet技术3DIC三星多芯片集成联盟&#xff08…

SpringBoot中使用AOP切面编程实现登录拦截

使用AOP切面编程实现登录拦截 1. 首先实现一个登录注册功能 以下代码仅供参考 控制层 RestController RequestMapping("/user") public class UserController {Autowiredprivate UserService userService;PostMapping("/register")public Result regis…

重温设计模式--享元模式

文章目录 享元模式(Flyweight Pattern)概述享元模式的结构C 代码示例1应用场景C示例代码2 享元模式(Flyweight Pattern)概述 定义: 运用共享技术有效地支持大量细粒度的对象。 享元模式是一种结构型设计模式&#xff0…

用python ollama qwen2.5 开发一个AI修仙游戏

用 Python Ollama (Qwen2.5) 开发一个 AI 修仙游戏 简介 本文将介绍如何使用 Python 和 Ollama (Qwen2.5 模型) 开发一个文字版修仙游戏。这个游戏具有以下特点: 完整的修仙世界观和成长体系基于 AI 生成的动态剧情和事件丰富的物品系统(功法、丹药、灵宝等)社交…

【网络安全】网站常见安全漏洞—服务端漏洞介绍

文章目录 网站常见安全漏洞—服务端漏洞介绍引言1. 第三方组件漏洞什么是第三方组件漏洞?如何防范? 2. SQL 注入什么是SQL注入?如何防范? 3. 命令执行漏洞什么是命令执行漏洞?如何防范? 4. 越权漏洞什么是越…

Linux驱动开发 IIC I2C驱动 编写APP访问EEPROM AT24C02

在嵌入式开发中,I2C(Inter-Integrated Circuit)是一种常用的串行通信协议,广泛应用于与外设(如 EEPROM、传感器、显示屏等)进行数据交换。AT24C02 是一种常见的 I2C EEPROM 存储器,它提供 2Kbit…

HDR视频技术之十一:HEVCH.265 的 HDR 编码方案

前文我们对 HEVC 的 HDR 编码优化技术做了介绍,侧重编码性能的提升。 本章主要阐述 HEVC 中 HDR/WCG 相关的整体编码方案, 包括不同应用场景下的 HEVC 扩展编码技术。 1 背景 HDR 信号一般意味着使用更多比特,一般的 HDR 信号倾向于使用 10…

linux普通用户使用sudo不需要输密码

1.root用户如果没有密码,先给root用户设置密码 sudo passwd root #设置密码 2.修改visudo配置 su #切换到root用户下 sudo visudo #修改visudo配置文件 用户名 ALL(ALL) NOPASSWD: ALL #下图所示处新增一行配置 用户名需要输入自己当前主机的用户名

【时间之外】IT人求职和创业应知【74】-运维机器人

目录 OpenAI最强推理模型o3发布,AGI测试能力暴涨 英伟达宣布收购以色列AI初创企业Runai 汤姆猫首款AI机器人产品明日发售 心勿贪,贵知足。 感谢所有打开这个页面的朋友。人生不如意,开越野车去撒野,会害了自己,不如…

C#调用WebService的方法

一、前言 在日常工作中,如果涉及到与第三方进行接口对接,有的会使用WebService的方式,这篇文章主要讲解在.NET Framework中如何调用WebService。 1.创建WebService (1)新建项目——模板选择ASP.NET Web 应用程序 &a…

Qt creator ,语言家功能缺失解决方法

1、找到工具->外部->配置 2、添加目录,双击命名语言家 3、在语言家目录下,添加工具 双击重命名lupdate,即更新翻译 %{CurrentDocument:Project:QT_INSTALL_BINS}\lupdate%{CurrentDocument:Project:FilePath}%{CurrentDocument:Projec…

Taro小程序开发性能优化实践

我们团队在利用Taro进行秒送频道小程序的同时,一直在探索性能优化的最佳实践。随着需求的不断迭代,项目中的性能问题难免日积月累,逐渐暴露出来影响用户体验。适逢双十一大促,我们趁着这个机会统一进行了Taro性能优化实践&#xf…

springboot471基于协同过滤算法商品推荐系统(论文+源码)_kaic

摘 要 传统办法管理信息首先需要花费的时间比较多,其次数据出错率比较高,而且对错误的数据进行更改也比较困难,最后,检索数据费事费力。因此,在计算机上安装协同过滤算法商品推荐系统软件来发挥其高效地信息处理的作用…

进程间关系与守护进程

个人主页:C忠实粉丝 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 C忠实粉丝 原创 进程间关系与守护进程 收录于专栏[Linux学习] 本专栏旨在分享学习Linux的一点学习笔记,欢迎大家在评论区交流讨论💌 目录 1. 进程组 什…

【NLP 16、实践 ③ 找出特定字符在字符串中的位置】

看着父亲苍老的白发和渐渐老态的面容 希望时间再慢一些 —— 24.12.19 一、定义模型 1.初始化模型 ① 初始化父类 super(TorchModel, self).__init__(): 调用父类 nn.Module 的初始化方法,确保模型能够正确初始化。 ② 创建嵌入层 self.embedding n…

javaEE-多线程编程-3

目录 java 常见的包 : 回调函数: 什么是线程: 第一个线程: 验证多线程执行: 内核: 调用sleep()方法: 执行结果分析: 线程创建的几种方式: 1.继承Thread类,重写run()方法. 2.实现Runnable接口,重写run()方法. 3.继承Thread类,重写run()方法.但使用匿名内部类 4.实现…

怎么在idea中创建springboot项目

最近想系统学习下springboot,尝试一下全栈路线 从零开始,下面将叙述下如何创建项目 环境 首先确保自己环境没问题 jdkMavenidea 创建springboot项目 1.打开idea,选择file->New->Project 2.选择Spring Initializr->设置JDK->…

设计模式期末复习

一、设计模式的概念以及分类 是一套被反复使用,多数人知晓,经过分类编目,代码设计经验的总结,描述了在软件设计的过程中不断重复发生的问题,以及该问题的解决方案,他是解决特定问题的一系列套路&#xff0c…