【深度学习】(3)--损失函数

文章目录

  • 损失函数
    • 一、L1Loss损失函数
      • 1. 定义
      • 2. 优缺点
      • 3. 应用
    • 二、NLLLoss损失函数
      • 1. 定义与原理
      • 2. 优点与注意
      • 3. 应用
    • 三、MSELoss损失函数
      • 1. 定义与原理
      • 2. 优点与注意
      • 3. 应用
    • 四、BCELoss损失函数
      • 1. 定义与原理
      • 2. 优点与注意
      • 3. 应用
    • 五、CrossEntropyLoss损失函数
      • 1. 定义与原理
      • 2. 优点与注意
      • 3. 应用
  • 总结

损失函数

损失函数(Loss Function)是机器学习和深度学习中非常重要的一个概念,它用于评估模型的预测值与实际值之间的差异程度。在训练过程中,损失函数作为优化的目标,通过最小化损失函数的值来调整模型参数,从而提高模型的预测准确性。

具体来说,损失函数将模型的预测输出(例如,一个分类任务中的类别概率分布)与真实标签(或真实值)进行比较,并计算出一个表示差异的数值。这个数值越大,表示模型的预测越不准确;数值越小,表示模型的预测越接近真实情况。

接下来,我们介绍几个常用的损失函数。

一、L1Loss损失函数

L1Loss损失函数,也被称为平均绝对误差(Mean Absolute Error, MAE),是深度学习和机器学习中常用的一种损失函数,特别是在回归任务中。

1. 定义

L1Loss计算的是模型预测值f(x)与真实值y之间差的绝对值的平均值。其数学表达式为:

在这里插入图片描述

其中,n是样本数量,yi是第i个样本的真实值,f(xi)是模型对第i个样本的预测值。

2. 优缺点

  • 优点
  1. 稳定性:L1Loss对于所有输入值都有稳定的梯度,不会导致梯度爆炸问题,因此具有较为稳健的解。
  2. 鲁棒性:L1Loss对于噪声和异常值(离群点)具有相对较强的鲁棒性,因为它不会因个别异常值而产生过大的误差。
  3. 稀疏性:L1Loss能够产生稀疏的特征权重,即很多无用或影响较小的特征的权重会被置为0,有助于特征选择和模型简化。
  • 缺点
  1. 不可导性:在0点处,L1Loss的梯度不存在(因为绝对值函数在0点不可导),这可能导致在优化过程中,当权重恰好接近0时,梯度下降法无法继续进行。
  2. 收敛速度:与L2Loss相比,L1Loss在误差较大时,其梯度是恒定的,这可能导致在接近最优解时收敛速度较慢。

3. 应用

  1. L1Loss通常用于回归任务中,特别是当模型需要处理的数据集存在较多噪声或异常值。
  2. 或者希望模型具有稀疏特征时。

然而,由于神经网络通常解决的是复杂问题,且L1Loss在0点不可导的缺点,它在神经网络中的应用相对较少,尤其是在需要精细调整权重的情况下。

二、NLLLoss损失函数

NLLLoss损失函数,全称为Negative Log Likelihood Loss(负对数似然损失),是深度学习中常用的一种损失函数,尤其在处理分类问题时表现出色。

1. 定义与原理

NLLLoss衡量的是模型预测概率分布与真实标签之间差异的损失。在PyTorch等深度学习框架中,它通常用于多分类任务。具体来说,NLLLoss计算的是对数概率的负值与真实标签之间的交叉熵损失。这样做的目的是通过最小化损失来优化模型参数,使得模型的预测结果更加接近真实标签。

2. 优点与注意

NLLLoss损失函数的优点在于它能够直接反映模型预测的概率分布与真实标签之间的差异,且计算过程相对简单高效。然而,在使用时需要注意以下几点:

  1. 输入要求:NLLLoss要求输入的对数概率必须是通过log_softmax函数计算得到的,而不能直接使用softmax函数的输出。
  2. 目标标签:目标标签需要是整数类型,表示每个样本的真实类别索引。
  3. 权重调整:如果需要对不同类别的损失进行权重调整,可以在NLLLoss函数中设置相应的权重参数。
  4. 数值稳定性:由于NLLLoss涉及对数运算,因此需要注意数值稳定性问题。通过先应用log_softmax函数可以避免直接计算softmax时可能出现的上溢或下溢问题。

3. 应用

NLLLoss损失函数在多分类问题中广泛应用,包括但不限于自然语言处理(NLP)中的语言模型、情感分类等任务。在这些任务中,模型需要将输入序列映射到输出标签,而NLLLoss能够评估模型预测的概率分布与真实标签之间的差异,从而指导模型的优化方向。

三、MSELoss损失函数

MSELoss损失函数,全称为Mean Squared Error Loss(均方误差损失函数),是深度学习中常用的一种回归损失函数

1. 定义与原理

MSELoss通过计算预测值与真实值之间差的平方的平均值来衡量模型的性能。具体来说,对于每个样本,它计算预测值与真实值之差的平方,然后对所有样本的平方误差求和并取平均,得到最终的损失值。这种损失函数旨在通过最小化预测值与真实值之间的差异来优化模型参数,从而提高模型的预测准确性。

对于单个样本,假设预测值为 y^,真实值为 y,则该样本的均方误差为 (y^−y)2。对于包含 n 个样本的数据集,MSELoss的计算公式为:

在这里插入图片描述

2. 优点与注意

  • 优点
  1. 优化景观:MSE结果是一个平滑且凸的优化景观,这有助于使用基于梯度的算法(如梯度下降)进行高效优化。
  2. 唯一极小值:MSE具有唯一的全局极小值,这简化了优化过程,并在某些情况下可以获得解析解。
  3. 可微性:MSE在任何地方都是可微的,这使得在训练过程中可以使用基于梯度的优化方法。
  4. 广泛适用性:MSE是回归问题的标准且广泛使用的损失函数,适用于预测连续的数值。
  • 注意
  1. 对异常值敏感:由于MSE计算的是误差的平方,因此它对异常值非常敏感。当数据集中存在极端值时,这些异常值可能会对损失值产生不成比例的影响,从而导致模型性能下降。
  2. 非直观的尺度:MSE的尺度受到平方差的影响,这可能导致其解释性较差。特别是在与原始数据的尺度相比时,MSE可能难以直观地反映模型预测的准确性。

3. 应用

MSELoss在多种回归任务中表现出色,包括但不限于房价预测、股票价格预测、气温预测等。在这些任务中,模型需要输出一个连续的数值预测结果,而MSELoss能够有效地评估模型预测结果与实际值之间的差异,并指导模型的优化方向。

四、BCELoss损失函数

BCELoss损失函数,全称为Binary Cross Entropy Loss(二元交叉熵损失函数),是深度学习中常用于二分类问题的一种损失函数。

1. 定义与原理

BCELoss通过计算模型预测的概率分布与实际标签之间的交叉熵损失来评估模型的性能。在二分类问题中,每个样本的真实标签是0或1,而模型输出的是一个介于0和1之间的概率值,表示该样本属于正类的概率。BCELoss通过比较这两个值之间的差异,为模型提供一个损失值,该值越大表示模型预测越不准确。

对于单个样本,BCELoss的数学公式为:

在这里插入图片描述

其中,y 是实际标签(0 或 1),p 是模型输出的概率值(预测为正类的概率),log 是自然对数。

  • y=1 时,损失函数简化为 −log(p),此时如果 p 越接近 1,则损失越小;
  • y=0 时,损失函数简化为 −log(1−p),此时如果 p 越接近 0,则损失越小。

对于一批样本,BCELoss通常是对所有样本的BCELoss求和后取平均值。

2. 优点与注意

  • 优点
  1. 直观性:BCELoss能够直观地反映模型预测的概率分布与实际标签之间的差异,从而指导模型的优化方向。
  2. 鲁棒性:在二分类问题中,BCELoss对正负样本的预测误差都进行了考虑,使得模型在训练过程中能够同时关注到正负样本的分类情况。
  3. 易于实现:在深度学习框架(如PyTorch、TensorFlow等)中,BCELoss通常作为内置函数提供,易于实现和使用。
  • 注意
  1. 输入要求:在使用BCELoss时,需要注意模型输出的概率值应该经过Sigmoid函数或其他适当的激活函数处理,以确保其值在0和1之间。
  2. 标签要求:BCELoss要求真实标签必须是二值化的(0或1),而不是其他形式的标签(如类别索引、独热编码等)。
  3. 数值稳定性:在计算BCELoss时,需要注意数值稳定性问题。例如,当预测概率 p 非常接近0或1时,log(p) 或 log(1−p) 的值可能会变得非常大或非常小,导致计算过程中出现数值问题。为了避免这种情况,可以对 p 进行一些平滑处理(如添加一个小的正数 ϵp 和 1−p 中)。

3. 应用

BCELoss广泛应用于各类二分类任务中,如文本情感分析(积极/消极)、垃圾邮件检测(垃圾邮件/非垃圾邮件)、病患诊断(患病/未患病)等。在这些任务中,模型需要输出一个二分类的概率预测结果,而BCELoss能够有效地评估模型预测的准确性,并指导模型的优化方向。

五、CrossEntropyLoss损失函数

CrossEntropyLoss损失函数,也称为交叉熵损失函数,是深度学习中用于分类问题的一种常用损失函数。它衡量的是模型预测的概率分布与真实标签的概率分布之间的差异。尽管它通常与多分类问题相关联,但也可以用于二分类问题(在这种情况下,它等价于二元交叉熵损失,即BCELoss的特例)。

1. 定义与原理

交叉熵损失函数通过比较模型对每个类别的预测概率和真实的标签(通常是独热编码形式)来计算损失。如果模型对某个样本的预测概率分布与真实标签越接近,则交叉熵损失越小;反之,损失越大。

对于多分类问题,假设有C个类别,对于每个样本,交叉熵损失的计算公式如下:

在这里插入图片描述

其中,yc 是样本的真实标签中第 c 类的值(在独热编码中,只有一个元素为1,其余为0),pc 是模型预测的第 c 类的概率。

注意,在实际计算中,由于 yc 是独热编码的,所以上式中的求和实际上只涉及一个非零项,即真实标签对应类别的预测概率的对数的负值。

2. 优点与注意

  • 优点
  1. 直观性:交叉熵损失能够直观地反映模型预测的概率分布与真实标签之间的差异。
  2. 易于优化:由于交叉熵损失函数是凸函数(在模型输出为softmax概率的情况下),因此可以使用梯度下降等优化算法来有效地最小化损失。
  3. 鲁棒性:交叉熵损失对预测概率的微小变化敏感,这有助于模型在训练过程中更准确地逼近真实标签。
  • 注意
  1. 输入要求:在使用交叉熵损失函数时,需要确保模型输出的是概率值(通常通过softmax函数进行转换),而真实标签是独热编码形式的。
  2. 数值稳定性:当预测概率接近0时,log(p) 的值会趋于负无穷,这可能导致数值问题。为了解决这个问题,可以在计算对数之前对预测概率进行平滑处理(例如,添加一个小的正数 ϵ 到预测概率中)。
  3. 权重平衡:在处理类别不平衡的数据集时,可以为不同类别的损失分配不同的权重,以改善模型的性能。

3. 应用

交叉熵损失函数广泛应用于多分类问题中,如图像分类、文本分类等。在这些任务中,模型需要输出每个类别的概率预测,而交叉熵损失函数能够有效地评估模型预测的准确性,并指导模型的优化方向。

总结

本篇介绍了部分损失函数,损失函数有很多,这些是较为常用的,其余可以自行了解哦~

  1. L1Loss损失函数:通常用于回归任务中。
  2. NLLLoss损失函数:在多分类问题中广泛应用。
  3. MSELoss损失函数:在多种回归任务中表现出色。
  4. BCELoss损失函数:广泛应用于各类二分类任务中
  5. CrossEntropyLoss交叉熵损失函数:广泛应用于多分类问题中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/880092.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

K8S容器实例Pod安装curl-vim-telnet工具

在没有域名的情况下,有时候需要调试接口等需要此工具 安装curl、telnet、vim等 直接使用 apk add curlapk add vimapk add tennet

CMake 构建Qt程序弹出黑色控制台

CMake 构建Qt程序弹出黑色控制台

mysql 内存被打满记录

一:早上收到报警:提示:您的云数据库RDS的1个实例因存储空间满将被锁定,请关注实例的存储空间使用情况,可通过存储扩容或空间清理解除锁定。后续查看错误日志如下:磁盘没有空间了 没有多余的空间写binlog和…

STM32 单片机最小系统全解析

STM32 单片机最小系统全解析 本文详细介绍了 STM32 单片机最小系统,包括其各个组成部分及设计要点与注意事项。STM32 最小系统在嵌入式开发中至关重要,由电源、时钟、复位、调试接口和启动电路等组成。 在电源电路方面,采用 3.3V 直流电源供…

Golang | Leetcode Golang题解之第417题太平洋大西洋水流问题

题目: 题解: type pair struct{ x, y int } var dirs []pair{{-1, 0}, {1, 0}, {0, -1}, {0, 1}}func pacificAtlantic(heights [][]int) (ans [][]int) {m, n : len(heights), len(heights[0])pacific : make([][]bool, m)atlantic : make([][]bool, …

AttributeError: ‘Sequential‘ object has no attribute ‘predict_classes‘如何解决

今天跟着书敲代码,报错: Sequential object has no attribute predict_classes,如图所示: 上网百度,发现predict_classes函数在新版本中已经删除了,需要使用 model.predict() 替代 model.predict_classes()…

基于springboot+vue超市管理系统

基于springbootvue超市管理系统 摘 要 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本无人超市管理系统就是在这样的大环境下诞生,其可以帮助使用者在…

AI运动小程序开发常见问题集锦一

截止到现在写博文时,我们的AI运动识别小程序插件已经迭代了23个版本,成功应用于健身、体育、体测、AR互动等场景;为了让正在集成或者计划进行功能扩展优化的用户,少走弯路、投入更少的开发资源,我们归集了一部分集中的…

统信服务器操作系统ade版【iostat】命令详解

统信服务器操作系统全版本iostat 安装、命令格式和命令参数 文章目录 功能概述功能介绍1.iostat安装2.iostat命令格式3.iostat命令参数 功能概述 iostat主要用与报告CPU统计信息和设备分区的io统计信息,iostat首次运行时显示自系统启动开始的各项统计信息&#xff…

vben admin vue后端权限控制登录失效后,vben admin获取登录过期信息并注销登录返回登录页

登录失效后,后端拦截器拦截并跳转到登录失效方法,该方法返回对应的code编码,如果报错跨域,加上跨域注解CrossOrigin ResponseBodyCrossOrigin //目标方法上加入这个解决跨域RequestMapping(value { "/tokentimeout"}…

IEEE Electronic Library(IEL)数据库文献检索下载介绍及个人获取IEEE文献途径

一、数据库介绍 IEEE(The Institute of Electrical and Electronics Engineers,电气电子工程师学会)是目前全球最大的非营利性专业技术学会,在全球160多个国家拥有超过45万名会员。IEEE在电气电子、计算机、半导体、通讯、电力能…

【Unity踩坑】UI Image的fillAmount不起作用

在游戏场景中,我们经常在界面上展示进度条,当然有各种形状的,线性的,长方形的,圆形,环形等等。 Unity中实现这种效果的话,最基本的方法说是改变Image的fillAmout属性。 如果你是初次使用UI Ima…

浅显易懂的Git教程

Git概述 SVN与Git的对比 SVN(Subversion) 类型:集中式版本控制系统 工作流程: 从中央服务器下载最新版本到本地。在本地进行开发。提交更改回中央服务器。 优点: 简单易用,适合小型团队。版本历史清…

VMware vSphere 8.0 Update 3b 发布下载,新增功能概览

VMware vSphere 8.0 Update 3b 发布下载,新增功能概览 vSphere 8.0U3 | ESXi 8.0U3 & vCenter Server 8.0U3 请访问原文链接:https://sysin.org/blog/vmware-vsphere-8-u3/,查看最新版。原创作品,转载请保留出处。 作者主页…

JavaEE——多线程

接着上篇博客我们已经学习了进程的相关概念,了解到进程里面的相关重要属性,那么这篇博客呢我们要学习一个新的知识点——线程! 一、引入进程的目的 首先引入进程这个概念,是为了解决“并发编程”这样的问题。因为CPU 再往小了做…

【C++】——多态详解

不管前方的路有多苦,只要走的方向正确,不管多么崎岖不平,都比站在原地更接近幸福。 —— 宫崎骏 《千与千寻》 目录 1、什么是多态? 2、多态的定义及实现 2.1多态的构成条件 ​2.2多态语法细节处理 2.3协变 2.4析构函数的重…

鸿蒙Harmony应用开发,数据驾驶舱页面的实现

先来看看我们要实现的驾驶舱的页面是什么样的 对于这种 响应式布局的页面构建,我们的脑子里面要有一个概念,就是"分而治之"。我们把这个页面进行分割,分割成不同的块然后再来逐个实现. 不难发现,我们可以将这个看到的效…

96. UE5 GAS RPG 实现闪电链技能(一)

闪电链有一个施法的过程,就是在按键按下的过程,会在按下的过程一直持续造成伤害,一直等到条件不满足(技能键位抬起,蓝量不足,被眩晕)时,将结束技能,并退出技能状态。 所以…

FreeRTOS学习——链表list

FreeRTOS学习——链表(列表)list,仅用于记录自己阅读与学习源码 FreeRTOS Kernel V10.5.1 参考大佬的好文章: freertos内核原理 Day1(链表) FreeRTOS-链表的源码解析 *list_t只能存储指向list_item_t的指针。每个list_item_t都…

VMware vCenter Server 7.0U3s 发布下载,新增功能概览

VMware vCenter Server 7.0U3s 下载 - 集中管理 vSphere 环境 Server Management Software | vCenter | 集中管理 vSphere 环境 请访问原文链接:https://sysin.org/blog/vmware-vcenter-7-u3/,查看最新版。原创作品,转载请保留出处。 作者…