神经网络之损失函数

引言:损失函数 (Loss Function)是机器学习和深度学习中非常重要的一个概念。用于衡量模型的预测值与真实值之间的差异,从而指导模型优化其参数以最小化这种差异。

一、损失函数作用

在这里插入图片描述

  • 量化误差:损失函数是将预测值和真实值之间的差异转化为一个标量值。
  • 优化目标:通过最小化损失函数,模型可以逐步调整参数以提高预测的准确性,用来优化模型参数。
  • 评估模型性能:反映模型预测结果与目标值的匹配程度。

二、常见损失函数

1. 回归问题

损失函数公式特点适用场景
均方误差(MSE) L = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 L = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 L=n1i=1n(yiy^i)2放大误差,对离群点敏感标准线性回归
平均绝对误差(MAE) L = 1 n ∑ i = 1 n ∣ y i − y ^ i ∣ L = \frac{1}{n} \sum_{i=1}^{n} \vert y_i - \hat{y}_i\vert L=n1i=1nyiy^i抗噪强,优化不稳定离群点多的回归
Huber Loss L = { 1 2 ( y i − y ^ i ) 2 if  ∣ y i − y ^ i ∣ ≤ δ δ ∣ y i − y ^ i ∣ − 1 2 δ 2 其他 L = \begin{cases} \frac{1}{2}(y_i - \hat{y}_i)^2 & \text{if } \vert y_i - \hat{y}_i\vert \leq \delta \\ \delta \vert y_i - \hat{y}_i\vert - \frac{1}{2}\delta^2 & \text{其他} \end{cases} L={21(yiy^i)2δyiy^i21δ2if yiy^iδ其他平衡 MAE 和 MSE鲁棒回归任务
Log-Cosh Loss L = ∑ log ⁡ ( cosh ⁡ ( y ^ − y ) ) L = \sum \log(\cosh(\hat{y} - y)) L=log(cosh(y^y))平滑的 MAE对离群点略鲁棒

2. 分类问题

损失函数公式特点适用场景
交叉熵损失(Binary Cross Entropy) L = − 1 n ∑ i = 1 n [ y i log ⁡ ( y ^ i ) + ( 1 − y i ) log ⁡ ( 1 − y ^ i ) ] L = -\frac{1}{n} \sum_{i=1}^{n} \left[ y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i) \right] L=n1i=1n[yilog(y^i)+(1yi)log(1y^i)]二分类逻辑回归、二分类神经网络
交叉熵损失(Categorical Cross Entropy) L = − 1 n ∑ i = 1 n ∑ j = 1 k y i j log ⁡ ( y ^ i j ) L = -\frac{1}{n} \sum_{i=1}^{n} \sum_{j=1}^{k} y_{ij} \log(\hat{y}_{ij}) L=n1i=1nj=1kyijlog(y^ij)多分类Softmax 输出
稀疏分类交叉熵(Sparse Categorical Cross Entropy)使用类索引而不是 one-hot节省内存类别数较多
Focal Loss添加调节因子处理样本不平衡小样本分类检测、医学图像分类

3. 其他问题

损失函数应用说明
相对熵(KL Divergence)分布拟合常见于 NLP / VAE
Contrastive Loss度量学习Siamese 网络
Triplet Loss排序学习图像识别、人脸匹配
CTC Loss序列对齐语音识别、OCR 等
Dice Loss / IoU Loss图像分割非常常用于医学图像

三、如何选择损失函数

任务类型输出形式推荐损失函数PyTorch API
回归(无离群)连续数值MSEnn.MSELoss()
回归(有离群)连续数值MAE / Hubernn.L1Loss() / nn.HuberLoss()
二分类概率(Sigmoid)Binary Cross Entropynn.BCELoss() / nn.BCEWithLogitsLoss()
多分类概率(Softmax)Cross Entropynn.CrossEntropyLoss()
多标签分类多个 Sigmoid 输出nn.BCEWithLogitsLoss()多标签分类问题
图像分割概率图Dice Loss / Cross Entropy自定义 Dice Loss
NLP(语言模型)词分布KL Divergence / CEnn.KLDivLoss() / nn.CrossEntropyLoss()
度量学习特征嵌入Contrastive / Triplet自定义损失函数

四、举个🌰

import numpy as np# 真实值和预测值
y_true = np.array([1.0, 2.0, 3.0])
y_pred = np.array([1.2, 1.8, 2.5])# 1. 均方误差 (MSE)
mse = np.mean((y_true - y_pred) ** 2)
print(f"均方误差: {mse:.4f}")# 2. 均绝对误差 (MAE)
mae = np.mean(np.abs(y_true - y_pred))
print(f"均绝对误差: {mae:.4f}")# 3. Huber损失 (delta=1.0)
delta = 1.0
diff = np.abs(y_true - y_pred)
huber = np.mean(np.where(diff <= delta, 0.5 * diff ** 2, delta * diff - 0.5 * delta ** 2))
print(f"Huber损失: {huber:.4f}")# 4. 二分类交叉熵 (假设y_true是0/1标签,y_pred是概率)
y_true_binary = np.array([0, 1, 1])
y_pred_binary = np.array([0.2, 0.8, 0.9])
cross_entropy = -np.mean(y_true_binary * np.log(y_pred_binary + 1e-10) + (1 - y_true_binary) * np.log(1 - y_pred_binary + 1e-10))
print(f"二分交叉熵: {cross_entropy:.4f}")
均方误差: 0.1100
均绝对误差: 0.3000
Huber损失: 0.0550
二分交叉熵: 0.1839

五、总结

损失函数是机器学习和深度学习中不可或缺的一部分,合理选择和设计损失函数可以显著提高模型的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/75776.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java 基础-32-枚举-枚举的应用场景

在Java编程中&#xff0c;枚举&#xff08;Enum&#xff09;提供了一种强大的方式来定义一组固定的常量。它们不仅限于简单的用途&#xff0c;还可以包含构造函数、方法和字段等高级功能&#xff0c;使其适用于多种不同的应用场景。本文将探讨几种常见的使用枚举的场景&#xf…

【网络安全】安全的网络设计

网络设计是网络安全的基础&#xff0c;一个好的网络设计可以有效的防止攻击者的入侵。在本篇文章中&#xff0c;我们将详细介绍如何设计一个安全的网络&#xff0c;包括网络架构&#xff0c;网络设备&#xff0c;网络策略&#xff0c;以及如何处理网络安全事件。 一、网络架构…

网络安全-等级保护(等保) 0. 前言

各位伙伴好&#xff1a; 招投标总结已过去一年了&#xff0c;时间飞逝&#xff0c;一直忙于工作&#xff0c;等保相关的内容断断续续整理了近半年的时间&#xff0c;但一直无暇完成博客内容。 等保已经是一个成熟的体系&#xff0c;现在已进入等保2.0时代&#xff0c;相关政策…

TLS协议详解

TLS协议 一&#xff0c;TLS协议的组成 TLS协议架构模块分为两层&#xff1a;TLS记录协议&#xff0c;TLS握手协议 ① TLS记录协议&#xff1a; 是所有子协议的基层&#xff0c;规定了TLS收发数据的基本单位。所有子协议都需要通过记录协议发出&#xff0c;多个记录数据可以在…

ollama更新升级及警告解决

1. 概述 在大模型业务处理中&#xff0c;需要用到gemma3 和 qwen2.5-VL&#xff0c;当前服务器的ollama版本 0.3.11&#xff0c;无法满足要求&#xff0c;需要更新升级。 2. 实施过程 参考官网升级要求&#xff1a; curl -fsSL https://ollama.com/install.sh | sh 不知道…

ubuntu 配置固定ip

在装服务器系统的时候&#xff0c;DHCP自动获取ip时&#xff0c;路由可能会重新分配ip&#xff0c;为避免产生影响&#xff0c;可以关闭DHCP将主机设置为静态ip。 系统环境 Ubuntu 22.04-Desktop 配置方式 一、如果是装的Ubuntu图形化&#xff08;就是可以用鼠标操作点击应用…

套接字编程函数recv和send ,以及设置reuseaddress

recv就是去套接字读缓冲区读数据 阻塞模式下&#xff1a;读缓冲区没数据那就阻塞等待&#xff0c;若等待被打断返回-1设置errno为EINTR 非阻塞模式下&#xff1a;读缓冲区没数据那就返回-1&#xff0c;设置errno为EAGAIN或EWOULDBLOCK。 若连接断开返回0&#xff0c;读取成功…

《C++后端开发最全面试题-从入门到Offer》目录

当今科技行业对C++开发者的需求持续高涨,从金融科技到游戏开发,从嵌入式系统到高性能计算,C++凭借其卓越的性能和灵活性始终占据着关键地位。然而,成为一名优秀的C++工程师并非易事,不仅需要扎实的语言基础,还要掌握现代C++特性、设计模式、性能优化技巧以及各种工业级开…

设计模式简述(十)责任链模式

责任链模式 描述基本使用使用 描述 如果一个请求要经过多个类似或相关处理器的处理。 可以考虑将这些处理器添加到一个链上&#xff0c;让请求逐个经过这些处理器进行处理。 通常&#xff0c;在一个业务场景下会对整个责任链进行初始化&#xff0c;确定这个链上有哪些Handler…

初识数据结构——Java集合框架解析:List与ArrayList的完美结合

&#x1f4da; Java集合框架解析&#xff1a;List与ArrayList的完美结合 &#x1f31f; 前言&#xff1a;为什么我们需要List和ArrayList&#xff1f; 在日常开发中&#xff0c;我们经常需要处理一组数据。想象一下&#xff0c;如果你要管理一个班级的学生名单&#xff0c;或…

ReFormX:现代化的 React 表单解决方案 - 深度解析与最佳实践

ReFormX文档 表单开发一直是前端工作中最繁琐却又最常见的任务之一。从简单的登录表单到复杂的多步骤配置页面&#xff0c;开发者往往需要编写大量重复代码&#xff0c;处理繁琐的状态管理、数据验证和联动逻辑。ReFormX 应运而生&#xff0c;它不仅是一个表单组件库&#xff…

WinForm真入门(9)——RichTextBox控件详解

WinForm中RichTextBox控件详解&#xff1a;从基础到高级应用 上一文中笔者重点介绍了TextBox控件的详细用法&#xff0c;忘记的 请点击WinForm真入门(8)——TextBox控件详解&#xff0c;那么本文中的RichTextBox与TextBox有什么区别吗&#xff0c;光看名字的话&#xff0c;多了…

Draw.io 全面解析与竞品分析:图表绘制工具的深度对比

目录 一、Draw.io 全面介绍 1. 产品概述 2. 核心功能特点 3. 用户体验 4. 商业模式 二、市场竞品分析 1. 主要竞品概览 2. 深度功能对比 3. 价格策略对比 4. 技术架构对比 三、用户场景与选择建议 1. 不同场景下的工具推荐 2. 未来发展趋势 四、结论 diagrams.net…

kafka分区策略详解

Kafka 分区策略详解 Kafka 的分区策略决定了消息在生产者端如何分配到不同分区&#xff0c;以及在消费者端如何动态分配分区以实现负载均衡。以下是 Kafka 核心分区策略及其适用场景的详细解析&#xff1a; 1、生产者分区策略 生产者负责将消息发送到 Topic 的特定分区&#…

C++ STL 详解 ——list 的深度解析与实践指南

在 C 的标准模板库&#xff08;STL&#xff09;中&#xff0c;list作为一种重要的序列式容器&#xff0c;以其独特的双向链表结构和丰富的操作功能&#xff0c;在许多编程场景下发挥着关键作用。深入理解list的特性与使用方法&#xff0c;能帮助开发者编写出更高效、灵活的代码…

GenerationMixin概述

类 类名简单说明GenerateDecoderOnlyOutput继承自 ModelOutput&#xff0c;适用于非束搜索方法的解码器-only模型输出类。GenerateEncoderDecoderOutput继承自 ModelOutput&#xff0c;适用于非束搜索方法的编码器-解码器模型输出类。GenerateBeamDecoderOnlyOutput继承自 Mod…

【备赛】蓝桥杯嵌入式实现led闪烁

原理 由于蓝桥杯的板子带有锁存器&#xff0c;并且与lcd屏幕有冲突&#xff0c;所以这个就成了考点。 主要就是用定时器来实现&#xff0c;同时也要兼顾lcd的冲突。 一、处理LCD函数 首先来解决与lcd屏幕冲突的问题&#xff0c;把我们所有用到的lcd函数改装一下。 以下是基…

C++ 并发性能优化实战:提升多线程应用的效率与稳定性

&#x1f9d1; 博主简介&#xff1a;CSDN博客专家、CSDN平台优质创作者&#xff0c;获得2024年博客之星荣誉证书&#xff0c;高级开发工程师&#xff0c;数学专业&#xff0c;拥有高级工程师证书&#xff1b;擅长C/C、C#等开发语言&#xff0c;熟悉Java常用开发技术&#xff0c…

Python----计算机视觉处理(Opencv:道路检测之车道线拟合)

完整版&#xff1a; Python----计算机视觉处理&#xff08;Opencv:道路检测完整版&#xff1a;透视变换&#xff0c;提取车道线&#xff0c;车道线拟合&#xff0c;车道线显示&#xff09; 一、获取左右车道线的原始位置 导入模块 import cv2 import numpy as np from matplot…

优选算法的妙思之流:分治——归并专题

专栏&#xff1a;算法的魔法世界 个人主页&#xff1a;手握风云 目录 一、归并排序 二、例题讲解 2.1. 排序数组 2.2. 交易逆序对的总数 2.3. 计算右侧小于当前元素的个数 2.4. 翻转对 一、归并排序 归并排序也是采用了分治的思想&#xff0c;将数组划分为多个长度为1的子…