深度学习(二)-损失函数+梯度下降

损失函数

损失函数(Loss Function),也有称之为代价函数(Cost Function),用来度量预测值和实际值之间的差异。

损失函数的作用

  • 度量决策函数f(x)和实际值之间的差异。
  • 作为模型性能参考。损失函数值越小,说明预测输出和实际结果(也称期望 输出)之间的差值就越小,也就说明我们构建的模型越好。学习的过程,就 是不断通过训练数据进行预测,不断调整预测输出与实际输出差异,使的损失值最小的过程。

常用损失函数

均方误差
均方误差(Mean square error)损失函数。均方误差是 回归问题常用的损失函数 ,它是预测值与目标值之间差值的平方和,其公式和图像如下所示:
为什么使用误差的平方
曲线的最低点是可导的
越接近最低点,曲线的坡度逐渐放缓,有助于通过当前的梯度来判断接近最低点的程 度(是否逐渐减少步长,以免错过最低点)

 
交叉熵
交叉熵(Cross Entropy)。交叉熵是Shannon信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息,在机器学习中用来作为分类问题的损失函数。假设有两个概率分布,tk与yk ,其交叉熵函数公式及图形如下所示:
模拟计算交叉熵
import numpy as npy_true =  [0  ,0  ,0  ,1  ,0]
pred_y1 = [0.1,0.1,0.1,0.6,0.1]
pred_y2 = [0.1,0.1,0.05,0.7,0.05]
pred_y3 = [0.01,0.02,0.03,0.8,0.05]total1,total2,total3 = 0,0,0 
for i in range(len(y_true)):total1 += y_true[i] * np.log(pred_y1[i])total2 += y_true[i] * np.log(pred_y2[i])total3 += y_true[i] * np.log(pred_y3[i])total1,total2,total3 = -total1,-total2,-total3 print('交叉熵1:',total1)
print('交叉熵2:',total2)
print('交叉熵3:',total3)

注意:交叉熵越小越好

梯度下降

梯度(gradient)是一个向量(矢量,有方向),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大。损失函数沿梯度相反方向收敛最快(即能最快找到极值点)。当梯度向量为零(或接近于零),说明损失函数到达一个极小值点,模型准确度达到一个极大值点。

通过损失函数,我们将“寻找最优参数”问题,转换为了“寻找损失函数 最小值”问题。
寻找步骤:
(1)损失是否足够小?如果不是,计算损失函数的梯度。
(2)按梯度的反方向走一小步,以缩小损失。
(3)循环到(1)。
这种按照负梯度不停地调整函数权值的过程就叫作“ 梯度下降法 ”。通过这样的方法, 改变每个神经元与其他神经元的连接权重及自身的偏置,让损失函数的值下降得更快, 进而将值收敛到损失函数的某个极小值。

导数

所谓导数,就是用来分析函数“变化率”的一种度量。其公式为:

导数的含义:反映变化的剧烈程度(变化率)

偏导数

“偏导”的英文本意是“partial derivatives“(表示局部导数)。对于多维变量函数而言,当求某个变量的导数时,就是把其他变量视为常量,然后对整个函数求其导数 (相比于全部变量,这里只求一个变量,即为“局部”)。例如有函数:

学习率

学习率是梯度下降过程中,在梯度值前面的系数,用来控制调整的步幅大小

梯度递减训练法则

神经网络中的权值参数是非常多的,因此针对损失函数E的权值向量的梯度如以下公 式所示:

注意中间是恒等于。

批量梯度下降
批量梯度下降法(Batch Gradient Descent,BGD)是最原始的形式,它是指在每一次迭代时使用所有样本来进行梯度的更新。
  • 优点:
  1. 一次迭代是对所有样本进行计算,此时利用矩阵进行操作,实现了并行。
  2. 由全数据集确定的方向能够更好地代表样本总体,从而更准确地朝向极值所在的方向。 当目标函数为凸函数时,BGD一定能够得到全局最优。
  • 缺点:
  1. 当样本数目 m 很大时,每迭代一步都需要对所有样本计算,训练过程会很慢。

随机梯度下降
随机梯度下降法(Stochastic Gradient Descent,SGD)每次迭代使用一个样本来对参数进行更新,使得训练速度加快。
  • 优点:
  1. 由于不是在全部训练数据上的损失函数,而是在每轮迭代中,随机优化某一条训练数据上的损失函数,这样每一轮参数的更新速度大大加快。
  • 缺点:
  1. 准确度下降。由于即使在目标函数为强凸函数的情况下,SGD仍旧无法做到线性收敛。
  2. 可能会收敛到局部最优,由于单个样本并不能代表全体样本的趋势。
  3. 不易于并行实现。
小批量梯度下降
小批量梯度下降(Mini-Batch Gradient Descent, MBGD)是对批量梯度下降以及随 机梯度下降的一个折中办法。其思想是:每次迭代 使用指定个(batch_size)样本来对 参数进行更新。
  • 优点:
  1. 通过矩阵运算,每次在一个batch上优化神经网络参数并不会比单个数据慢太多。
  2. 每次使用一个batch可以大大减小收敛所需要的迭代次数,同时可以使收敛到的结果更加接近梯度下降的效果。
  • 缺点:
  1. batch_size的不当选择可能会带来一些问题。
几种梯度下降算法收敛比较
  • 批量梯度下降稳健地向着最低点前进 的
  • 随机梯度下降震荡明显,但总体上向最低点逼近
  • 小批量梯度下降位于两者之间

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/51901.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

检测CSRF漏洞的工具

免责声明此文档仅限于学习讨论与技术知识的分享,不得违反当地国家的法律法规。对于传播、利用文章中提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,本文作者不为此承担任何责任,一旦造成后果请自行承担&…

二百五十九、Java——采集Kafka数据,解析成一条条数据,写入另一Kafka中(一般JSON)

一、目的 由于部分数据类型频率为1s,从而数据规模特别大,因此完整的JSON放在Hive中解析起来,尤其是在单机环境下,效率特别慢,无法满足业务需求。 而Flume的拦截器并不能很好的转换数据,因为只能采用Java方…

javascript数据结构与算法-- 二叉树

javascript数据结构与算法-- 二叉树 树是计算机科学中经常用到的一种数据结构。树是一种非线性的数据结构,以分成的方式存储数据,树被用来存储具有层级关系的数据,比如文件系统的文件,树还被用来存储有序列表。我们要研究的是二叉…

IObit Uninstaller Pro v13.6.0.5 绿色便携免安装版本 下载

功能非常强大好用的软件卸载清理工具 下载地址(资源制作整理不易,下载使用需付费,不能接受请勿浪费时间下载) 链接:https://pan.baidu.com/s/1I7lbixooii9ezSrp3X-y-w?pwd716l 提取码:716l

d3dcompiler_47.dll缺失的可能原因多种多样,那么d3dcompiler_47.dll缺失怎么修复

在数字世界的深处,d3dcompiler_47.dll文件扮演着至关重要的角色,它是Direct3D编译器的一部分,负责处理图形渲染和游戏运行中的关键任务。然而,当用户启动某个程序或游戏时,屏幕上突然弹出的错误提示“d3dcompiler_47.d…

苹果手机勿扰模式怎么关闭?4个方法快速关闭!

我们为了提升做事的效率以及保障休息的质量,在认真工作和学习,或者是晚上休息的时候,通常会打开苹果手机的勿扰模式。但当我们需要恢复苹果手机的消息通知时,苹果手机勿扰模式怎么关闭呢?今天,小编整理了4个…

机械学习—零基础学习日志(概率论总笔记2)

正态分布 高斯分布也叫做正态分布。假定事件A经过n次试验后发生了k次,把k的概率分布图画一下,就得到了一个中间鼓起,像倒扣的钟一样的对称图形。 18世纪,数学家棣莫弗和拉普拉斯把这种中间大,两头小的分布称为正态分布…

厨师帽佩戴识别摄像机

厨师帽佩戴识别摄像机 是一种用于识别厨师是否佩戴帽子的智能设备,其作用在于强制执行食品安全卫生标准,防止头发掉落入食物中。该摄像机利用人工智能和图像识别技术,能够识别厨师是否佩戴厨师帽。当摄像机检测到厨师未佩戴帽子时&#xff0c…

微信小程序中Towxml解析Markdown及html

一、Towxml Towxml 是一个让小程序可以解析Markdown、HTML的解析库。 二、引入 2.1 clone代码 git clone https://github.com/sbfkcel/towxml.git2.2 安装依赖 npm install2.3 打包 npm run build2.4 引入文件 将dist文件复制到微信小程序根目录,改名为towx…

Flutter中的Key

在Flutter 中,Key 是 几乎所有 widget 都具有的属性。为什么 widget 具有 Key 呢?Key的作用是什么? 什么是 Key Key是Widget、Element 和 SemanticNodes 的标识符。 Key 是Widget、Element 和 SemanticNodes的唯一标识。例如对于 Widget 在 …

数据结构之 “单链表“

(1)在顺表表中,如果是头插/删的时间复杂度是O(1);尾插/删的时间复杂度是O(N) (2)增容一般是呈2倍的增长,势必会有一定的空间浪费。比如:申请了50个空间,只用了两个&#…

Type-C接口诱骗取电快充方案

Type-C XSP08Q 快充协议芯片是一种新型电源管理芯片,主要负责控制充电电流和电压等相关参数,从而实现快速充电功能。Type-C XSP08Q快充协议是在Type-C接口基础上,加入了XSP08Q协议芯片的支持,很大程度上提升了充电速度。 正常情况…

Linux——性能调优工具一览

一、CPU 1.调优工具 根据指标找工具 性能指标工具说明 平均负载 uptime、top uptime最简单、top提供了更全的指标 系统整体CPU使用率 vmstat、mpstat、top、sar、/proc/stat top、vmstat、mpstat只可以动态查看,而sar还可以记录历史数据 /proc/stat是其他性…

UE引擎内置插件信息 储存的位置

.uproject。图标文件可以让UE 引擎内置插件,配置更改,比如我希望我的DataSmithImporter插件是启用的。

STM32 ADC采样详解

Content 0x00 前言0x01 ADC配置0x02 滤波处理 0x00 前言 在单片机开发过程中,常常涉及到ADC的使用,市面上大部分便宜的传感器都是采用的ADC来获取其数据,如MQ-2 烟雾传感器、光敏传感器等等。 此类传感器工作原理为根据所采集到的数据变化…

大模型入门 ch01:大模型概述

本文是github上的大模型教程LLMs-from-scratch的学习笔记,教程地址:教程链接 STAGE 1: BUILDING 1. 数据准备与采样 LLM的预测过程,是一个不断预测下一个词(准确的说是token)的过程,每次根据输…

【C++八股题整理】内存布局、堆和栈、内存泄露、函数调用栈

C八股题整理 内存布局C中的内存分配情况堆和栈的内存有什么区别? 堆堆内存分配慢如何优化?内存池内存溢出和内存泄漏是什么?如何避免?内存碎片是什么?怎么解决? 栈为什么栈的访问效率比堆高?函数…

UI自动化测试 —— web端元素获取元素等待实践!

前言 Web UI自动化测试是一种软件测试方法,通过模拟用户行为,自动执行Web界面的各种操作,并验证操作结果是否符合预期,从而提高测试效率和准确性。 目的: 确保Web应用程序的界面在不同环境(如不同浏览器、操作系统)下…

【前缀和算法】--- 进阶题目赏析

Welcome to 9ilks Code World (๑•́ ₃ •̀๑) 个人主页: 9ilk (๑•́ ₃ •̀๑) 文章专栏: 算法Journey 本篇我们来赏析前缀和算法的进阶题目。 🏠 和可被K整除的子数组 📌 题目解析 和可被k整除的子数组 📌 …

记一次ssh伪终端修改为shell

问题 用户ssh进行连接后,默认为伪终端。 解决办法,可以先拿到终端shell,查看用户是否为/bin/bash: 不是/bin/bash,使用如下命令进行修改: chsh -s /bin/bash rootservice sshd restart