深度学习常用优化算法笔记介绍,各种梯度下降法详细介绍

优化算法

mini-batch梯度下降法

  • 当一个数据集其数据量非常大的时候,比如上百万上千万的数据集,如果采用普通的梯度下降法,那么运算速度会非常慢,因为如果使用梯度下降法在每一次迭代的时候,都需要将这整个上百万的数据给执行一遍
  • 所以我们可以将我们的大的数据分成一个一个小一点的数据集,然后分批次处理,比如我们有100万个数据,那么我们可以将其分成1000份,每份1000个数据,这里的一份就是所谓的一个mini-batch
  • 然后我们用循环来遍历这1000个子集,针对每一次的子集做一次梯度下降,更新W和b的值。然后对下一个子集继续执行上述操作,这样在遍历完所有的mini-batch后,就相当于我们做了1000次迭代,将所有样本都遍历一遍的行为叫一个epoch
  • 在批量梯度下降法中,我们运行一次epoch就相当于运行了一次梯度下降迭代,但是在mini-batch中,我们运行一次epoch相当于运行了1000次迭代,速度当然迥然不同,很明显后者更快
  • 我们来看到mini- batch的代价曲线
  • image-20211220112546622
  • 左边的是批量梯度下降的代价曲线,右边则是mini batch代价曲线曲线
  • 可以很明显的看出,左边的代价曲线很顺滑的进行了下降,这表明每一次迭代我们的预测值的误差在一次次缩小
  • 而右边的代价曲线从整体而言也是呈下降趋势的,但是在细节之处可以看出多了很多噪声,因为mini batch梯度下降法是采用分批次下降的,每份mini batch的质量都可能不一样,所以在每次运行的时候,可能某段数据质量高,从而预测的特别好,所以在那一段是下降的,而某段数据质量低,预测的效果不好,所以在那段是上升的,但没关系,因为总体而言是呈下降趋势的
  • 在mini batch这有一个超参数,也就是每份的大小,在刚刚拿个例子当中,我们设定的每份大小为1000,也就是一份有1000个数据,当每份大小设置成样本总数m的时候,那么这就是一个批量梯度下降,因为一次运行所有的样本。
  • 而如果设置的每份大小是1,则就是随机梯度下降法了
  • 随机梯度下降法有一个缺点就是你失去了向量化的优势,因为每次迭代只会运行一个样本,所以效率会变低很多
  • 所以最好的办法就是让mini batch获得一个最合适的值
如何选择合适的mini batch值?
  • 数据集 < 2000:批量梯度下降法
    • 因为如果数据集小于2000的话,就没有使用的mini batch的必要了,因为数据量很少,可以直接使用批量下降,运行速度也很快,而且也可以避免噪声所带来的影响
  • 数据集 > 2000:mini batch选择一个2的幂数值
    • 因为和计算机的存储机制有关,采用2的幂数值会运行的更快一点,例如64,128,256等等
  • 应该选取能一次性存放进CPU或GPU的数值

指数加权平均

  • 指数加权平均是根据权重来计算近似平均值的
  • 举个例子
    • 比如我们现在有100天的温度值,要求这100天的平均温度值
    • 24,25,24,26,34,28,33,33,34,35…32
    • 我们可以使用平均值公式来计算, 24 + 25 + . . . + 32 100 \frac{24+25+...+32}{100} 10024+25+...+32
    • 但是这种方法对于非常大的数据量来说,需要的内存空间就比较大,因为你需要一次性将所有的数据都存入内存当中再计算平均值
    • 而指数加权平均就是一种求近似平均的方法
    • 公式为: v t = β v t − 1 + ( 1 − β ) θ t v_t=\beta v_{t-1}+(1-\beta)\theta_t vt=βvt1+(1β)θt
    • 其中 v t v_t vt为到t时刻的平均值,在上面的例子来说就到第t天的温度平均值, θ t \theta_t θt为t时刻的温度,其中的 β \beta β为超参数
    • 本质就是以指数式递减加权的移动平均。各数值的加权而随时间而指数式递减,越近期的数据加权越重,但较旧的数据也给予一定的加权
    • 我们来如下计算步骤
    • img
    • 可以看出,指数加权平均的求解过程实际上是一个递推的过程,这样就会有一个优势
    • 在于每当我要求从0到某一时刻(n)的平均值的时候,我并不需要像普通求解平均值的作为,保留所有的时刻值,类和然后除以n
    • 而是只需要保留0-(n-1)时刻的平均值和n时刻的温度值即可。也就是每次只需要保留常数值,然后进行运算即可,这对于深度学习中的海量数据来说,是一个很好的减少内存和空间的做法
偏差修正
  • 由于一开始v0都是初始化为0,导致在初始计算时会计算差别很大,如上述每月温度,假设beta为0.9,则第一天的温度为: v 1 = 0.9 ∗ 0 + ( 1 − 0.9 ) 24 = 2.4 v_1=0.9*0+(1-0.9)24=2.4 v1=0.90+(10.9)24=2.4可以明显看出,这与第一天温度相差非常大,于是为了弥补这一误差,所以采用如下公式来更新 v t v_t vt的值 v t = v t 1 − β t = β v t − 1 + ( 1 − β ) θ t 1 − β t v_t=\frac{v_t}{1-\beta^t}=\frac{\beta v_{t-1}+(1-\beta)\theta_t}{1-\beta^t} vt=1βtvt=1βtβvt1+(1β)θt通过该公式重新计算 v 1 v_1 v1的值: v 1 = 0.9 ∗ 0 + ( 1 − 0.9 ) ∗ 24 1 − 0. 9 1 = 24 v_1=\frac{0.9*0+(1-0.9)*24}{1-0.9^1}=24 v1=10.910.90+(10.9)24=24
  • 可以看出,经过偏差修正后的数值回归到了一个正常的水平,并且随着 t t t的数值越大, β t \beta^t βt会越来越趋向于0,整个分母则会越来越趋向于1,于是偏差修正也会越来越无效。

动量梯度下降法

  • 动量梯度下降法就是采用了指数加权平均之后的梯度下降法
如何计算
  • image-20211220210656791

RMSprop

如何计算
  • image-20211227112010044

Adam

  • Adam是由动量梯度下降法和RMSprop组合而成
计算方法
  1. 对于所有的迭代下来说
  2. v d w = β 1 v d w + ( 1 − β 1 ) d w , v d b = β 1 v d b + ( 1 − β 1 ) d b v_{dw}=\beta_1v_{dw}+(1-\beta_1)dw,v_{db}=\beta_1v_{db}+(1-\beta_1)db vdw=β1vdw+(1β1)dw,vdb=β1vdb+(1β1)db
  3. s d w = β 2 s d w + ( 1 − β 2 ) d w 2 , s d b = β 2 s d b + ( 1 − β 2 ) d b 2 s_{dw}=\beta_2s_{dw}+(1-\beta_2)dw^2,s_{db}=\beta_2s_{db}+(1-\beta_2)db^2 sdw=β2sdw+(1β2)dw2,sdb=β2sdb+(1β2)db2
  4. v d w c o r r e n t e d = v d w 1 − β 1 t , v d b c o r r e n t e d = v d b 1 − β 1 t v_{dw}^{corrented}=\frac{v_{dw}}{1-\beta_1^t},v_{db}^{corrented}=\frac{v_{db}}{1-\beta_1^t} vdwcorrented=1β1tvdw,vdbcorrented=1β1tvdb
  5. s d w c o r r e n t e d = s d w 1 − β 2 t , s d b c o r r e n t e d = s d b 1 − β 2 t s_{dw}^{corrented}=\frac{s_{dw}}{1-\beta_2^t},s_{db}^{corrented}=\frac{s_{db}}{1-\beta_2^t} sdwcorrented=1β2tsdw,sdbcorrented=1β2tsdb
  6. w : = w − α v d w c o r r e n t e d s d w c o r r e n t e d + ε , b : = b − α v d b c o r r e n t e d s d b c o r r e n t e d + ε w:=w-\alpha\frac{v_{dw}^{corrented}}{\sqrt{s_{dw}^{corrented}+\varepsilon}},b:=b-\alpha\frac{v_{db}^{corrented}}{\sqrt{s_{db}^{corrented}+\varepsilon}} w:=wαsdwcorrented+ε vdwcorrented,b:=bαsdbcorrented+ε vdbcorrented
超参数建议
  • alpha:需要我们自己来确定
  • beta1:一般选做0.9,也可以自己尝试其他的值
  • beta2:论文作者所推荐的值为0.999,也可以自行调整
  • epsilon:论文作者推荐为10e-8,也可以自行调整

学习率衰减

为什么要使用学习率衰减?
  • 在使用mini-batch梯度下降法的时候,因为我们的小批量梯度下降法会产生噪声(小批量梯度下降法每个批次的质量都不一样,所以会产生噪声),所以当我们使用一个固定的学习率的时候,刚开始的时候可能会正常的梯度下降,但是一旦快靠近我们的极小值点的时候,由于学习率是固定的,一旦设大了,则会一直围绕着我们的极小值点周围转,而不会正真的靠近,如下图所示
  • image-20211227205445751
  • 而如果我们将学习率一开始就设置成一个固定小的一个值,那么需要迭代的次数就会非常多,大大降低了算法的效率,从而浪费资源。
  • 所以我们希望我们的学习率能够自动的根据梯度下降的情况,来衰减自己的大小,从而减少上述情况发生
学习率衰退方法
  • 这里有一个常用的公式: α = 1 1 + d e c a y R a t e ∗ e p o c h N u m α 0 \alpha=\frac{1}{1+decayRate * epochNum}\alpha_0 α=1+decayRateepochNum1α0
    • 参数意义如下:
      • decayRate:衰退率,一个超参数,可以自行调整
      • epochNum:当前迭代的第几次
      • alpha0:初始学习率值
    • 假如初始学习率为0.2,衰退率为1,则每轮迭代的值如下
      1. α = 1 1 + 1 ∗ 1 0.2 = 0.1 \alpha=\frac{1}{1+1 * 1}0.2=0.1 α=1+1110.2=0.1
      2. α = 1 1 + 1 ∗ 2 0.2 = 0.06 \alpha=\frac{1}{1+1 * 2}0.2=0.06 α=1+1210.2=0.06
      3. α = 1 1 + 1 ∗ 3 0.2 = 0.05 \alpha=\frac{1}{1+1 * 3}0.2=0.05 α=1+1310.2=0.05
  • 指数衰退学习率公式: α = 0.9 5 e p o c h N u m α 0 \alpha=0.95^{epochNum}\alpha0 α=0.95epochNumα0
    • 参数意义同上
  • 常用公式三: α = k e p o c h N u m α 0 \alpha=\frac{k}{\sqrt{epochNum}}\alpha0 α=epochNum kα0
    • 参数意义:
      • k:常数超参数,可自行调整

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/833892.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

航空电子FC节点卡, FC交换机,主要采用LC或MPO光纤接口形式

FC节点卡主要采用LC或MPO光纤接口形式&#xff0c;可以作为4/2个独立端口使用&#xff0c;也可以作为2对/1对冗余端口使用&#xff0c;支持1.0625Gbps、2.125Gbps、4.25Gbps、8.5Gbps通信速率。节点卡完全遵循FC-LS&#xff0c;FC-FS&#xff0c;FC-AE-ASM、FC-AE-1553B等FC光纤…

初始Java篇(JavaSE基础语法)(7)抽象类和接口(上)

找往期文章包括但不限于本期文章中不懂的知识点&#xff1a; 个人主页&#xff1a;我要学编程(ಥ_ಥ)-CSDN博客 所属专栏&#xff1a;JavaSE 目录 抽象类 抽象类的概念&#xff1a; 抽象类语法 抽象类特性 抽象类的作用 接口 接口的概念&#xff1a; 语法规则 接口…

精通GDBus:Linux IPC的现代C接口

目录标题 1. GDBus介绍2. GDBus的优点3. 安装GDBus4. 使用GDBus连接到D-Bus总线实现D-Bus服务调用D-Bus方法发送和接收信号 5. 总结 在Linux环境下&#xff0c;不同的程序需要通过某种方式进行通信和协同工作。GDBus是GLib库的一部分&#xff0c;提供了一个基于GObject系统的、…

单片机-点亮第一盏灯

原理图 需求&#xff1a;点亮或是熄灭LED 通过控制 P5.3引脚输出高电平时&#xff0c;LED灯就点亮&#xff0c;输出低电平时LED灯就熄灭 1.项目创建 新建项目 配置开发板信息 当前位STC芯片的开发板&#xff0c;选择STC MCU Database 搜素具体芯片型号&#xff0c;进行配置…

[MySQL数据库] Java的JDBC编程(MySQL数据库基础操作完结)

&#x1f338;个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 &#x1f3f5;️热门专栏:&#x1f355; Collection与数据结构 (91平均质量分)https://blog.csdn.net/2301_80050796/category_12621348.html?spm1001.2014.3001.5482 &#x1f9c0;Java …

【北京迅为】《iTOP-3588开发板快速烧写手册》-第8章 TF启动

RK3588是一款低功耗、高性能的处理器&#xff0c;适用于基于arm的PC和Edge计算设备、个人移动互联网设备等数字多媒体应用&#xff0c;RK3588支持8K视频编解码&#xff0c;内置GPU可以完全兼容OpenGLES 1.1、2.0和3.2。RK3588引入了新一代完全基于硬件的最大4800万像素ISP&…

C/C++ 初级球球大作战练手

效果演示&#xff1a; https://live.csdn.net/v/385490 游戏初始化 #include <stdbool.h> #include<stdio.h> #include<stdlib.h> #include<time.h> #include<graphics.h> #include <algorithm> #include<math.h> #include<mmsy…

java多线程编码应用1——java多线程CompletableFuture使用技巧

在实际项目开发过程中&#xff0c;大部分程序的执行顺序都是按照代码编写的先后顺序&#xff0c;依次从上往下挨个执行的&#xff0c;但是对于统计或者批量操作数据时&#xff0c;是否有更好的方案呢&#xff1f;这时候就可以考虑使用多线程编程&#xff0c;异步并行执行多个任…

【MATLAB画图】如何绘制图像坐标系

首先我们需要图像坐标轴的原点在左上角&#xff1a; set(gca,ydir,reverse,xaxislocation,top); 然后我们需要坐标轴上加上箭头 quiver(0, 0, 0, 520); % 在(x1, y1)处绘制一个箭头&#xff0c;其方向和长度由(dx, dy)确定 quiver(0, 0, 700, 0); % 在(x1, y1)处绘制一个箭头…

英语新概念2-回译法-lesson13

The Greenwood Boys 绿林少年是一组流行歌手们。现在他们正在参观城市里的所有公园&#xff0c;他们明天就要到这。他们将坐火车到并且大多数小镇上的年轻人将要欢迎他们&#xff0c;明天晚上他们将要在工人俱乐部唱歌。绿林少年将在这待五天&#xff0c;在这期间&#xff0c;…

flowable一对并发网关跳转的分析

更多ruoyi-nbcio功能请看演示系统 gitee源代码地址 前后端代码&#xff1a; https://gitee.com/nbacheng/ruoyi-nbcio 演示地址&#xff1a;RuoYi-Nbcio后台管理系统 http://218.75.87.38:9666/ 更多nbcio-boot功能请看演示系统 gitee源代码地址 后端代码&#xff1a; h…

前端面试题大合集3----网络篇

目录 一、Http协议详解&#xff0c;http请求方式&#xff0c;http状态码 Http协议详解&#xff1a; http请求方式&#xff1a; http状态码&#xff1a; 常用的状态码&#xff1a; 其他常用状态码&#xff1a; 二、Http常见请求方式 三、Http协议与TCP协议的区别和联系 …

【STM32G474】利用Cpp编写STM32代码后,Cubemx修改配置后代码报错147个error,如何处理?

问题描述 打开Cubemx&#xff0c;添加TIM7用于定时器精准延时&#xff0c;生成代码后&#xff0c;Keil提示有147个error。 之前是Cubemx是没有问题的&#xff0c;是利用Cpp编写stm32&#xff08;将Keil改为Version6&#xff09;后才导致Cubemx配置失败&#xff1a; debug成功…

Mybatis进阶2

Mybatis进阶1-CSDN博客 Mybatis入门-CSDN博客 Mybatis入门2-CSDN博客 我们接下来要学习Mybatis的高级查询 我们先在数据库中准备我们需要的数据表 teacher表 课程表&#xff1a;与教师表是一对多的关系&#xff0c;所以有一个外键字段 学生表 由于学生表和课程表是多对多的…

《Python编程从入门到实践》day22

# 昨日知识点回顾 方法重构、驾驶飞船左右移动、全屏显示 飞船不移动解决&#xff0c;问题出在移动变量x更新 # Ship.pysnipdef update(self):"""根据移动标志调整飞船的位置"""# 更新飞船而不是rect对象的x值# 如果飞船右移的标志和飞船外接…

射频无源器件之电桥

一. 电桥的定义及作用 电桥主要用于实现微波大功率功放系统的功率合成分配,信号采集等功能,被广泛应用于中国及全球4G/5G基站、5G网络覆盖、北斗导航天线、车载高精度导航(无人驾驶)天线等。可将信号分成有相位差的两路,90度电桥相位差90,180度电桥相位差180。 常说的3d…

Redis学习2——SpringBoot整合Redis,Redis工具类

依赖和配置 pom.xml SpringBoot整合Redis&#xff0c;需要引入spring-boot-starter-data-redis依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-redis</artifactId></dependency>当…

stm32_RTC_2_HAL——stm32CudeMX

介绍 RTC&#xff08;实时时钟&#xff09;不仅仅提供计数功能&#xff0c;它是一个完整的时钟和日历模块&#xff0c;用于提供日期和时间信息。RTC 能够提供年、月、日、星期、时、分、秒等时间信息&#xff0c;并且通常具有闹钟功能&#xff0c;可以用于定时唤醒或触发事件。…

C++学习第十二天(继承)

1、继承的概念以及定义 继承的概念 继承机制是面向对象程序设计使代码可以复用的最重要的手段&#xff0c;它允许程序员在保持原有类特性的基础上进行拓展&#xff0c;增加功能&#xff0c;这样产生新的类&#xff0c;称派生类。继承呈现了面向对象程序设计的层次结构&#x…

STM32F103学习笔记 | 报错界面及解决方案 | 1.keil5中文注释的横竖(正与斜)问题

文章目录 一、报错界面二、解决方案参考文献 一、报错界面 二、解决方案 打开设置 在打开的设置选项卡中&#xff0c;图中Font显示的是这个软件当前设置的字体&#xff0c;可以看到字体是仿宋&#xff0c;这就是问题出现的原因&#xff0c;将之改成没有的字体就行了。 可以看…