深度学习基础(四)优化函数(梯度下降函数)

梯度下降函数也就是优化函数,在神经网络训练过程最重要的函数。重要程度类似于调校对于汽车的重要性,搭建模型和参数设置等操作=“造好了一辆汽车”,优化函数=“调校”。因为汽车最终的操控性和加速性能等指标很大程度取决于调校,调校的好的汽车操控性非常好,而调校不好的汽车开起来很难受。而优化函数也是一样,很多情况下学习模型是正确的,但是最终训练结果不如人意,往往是因为优化函数的选择错误。

目录

一、优化函数的发展历程。

二、优化函数原理详解

总结:


一、优化函数的发展历程。

优化函数的发展主要经历了下面的过程: BGD->SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -> Nadam。

今天我们主要介绍其中的6种优化函数,其中包括几乎“万能”的Adam,以及被大神们用的出神入化的SGD及其变种。此外,Adam算法对新手最友好了,几乎能解决所有的由优化函数引起的训练问题。

二、优化函数原理详解

1.BGD

BGD,全称是Batch gradient descent,批量梯度下降。其计算损失函数是遍历全部数据集,然后算函数对各个参数的梯度和更新梯度,所以其计算速度慢并且不支持在线学习。

实现:利用现有参数对训练集中的每一个输入生成一个估计输出Y_pred,然后跟实际输出Y统计所有误差,求平均以后得到平均误差,以此来作为更新参数的依据。

2.SGD

SGD,全程是stochastic gradient descent,随机梯度下降。每遍历一个数据就算一次损失函数,然后求取梯度更新参数。速度较快,但收敛性不好,容易在最优点附近振荡,陷入局部最优点。

实现:X_{t+1}=X_{T}-\sigma *\Delta f(X_{T})

每步迭代过程,从训练集中的随机抽取一批容量为m的样本{x1,…,xm},以及相关的输出y,计算梯度和误差并更新参数.

3.SGD +Momentum

SGD加入了惯性,是为了抑制SGD的振荡,即即将陷入局部最优点时,利用其惯性继续往前计算,避免陷入局部最优点。

 

4.Adagrad

Adagrad加入了二阶动量,即“自适应学习率”优化算法。在训练过程中经常更新的参数A,应该降低其学习速率;而对于偶尔更新的参数B,在针对特定出现的样本数据训练时应增大其学习速率。

Ghis主要代表的是历史数据的梯度,1e-7是一个很小的常量。

5.RMSprop

RMSprop是由AdaGrad改进而来的,因为在遭遇数据量非常大的数据集进行训练时,AdaGrad函数的Ghis项会越来越庞大,导致训练速度变慢以及其他的问题,所以加入decay的存在,该decay是历史数据对Ghis的权重。

6.Adam

Adam可以说是上述4项优化函数的优点的集大成者,存在2个超参数,分别控制一阶动量和二阶动量。

上图中first momentum和second momentum分别是一阶动量和二阶动量。

总结:

Adam对新手最友好,几乎“万能”;但是很多大神仍然用SGD及其变种来就能解决问题,大神些还是牛逼啊

参考文献:

1.深度学习之tensorflow

2.https://mp.weixin.qq.com/s/xm4MuZm-6nKTn2eE3eNOlg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/256550.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ANSYS 简支梁的约束

在ansys中,梁的定义都是通过梁截面和轴线进行定义的,不同的梁的区别在ansys中的体现仅在于约束的处理上不同 1.简支梁的约束 假设简支梁的梁轴线是x轴,可以绕z轴弯曲,则简支梁的约束: 起始点:X、Y、Z、RO…

js 实现 复制 功能 (zeroclipboard)

#复制功能因访问权限和安全问题, 被浏览器禁了# 我要实现的功能:点击复制按钮,复制浏览器的当前页面地址,加上用户选择的参数(用户查找过滤),直接将该链接发给别人,点击打开就是对应…

解决 kindle 书籍字体颜色偏淡问题的方法

现象 通过Markdown转换而来的mobi格式书籍都有一个大问题:字体偏淡,放在kindle上看对比度很差。 原因分析: 导致这种问题的原因,可能是因为在制作电子书的过程中,这些内容是被标注了彩色或灰色。这可能更适合全彩屏幕的…

车智汇模式系统技术开发数据

用户思维:对经营者和消费者的理解,以用户为中心,学会换位思考,发掘用户的真正想法和需求。以前是生产什么就卖什么(自己制作卖点),现在是了解用户需要什么才做什么(实现卖点)。车智汇是一款以"云平台智能终端&quo…

深度学习基础(二)激活函数

激活函数(也被称为激励函数)的意义就是加入非线性因素,使得神经网络具有非线性表达的能力。其必要条件是激活函数的输入和输出都是可微的,因为神经网络要求处处可微。(可微是指函数的各个方向可导,可微大于等于可导) …

ANSYS——固定斜度的变截面变截面的定义、自由耦合和变截面的定义

目录 1.变截面梁 2.自由度耦合 3.变截面的ANSYS GUI操作 4.疑问 以下两个定义转自:http://wenku.baidu.com/view/04e43ebbfd0a79563c1e722d.html 上述文章中还包含了一个实例,可以参考

Please ensure that adb is correctly located at……问题解决方案

启动android模拟器时.有时会报The connection to adb is down, and a severe error has occured.的错误.在网友说在任务管理器上把所有adb.exe关闭掉.重启eclipse.但试过不管用.所以在外国网站上找到一种可行的方法:1.先把eclipse关闭.2.在管理器转到你的android SDK 的platfor…

2016.8.23

1 贴吧里看到一个关于因为游戏闹翻的故事,大致情况是这样的:某女初中的时候有个闺蜜。后来此人因为抑郁之类的精神问题被送到医院,这让女主很苦闷且脆弱又孤单,这时候她的闺蜜去医院看望她,然后女主就喜欢上了这位闺蜜…

[Spring]01_环境配置

1.1 Spring jar包下载 (1)进入官网http://repo.spring.io (2)在资源库界面点击Artifacts标签,然后点击libs-release-local,展开后依次点击org -> springframework -> spring。 然后,就可…

ANSYS——常见梁的后处理方法(弯曲应力、弯矩、轴力等的显示)

目录 a. 显示变形 b. 显示当量应力 c. 显示弯曲应力 d. 支反力显示 e. 将图形存入文件

深度学习基础(三)loss函数

loss函数,即损失函数,是决定网络学习质量的关键。若网络结构不变的前提下,损失函数选择不当会导致模型精度差等后果。若有错误,敬请指正,Thank you! 目录 一、loss函数定义 二、常见的loss算法种类 1.M…

C#中DataTable中的Compute方法使用收集

Compute函数的参数就两个:Expression,和Filter。 Expresstion是计算表达式,关于Expression的详细内容请看这里“http://msdn2.microsoft.com/zh-cn/library/system.data.datacolumn.expression(VS.80).aspx”。而Filter则是条件过滤器&#x…

Lazy延迟实例对象

懒对象,实现延迟实例对象。 转载于:https://www.cnblogs.com/yj2010/p/5798622.html

Shift键关闭大小写

同事说他的大写开了之后无法关闭,我检查了下,的确是,非常奇怪,然后我不小心按了下下面的Shift键,大写指示灯灭了,我立即明白是怎么回事,原来是文字和语言设置里的Key setting改了,如…

ANSYS——如何选择合适的单元类型

目录 1.该选杆单元(Link)还是梁单元(Beam)? 2.对于薄壁结构,是选实体单元还是壳单元?

深度学习之pytorch(一) 环境安装

快2周没更新博客了,别问为什么!我才不会告诉你忙的飞起!说心里话,个人更喜欢用tensorflow来做深度学习! 一、环境配置 1.win10 64位系统; 2.anaconda3; 3.不管是CPU还是GPU具有(…

hdu3068马拉车

其实马拉车还真是最好理解的算法(感觉初中的时候好像讲过类似的,但是当时就没有认真听) 没想到一个简单的优化能变成O(n),感觉碉堡 不说了,马拉车裸题,我在写的时候只保留了id,没保留mx&#xf…

CAD——将图形移动到指定点的方法(此处以捕捉坐标系原点为例)

1、在CAD中画一个正方形,没有任何角点在坐标原点上 2、点击修改工具栏的“移动命令”,选择刚刚画好的图形,选择一个点为第一个基点; 3、先输入#号(shift3),再输入0,0,用英文逗号隔开&#xff0c…

阅读推荐——深入浅出Mesos

深入浅出Mesos(一):为软件定义数据中心而生的操作系统http://www.infoq.com/cn/articles/analyse-mesos-part-01 深入浅出Mesos(二):Mesos的体系结构和工作流http://www.infoq.com/cn/articles/analyse-mes…

MySQL主从复制(二)

1<span style"font-family:sans-serif;">主从架构中&#xff1a;从node是不接受w操作的&#xff0c;否则可能会导致数据不一致。</span><br> 一、复制架构中应该注意的问题&#xff1a; 1.限制slave为只读模式 可以设置在启动参数中。 > show g…