【深度学习】——激活函数(sigmoid、tanh、relu、softmax)

目录

激活函数

1、作用

2、常用激活函数

3、衡量激活函数好坏的标准:

4、不同的激活函数

1)sigmoid

2)tanh函数

 3)RULE函数和leak-relu函数

4)softmax函数


激活函数

1、作用

如果只是线性卷积的话,会导致无法形成复杂的表达空间,因此需要激活函数来进行非线性映射,这样可以得到更高语义的信息,提升整个神经网络的表达能力。

2、常用激活函数

sigmoid、tanh、relu、softmax

3、衡量激活函数好坏的标准:

1)是否0-均值输出:即是否关于零点中心对称,这样可以使得收敛加速(不太理解)

2)是否会出现梯度消失现象:梯度消失现象主要是因为在反向传播时,由于链式求导原则,使得梯度从后一层传到前一层会出现减小的情况,如果网络深的话,传播到前面时,梯度变成了0

以BP后向传播为例,在求w11的导数时,若W1求值为[0,1],激活函数φ的导数小于1时会出现梯度消失

3)激活函数表达式是否会很复杂:若计算表达式出现幂运算、指数运算等,一般计算量都很大

4、不同的激活函数

1)sigmoid

sigmoid函数可以作为0-1二分类的分类器,也可以作为层数较少的神经网络的激活函数

优缺点如下:

2)tanh函数

tanh函数适用于激活函数,相较于sigmoid函数做到了零均值输出以及缓解了梯度消失

优缺点如下:

 3)RULE函数和leak-relu函数

RELU函数因为其在正空间为线性的缘故,因此适用于深度很深的神经网络中,比如VGG16的实现。但是因为其在负空间直接将值置为0,导致导数为0,使得会出现参数不更新的情况,称之为Dead ReLU Problem,基于此,出现了leak-rule函数,它是给了一个非常小的系数,使得在负空间的导数接近于零而不等于零,优缺点如下:

注意(个人理解):在大量的实验种,发现relu函数会优于后者,原因可以是relu起到了一定的dropout的作用,可以有效地避免过拟合。因为relU在小于0的时候,梯度是0的,也就是有一部分神经元的参数是不会发生改变,所以这也相当于这部分神经元在训练的时候被丢弃了,只有一部分神经元参与到了训练当中。每次迭代都有不一样的神经元的参数不发生改变,这样的话就导致了多次训练得到了不一样的神经网络结构,相当于dropout的作用。

区别在于:dropout方法随即丢弃神经元,随机性更强,而relu的话因为导数为0这部分主要是集中在负半区,使得每次迭代“丢弃”的神经元种有大部分其实是相同的,因此效果没有直接用dropout来的好。

4)softmax函数

适用于多分类情景,是一个离散函数,输入是每一类的得分,输出是每一类的概率

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/255837.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SDUT 3377 数据结构实验之查找五:平方之哈希表

数据结构实验之查找五:平方之哈希表 Time Limit: 400MS Memory Limit: 65536KBSubmit StatisticProblem Description 给定的一组无重复数据的正整数,根据给定的哈希函数建立其对应hash表,哈希函数是H(Key)Key%P,P是哈希表表长&…

我的2017年前端之路总结

原文首发于我的博客 年末了,赶着刚考完两门考试,在最后4门考试来临之前抽空写一下今年的小结。 今年格外忙。忙完本科毕设,又马上投入了研究生实验室的搬砖生涯。跟去年一样,列个今年的学习成果清单: 过去的一年 技术成…

对软件工程的疑问

在大学时光中学习了算法编程后,我发现我对于源程序理解很差,我只会很低程度的写代码,但是基本描述不出来。所以我的编程很差,而且由于我很少打代码,所以我的编程能力基本没有多少提高,我也没有发现该学什么…

【深度学习】——分类损失函数、回归损失函数、交叉熵损失函数、均方差损失函数、损失函数曲线、

目录 代码 回归问题的损失函数 分类问题的损失函数 1、 0-1损失 (zero-one loss) 2、Logistic loss 3、Hinge loss 4、指数损失(Exponential loss) 机器学习的损失函数 Cross Entropy Loss Function(交叉熵损失函数) 交叉熵优点 Mean Squared E…

伺服电机惯量问题

在伺服系统选型及调试中,常会碰到惯量问题。 其具体表现为:在伺服系统选型时,除考虑电机的扭矩和额定速度等等因素外,我们还需要先计算得知机械系统换算到电机轴的惯量,再根据机械的实际动作要求及加工件质量要求来…

【转】应用架构一团糟?如何将单体应用改造为微服务

概述 将单体应用改造为微服务实际上是应用现代化的过程,这是开发者们在过去十年来一直在做的事情,所以已经有一些可以复用的经验。 全部重写是绝对不能用的策略,除非你要集中精力从头构建一个基于微服务的应用。虽然听起来很有吸引力&#xf…

Linux 解决ssh连接慢的问题

备份文件 cp /etc/ssh/sshd_config /etc/ssh/sshd_config.bak 编辑文件 vi /etc/ssh/sshd_config 输入/ 查找GSSAPIAuthentication 设置如下 GSSAPIAuthentication no # 是否允许使用基于 GSSAPI 的用户认证。默认值为"no"。仅用于SSH-2 详细解释 输入/ 查找UseDNS …

ABB机器人与PC计算机控制口连接 超级终端 命令清单

条件: 9 针串口通信 RS232。 PC 启动超级终端软件。Windows -> Start -> Accessories -> Terminal 通信设置: 1. 波特率 9600 8 位2. 1 个停止位 没有奇偶校验3. 没有 Modern 采用直接串口连接4. 使用 Xon/Xoff 通信形式当故障发生时&#xff0…

【Hibernate】Hibernate系列6之HQL查询

HQL查询 6.1、概述 6.2、分页查询 6.3、命名查询 6.4、投影查询-部分字段查询 6.5、报表查询 6.6、迫切左外连接、左外连接 6.7、迫切内连接、内连接 6.8、QBC查询、本地查询 转载于:https://www.cnblogs.com/junneyang/p/5254641.html

【深度学习】——梯度下降优化算法(批量梯度下降、随机梯度下降、小批量梯度下降、Momentum、Adam)

目录 梯度 梯度下降 常用的梯度下降算法(BGD,SGD,MBGD) 梯度下降的详细算法 算法过程 批量梯度下降法(Batch Gradient Descent) 随机梯度下降法(Stochastic Gradient Descent&#xff09…

Javascript隐式转换

乱想 javascript为什么需要隐式转换?如果没有会出现什么情况? 找了一圈没有看到关于这个的讨论,只好自己研究了,可能不一定正确,自行辨知。 郁闷就是郁闷在好好的,为什么要搞个隐式转换,一般来讲…

双工位机器人 焊接夹具注意事项 o(╯□╰)o

焊接夹具设计注意事项 一套完美的夹具,需要机械设计人员正确的设计思想,良好的配件质量,钳工负责认真的装配质量,卡具在使用中不断的修磨和改进,才会达到好的效果。 本人非机械设计,只是在使用焊接卡具过程中遇到了很多卡具设计上…

【公共类库】加密解密

public static class MyEncryption{#region Md5加密/// <summary>/// 使用MD5加密/// </summary>/// <param name"str">需要加密的数据。</param>/// <param name"kind">加密类型&#xff1a;1-普通加密&#xff1b;2-密码加…

使用JOTM实现分布式事务管理(多数据源)

使用spring和hibernate可以很方便的实现一个数据源的事务管理,但是如果需要同时对多个数据源进行事务控制,并且不想使用重量级容器提供的机制的话,可以使用JOTM达到目的. JOTM的配置十分简单,spring已经内置了对JOTM的支持,一.<bean id"jotm" class"org.spri…

【机器学习】——《机器学习实战》面试复习

目录 一、机器学习概念 二、机器学习步骤 三、有监督学习 1、k-近邻算法 核心思想 实例&#xff1a;手写数字的识别 优缺点&#xff1a; 2、决策树 相关概念 核心思想 一些小技巧 优缺点 3、神经网络 4、SVM——支持向量机 核心思想 SVM和SVR的区别 ​ 优缺点…

一键分享代码

文章出处&#xff1a;http://share.baidu.com/code/advance 一、概述 百度分享代码已升级到2.0&#xff0c;本页将介绍新版百度分享的安装配置方法&#xff0c;请点击左侧列表查看相关章节。 二、代码结构 分享代码可以分为三个部分&#xff1a;HTML、设置和js加载&#xff0c;…

ubuntu安装LDAP

参考文献&#xff1a; https://help.ubuntu.com/12.04/serverguide/openldap-server.html&#xff08;最主要的&#xff09; http://www.linuxidc.com/Linux/2011-08/40020.htm http://blog.chinaunix.net/uid-24276740-id-3360306.html 前言 在网上搜索ldap的安装配置&#xf…

58.贪心算法练习:  最小新整数

总时间限制: 1000ms 内存限制: 65536kB 描述 给定一个十进制正整数n(0 < n < 1000000000)&#xff0c;每个数位上数字均不为0。n的位数为m。现在从m位中删除k位(0< m)&#xff0c;求生成的新整数最小为多少&#xff1f;例如: n 9128456, k 2, 则生成的新整数最小…

ABB机器人之LOADDATA

ABB机器人之LOADDATA loaddata是用来描述连接到机器人机械接口的负载&#xff08;机器人的安装法兰&#xff09;。loaddata数据通常定义有效载荷或负荷&#xff08;通过指令gripload设置机器人抓手负载 或mechunitload指令设置变位机负载。loaddata通常也作为tooldata的一部分&…

【深度学习】——性能指标(ROC、MAP、AUC等)

目录 一、分类任务性能指标 1、混淆矩阵 2、精确度ACCURACY 正确数/总数 3、查全率&#xff08;RECALL&#xff09;——真正正样本中预测正确的比例 4、查准率&#xff08;precision&#xff09;——预测为正样本中的预测正确的比例 5、F-score——对查准率和查全率进行结…