激活函数之 Sigmoid、tanh、ReLU、ReLU变形和Maxout

Sigmoid函数

Sigmoid函数计算公式

f(x) = \frac{1}{1+e^{-x}}

sigmoid:x取值范围(-∞,+∞),值域是(0, 1)。

sigmoid函数求导

这是sigmoid函数的一个重要性质。

\begin{aligned}g(z)&=\frac{1}{1+e^{-z}} \\g'(z)&=(\frac{1}{1+e^{-z}})' \\&=\frac{e^{-z}}{(1+e^{-z})^2} \\&=\frac{1}{1+e^{-z}}\cdot\frac{e^{-z}}{1+e^{-z}} \\&=\frac{1}{1+e^{-z}}\cdot(1-\frac{1}{1+e^{-z}}) \\&=g(z)\cdot(1-g(z))\end{aligned}

图像

å¨è¿éæå¥å¾çæè¿°

代码

# -*- coding: utf-8 -*-
"""
@author: tom
"""import numpy
import math
import matplotlib.pyplot as pltdef sigmoid(x):a = []for item in x:a.append(1.0/(1.0 + math.exp(-item)))return ax = numpy.arange(-10, 10, 0.1)
y = sigmoid(x)
plt.plot(x,y)
plt.show()

当x为0时,Sigmoid函数值为0.5。随着x的增大,对应的Sigmoid值将逼近于1;而随着x的减小,Sigmoid值将逼近于0。两种坐标尺度下的Sigmoid函数图。上图的横坐标为-5到5,这时的曲线变化较为平滑;下图横坐标的尺度足够大,可以看到,在x = 0点处Sigmoid函数看起来很像阶跃函数,如果横坐标刻度足够大(上图中的下图),Sigmoid函数看起来很像一个阶跃函数。

sigmoid函数的性质

  1. sigmoid函数是一个阀值函数,不管x取什么值,对应的sigmoid函数值总是0<sigmoid(x)<1。
  2. sigmoid函数严格单调递增,而且其反函数也单调递增
  3. sigmoid函数连续
  4. sigmoid函数光滑
  5. sigmoid函数关于点(0, 0.5)对称
  6. sigmoid函数的导数是以它本身为因变量的函数,即f(x)' = F(f(x))

sigmoid函数Logistic函数

对于分类问题,需要找到一个单调可微函数将真实值与广义线性回归模型的预测值联系起来,这个函数就是Logistic函数,或者称Sigmoid函数。(单位阶跃函数不连续,且瞬间跳跃的过程很难处理)

原因参考https://zhuanlan.zhihu.com/p/59137998

Logistic/Sigmoid函数是一个常见的S型函数,适合于提供概率的估计以及依据这些估计的二进制响应;由于其单调递增、反函数单调递增、任意阶可导等性质,且可以将变量映射到(0, 1)之间,在逻辑回归、神经网络中有着广泛的应用。

sigmod作为激活函数优缺点

优点:

  1. Sigmoid的取值范围在(0, 1),而且是单调递增,比较容易优化
  2. Sigmoid求导比较容易,可以直接推导得出。

缺点:

  1. Sigmoid函数收敛比较缓慢
  2. 容易饱和(就是梯度消失之后,使用BP算法优化时这个神经元没有变化)和终止梯度传递(“死神经元”);
  3. Sigmoid函数并不是以(0,0)为中心点
     

tanh函数(双曲正切函数)

tanh为双曲正切函数,过(0,0)点。相比Sigmoid函数,更倾向于用tanh函数

f(x) = tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}

x取值范围(-∞,+∞),值域是(-1, 1)。

tanh求导

                                                          \begin{aligned}\cfrac{​{\rm d}y}{​{\rm d}x} &= \left(\cfrac{e^x-e^{-x}}{e^x+e^{-x}}\right)^\prime \\&= \cfrac{(e^x-e^{-x})^\prime(e^x+e^{-x})-(e^x-e^{-x})(e^x+e^{-x})^\prime}{(e^x+e^{-x})^2} \\&= \cfrac{(e^x+e^{-x})(e^x+e^{-x})-(e^x-e^{-x})(e^x-e^{-x})}{(e^x+e^{-x})^2} \\&= \cfrac{e^{2x}+e^{-2x}+2-(e^{2x}+e^{-2x}-2)}{(e^x+e^{-x})^2} \\&= \cfrac{4}{(e^x+e^{-x})^2} \end{aligned}

又因为

                                          1 - y = 1 - \cfrac{e^x-e^{-x}}{e^x+e^{-x}} = \cfrac{e^x+e^{-x}-(e^x-e^{-x})}{e^x+e^{-x}} = \cfrac{2e^{-x}}{e^x+e^{-x}}
                                         1 + y = 1 + \cfrac{e^x-e^{-x}}{e^x+e^{-x}} = \cfrac{e^x+e^{-x}+(e^x-e^{-x})}{e^x+e^{-x}} = \cfrac{2e^{x}}{e^x+e^{-x}}

所以

                                              (1 - y)(1+y) = 1 - y^2 = \cfrac{4}{(e^x+e^{-x})^2} = \cfrac{​{\rm d}y}{​{\rm d}x}

即:y = {\rm tanh}^\prime(x)=1-{\rm tanh}^2(x)

或者

                             f(x)=\frac{sinh(x)}{cosh(x)}=\frac{1-e^{-2x}}{1+e^{-2x}}=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}=\frac{e^{2x}-1}{e^{2x}+1}=2sigmoid(2x)-1

                            f^{'}(x)=tanh{'}(x)=sech^{2}(x)=1-tanh^{2}(x)

tanh优缺点

优点:

  • 输出以(0,0)为中心、取值范围(-1~1)、易理解
  • 收敛速度相对于Sigmoid更快

缺点:

  • 该导数在正负饱和区的梯度都会接近于 0 值,会造成梯度消失。还有其更复杂的幂运算。

图像

代码

import math
import matplotlib.pyplot as plt
import numpy as np
import mpl_toolkits.axisartist as axisartist# Tanh 激活函数
class Tanh:       # 原函数 def forward(self, x):return (np.exp(x) - np.exp(-x)) / (np.exp(x) + np.exp(-x))# 导数def backward(self, outx):tanh = (np.exp(outx) - np.exp(-outx)) / (np.exp(outx) + np.exp(-outx))return 1 - math.pow(tanh, 2)# 画图
def Axis(fig, ax):#将绘图区对象添加到画布中fig.add_axes(ax)# 隐藏坐标抽ax.axis[:].set_visible(False)# new_floating_axis 创建新的坐标ax.axis["x"] = ax.new_floating_axis(0, 0)# 给 x 轴创建箭头线,大小为1.0ax.axis["x"].set_axisline_style("->", size = 1.0)# 给 x 轴箭头指向方向ax.axis["x"].set_axis_direction("top")# 同理,创建 y 轴ax.axis["y"] = ax.new_floating_axis(1, 0)ax.axis["y"].set_axisline_style("->", size = 1.0)ax.axis["y"].set_axis_direction("right")# 返回间隔均匀的100个样本,计算间隔为[start, stop]。
x =  np.linspace(-10, 10, 100)
y_forward = []
y_backward = []def get_list_forward(x):for i in range(len(x)):y_forward.append(Tanh().forward(x[i]))return y_forwarddef get_list_backward(x):for i in range(len(x)):y_backward.append(Tanh().backward(x[i]))return y_backwardy_forward = get_list_forward(x)
y_backward = get_list_backward(x)#创建画布
fig = plt.figure(figsize=(12, 12))#创建绘图对象ax
ax = axisartist.Subplot(fig, 111)
Axis(fig, ax)# 设置x, y轴范围
plt.ylim((-2, 2))
plt.xlim((-10, 10))# 原函数,forward function
plt.plot(x, y_forward, color='red', label='$f(x) = tanh(x)$')
plt.legend()# 导数, backward function
plt.plot(x, y_backward, label='f(x)\' = 1-(tanh)^2')
plt.legend()plt.show()

ReLU函数(The Rectified Linear Unit, 修正线性单元函数)

公式如下:

ReLU = f(x) = max(0,x)=\left\{\begin{matrix} 0,x\leq 0\\x,x>0 \end{matrix}\right.

{f(x)}' =\left\{\begin{matrix} 0,x\leq 0\\1,x>0 \end{matrix}\right.

图形图像:对于输入的x以0为分界线,左侧的均为0,右侧的为y=x这条直线

优缺点

优点:

  1. 在SGD中收敛速度要比Sigmoid和tanh快很多
  2. 梯度求解公式简单,不会产生梯度消失和梯度爆炸
  3. 对神经网络可以使用稀疏表达
  4. 对于无监督学习,也能获得很好的效果

缺点:

  • 没有边界,可以使用变种ReLU: min(max(0,x), 6)
  • 比较脆弱,比较容易陷入出现”死神经元”的情况,比如我们设置一个特别大学习率,经过一次更新权重参数w之后,w对于后续所有的输入x的结果都小于0,这个时候再进过relu激活,输出还是0,就会造成这个ReLU神经元对后来来的输入永远都不会被激活,同时,在反向传播时,在计算这个神经元的梯度永远都会是0,造成不可逆的死亡。(解决方案:较小的学习率)

ReLU函数是从生物学角度,模拟出脑神经元接收信号更加准确的激活模型。相比于Sigmoid函数,具有以下优点:

  1. 单侧抑制;
  2. 相对宽阔的兴奋边界;
  3. 稀疏激活性;
  4. 更快的收敛速度;

Leaky ReLU激活函数:

在ReLU函数的基础上,对x≤0的部分进行修正;目的是为了解决ReLU激活函数中容易存在的”死神经元”情况的;不过实际场景中:效果不是太好。

Leaky ReLU = f(x) = max(0,x)=\left\{\begin{matrix} ax,x\leq 0\\x,x>0 \end{matrix}\right.

{f(x)}' =\left\{\begin{matrix} a,x\leq 0\\1,x>0 \end{matrix}\right.

ELU激活函数:

指数线性激活函数,同样属于对ReLU激活函数的x≤0部分的转换进行指数修正,而不是和Leaky ReLU中的线性修正。

ELU = f(x) = max(0,x)=\left\{\begin{matrix} a(e^x-1),x\leq 0\\x,x>0 \end{matrix}\right.

{f(x)}' =\left\{\begin{matrix} f(x)+a,x\leq 0\\1,x>0 \end{matrix}\right.

Maxout激活函数:

参考:https://arxiv.org/pdf/1302.4389.pdf

maxout=f(x)=max_{j\in [1,k]}\{w_{j}x+b_{j}\}

可以看作是在深度学习网络中加入一层激活函数层,包含一个参数k,拟合能力特别强。特殊在于:增加了k个神经元进行激活,然后输出激活值最大的值。

优点:

  • 计算简单,不会出现神经元饱和的情况
  • 不容易出现死神经元的情况

缺点:

  • 参数double,计算量复杂了

激活值 out = f(W.X+b); f是激活函数。’.’在这里代表內积这里写图片描述;W = () 那么当我们对(i+1)层使用maxout(设定k=5)然后再输出的时候,情况就发生了改变

此时网络形式上就变成上面的样子,用公式表现出来就是: 

  • z1 = W1.X+b1; 
  • z2 = W2.X+b2; 
  • z3 = W3.X+b3; 
  • z4 = W4.X+b4; 
  • z5 = W4.X+b5; 
  • out = max(z1,z2,z3,z4,z5); 

也就是说第(i+1)层的激活值计算了5次,可我们明明只需要1个激活值,那么我们该怎么办?其实上面的叙述中已经给出了答案,取这5者的最大值来作为最终的结果。 

总结一下,maxout明显增加了网络的计算量,使得应用maxout的层的参数个数成k倍增加,原本只需要1组就可以,采用maxout之后就需要k倍了。 

软饱和和硬饱和

假设h(x)是一个激活函数。

  1. 当我们的n趋近于正无穷,激活函数的导数趋近于0,那么我们称之为右饱和。
  2. 当我们的n趋近于负无穷,激活函数的导数趋近于0,那么我们称之为左饱和。
  3. 当一个函数既满足左饱和又满足右饱和的时候我们就称之为饱和,典型的函数有Sigmoid,Tanh函数。
  4. 对于任意的x,如果存在常数c,当x>c时,恒有=0,则称其为右硬饱和。如果对于任意的x,如果存在常数c,当x<c时,恒有=0,则称其为左硬饱和。既满足左硬饱和又满足右硬饱和的我们称这种函数为硬饱和
  5. 对于任意的x,如果存在常数c,当x>c时,恒有趋近于0,则称其为右软饱和。如果对于任意的x,如果存在常数c,当x<c时,恒有趋近于0,则称其为左软饱和。既满足左软饱和又满足右软饱和的我们称这种函数为软饱和
     

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/454278.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python查看、修改pip install 默认使用的pip库

一、更改 Python 的 pip install 默认使用的pip库 【方法】只需要将对应python脚本的路径添加到系统环境变量Path中较前的位置即可&#xff0c;这样就可以获得优先级。 1、打开终端&#xff0c;可以通过指令 pip show pip 查看默认使用的pip包&#xff1a; 2、现在&#xff…

cmd 找到8080对应进程_多进程概括

多进程图像操作系统记录进程&#xff0c;并按照合理的次序交替推进(分配资源&#xff0c;不断调度)&#xff0c;提高CPU利用率和程序执行速度&#xff0c;这就是操作系统的多进程图像。当操作系统启动时&#xff0c;多进程图像就出现了。 在linux内核源码main.c文件中&#xff…

机器学习接口和代码之 KNN

官网地址&#xff1a;https://scikit-learn.org/stable/modules/classes.html#module-sklearn.neighbors class sklearn.neighbors.KNeighborsClassifier(n_neighbors5, weights’uniform’, algorithm’auto’, leaf_size30, p2, metric’minkowski’, metric_paramsNone, n…

Eclipse中安装Ext插件(Spket IDE)

在网上找了很多资料&#xff0c;这里重新整理一下。 Spket IDE是目前支持Ext 2.0最为出色的IDE。 它采用.jsb project file 文件并将继承于基类和所有文档的内容嵌入到生成代码提示的. doc中。由于Spket只是一个单纯的编辑器&#xff0c;没有其它格式的支持&#xff08;如CSS&a…

职业程序员培养之道

作者&#xff1a;粘新育 任甲林 来源&#xff1a;希赛网  http://www.csai.cn 2004年06月28日软件开发是以人为核心的过程&#xff0c;对人的依赖性远高于传统的硬件生产企业&#xff0c;为了保持开发能力的稳定性&#xff0c;一方面需要定义软件过程&#xff0c;以过程为枢纽…

MongoDB启动

详细见大神链接 链接: https://blog.csdn.net/chenpuzhen/article/details/90642147.

Go 语言编程规范

1. gofmt 命令 大部分的格式问题可以通过 gofmt 来解决&#xff0c;gofmt 自动格式化代码&#xff0c;保证所有的 go 代码与官方推荐的格式保持一致&#xff0c;所有格式有关问题&#xff0c;都以gofmt的结果为准。所以&#xff0c;建议在提交代码库之前先运行一下这个命令。 2…

python去噪音_python中的噪声是什么意思

你的序列均值为零吗? 方差随时间变化吗? 值与延迟值相关吗? 你可以用一些工具来检查你的时间序列是否为白噪音: 创建一个折线图。检查总体特征&#xff0c;如变化的平均值&#xff0c;方差或延迟变量之间的明显关系。 计算汇总统计。对照序列中有意义的连续块的均值和方差&a…

pycharm 离线安装插件

插件离线下载地址&#xff1a; http://plugins.jetbrains.com/ 1、下载插件&#xff1a;http://plugins.jetbrains.com/ 2、安装插件&#xff1a; settings -> plugins -> install plugin from disk&#xff0c;然后重启IDEA即可。

为机器学习占地16

是将若干个学习器(分类器&回归器)组合之后产生一个新学习器。弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测的分类器(errorrate < 0.5)。 集成算法的成功在于保证弱分类器的多样性(Diversity)。而且集成不稳定的算法也能够得到一个比较明显的性能提升。 …

VC DLL学习

1 用VC创建DLL动态链接库1.1 创建dll项目1.2 为dll项目编写源文件头文件dllDemo.hextern"C"_declspec(dllexport) intSum(inta,intb);//加法函数。extern"C"_declspec(dllexport) intMax(inta, intb);//取较大值函数extern"C"_declspec(dllexpor…

mciSendString 多线程播放多首音乐 注意事项

昨天晚上遇到一个问题&#xff1a; 使用 mciSendString 控制播放多首音乐的时候&#xff0c;出现最后一次播放的音乐无法通过 mciSendString ("close mp3") 关闭音乐的播放。 mciSendString 在多个线程中调用。 到23点&#xff0c;问题依然没解决&#xff0c;只好先…

python代码比例_Python如何输出百分比

Python 输出百分比的两种方式 注&#xff1a; 在python3环境下测试。 方式1&#xff1a;直接使用参数格式化&#xff1a;{:.2%} {:.2%}&#xff1a; 显示小数点后2位 显示小数点后2位&#xff1a; >>> print(percent: {:.2%}.format(42/50)) percent: 84.00% 不显示小…

为机器学习占地15

是将若干个学习器(分类器&回归器)组合之后产生一个新学习器。弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测的分类器(errorrat弱分类器的多样性(Diversity)。而且集成不稳定的算法也能够得到一个比较明显的性能提升。 常见的集成学习思想有&#xff1a;Baggi…

编写一个项目开发文档

项目开发过程中为了增加程序的可读性和程序的健壮性&#xff0c; 方便后期程序的调试和维护&#xff0c;所以需要在开发过程中统一技术规范&#xff0c;一般会在项目初期确定好相关文档作为这一统一的规范。不同公司会对文档做不同要求&#xff0c;划不同的分类&#xff0c;但一…

乐在其中设计模式(C#) - 原型模式(Prototype Pattern)

[索引页][源码下载]乐在其中设计模式(C#) - 原型模式(Prototype Pattern)作者&#xff1a;webabcd介绍用原型实例指定创建对象的种类&#xff0c;并且通过拷贝这个原型来创建新的对象。示例有一个Message实体类&#xff0c;现在要克隆它。MessageModelusing System; using Syst…

python123添加列表元素_Python之列表

Python变量没有数据类型&#xff0c;所以Python没有数组。 整数&#xff1b;浮点数&#xff1b;字符串&#xff1b;对象 创建一个列表&#xff1a; 1.member[大鱼,123,3.14,[1,2,3]] 2.empty[] 向列表添加元素&#xff1a; append&#xff08;&#xff09;&#xff1a; member[…

为机器学习占地14

是将若干个学习器(分类器&回归器)组合之后产生一个新学习器。弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测的分类器(errorrate <。 集成算法的成功在于保证弱分类器的多样性(Diversity)。而且集成不稳定的算法也能够得到一个比较明显的性能提升。 常见的…

优秀程序员 分析提高能力 程序进阶

我出生在南方的一个农村。还记得小时候家里是很穷的&#xff0c;那时候上学也很便宜&#xff0c;我已记不清初中以前的学费是多少了。反正从小在家里玩泥巴&#xff0c;有一日村里两个女孩去上学&#xff0c;看到我就说一起去上学吧。当时一想&#xff0c;玩泥巴也厌烦了&#…

html中通过点击button标签实现页面跳转的三种方法

方法1&#xff1a;使用onclick事件 <input type"button" value"按钮"onclick"javascrtpt:window.location.hrefhttp://www.baidu.com/" />或者直接使用button标签 <button onclick"window.location.href https://www.baidu.com…