常用激活函数整理

最近一边应付工作，一边在补足人工智能的一些基础知识，这个方向虽然新兴，但已是卷帙浩繁，有时不知从何入手，幸亏有个适合基础薄弱的人士学习的网站，每天学习一点，积跬步以至千里吧。有像我一样学习需求的同学，可以访问：人工智能教程，从AI基础讲起，通俗易懂，风趣幽默，步步深入，非常适合初学者。

有输入有输出才能高效学习，今天就针对常用的激活函数来整理一份学习笔记。

我们知道，如果没有激活函数，那么神经网络层数再多，都只能处理线性问题，对于非线性问题则无能为力。激活函数则是通过引入非线性，使得网络具备处理复杂问题的能力。也正是由于激活函数具备非线性特点，那么网络的层数越多，所能表达的曲线也就能越复杂。

那么有哪些常用的激活函数呢？

1. Sigmoid函数

sigmoid函数的公式和图形如下：

sigmoid函数的输出值在0~1之间，非常适合在二分类（如图像中是否存在人）问题中应用，例如输出为0.8表示80%的概率有人，为0则表示完全没有人。

与sigmoid类似的还有一个hard sigmoid，如下：

但由于该函数在梯度的反向传播时容易产生梯度消失，因此除了在二分类问题中使用，在其他问题中使用较少了。

2. Tanh函数

tanh函数的公式和图形如下：

tanh和sigmoid形状是一样的，但输出范围在-1~1之间，解决了sigmoid函数非zero-centered输出的问题，这使得tanh比sigmoid函数更加高效。但该函数和sigmoid函数一样，在输入数据绝对值较大时，由于梯度越来越小，学习速度就会很慢。

与tanh类似的还有一个hard tanh函数：

3. ReLU函数

sigmoid和tanh有一个共同的缺点，就是当输入数据的绝对值比较大时，神经网络的学习速度就会很慢。这是因为，学习速度跟激活函数的偏导数(斜率)有关，偏导数越大，学习速度就越快。而sigmoid和tanh在输入绝对值越来越大时，斜率越来越小，直至变为0。因此，学界又提出了一个新的激活函数——ReLU（Rectified Linear Unit），即整流线性单元。该激活函数目前被广泛使用，它具有非线性的特性，并且不会同时激活所有的神经元，在输入为负值的情况下，会输出0，也就是说有部分神经元不会被激活，从而使得网络变得稀疏，这对计算是非常有效率的。

ReLU的公式：f(x) = max(0, x) ，图形如下：