【机器学习】激活函数：神经网络的灵魂

🌈个人主页: 鑫宝Code
🔥热门专栏: 闲话杂谈｜炫酷HTML | JavaScript基础
💫个人格言: "如无必要，勿增实体"

文章目录

- 激活函数：神经网络的灵魂
- - 什么是激活函数?
  - 常见激活函数类型
  - - 1. Sigmoid函数
    - 2. Tanh函数
    - 3. ReLU函数
    - 4. Leaky ReLU函数
    - 5. ELU函数
    - 6. Swish函数
    - 7. GELU函数
  - 激活函数的选择策略
  - 总结

激活函数：神经网络的灵魂

在神经网络中,激活函数(Activation Function)扮演着至关重要的角色。它赋予了神经网络非线性特性,使其能够拟合复杂的数据模式。选择合适的激活函数对于神经网络的性能和收敛性有着深远的影响。本文将深入探讨激活函数的基本概念、常见类型及其特性,以及激活函数的选择策略,帮助读者更好地理解和应用激活函数。
在这里插入图片描述

什么是激活函数?

在神经网络中,每个神经元会对输入信号进行加权求和,得到一个线性组合。然而,仅仅使用线性组合是无法拟合复杂的非线性函数的。为了赋予神经网络非线性特性,我们需要在线性组合之后引入一个非线性激活函数。

激活函数是一种数学函数,它将神经元的输入信号映射到输出信号。通过引入非线性激活函数,神经网络就能够学习复杂的非线性映射关系,从而拟合各种类型的数据。

数学上,我们可以将激活函数表示为:

$y = f (x)$

其中,x是神经元的输入信号,f是激活函数,y是神经元的输出信号。

不同的激活函数具有不同的数学特性,因此在不同的场景下会有不同的表现。选择合适的激活函数对于神经网络的性能至关重要。

常见激活函数类型

在深度学习的发展历程中,研究人员提出了各种不同的激活函数。以下是一些常见的激活函数类型:
在这里插入图片描述

1. Sigmoid函数

Sigmoid函数是最早被引入神经网络的激活函数之一,它的数学表达式如下:

$\frac{1}{1 + e^{-x}}$

Sigmoid函数将输入值映射到(0,1)范围内,具有平滑和可导的特性。然而,它也存在一些缺点,如梯度消失问题和输出不是以0为中心。

2. Tanh函数

Tanh函数是Sigmoid函数的变体,它的数学表达式如下:

$\frac{e^x - e^{-x}}{e^x + e^{-x}}$

Tanh函数将输入值映射到(-1,1)范围内,解决了Sigmoid函数输出不是以0为中心的问题。但它仍然存在梯度消失的风险。

3. ReLU函数

ReLU(Rectified Linear Unit)函数是近年来最流行的激活函数之一,它的数学表达式如下:

$\max(0, x)$

ReLU函数的优点是计算简单高效,并且在正区间具有恒等映射特性,避免了梯度消失问题。然而,它也存在"死亡神经元"的问题,即当输入为负值时,神经元的梯度将永远为0,无法被更新。

4. Leaky ReLU函数

Leaky ReLU函数是ReLU函数的改进版本,它的数学表达式如下:

$\begin{cases} x, & \text{if } x \geq 0 \\ \alpha x, & \text{if } x < 0 \end{cases}$

其中, $\alpha$ 是一个小于1的常数,通常取值为0.01。Leaky ReLU函数在负区间也具有非零梯度,从而缓解了"死亡神经元"的问题。

5. ELU函数

ELU(Exponential Linear Unit)函数是另一种改进的ReLU函数,它的数学表达式如下:

$\begin{cases} x, & \text{if } x \geq 0 \\ \alpha (e^x - 1), & \text{if } x < 0 \end{cases}$

其中, $\alpha$ 是一个常数,通常取值为1。ELU函数在负区间具有更平滑的梯度,有助于加快收敛速度和提高模型性能。

6. Swish函数

Swish函数是谷歌大脑提出的一种新型激活函数,它的数学表达式如下:

$\cdot \sigma(\beta x)$

其中, $\sigma$ 是Sigmoid函数, $\beta$ 是一个可学习的参数。Swish函数结合了ReLU函数和Sigmoid函数的优点,在某些任务上表现出色。

7. GELU函数

GELU(Gaussian Error Linear Unit)函数是另一种新型激活函数,它的数学表达式如下:

$\cdot \Phi(x)$

其中, $\Phi(x)$ 是标准高斯累积分布函数。GELU函数具有更平滑的梯度,在自然语言处理和计算机视觉等任务中表现不错。

除了上述常见的激活函数,还有一些其他的激活函数,如Softplus函数、Mish函数等。每种激活函数都有其独特的特性和适用场景,选择合适的激活函数对于神经网络的性能至关重要。

激活函数的选择策略

在这里插入图片描述

在实际应用中,如何选择合适的激活函数呢?以下是一些常见的选择策略:

任务类型:不同的任务类型可能需要不同的激活函数。例如,对于分类任务,通常使用Sigmoid或Softmax函数作为输出层的激活函数;对于回归任务,可以使用线性激活函数或ReLU函数。
网络结构:激活函数的选择也与网络结构有关。例如,在卷积神经网络中,通常使用ReLU或Leaky ReLU作为隐藏层的激活函数;在循环神经网络中,常用的激活函数是Tanh或GELU。
数据分布:如果输入数据的分布范围较大或存在异常值,可以考虑使用ReLU或Leaky ReLU等具有稳定性的激活函数。
实验对比:在实际应用中,可以尝试不同的激活函数,并通过实验对比选择性能最佳的激活函数。
组合使用:在某些情况下,可以考虑在不同层或不同路径中使用不同的激活函数,以获得更好的性能。