【激活函数--下】非线性函数与ReLU函数

文章目录

- - 一、非线性函数在神经网络中的重要性
  - 二、ReLU函数介绍及其实现
  - - 2.1 ReLU函数概述
    - 2.2 ReLU函数的Python实现及可视化

一、非线性函数在神经网络中的重要性

在神经网络中，激活函数的选择对于网络的性能和能力至关重要。阶跃函数和Sigmoid函数除了是激活函数的具体实例外，它们还有一个共同的特性——非线性。这两种函数虽然在形式上有所不同，但都不是线性的，这使得它们在处理复杂问题时非常有用。

非线性与线性函数的区别

线性函数：形式上可以表示为 $h (x) = c x$ （其中 $c$ 是常数），图形是一条直线。线性函数简单且易于计算，但它在功能上有限。
非线性函数：不呈直线形态，可以是曲线或折线等。非线性函数能够处理更复杂的数据模式，是神经网络设计中不可或缺的。

神经网络为何需要非线性激活函数

在神经网络中使用非线性激活函数至关重要，原因包括：

层叠效应：
- 如果使用线性函数作为激活函数，无论网络有多少层，最终输出都是输入的线性组合。实际上，多层线性网络可以被等效为一个没有隐藏层的网络。
- 例如，如果激活函数是线性的 $h (x) = c x$ ，那么三层网络中的操作 $y (x) = h (h (h (x)))$ 等同于 $y(x) = c^3x$ 。这意味着多层的效果可以被单一变换替代，从而无法利用多层结构的优势。
表达能力：
- 非线性函数使得神经网络可以学习和模拟任何形式的复杂函数，这是理解深层网络能成功解决各种难题的关键。
- 线性函数由于其形式上的限制，不能模拟数据中的复杂模式和关系。

考虑一个使用线性激活函数的简单三层神经网络，其操作可以简化为一次线性变换。这表明，增加层数（即使是使用线性激活函数）并没有增加网络对数据的解释能力或学习能力。相反，非线性激活函数通过每一层的变换使得网络能逐层构建越来越复杂的数据表示和功能分解。

因此，在设计神经网络时，选择合适的非线性激活函数是至关重要的，它决定了网络能处理的复杂性和灵活性。常用的非线性激活函数包括Sigmoid、ReLU及其变种等，它们各有优势和应用场景，使得神经网络能在多种任务中表现出色。

二、ReLU函数介绍及其实现

2.1 ReLU函数概述

ReLU（修正线性单元）函数是神经网络中广泛使用的激活函数之一，尤其是在深度学习模型中。相较于早期常用的Sigmoid函数，ReLU因其简单性和在训练深层网络时表现出的效率而受到青睐。ReLU函数的定义如下：
$\begin{cases} x & \text{if } x > 0 \\ 0 & \text{if } x \leq 0 \end{cases}$
ReLU函数的特点

非线性：尽管ReLU在正数部分是线性的，但整体上它是一个非线性函数，因为它在零点处引入了一个非线性变化（从0变到正值）。
计算简单：ReLU函数只需判断输入是否大于0，这使得它在计算上比Sigmoid或tanh等传统激活函数要简单得多。
缓解梯度消失问题：在正数区间，ReLU的导数是常数（1），这有助于缓解深度网络中的梯度消失问题。

2.2 ReLU函数的Python实现及可视化

在Python中，使用NumPy库可以非常容易地实现ReLU函数。这里我们使用np.maximum函数来实现，np.maximum用于比较两个数组并返回各元素的最大值：

import numpy as npdef relu(x):return np.maximum(0, x)

这种实现方法允许输入是一个数字、一个列表或一个NumPy数组，输出将是相同形状的数组，其中每个元素都是应用了ReLU函数的结果。

使用Matplotlib库，我们可以绘制ReLU函数的图形，以更好地理解其行为：

import matplotlib.pyplot as plt
import numpy as np# 定义ReLU函数
def relu(x):return np.maximum(0, x)# 生成数据
x = np.arange(-6, 7, 0.1)
y = relu(x)# 绘图
plt.plot(x, y)
plt.title("ReLU Function")
plt.xlabel("x")
plt.ylabel("h(x)")
plt.ylim(-1, 5)  # 设置y轴的范围
plt.show()