TensorFlow深度学习实战(3)——深度学习中常用激活函数详解

TensorFlow深度学习实战(3)——深度学习中常用激活函数详解

    • 0. 前言
    • 1. 引入激活函数
      • 1.1 感知器
      • 1.2 多层感知器
      • 1.3 训练感知器存在的问题
    • 2. 激活函数
    • 3. 常见激活函数
      • 3.1 sigmoid
      • 3.2 tanh
      • 3.3 ReLU
      • 3.4 ELU和Leaky ReLU
    • 小结
    • 系列链接

0. 前言

使用激活函数可以实现网络的高度非线性,这对于建模输入和输出之间的复杂关系非常关键。如果没有非线性激活函数,那么该网络将仅仅能够表达简单的线性映射,即便有再多的隐藏层,其整个网络跟单层神经网络也是等价的,只有加入了非线性激活函数之后,深度神经网络才具备了令人惊异的非线性映射学习能力,可以在网络中的多个层中应用激活函数。

1. 引入激活函数

1.1 感知器

感知器 (Perceptron) 是一种简单的算法,接收一个包含 m m m 个值的输入向量 x x x ( x 1 , x 2 , . . . , x m ) (x_1, x2, ..., x_m) (x1,x2,...,xm),通常称为输入特征或简称特征 (feature),然后输出 1 (是)或 0 (否)。在数学上,可以定义为以下函数:
f ( x ) = { 1 w x + b > 0 0 o t h e r w i s e f(x)= \begin{cases} 1& {wx+b>0}\\ 0& {otherwise} \end{cases} f(x)={10wx+b>0otherwise
其中 w w w 是权重向量, w x wx wx 是点积 ∑ j = 1 m w j x j \sum_{j=1}^m w_jx_j j=1mwjxj b b b 是偏置。 w x + b wx + b wx+b 定义了一个边界超平面,其位置根据 w w w b b b 的赋值而变化,超平面是一个子空间,其维度比其环境空间低一维:

感知器

这是一个非常简单但有效的算法,例如,给定三个输入特征,一种颜色中的红色、绿色和蓝色通道的分量值,感知机可以尝试判断该颜色是否为“白色”。
需要注意的是,感知器不能表达“可能”这种答案。它只能回答“是” (1) 或“否” (0),前提是我们知道如何定义权重 ( w w w) 和偏置 ( b b b),这就是模型“训练” (training) 过程。

1.2 多层感知器

接下来,我们介绍一个包含多个全连接层的网络。历史上,感知器是指具有单个线性层的模型,因此,如果它有多个层,则称为多层感知器 (Multi-Layer Perceptron, MLP)。需要注意的是,输入层和输出层是外部可见的,而中间的所有其他层都是隐藏的——因此称为隐藏层。在这种情况下,单个层只是一个简单的线性函数,MLP 通过依次堆叠多个层而得到:

神经网络架构

在上图中,第一隐藏层中的每个节点接收输入,并根据相关线性函数的值“激活”。然后,将第一隐藏层的输出传递到第二层,应用另一个线性函数,其结果再传递到由一个单一神经元组成的最终输出层。这种分层组织大致类似于人类视觉系统的组织。

1.3 训练感知器存在的问题

对于单个神经元,为了获得权重 w w w 和偏置 b b b 的最佳值,通常通过提供一组训练样本,让计算机调整权重和偏置,以最小化输出产生的误差。
为了更具体的说明,假设我们有一组猫的图像和一组不包含猫的图像。假设每个神经元接收来自图像中单个像素的输入。当计算机处理这些图像时,我们希望神经元调整其权重和偏置,以减少错误识别的图像数量。
这种方法非常直观,但需要权重(或偏置)的微小变化只引起输出的微小变化。如果输出变化很大,就无法逐步学习。但感知器并不具备这种“逐步”的行为,感知器要么是 0,要么是 1,这种巨大的输出变化不利于感知器学习:

感知器行为

我们需要更加平滑的函数,一个从 0 逐渐变化到 1 的函数,且没有任何不连续性。在数学上,这意味着我们需要一个连续函数,以便能够计算导数。在数学中,导数是函数在某一点变化的量。对于输入为实数的函数,导数是图形上某点的切线斜率。

2. 激活函数

在神经网络中,常见激活函数 (activation function) 包括:SigmoidTanhELULeaky ReLUReLUTensorFlow 支持多种激活函数。SigmoidReLU 函数的梯度变化是构建学习算法的基础,算法逐步减少网络误差。例如,使用激活函数 σ σ σ,输入向量 ( x 1 , x 1 , . . . , x m ) (x_1, x_1, ..., x_m) (x1,x1,...,xm),权重向量 ( w 1 , w 2 , . . . , w 3 ) (w_1, w_2, ..., w_3) (w1,w2,...,w3),偏置 b b b,求和 Σ Σ Σ 如下图所示:

激活函数

3. 常见激活函数

3.1 sigmoid

Sigmoid 函数定义为 σ ( x ) = 1 1 + e − x \sigma(x)=\frac 1{1+e^{-x}} σ(x)=1+ex1,当输入在 ( − ∞ , ∞ ) (−∞, ∞) (,) 范围内变化时,输出在 ( 0 , 1 ) (0, 1) (0,1) 范围内变化,并且在数学上是连续的。使用 Python 实现此函数:

def sigmoid(x):return 1/(1+np.exp(-x))

函数图像如下所示:

sigmoid

神经元可以使用 Sigmoid 函数计算非线性函数 σ ( z = w x + b ) \sigma(z=wx+b) σ(z=wx+b)。如果 z = w x + b z = wx + b z=wx+b 非常大且为正数,则 e − z → 0 e^{-z}→0 ez0,因此 σ ( z ) → 1 \sigma(z)→1 σ(z)1;而如果 z = w x + b z = wx + b z=wx+b 非常大且为负数,则 e − z → ∞ e^{-z}→∞ ez,因此 σ ( z ) → 0 \sigma(z)→0 σ(z)0。换句话说,具有 Sigmoid 激活的神经元与感知器的行为类似,但变化是逐渐的,输出值如 0.55390.123191 是完全合理的。在这个意义上,Sigmoid 神经元可以表达“可能性”的概念。

3.2 tanh

激活函数 tanh 定义为 t a n h ( z ) = ( e z − e − z ) ( e z + e − z ) tanh(z) = \frac{(e^z - e^-z)}{(e^z + e^-z)} tanh(z)=(ez+ez)(ezez),使用 Python 实现此函数:

def tanh(x):return (np.exp(x) - np.exp(-x)) / (np.exp(x) + np.exp(-x))

函数图像如下所示,它在开区间 (-1, 1) 内是单调递增的奇函数,函数图形关于原点对称:

tanh

3.3 ReLU

ReLU (REctified Linear Unit) 激活函数有助于解决使用 Sigmoid 时的一些优化问题,特别是梯度消失的问题。ReLU 定义为 f ( x ) = m a x ( 0 , x ) f(x) = max(0, x) f(x)=max(0,x),使用 Python 实现此函数:

def relu(x):return np.where(x>0, x, 0)

函数图像如下所示,当输入值 大于等于 0 时,则 ReLU 函数按原样输出。如果输入小于 0,则 ReLU 函数值为 0。因为 ReLU 函数的大于等于 0 的线性分量具有固定导数,而对另一个线性分量导数为 0。因此,使用 ReLU 函数训练模型要快得多。

ReLU

3.4 ELU和Leaky ReLU

ELU (Exponential Linear Unit) 定义为:
f ( a , x ) = { a ( e x − 1 ) x ≤ 0 x x > 0 f(a,x)= \begin{cases} a(e^x-1)& {x≤0}\\ x& {x>0} \end{cases} f(a,x)={a(ex1)xx0x>0
其中 a > 0 a>0 a>0,使用 Python 实现此函数:

def elu(x, alpha=1.0):return x if x >= 0 else alpha * (math.exp(x) - 1)

函数图像如下所示:

elu

LeakyReLU 定义为:
f ( a , x ) = { a x x ≤ 0 x x > 0 f(a,x)= \begin{cases} ax& {x≤0}\\ x& {x>0} \end{cases} f(a,x)={axxx0x>0

其中 a > 0 a>0 a>0,使用 Python 实现此函数:

def leaky_relu(x, alpha=0.1):return np.maximum(alpha * x, x)

函数图像如下所示:

leakyRelu

两个函数在 x x x 为负时能够进行小幅的更新。

小结

激活函数是神经网络中至关重要的一部分,它决定了神经元的输出以及神经网络模型的非线性特性。没有激活函数,神经网络就会变成一个简单的线性模型,无法处理复杂的任务。因此,激活函数的选择直接影响神经网络的表达能力和学习效果。

系列链接

TensorFlow深度学习实战(1)——神经网络与模型训练过程详解
TensorFlow深度学习实战(2)——使用TensorFlow构建神经网络
TensorFlow深度学习实战(4)——正则化技术详解

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/66257.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux vi/vim 编辑器:功能强大的文本处理工具

Linux vi/vim 编辑器:功能强大的文本处理工具 引言 Linux 系统中的 vi/vim 是一种功能强大的文本编辑器,它广泛应用于程序员、系统管理员和其他需要处理文本文件的用户群体中。vi 是 visual interface 的缩写,而 vim 则是 vi improved 的缩…

C#设计模式(行为型模式):状态模式

C#设计模式:状态模式 在软件开发中,我们经常会遇到对象的行为取决于其状态的情况。例如,一个订单对象可能处于“待支付”、“已支付”、“已发货”等不同状态,而每个状态下订单的行为(例如是否可以支付、是否可以发货…

数据结构C语言描述9(图文结合)--二叉树和特殊书的概念,二叉树“最傻瓜式创建”与前中后序的“递归”与“非递归遍历”

前言 这个专栏将会用纯C实现常用的数据结构和简单的算法;有C基础即可跟着学习,代码均可运行;准备考研的也可跟着写,个人感觉,如果时间充裕,手写一遍比看书、刷题管用很多,这也是本人采用纯C语言…

Leetcode打卡:设计一个ATM机器

执行结果:通过 题目 2241 设计一个ATM机器 一个 ATM 机器,存有 5 种面值的钞票:20 ,50 ,100 ,200 和 500 美元。初始时,ATM 机是空的。用户可以用它存或者取任意数目的钱。 取款时&#xff0c…

0. 总框架

第1阶段,c语言层面 (1) c语言基本语法:结构体、指针、宏 (2) 数据结构和算法:hash,rbtree,b/btree,linked list(链表) 1.2.1-1部分数据结构的说明-CSDN博客 1.2.1-2部分数据结构的说明02_链表-CSDN博客…

比Qt更适合小公司的C++界面开发框架wxWidgets

C++行业里,如果一家小公司对某些费用方面问题特别敏感,而且你做的产品属于消费品领域,那么你最好还是选择wxWidgets来替代Qt。 Qt的好处是保罗大部分常用的开发库,它不用你会C++ STL,因为它本身就很成熟,你无需使用STL库去补充功能,所以我经常看到很多小公司的招聘信息…

源码理解 UE4中的 FCookStatsManager::FAutoRegisterCallback RegisterCookStats

官方文档:https://dev.epicgames.com/documentation/zh-cn/unreal-engine/API/Runtime/Core/ProfilingDebugging/FCookStatsManager文档中的注释: When a cook a complete that is configured to use stats (ENABLE_COOK_STATS), it will broadcast this…

vscode如何离线安装插件

在没有网络的时候,如果要安装插件,就会麻烦一些,需要通过离线安装的方式进行。下面记录如何在vscode离线安装插件。 一、下载离线插件 在一台能联网的电脑中,下载好离线插件,拷贝到无法联网的电脑上。等待安装。 vscode插件商店地址:https://marketplace.visualstudio.co…

趋炎附势的合理性

趋炎附势常被视为负面行为,例如某个人当上了大官,之前不没有联系的人都开始联系了,为的是以后有需要帮忙的事可以找他。这样趋炎附势的行为往往令人不齿,但是仍然有一定的合理性,主要在社会资源优化配置、优质个体的选…

Android:文件管理:打开文件意图

三步走&#xff1a; 一、先在AndroidManifest.xml声明provider&#xff1a; <providerandroid:name"androidx.core.content.FileProvider"android:authorities"${applicationId}.FileProvider"android:exported"false"android:grantUriPermi…

用Tkinter制作一个用于合并PDF文件的小程序

需要安装PyPDF2库&#xff0c;具体原代码如下&#xff1a; # -*- coding: utf-8 -*- """ Created on Sun Dec 29 14:44:20 2024author: YBK """import PyPDF2 import os import tkinter as tk import windndpdf_files [] def dragged_files(f…

spring mvc源码学习笔记之四

pom.xml 内容如下 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/P…

CDP集成Hudi实战-Hive

[〇]关于本文 本文测试一下使用Hive和Hudi的集成 软件版本Hudi1.0.0Hadoop Version3.1.1.7.3.1.0-197Hive Version3.1.3000.7.3.1.0-197Spark Version3.4.1.7.3.1.0-197CDP7.3.1 [一]部署Jar包 1-部署hudi-hive-sync-bundle-1.0.0.jar文件 [rootcdp73-1 ~]# for i in $(se…

公司资产网站

本文结尾处获取源码。 本文结尾处获取源码。 本文结尾处获取源码。 一、相关技术 后端&#xff1a;Java、JavaWeb / Springboot。前端&#xff1a;Vue、HTML / CSS / Javascript 等。数据库&#xff1a;MySQL 二、相关软件&#xff08;列出的软件其一均可运行&#xff09; I…

Java中如何实现线程安全的单例模式?

目录 1、懒汉式&#xff08;线程安全&#xff09; 2、饿汉式&#xff08;线程安全&#xff09; 3、双重校验锁&#xff08;线程安全&#xff09; 4、静态内部类&#xff08;推荐&#xff09; 5、枚举&#xff08;最佳方法&#xff09; 6、总结 在Java中&#xff0c;实现线…

CSS——2.书写格式一

<!DOCTYPE html> <html><head><meta charset"UTF-8"><title></title></head><body><!--css书写中&#xff1a;--><!--1.css 由属性名:属性值构成--><!--style"color: red;font-size: 20px;&quo…

CBAM (Convolutional Block Attention Module)注意力机制详解

定义与起源 CBAM (Convolutional Block Attention Module) 是一种专为卷积神经网络(CNN)设计的注意力机制, 旨在增强模型对关键特征的捕捉能力 。这一创新概念首次出现在2018年的研究论文《CBAM: Convolutional Block Attention Module》中。CBAM的核心思想是在通道和空间两个…

基于FPGA的辩论赛系统设计-8名选手-正反两方-支持单选手评分-正反两方评分总和

基于FPGA的辩论赛系统设计 功能描述一、系统概述二、仿真波形视频 功能描述 1.答辩倒计时功能&#xff0c;当正反任意一方开始答辩后&#xff0c;倒计时30S。在倒计时最后10S后&#xff0c;LED灯开始闪烁。 2.答辩评分和计分功能&#xff0c;当答辩方结束答辩后&#xff0c;评…

【OceanBase】使用 Superset 连接 OceanBase 数据库并进行数据可视化分析

文章目录 前言一、前提条件二、操作步骤2.1 准备云主机实例2.2 安装docker-compose2.3 使用docker-compose安装Superset2.3.1 克隆 Superset 的 GitHub 存储库2.3.2 通过 Docker Compose 启动 Superset 2.4 开通 OB Cloud 云数据库2.5 获取连接串2.6 使用 Superset 连接 OceanB…

余华和他的书

穿透现实&#xff0c;启迪心灵 引言 今天我们来聊聊中国文学界的一位大佬——余华。这位老兄可不简单&#xff0c;他的文字就像是给社会做“心灵手术”&#xff0c;刀刀见血&#xff0c;却又精准无比。他的作品不仅在中国家喻户晓&#xff0c;在国际上也是响当当的。那么&…