机器学习深度学习——多层感知机

👨‍🎓作者简介:一位即将上大四,正专攻机器学习的保研er
🌌上期文章:机器学习&&深度学习——感知机
📚订阅专栏:机器学习&&深度学习
希望文章对你们有所帮助

上一节已经简单讲解了感知机,并且用XOR函数来举例说明单层感知机的不足,在这里进行多层感知机的讲解。

多层感知机

  • 解决XOR
  • 隐藏层
    • 线性模型可能会出错
    • 在网络中加入隐藏层
    • 从线性到非线性
    • 通用近似定理
  • 激活函数
    • ReLU函数
    • sigmoid函数
    • tanh函数
  • 多类分类

解决XOR

在这里插入图片描述
如上图所示,分别利用黄线和蓝线来对输入特征进行分别,并用表格来进行表示:
在这里插入图片描述
这个表格就直接很容易的体现出了输入和输出的关系,很明显这不是单层感知机能够完成的,而是需要进行如下的过程:
在这里插入图片描述
显然,我们要从白圈得到输入的值,从而得知黄圈和蓝圈分别是什么符号再得到灰色的输出值。
简单来讲,这就是一个单隐藏层,也就是说输入和输出之间隐藏了一层运算,单隐藏图如下图:
在这里插入图片描述
其中,隐藏层的大小是超参数。隐藏层的相关内容将在后面详细介绍。

隐藏层

对于之前的线性回归模型,标签通过仿射变换以后,确实与我们的输入数据直接相关了,所以无需隐藏层。但是,仿射变换中的线性其实是一种太过于强的假设了。

线性模型可能会出错

线性模型意味着单调:任何特征的增大都会导致模型输出的增大或缩小(取决于对应的权重符号)。
然而我们能找出很多违反单调性的例子。例如,我们想要根据体温预测死亡率。对体温高于37摄氏度的人来说,温度越高风险越大。然而,对体温低于37摄氏度的人来说,温度越高风险就越低。
再比如,上一节中我们对猫狗图像进行分类,如果用线性模型,区分猫和狗的唯一要求变为了评估单个像素的强度。在一个倒置图像后依然保留类别的世界里,注定失败。
这是因为,任何像素的重要性都以复杂的方式取决于该像素的上下文(周围像素的值)。由于这会考虑到特征之间的相关交互作用,所以我们引入了隐藏层。

在网络中加入隐藏层

我们可以在网络中加入一个或多个隐藏层来克服线性模型的限制,使其可以处理更普遍的函数关系类型。要做到这一点,最简单的方法是将许多全连接层都堆叠到一起,每一层都输出到上面的层,直到生成最后的输出。
我们可以把前L-1层都看作是表示,把最后一层看作是线性预测器。这种架构就叫做多层感知机,缩写为MLP
在这里插入图片描述
如该图为一个单隐藏层的多层感知机,具有5个隐藏单元。输入层不涉及任何计算,因此使用此网络产生输出只需要实现隐藏层和输出层的计算。
因此,该MLP的层数为2,。注意,这两个层都是全连接的,每个输入都会影响隐藏层的每个神经元,而隐藏层中的每个神经元又会影响输出层中的每个神经元。

从线性到非线性

我们通过矩阵X表示n个样本的小批量,其中每个样本都具有d个输入特征。对于具有h个隐藏单元的单隐藏层多层感知机,用H表示隐藏层的输出,称为隐藏表示。我们用如下方式计算单隐藏层多层感知机的输出O:
H = X W ( 1 ) + b ( 1 ) O = H W ( 2 ) + b ( 2 ) H=XW^{(1)}+b^{(1)}\\ O=HW^{(2)}+b^{(2)} H=XW(1)+b(1)O=HW(2)+b(2)
其实,如果只是上面的式子,并没有改变线性模型的情况。我们试着合并一下单隐藏层,可得:
O = ( X W ( 1 ) + b ( 1 ) ) W ( 2 ) + b ( 2 ) = X W ( 1 ) W ( 2 ) + b ( 1 ) W ( 2 ) + b ( 2 ) O=(XW^{(1)}+b^{(1)})W^{(2)}+b^{(2)}=XW^{(1)}W^{(2)}+b^{(1)}W^{(2)}+b^{(2)} O=(XW(1)+b(1))W(2)+b(2)=XW(1)W(2)+b(1)W(2)+b(2)
上式其实也只有X是未知的,那么上式其实就可以等价于O=XW+b了。
因此,为了发挥出多层架构的潜力,我们需要引入激活函数σ。激活函数的输出称为活性值。一般来说,只要有了激活函数,就不可能再将我们的多层感知机退化成线性模型:
H = σ ( X W ( 1 ) + b ( 1 ) ) , O = H W ( 2 ) + b ( 2 ) H=\sigma(XW^{(1)}+b^{(1)}),\\ O=HW^{(2)}+b^{(2)} H=σ(XW(1)+b(1)),O=HW(2)+b(2)

通用近似定理

多层感知机可以通过隐藏神经元,捕捉到输入之间复杂的相互作用,这些神经元依赖于每个输入的值。
我们可以很容易地设计隐藏结点从而执行任意计算。例如在一对输入上进行基本逻辑操作,多层感知机是通用近似器。即使是网络只有一个隐藏层,给足足够的神经元和正确的权重,我们可以对任意函数建模。
虽然一个单隐藏层可以学习任何函数,但是不代表通过一个单隐藏层就可以解决所有问题,事实上通过更深的网络,可以更容易的逼近许多函数。

激活函数

前面已经讲过了激活函数的必要性,它是线性模型转换为非线性模型的关键。激活函数通过计算加权和并加上偏置来确定神经元是否应该被激活,它们将输入信号转换为输出的可微运算。大多数激活函数都是非线性的。

import torch
from d2l import torch as d2l

ReLU函数

实现简单且最受欢迎的激活函数,就是修正线性单元(ReLU),它提供了一种非常简单的非线性变化:
R e L U ( x ) = m a x ( x , 0 ) ReLU(x)=max(x,0) ReLU(x)=max(x,0)
通俗的说,ReLU函数将对应的活性值设为0,仅保留正元素并丢弃所有负元素。我们可以画出函数的曲线图:

x = torch.arange(-8.0, 8.0, 0.1, requires_grad=True)
y = torch.relu(x)
d2l.plot(x.detach(), y.detach(), 'x', 'relu(x)', figsize=(5, 2.5))
d2l.plt.show()

在这里插入图片描述
我们可以绘制ReLU函数的导数:

y.backward(torch.ones_like(x), retain_graph=True)
d2l.plot(x.detach(), x.grad, 'x', 'grad of relu', figsize=(5, 2.5))
d2l.plt.show()

在这里插入图片描述
选用ReLU的原因:它求导表现的很好,要么让参数消失,要么让参数通过。这使得优化表现得更好,并且ReLU减轻了困扰以往神经网络的梯度消失问题。
而ReLU也有很多变体,如参数化ReLU函数,其添加了一个线性项,因此即使参数是负的,某些信息仍然可以通过:
p R e L U ( x ) = m a x ( 0 , x ) + α m i n ( 0 , x ) pReLU(x)=max(0,x)+αmin(0,x) pReLU(x)=max(0,x)+αmin(0,x)

sigmoid函数

sigmoid函数将输入变换为区间(0,1)上输出,因此通常称为挤压函数
s i g m o i d ( x ) = 1 1 + e − x sigmoid(x)=\frac{1}{1+e^{-x}} sigmoid(x)=1+ex1
在这里插入图片描述

tanh函数

和sigmoid类型,双曲正切函数也是压缩区间,压缩到了(-1,1):
t a n h ( x ) = 1 − e − 2 x 1 + e − 2 x tanh(x)=\frac{1-e^{-2x}}{1+e^{-2x}} tanh(x)=1+e2x1e2x

多类分类

其实就是之前的softmax函数加了个隐藏层:
输入 x ∈ R n 隐藏层 W 1 ∈ R m × n , b 1 ∈ R m 输出层 W 2 ∈ R m × k , b 2 ∈ R k 输入x∈R^n\\ 隐藏层W_1∈R^{m×n},b_1∈R^m\\ 输出层W_2∈R^{m×k},b_2∈R^k\\ 输入xRn隐藏层W1Rm×n,b1Rm输出层W2Rm×k,b2Rk
那么可以得到:
h = σ ( W 1 x + b 1 ) o = W 2 T h + b 2 y = s o f t m a x ( o ) h=\sigma(W_1x+b_1)\\ o=W_2^Th+b_2\\ y=softmax(o) h=σ(W1x+b1)o=W2Th+b2y=softmax(o)
注意这里的o的表达式和之前写的不一样,上面只是给出个大概,而真正要进行运算的时候要满足矩阵乘法的原则:前面的列数等于后面的行数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/10480.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python代码实现题型

1.写出print()输出值 a = [1, 2, 3, 4, 5] # [1, 3, 5] print(a[::2]) # [4, 5] print(a[-2:]) 2.写出调用函数的输出结果 def fn(x, lst=[]):for i in range(x):lst.append(i * i)print(lst)# [0, 1] fn(2)# [3, 2, 1, 0, 1, 4] fn(3, [3,2,1])# [0, 1, 0, 1, 4] fn(3) 3.…

Git时间:版本控制工具进阶

Git时间:版本控制工具进阶 忽略文件 Git允许用户将指定的文件或目录排除在版本控制之外,它会检查代码仓库的目录下是否存在一个名为.gitignore的文件,如果存在,就去一行行读取这个文件中的内容,并把每一行指定的文件…

瀚高数据库中,对象不存在问题的处理思路及解决方案

**瀚高数据库 目录 环境 文档用途 详细信息 环境 系统平台:N/A 版本:6.0,4.5 文档用途 使用瀚高数据库可能会遇到应用系统中报对象等不存在的问题,可参照本文处理。 详细信息 1、常见报错信息展示: msgid “table “%s” does …

MySQL 读写分离

目录 一、什么是读写分离? 二、为什么要读写分离呢? 三、什么时候要读写分离? 四、主从复制与读写分离 五、MySQL 读写分离原理 六、企业 使用MySQL 读写分离场景 1)基于程序代码内部实现 2)基于中间代理层实现…

你说你会Java手动锁,但你会这道题吗???

按照这个格式输出你会吗??? 你说你不会,接下来认真看认真学了。 1.首先引入原子类。AtomicInteger num new AtomicInteger(0); 什么是原子类? 就是可以保证线程安全的原子操作的数据类型。 有什么作用?…

在Debian 12 上安装 PHP 5.6, 7.4

环境:Debian 12 Debian 12 默认的PHP版本为 8.2 如果直接安装php7.4就出现下面的报错: sudo apt-get install libapache2-mod-php7.4 php7.4 php7.4-gd php7.4-opcache php7.4-mbstring php7.4-xml php7.4-json php7.4-zip php7.4-curl php7.4-imap p…

postgresql备份和恢复

实际工作中会对数据库进行备份和还原,备份主要有三种格式 .bak 即压缩的二进制 .sql 即明文存储 .tar 即tarball压缩格式 数据库备份分单数据库备份,使用 pg_dump 命令;所有数据库备份,使用 pg_dumpall 命令 pg_dump 常用选项…

Unity TextMeshPro 富文本-文本水平对齐

资料 文档 文本水平对齐 对齐方式&#xff1a;左对齐&#xff0c;右对齐&#xff0c;居中,Justified,Flush 使用&#xff1a;<alignleft>左对齐</align> &#xff0c;可赋值left,right,center,flush,justified 该标签会覆盖默认的对齐方式。标签范围内的文本受影…

Java简化MongoDB编解码器的两种方法

介绍&#xff1a; 在与MongoDB进行数据交互时&#xff0c;有时候会遇到找不到类的编解码器&#xff08;codec&#xff09;的错误。为了解决这个问题&#xff0c;一种常见的方法是创建自定义编解码器来处理特定的类。然而&#xff0c;对于一些开发者来说&#xff0c;这样的方法…

导出为PDF加封面且分页处理dom元素分割

文章目录 正常展示页面导出后效果代码 正常展示页面 导出后效果 代码 组件内 <template><div><div><div class"content" id"content" style"padding: 0px 20px"><div class"item"><divstyle"…

Ubuntu Server版 之 mysql 系列

Ubuntu 分 桌面版 和 服务版 桌面版 &#xff1a;有额外的简易界面 服务版&#xff1a;是纯黑框的。没有任何UI界面的可言 安装mysql 安装位置 一般按照的位置存放在 /usr/bin 中 sudo apt-get install mysql-server查看mysql的状态 service mysql status mysql 安全设置…

使用xtcp映射穿透指定服务

使用xtcp映射穿透指定服务 管理员Ubuntu配置公网服务端frps配置service自启(可选) 配置内网服务端frpc配置service自启(可选) 使用者配置service自启(可选) 通过frp实现内网client访问另外一个内网服务器 管理员 1&#xff09;配置公网服务端frps2&#xff09;配置内网服务端…

FS32K144官方提供串口Bootloader对接Matlab串口烧写程序

​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​ 前言 Bootloader升级工具&#xff1a;可用TTL、232、485&#xff08;硬件收发模式&#xff09;,其中的一种&#x…

CertGetCertificateChain trust error CERT_TRUST_REVOCATION_STATUS_UNKNOWN

执行命令&#xff1a; curl --cacert http_ca.crt -u elastic https://localhost:9200 结果报错了 直接访问https://localhost:9200/ &#xff0c;正常 解决办法&#xff1a; curl --cacert http_ca.crt -u elastic https://localhost:9200 --insecure

2_Apollo4BlueLite中断控制器NVIC

1.概述 Apollo4BlueLite 的中断控制器是采用 ARM Cortex-M4 内核&#xff0c;并集成了 NVIC&#xff08;Nested Vectored Interrupt Controller&#xff0c;嵌套向量中断控制器&#xff09;作为其中断控制器。 NVIC 是 ARM Cortex-M 系列处理器中常用的中断控制器&#xff0c…

「前缀和以及差分数组」

文章目录 1 前缀和数组1.1 题解1.2 Code1.3 结果 2 二维矩阵的前缀和数组2.1 题解2.2 Code2.3 结果 3 差分数组 1 前缀和数组 适用于快速频繁的计算一个索引区间内的元素之和&#xff0c;核心思想就是使用一个前缀和数组&#xff0c;然后使用前缀和数组的两个元素之差&#xf…

论文笔记--FEDERATED LEARNING: STRATEGIES FOR IMPROVING COMMUNICATION EFFICIENCY

论文笔记--FEDERATED LEARNING: STRATEGIES FOR IMPROVING COMMUNICATION EFFICIENCY 1. 文章简介2. 文章概括3 文章重点技术3.1 联邦学习(federated learning, FL)3.2 Structured updates3.3 Sketched Update 4. 文章亮点5. 原文传送门 1. 文章简介 标题&#xff1a;FEDERATE…

React之内置的高阶组件

React之内置的高阶组件 React内置了一些高阶组件&#xff0c;以便对一些组件做特殊处理&#xff0c;从而提高代码性能。例如React.memo、React.forwardRef 注意&#xff1a;高阶组件不是Reacts视图组件 什么是高阶组件 高阶组件本质是高阶函数。高阶组件接收一个组件作为参数&…

QListWidget设置QWidget作为QListWidgetItem

1、实现QListWidget按照N像素进行滑动&#xff1b; 2、实现自定义QWidget作为QListWidgetItem&#xff1b; 代码实现&#xff1a; from PyQt5.QtWidgets import QWidget, QLabel, QVBoxLayout, QHBoxLayout, QTextEdit, QListWidget, QListWidgetItem, QScrollArea from PyQt5…

GNN的一篇入门 :A Gentle Introduction to Graph Neural Networks

原文链接 A Gentle Introduction to Graph Neural Networks (distill.pub)https://distill.pub/2021/gnn-intro/ 内容简介&#xff1a;本文是“A Gentle Introduction to Graph Neural Networks”的阅读笔记&#xff0c;因为第一次接触GNN&#xff0c;很多深奥的概念不懂&…