神经网络算法——反向传播 Back Propagation

文章目录

前言

1、反向传播的本质

(1)前向传播(Forward Propagation)

(2)反向传播(Back Propagation)

2、反向传播的原理

(1)链式法则(Chain Rule)

(2)偏导数

3、反向传播的案例:简单神经网络

(1)网络结构

(2)前向传播

(3)损失计算

(4)反向传播

(5)参数更新

(6)迭代


前言

本文将从反向传播的本质、反向传播的原理、反向传播的案例三个方面,详细介绍反向传播(Back Propagation)

反向传播


1、反向传播的本质

(1)前向传播(Forward Propagation)

前向传播是神经网络通过层级结构和参数,将输入数据逐步转换为预测结果的过程,实现输入与输出之间的复杂映射。

前向传播

  • 输入层:

        输入层接收训练集中的样本数据。

        每个样本数据包含多个特征,这些特征被传递给输入层的神经元。

        通常,还会添加一个偏置单元来辅助计算。

  • 隐藏层:

        隐藏层的每个神经元接收来自输入层神经元的信号。

        这些信号与对应的权重相乘后求和,并加上偏置。

        然后,通过激活函数(如sigmoid)处理这个求和结果,得到隐藏层的输出。

  • 输出层:

        输出层从隐藏层接收信号,并进行类似的加权求和与偏置操作。

        根据问题的类型,输出层可以直接输出这些值(回归问题),或者通过激活函数(如softmax)转换为概率分布(分类问题)。

(2)反向传播(Back Propagation)

反向传播算法利用链式法则,通过从输出层向输入层逐层计算误差梯度高效求解神经网络参数的偏导数,以实现网络参数的优化和损失函数的最小化。

反向传播

  • 利用链式法则:

        反向传播算法基于微积分中的链式法则,通过逐层计算梯度来求解神经网络中参数的偏导数。

  • 从输出层向输入层传播:

        算法从输出层开始,根据损失函数计算输出层的误差,然后将误差信息反向传播到隐藏层,逐层计算每个神经元的误差梯度。

  • 计算权重和偏置的梯度:

        利用计算得到的误差梯度,可以进一步计算每个权重和偏置参数对于损失函数的梯度

  • 参数更新:

        根据计算得到的梯度信息,使用梯度下降或其他优化算法来更新网络中的权重和偏置参数,以最小化损失函数。

2、反向传播的原理

(1)链式法则(Chain Rule)

链式法则是微积分中的一个基本定理,用于计算复合函数的导数。如果一个函数是由多个函数复合而成,那么该复合函数的导数可以通过各个简单函数导数的乘积来计算。

链式法则

  • 简化梯度计算:

        在神经网络中,损失函数通常是一个复合函数,由多个层的输出和激活函数组合而成。链式法则允许我们将这个复杂的复合函数的梯度计算分解为一系列简单的局部梯度计算,从而简化了梯度计算的过程。

  • 高效梯度计算:

        通过链式法则,我们可以从输出层开始,逐层向前计算每个参数的梯度,这种逐层计算的方式避免了重复计算,提高了梯度计算的效率。

  • 支持多层网络结构:

        链式法则不仅适用于简单的两层神经网络,还可以扩展到具有任意多层结构的深度神经网络。这使得我们能够训练和优化更加复杂的模型。

(2)偏导数

偏导数是多元函数中对单一变量求导的结果,它在神经网络反向传播中用于量化损失函数随参数变化的敏感度,从而指导参数优化。

偏导数

  • 偏导数的定义:

        偏导数是指在多元函数中,对其中一个变量求导,而将其余变量视为常数的导数。

        在神经网络中,偏导数用于量化损失函数相对于模型参数(如权重和偏置)的变化率。

  • 反向传播的目标:

        反向传播的目标是计算损失函数相对于每个参数的偏导数,以便使用优化算法(如梯度下降)来更新参数。

        这些偏导数构成了梯度,指导了参数更新的方向和幅度。

  • 计算过程:

        输出层偏导数:首先计算损失函数相对于输出层神经元输出的偏导数。这通常直接依赖于所选的损失函数。

        隐藏层偏导数:使用链式法则,将输出层的偏导数向后传播到隐藏层。对于隐藏层中的每个神经元,计算其输出相对于下一层神经元输入的偏导数,并与下一层传回的偏导数相乘,累积得到该神经元对损失函数的总偏导数。

        参数偏导数:在计算了输出层和隐藏层的偏导数之后,我们需要进一步计算损失函数相对于网络参数的偏导数,即权重和偏置的偏导数。

3、反向传播的案例:简单神经网络

(1)网络结构

  • 假设我们有一个简单的两层神经网络,结构如下:

        输入层:2个神经元(输入特征 x1 和 x2)

        隐藏层:2个神经元(带有激活函数 sigmoid)

        输出层:1个神经元(带有激活函数 sigmoid)

  • 网络的权重和偏置如下(这些值是随机初始化的,实际情况中会使用随机初始化):

        输入层到隐藏层的权重矩阵 W1:[0.5, 0.3], [0.2, 0.4]

        隐藏层到输出层的权重向量 W2:[0.6, 0.7]

        隐藏层的偏置向量 b1:[0.1, 0.2]

        输出层的偏置 b2:0.3

(2)前向传播

  • 给定输入 [0.5, 0.3],进行前向传播:

        隐藏层输入:[0.5*0.5 + 0.3*0.2 + 0.1, 0.5*0.3 + 0.3*0.4 + 0.2] = [0.31, 0.29]

        隐藏层输出(经过 sigmoid 激活函数):[sigmoid(0.31), sigmoid(0.29)] \approx [0.57, 0.57]

        输出层输入:0.6*0.57 + 0.7*0.57 + 0.3 = 0.71

        输出层输出(预测值,经过sigmoid激活函数):sigmoid(0.71) \approx 0.67

(3)损失计算

  • 假设真实标签是 0.8,使用均方误差(MSE)计算损失:

        损失 = (0.8-0.67)^2\approx 0.017

(4)反向传播

计算损失函数相对于网络参数的偏导数,并从输出层开始反向传播误差。

  • 输出层偏导数:

        损失函数对输出层输入的偏导数 (\delta 2):2 * (0.67 - 0.8) * sigmoid_derivative(0.71) \approx -0.05

Sigmoid函数的导数:sigmoid(x) * (1 - sigmoid(x))

  • 隐藏层偏导数:

        损失函数对隐藏层每个神经元输出的偏导数(\delta 1):[δ2 * 0.6 * sigmoid_derivative(0.31), δ2 * 0.7 * sigmoid_derivative(0.29)]

        计算后得到 δ1 ≈ [-0.01, -0.01](这里简化了计算,实际值可能有所不同)

  • 参数偏导数:

        对于权重 W2:[δ2 * 隐藏层输出1,δ2 * 隐藏层输出2] = [-0.03, -0.04]

        对于偏置 b2:δ2 = -0.05

        对于权重 W1 和 偏置 b1,需要更复杂的计算,因为它们影响到隐藏层的输出,进而影响到输出层的输入和最终的损失。这些偏导数依赖于 δ1 和输入层的值。

(5)参数更新

  • 使用梯度下降更新参数(学习率设为 0.1):

        更新 W2:w2 - 学习率 * 参数偏导数

        更新 b2:b2 - 学习率 * 参数偏导数

        同样地更新 W1 和 b1

(6)迭代

  • 重复步骤 2-5,直到网络收敛或达到预设的迭代次数。

参考:架构师带你玩转AI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/727394.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GB 2312字符集:中文编码的基石

title: GB 2312字符集:中文编码的基石 date: 2024/3/7 19:26:00 updated: 2024/3/7 19:26:00 tags: GB2312编码中文字符集双字节编码区位码规则兼容性问题存储空间优化文档处理应用 一、GB 2312字符集的背景 GB 2312字符集是中国国家标准委员会于1980年发布的一种…

成都正信:亲戚借了钱一直不还怎么委婉的说

在中国传统文化中,亲情关系往往被视为最为重要和敏感的部分。当亲戚间发生借贷时,若出现拖欠不还的情形,处理起来尤为棘手。面对这样的尴尬局面,采取委婉而有效的沟通方式至关重要。 张华最近就遇到了这样的困扰。他的表弟去年因急…

【Python刷题】环形链表

问题描述 给你一个链表的头节点 head ,判断链表中是否有环。 如果链表中有某个节点,可以通过连续跟踪 next 指针再次到达,则链表中存在环。 为了表示给定链表中的环,评测系统内部使用整数 pos 来表示链表尾连接到链表中的位置&a…

Extend继承

继承的作用 当我们定义了一个Person类: class Person{private Stirng name;private int age;public String getName(){....}public int getAge(){...}public void setName(String name){...}public void setAge(int age){...} }现在,假设还需要定义一个…

多目标粒子群(MOPSO)算法原理及其MATLAB实现

粒子群算法(PSO)是Eberhart和Kennedy于1995年提出的一种模拟鸟类觅食行为的算法[1],具有操作简单、速度快等特点。但在实际应用中,许多决策问题都是多目标优化问题,采用粒子群算法来处理多目标优化问题是一种有效方法,Coello 等人…

URL输入到页面渲染过程详解

当我们在浏览器中输入一个URL并按下回车键时,浏览器会执行一系列步骤来解析URL、发送请求、接收响应,并最终渲染页面。这个过程涉及到多个阶段,包括DNS解析、TCP握手、发送HTTP请求、服务器处理请求、返回HTTP响应、浏览器解析和渲染等。下面…

Jmeter高效组织接口自动化用例

1、善用“逻辑控制器”中的“简单控制器”。可以把简单控制器像文件夹一样使用,通过它来对用例进行分类归档,方便后续用例的调试和执行。 2、同编写测试用例一样,这里的接口测试用例应该进行唯一性编号,这样在运行整个用例计划出现…

【语法】C++学习

注意 使用devc对vector初始化使用vector v1 {1, 2, 3, 4, 5}; 报错 解决 在编译器选项中加入以下代码 -static-libgcc -stdc11

wince+gprs拨号上网总结

一、硬件连接 本次调试的GPRS模块引脚定义 三星主板全功能扩展串口2引脚定义 因GPRS模块可以和pc机直连进行数据通讯,那么收发肯定内部交叉,故主板和GPRS的连接也采用直连方式。如果接线不对则出现没有回应现象,拨号时出现端口不可用&#xf…

反向代理多级多机

一 架构图 本次实验需要 5台机器 第一台 nginx 只做代理服务器 负责反向代理 加 负载均衡 后面的两台nginx 做真实服务器 处理静态资源 再后面的 tomcat 做真实服务器 处理动态资源 二 具体实验 (一) 具体实验环境 所有机器关闭防火墙 安装…

System.currentTimeMillis()用法以及计算方式

System.currentTimeMillis()的作用是返回当前的计算机时间,格式为当前计算机时间和GMT时间(格林威治时间)1970年1月1号0时0分0秒所差的毫秒数 比如在做项目时,需要统计下gc操作的执行的消耗时间 除此之外,还可以获取当前的系统时间 //直接把这个方法强制转换成dat…

python创建和上传自己的PyPI库

文章目录 创建和上传自己的PyPI库pypi准备文件制作PyPI包在上传前,先本地验证注册PyPI账户上传pypi判断python包质量之 SourceRankLibraries.io 参考 创建和上传自己的PyPI库 pypi 官方地址:https://pypi.org/ Python中我们经常会用到第三方的包&…

论文阅读:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis

SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis 论文链接 代码链接 介绍 背景:Stable Diffusion在合成高分辨率图片方面表现出色,但是仍然需要提高本文提出了SD XL,使用了更大的UNet网络,以及增…

javaSwing飞机大战

概述 1.1 项目简介 本次Java课程设计是做一个飞机大战的游戏,应用Swing编程,完成一个界面简洁流畅、游戏方式简单,玩起来易于上手的桌面游戏。该飞机大战项目运用的主要技术即是Swing编程中的一些窗口类库、事件监听以及贴图技术。 1.2 实…

【个人账号体系设计】偏个人功能类账号功能模块设计

本文讨论了针对以个人功能为主的业务系统的账号能力设计,包括账号管理的总体需求、关键属性和设计要点。重点在于如何通过细致的设计实现账号的有效管理和安全性,确保系统既便于用户操作又能维持管理的严密性。 文章目录 需求能力模块设计 需求能力 在进…

计算机考研❗️这些院校(含985)性价比巨高

✅厦门大学 (985) 不歧视双非,全靠实力,校园环境还贼美 ✅重庆大学 (985) 信息公开透明,复试抽签 ✅北京师范大学 (985) 不歧视本科出身,面试抽签答题。 ✅东南大学 (985) 保护第一志愿,复试抽签 ✅吉林大学 (…

安捷伦DSA90254A示波器 AgilentDSA90254A

产品简介: •高性能实验室 •2.5 GHz 带宽 •4 个模拟通道,每个通道的采样率为 20 GSa/s •每个通道的数据速率为 20 Mpts 至 1 Gpts •很低的本底噪声:100 mV/格时为 3.01 mVrms •DSA90000A 系列示波器是以 Infiniium DSO90000A 系列…

ChatGPT:人工智能的革命与未来

引言 随着人工智能技术的飞速发展,ChatGPT作为OpenAI推出的一款语言模型,已经引起了广泛的关注和讨论。它不仅改变了我们与机器交流的方式,还为众多行业的发展带来了革命性的影响。本文将深入探讨ChatGPT的技术原理、应用场景以及它对未来的…

JavaEE进阶(14)Linux基本使用和程序部署(博客系统部署)

接上次博客:JavaEE进阶(13)案例综合练习——博客系统-CSDN博客 目录 程序配置文件修改和打包 构建项目并打包 分平台配置 数据准备 上传jar包到云服务器并运行 开放端口号 验证程序 如何查看日志得到报错信息 常见问题 关于Linux基…