python从零开始学习深度学习01——神经网络反向传播的链式求导

自我介绍

最懂保险的算法工程师,致力于保险理念的推广,让每个程序员在35岁时都能够免除后顾之忧。通过构建保险组合,避免中年因病致穷,苦攒多年积蓄全部花费在医疗上,因此返贫。有兴趣的朋友后台私信加V:Archangle3_14,加不上可私信,常驻深圳,可约面谈。

交叉熵损失函数+sigmoid激活函数的链式求导

如果损失函数是交叉熵损失(entropy loss),通常用于分类任务中评估模型的输出与实际标签之间的差异。假设我们处理的是一个二分类问题,使用的输出层激活函数是sigmoid函数,那么交叉熵损失函数可以表达为:

交叉熵损失函数

对于一个给定的样本,交叉熵损失定义为:
L = − ( y log ⁡ ( y ^ ) + ( 1 − y ) log ⁡ ( 1 − y ^ ) ) L = -\left(y \log(\hat{y}) + (1 - y) \log(1 - \hat{y})\right) L=(ylog(y^)+(1y)log(1y^))
其中 y y y 是实际的标签, y ^ \hat{y} y^ 是模型的预测概率,这里 y ^ = σ ( z ) \hat{y} = \sigma(\mathbf{z}) y^=σ(z),且 z \mathbf{z} z 是隐藏层通过激活函数之前的线性输出。

链式求导

为了应用链式求导,我们首先计算 ∂ L ∂ y ^ \frac{\partial L}{\partial \hat{y}} y^L
∂ L ∂ y ^ = − ( y y ^ − 1 − y 1 − y ^ ) \frac{\partial L}{\partial \hat{y}} = -\left(\frac{y}{\hat{y}} - \frac{1 - y}{1 - \hat{y}}\right) y^L=(y^y1y^1y)

然后,考虑 y ^ = σ ( z ) \hat{y} = \sigma(\mathbf{z}) y^=σ(z),其导数 σ ′ ( z ) = σ ( z ) ( 1 − σ ( z ) ) \sigma'(z) = \sigma(z)(1 - \sigma(z)) σ(z)=σ(z)(1σ(z)),所以我们有:
∂ y ^ ∂ z = σ ( z ) ( 1 − σ ( z ) ) = y ^ ( 1 − y ^ ) \frac{\partial \hat{y}}{\partial \mathbf{z}} = \sigma(\mathbf{z})(1 - \sigma(\mathbf{z})) = \hat{y}(1 - \hat{y}) zy^=σ(z)(1σ(z))=y^(1y^)

现在,利用链式法则计算 ∂ L ∂ z \frac{\partial L}{\partial \mathbf{z}} zL
∂ L ∂ z = ∂ L ∂ y ^ ⋅ ∂ y ^ ∂ z = ( − y y ^ + 1 − y 1 − y ^ ) ⋅ y ^ ( 1 − y ^ ) \frac{\partial L}{\partial \mathbf{z}} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial \mathbf{z}} = \left(-\frac{y}{\hat{y}} + \frac{1 - y}{1 - \hat{y}}\right) \cdot \hat{y}(1 - \hat{y}) zL=y^Lzy^=(y^y+1y^1y)y^(1y^)
简化上式,我们得到:
∂ L ∂ z = − y ( 1 − y ^ ) + ( 1 − y ) y ^ = y ^ − y \frac{\partial L}{\partial \mathbf{z}} = -y(1 - \hat{y}) + (1 - y)\hat{y} = \hat{y} - y zL=y(1y^)+(1y)y^=y^y

最终,根据 z = W x + b \mathbf{z} = \mathbf{Wx} + \mathbf{b} z=Wx+b,我们得到权重 W \mathbf{W} W 和偏置 b \mathbf{b} b 的梯度:
∂ L ∂ W = ( y ^ − y ) x T \frac{\partial L}{\partial \mathbf{W}} = (\hat{y} - y) \mathbf{x}^T WL=(y^y)xT
∂ L ∂ b = y ^ − y \frac{\partial L}{\partial \mathbf{b}} = \hat{y} - y bL=y^y

总结

这种方式提供了更新权重 W \mathbf{W} W 和偏置 b \mathbf{b} b 的直接方法,适用于通过梯度下降方法优化二分类问题的神经网络模型。这种推导清楚地显示了从损失函数到模型权重的依赖关系,也是反向传播算法中的关键步骤。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/837095.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python内置类bytearray()详解

bytearray 是 Python 的一个内置类,它提供了一个可变序列的字节数组。 bytearray 数组的元素必须是0-255之间的整数,这些整数对应于ASCII字符集中的数字。下面着张图是部分ASCII字符: bytearray 是可变的,可修改其内容&#xff0c…

数据结构与算法学习笔记六---栈的顺序表示和实现(C语言)

目录 前言 一、什么是顺序栈 二、顺序栈的表示和实现 1.初始化 2.销毁 3.清空 4.栈空 5.栈长度 6.栈顶元素 7.入栈 8.出栈 8.遍历栈 9.测试代码 前言 这篇文章主要讲栈的顺序表示和实现。 一、什么是顺序栈 顺序栈,即栈的顺序存储结构是利用一组地址连续的存储单…

CPU的的处理流程如何快速记忆

为了快速记忆CPU的处理流程,可以将其简化成五个主要阶段,通常称为“冯诺依曼架构”的五个基本步骤,或者是流水线处理的几个阶段。下面是一种便于记忆的简化版本: CPU处理流程的五个阶段: 取指令(Instructi…

将视觉语言模型训练为智能手机助手

24年4月Agile Loop和德国弗赖堡大学的论文“Training A Vision Language Model As Smartphone Assistant”。 为了解决能够执行各种用户任务的数字助理挑战,该研究重点是基于指令的移动设备控制域。 用大语言模型 (LLM) 的最新进展,本文提出一种可以在移…

免费思维13招之十:增值型思维

免费思维13招之十:增值型思维 免费思维的另一大战略思维——增值型思维。 为了提高客户的粘性而促进重复性消费,我们必须对客户进行免费的增值型服务。 大家不要把增值型思维与赠品型思维混淆,增值型思维重心在于提高与消费者的粘性而促进重复消费,重心在后端。而赠品型思…

2024最新独立版校园跑腿校园社区小程序源码+附教程 适合跑腿,外卖,表白,二手,快递等校园服务

内容目录 一、详细介绍二、效果展示1.部分代码2.效果图展示 三、学习资料下载 一、详细介绍 后台php,前端uniapp可以二次开 2024最新独立版校园跑腿校园社区小程序源码附教程 测试环境:NginxPHP7.2MySQL5.6 多校版本,多模块,适…

设计模式-11 - Bridge Method 桥接模式

设计模式-11 - Bridge Method 桥接模式 1.定义 桥接模式是一种设计模式,它将抽象部分与其实现部分分离,使它们可以独立变化。它允许你改变抽象部分和实现部分的实现,而无需更改它们的接口。 结构: 桥接模式涉及四个主要角色&…

从iconfont引入线上字体库

如果是长期使用建议直接下载字体包 /* 在线链接服务仅供平台体验和调试使用,平台不承诺服务的稳定性,企业客户需下载字体包自行发布使用并做好备份。 */ 例如使用阿里妈妈数黑体 https://www.iconfont.cn/fonts/detail?spma313x.fonts_index.i1.d9df…

手动加载PE文件

今天手撸一下加载PE文件,并执行加载的PE文件。看完这一节之后相信大家会对PE文件的结构和在内存中的加载顺序有一个比较深刻的理解。 本文中可能对PE文件的基础知识介绍的不是很详细,建议大家先看看PE文件的基础结构,了解了这些基础知识后再看…

数据库面试总结

数据库相关 mysql使用的函数 字符相关: concant() 连接字符 trim()去除字符的首尾空格 space(n) 返回n个空格 char_length() 返回字符的个数 ucase()/upper()将字符串 s 的所有字母变成大写字母 lcase()/lower() 将字符串 s 的所有字母变成小写字母 substr/substring/mid(s, …

第十五章 数据管理成熟度评估练习

单选题 (每题1分,共19道题) 1、 [单选] 下列选项中属于数据管理成熟度2级特征的选项是? A:很少或没有治理;有限的工具集;单个竖井(系统)内定义角色;控件(如果有的话的应用完全不一致);未解决的数据质量问题 B:治理开始出现;引入一致的工具集;定义了一些角色和…

杂记-记一次前端打包问题解决过程

背景 若干年没更新发布的前端项目,突然来了个小需求,需求完成耗时5min,打包问题解决2小时 问题 error commander12.0.0: The engine “node” is incompatible with this module. Expected version “>18”. Got “10.22.1” 这个错误…

卷积神经网络边缘识别

为什卷积神经网络能够识别图片呢?是基于图片相似度比较,两张图片的点击越大说明两张图片越像,比如我们那狗胡子的图片去比较,如果相似度很高,就是认为这个动物更像狗。点积越大,图片越相似,这个…

vivado Virtex UltraScale 配置存储器器件

Virtex UltraScale 配置存储器器件 下表所示闪存器件支持通过 Vivado 软件对 Virtex UltraScale ™ 器件执行擦除、空白检查、编程和验证等配置操作。 本附录中的表格所列赛灵思系列非易失性存储器将不断保持更新 , 并支持通过 Vivado 软件对其中所列非易失…

基于 LlaMA 3 + LangGraph 在windows本地部署大模型 (六)

LlaMA 3 系列博客 基于 LlaMA 3 + LangGraph 在windows本地部署大模型 (一) 基于 LlaMA 3 + LangGraph 在windows本地部署大模型 (二) 基于 LlaMA 3 + LangGraph 在windows本地部署大模型 (三) 基于 LlaMA 3 + LangGraph 在windows本地部署大模型 (四) 基于 LlaMA…

第三课,python基础语法(二),基本算术运算符、3种数据类型、变量命名规则

一,基本算术运算 数学中:,-,, *小练习 请在程序中,定义如下变量: 钱包余额(变量名:money),初始余额50 请通过程序计算,再购买了: 冰淇淋10元可…

微信小程序、uniapp密码小眼睛

直接上代码喔喔喔喔喔喔喔喔~~ <input name"username" password"{{passwordHideShow}}" placeholder-style"color:#bdbdbd" type"text"maxlength"20" value"{{passwordNumber}}" bindinput"passwordInput…

荷香堪筑梦,鸳鸯和月寻。(变相BFS搜索)

本题链接&#xff1a;登录—专业IT笔试面试备考平台_牛客网 题目&#xff1a; 样例&#xff1a; 输入 3 4 2 .... ***. ..a. 输出 yes 思路&#xff1a; 根据题意&#xff0c;这里 1 s 可以移动多次&#xff0c;我们将每次可以移动避开雪的的位置存储起来&#xff0c;判断当…

randperm函数打乱索引的用法

randperm&#xff0c;用于生成一个随机排列。这个函数可以被用于许多需要随机排列的情况&#xff0c;如数据集的划分、模型的训练等等。通过randperm函数&#xff0c;你可以得到一个随机的、不重复的排列。 下面是randperm函数的一些用法示例&#xff1a; 1. 生成一个长度为n…

地埋式可燃气体监测终端,地下燃气管网安全“哨兵”

在现代都市的繁华之下&#xff0c;一条条地下燃气管网承载着城市的生命与活力&#xff0c;但管网老化腐蚀&#xff0c;第三方施工破坏&#xff0c;巡检维修不到位等问题&#xff0c;时刻影响着燃气管网安全运行&#xff0c;甚至威胁人民群众的生命财产安全。 为实现对燃气管网…