4-4 数值稳定性 + 模型初始化和激活函数

4-4 数值稳定性 + 模型初始化和激活函数

news/2025/7/16 6:53:46/文章来源:https://blog.csdn.net/weixin_45798993/article/details/140702026

数值稳定性

请添加图片描述
这里的 $t$ 表示层，假设 $h^{t-1}$ 是第 $t - 1$ 层隐藏层的输出，经过一个 $f_{t}$ 得到第 $t$ 层隐藏层的输出 $h^{t}$ 。

$y$ 表示 $x$ 进来，第一层一直到第 $d$ 层，最后到一个损失函数，就是我们预测的，要优化的目标函数。（ $y$ 这里不是预测， $y$ 还包括了损失函数。）
请添加图片描述
如果我们计算损失 $l$ 关于我们某一个层权重 $W^{t}$ 的梯度的话，损失 $l$ 自顶向下求导，一直求到第 $t$ 层的输出 $h^{t}$ ，再乘以第 $t$ 层的输出 $h^{t}$ 关于第 $t$ 层的权重 $W^{t}$ 的导数。

注意到说，这里的所有的 $h$ 都是一些向量，向量关于向量的导数是一个矩阵，所以黄色括号这里是一个 $d - t$ 次的矩阵乘法。

我们的主要问题就在这里，因为我们做了太多的矩阵乘法！！！
请添加图片描述
梯度爆炸：假设我的梯度都是一些比 $1$ 大一点的数字，然后我就是对 $1.5$ 作 $100$ 次，假设我有 $100$ 层的话，作 $100$ 次就会得到一个 $\times 10^{17}$ 的数，当然这个数浮点数是能表示的，但是这个数很容易带来浮点数上限的问题。
梯度消失：假设我的梯度是一个小于 $1$ 的数，就算不是太小，但是作 $100$ 层的话，那么 $0.8$ 的 $100$ 次方，也是 $\times 10^{-10}$ 次方，也是个非常非常小的数。慢慢地，梯度就很快不见了。

请添加图片描述
第 $t$ 层的输入 $h^{t-1}$ ，也就是第 $t - 1$ 层的输出，第 $t$ 层的权重 $W_{t}$ 乘以我的第 $t$ 层的输入 $h^{t-1}$ ，然后我们假设省略掉偏移，我们直接在输出上作激活函数。

请添加图片描述
Relu的导数，如果 $x > 0$ ，导数为 $1$ ，否则为 $0$ 。

请添加图片描述
我们是用GPU的时候，通常会使用 $16$ 位浮点数。 $16$ 浮点数的缺点是，它的数值范围很小。如果你的值超出了我这个区间，那我就变成无穷大了。

学习率不好调，大一点点就炸掉了，小一点点就不动，学习率只能在一个很小的范围内比较合适，对模型训练的调参很麻烦。

请添加图片描述
蓝色是值的函数，黄色是梯度的函数，当值很大的时候，梯度很小，对于激活函数，当输入稍微大一点点的时候，它的导数就会变成 $0$ 。

让训练更加稳定

我们的核心问题是说，如何让我们的训练更加稳定，也就是让梯度不要太大也不要太小。请添加图片描述
归一化：

把梯度变成均值为 $0$ ，方差为 $1$ 的数，不管有多大，都拉回来
梯度剪裁：比如，如果梯度 $＞ 5$ ，就把它变成 $5$ ， $＜ - 5$ ，就把它变成 $- 5$ ，就是强行把梯度剪裁到一个范围里面

请添加图片描述
$t$ 是我第 $t$ 层的输出， $i$ 是我的第 $i$ 个元素，所以 $h_{i}^{t}$ 是个标量，我把它当作随机变量。

正向：我的输出的期望为 $0$ ，方差假设为 $a$ 。
反向：损失函数关于第 $t$ 层输出的第 $i$ 个元素，我一样希望它的期望为 $0$ ，方差为常数 $b$ 。

不管哪个层，不管哪一层的哪个输出，不管我作多深，都可以保证数值在一个合理的范围内。这是我们希望的假设，我们要设计神经网络，使得它满足这个性质。

权重初始化

请添加图片描述
越陡的地方梯度越大，因为梯度指向最陡的方向。

使用 $N (0, 0.01)$ 有可能太小，有可能太大，不能保证深度神经网络。

请添加图片描述
假设权重是独立同分布，那可以说均值等于0，方差等于 $\gamma_{t}$ ， $t$ 就是层数。

我的这一层的输入 $h_{i}^{t-1}$ 也是独立于我当前层的权重，这两个事件是独立的事件。

假设没有激活函数，这样可以求出均值为 $0$ 。（因为独立同分布）

请添加图片描述

请添加图片描述

我们需要满足两个条件
第一个条件是要满足每次我的前项的输出方差是一致的，
第二个条件是要使得梯度是一样的。
这两个条件很难同时满足。
除非输入刚好等于输出，那不然的话，无法同时满足这两个条件。

Xavier初始化，取个折中，作个权衡。
给定我的神经网络的当前层的输入和输出的大小，那我就能确定我的权重需要满足的方差的大小。

Xavier初始化，是我们常用的模型初始化的方法，意思是我的初始化权重的方差是根据我的输入和输出维度来定的。
当你的输入和输出长得不那么一样的时候，或者每个网络变化比较大的时候，可以根据输入和输出来适配我的权重形状，使得我希望我的梯度和输出的方差都在一个恒定的范围里。

激活函数

请添加图片描述

正向反向都意味着，你这个激活函数，必须是 $f (x) = x$ 。

请添加图片描述
对于tanh和relu来讲，在零点附近，确实是近似到 $f (x) = x$ 。
sigmod不过原点，但是可以把sigmod调整一下。

请添加图片描述

合理的权重初始值：Xavier初始化
激活函数，尽量用relu和tanh，实在不行用sigmod的变体

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/875977.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

域名解析流程：从浏览器输入URL到网页加载的全过程

域名解析流程：从浏览器输入URL到网页加载的全过程

本文概括了用户从在浏览器中输入一个网址到最终浏览器加载并显示网页的整个流程，特别强调了DNS解析的关键作用。当用户在浏览器中输入一个网址（HTTP请求）并寻找对应的IP地址时，会经历以下流程： 1. **输入URL**&…

阅读更多...

研究生选择学习Android开发的利与弊？

研究生选择学习Android开发的利与弊？

在开始前刚好我有一些资料，是我根据网友给的问题精心整理了一份「Android的资料从专业入门到高级教程」， 点个关注在评论区回复“888”之后私信回复“888”，全部无偿共享给大家！！！产品经理可以学学Axure快…

阅读更多...

vscode远程免密登入

vscode远程免密登入

1、windows (1) 点击左下角 ->将当前窗口连接到主机…->（配置ssh文件，点击或者指定）->按这个格式添加 (2) 在cmd命令窗口：ssh-keygen -t rsa (-C “name”) #这个name是远程linux的用户名，这里也可以不加-C…

阅读更多...

H264编码器实现-帧内预测之像素值预测

H264编码器实现-帧内预测之像素值预测

前言本文所介绍的像素值预测，是指在帧内预测总体流程中的预测块每个像素值的推导过程。当我们已知向量像素的重建值的时候，我们就可以对当前预测块进行像素值预测。该过程得到的结果将与源像素值相减得到残差，为后续变换量化提供数据来源。…

阅读更多...

Godot入门 04平台设计

Godot入门 04平台设计

新建创景，添加AnimatableBody2D节点。添加Sprite2D节点拖动图片剪裁图片，吸附模式：像素吸附添加CollisionShape2D，设置实际形状为矩形重命名AnimatableBody2D节点为Platform，保存场景，拖动platform场景…

阅读更多...

C#初级——条件判断语句、循环语句和运算符

C#初级——条件判断语句、循环语句和运算符

条件判断语句简单的条件判断语句，if()里面进行条件判断，如果条件判断正确就执行语句块1，如果不符合就执行语句块2。 if (条件判断) { 语句块1 } else { 语句块2 } int age 18;if (age < 18){Console.WriteLine("未…

阅读更多...

Python——Pandas（第一讲）

Python——Pandas（第一讲）

文章目录安装设定系统环境 Series对象创建DataFrame对象创建Pandas中的Index导入Excel文件导入csv文件导入txt文件保存数据保存数据至外部文件了解数据head()与 tail()info()shapedescribe() 列操作修改变量列筛选变量列删除变量列添加变量列根据新数据添加根据原数据添加 Pa…

阅读更多...

深入理解 Java 虚拟机第三版（周志明）

深入理解 Java 虚拟机第三版（周志明）

这次社招选的这本作为 JVM 资料查阅，记录一些重点 1. 虚拟机历史 Sun Classic VM ：已退休 HotSpot VM：主流虚拟机，热点代码探测技术 Mobile / Embedded VM ：移动端、嵌入式使用的虚拟机 2.2 运行时数据区域程序计…

阅读更多...

计算机概述

计算机概述

1.1 计算机的发展历程工认的第一台计算机ENIAC于1946年诞生。计算机的发展一般分为四个阶段：第一阶段为电子管计算机时代；第二阶段为晶体管计算机时代；第三阶段为集成电路计算机时代；第四阶段为大规模集成电路时代…

阅读更多...

软件测试20个基础面试题及答案

软件测试20个基础面试题及答案

什么是软件测试？ 答案：软件测试是指在预定的环境中运行程序，为了发现软件存在的错误、缺陷以及其他不符合要求的行为的过程。软件测试的目的是什么？ 答案：软件测试的主要目的是保证软件的质量，并尽可能…

阅读更多...

“消费增值风暴：百万业绩背后的创新电商模式“

“消费增值风暴：百万业绩背后的创新电商模式“

今日，我怀着无比激动的心情，向您揭示一个激励人心的成长篇章。我们的战略伙伴在短短一个月内，业绩如火箭般攀升，成功跨越百万销售额大关，同时，其用户活跃度居高不下，日均在线用户数稳稳占据8至1…

阅读更多...

[Unity] ShaderGraph实现镜头加速线/残血效果 URP

[Unity] ShaderGraph实现镜头加速线/残血效果 URP

效果如下所示：残血状态时，画面会压暗角，并出现速度线营造紧迫感。使用到的素材如下，换别的当然也可以。[这是张白色的png放射图，并非皇帝的新图hhh] 这个效果的实现逻辑，其实就是利用time向圆心做透明度的…

阅读更多...

【ai】Easy-RAG 3： ImportError: cannot import name ‘BaseModel‘ from ‘pydantic‘

【ai】Easy-RAG 3： ImportError: cannot import name ‘BaseModel‘ from ‘pydantic‘

[Bug]: cannot import name ‘RootModel’ from ‘pydantic’ #1237 版本不匹配导致 ImportError: cannot import name ‘BaseModel’ from ‘pydantic’ /home/zhangbin/miniconda3/envs/Easy-RAG/bin/python /home/zhangbin/proj/06_rag/02_Easy-RAG/webui.py /home/zhangbi…

阅读更多...

HAL库源码移植与使用之低功耗模式

HAL库源码移植与使用之低功耗模式

低功耗特性对用电池供电的产品： 更小电池体积（降低了大小和成本） 延长电池寿命电磁干扰更小，提高无线通信质量电源设计更简单，无需过多考虑散热问题电源供电区分为： 分为VDD供电区…

阅读更多...

友思特应用 | 硅片上的光影贴合：UV-LED曝光系统在晶圆边缘曝光中的高效应用

友思特应用 | 硅片上的光影贴合：UV-LED曝光系统在晶圆边缘曝光中的高效应用

导读晶圆边缘曝光是帮助减少晶圆涂布过程中多余的光刻胶对电子器件影响的重要步骤。友思特 ALE/1 和 ALE/3 UV-LED 高性能点光源，作为唯一可用于宽带晶圆边缘曝光的 i、h 和 g 线的 LED 解决方案，可高效实现WEE系统设计和曝光需求。晶圆边缘曝光及处…

阅读更多...

分布式相关理论详解

分布式相关理论详解

目录 1.绪论 2.什么是分布式系统，和集群的区别 3.CAP理论 3.1 什么是CAP理论 3.2 一致性 3.2.1 计算机的一致性说明 1.事务中的一致性 2.并发场景下的一致性 3.分布式场景下的一致性 3.2.2 一致性分类 3.2.3 强一致性 1.线性一致性 a) 定义 a) Raft算法…

阅读更多...

通过ATS软件抓取ios手机日志方法记录

通过ATS软件抓取ios手机日志方法记录

1.ios手机下载描述符文件，用于过检测下载网址：https://developer.apple.com/bug-reporting/profiles-and-logs/?nameB 点击这个下载，之后在手机通用-VPN与设备管理里面找到刚才下载的描述文件然后安装； 2024.6月后注意会提示描…

阅读更多...

springcloud RocketMQ 客户端是怎么走到消费业务逻辑的 - debug step by step

springcloud RocketMQ 客户端是怎么走到消费业务逻辑的 - debug step by step

springcloud RocketMQ ，一个mq消息发送后，客户端是怎么一步步拿到消息去消费的？我们要从代码层面探究这个问题。找的流程图，有待考究。以下我们开始debug： 拉取数据的线程： PullMessageService.java 本…

阅读更多...

Linux构建远程YUM仓库与NFS共享存储服务

Linux构建远程YUM仓库与NFS共享存储服务

💝💝💝欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:Linux运维老纪的首页…

阅读更多...

YOLOX+PyQt5交通路口智能监测平台设计与实现

YOLOX+PyQt5交通路口智能监测平台设计与实现

1.概述交通要道的路口上人车穿行，特别是上下班早高峰，且时常发生交通事故。因此对交通路口的车流量和人流量的监测必不可少。 2.检测模型使用的检测模型为YOLOX模型，模型权重为训练VOC数据集得来，其中包括了二十个类别&#…

阅读更多...

最新文章