【机器学习】039_合理初始化

一、稳定训练

目标:使梯度值在更合理的范围内

常见方法如下:

· 将乘法变为加法

        · ResNet:当层数较多时,会加入一些加法进去

        · LSTM:如果时序序列较长时,把一些对时序的乘法做加法

· 归一化

        · 梯度归一化:把梯度转化为一个均值0、方差1这样的数,从而避免梯度的数值过大或过小

        · 梯度裁剪:如果梯度大于一个阈值,就强行拉回来减到一个范围里

· 合理的权重初始化、选取合理的激活函数

二、合理初始化操作

目标:让每层的方差都为一个常数

· 让每层的输出和梯度都看作“随机变量”

· 让输出和梯度的均值和方差都保持一致,那么就可以在每层的传递之间保持,不会出现问题

权重初始化

目标:将参数和权重初始化在一个合理的区间值里,防止参数变化过大或过小导致出现问题

· 当训练开始时,数值更易出现不稳定的问题

        · 随机初始的参数可能离最优解很远,更新幅度较陡,损失函数会很大,从而导致梯度较大

        · 最优解附近一般较缓,更新幅度会较小

· 假设不定义初始化方法,框架将使用默认初始化,即采用正态分布初始化权重值

        · 这种初始化方法对小型神经网络较为有效,但当网络较深时,这种初始化方法往往表现较差

· Xavier初始化:

        某些没有非线性的全连接层输出(例如,隐藏变量)o_i 的尺度分布:

        · 对于某一层 n_{in} 输入 x_j 以及其相关权重 w_{ij},输出由下式给出:

        权重 w_{ij} 都是从同一分布中独立抽取的

        · 假设该分布具有均值 0 和方差 \sigma ^2(不一定是标准正态分布,只需均值方差存在)

        · 假设层 x_j 的输入也具有均值 0 和方差 \gamma ^2,且独立于 w_{ij} 并彼此独立

        可以按下列方式计算 o_i 的均值与方差:

        为了保障 o_i 的方差不变化,可设置 n_{in}\sigma ^2 = 1

        现在考虑反向传播过程,我们面临着类似的问题,尽管梯度是从更靠近输出的层传播的。

        使用与前向传播相同的推断,我们可以看到:

        · 除非 n_{out}\sigma ^2=1,否则梯度的方差可能会增大。其中 n_{out} 是该层输出的数量。

        · 然而,我们不可能同时满足 n_{in}\sigma ^2 = 1 和 n_{out}\sigma ^2=1 这两个条件。

        但我们只需满足:

        即可达到要求,这便是Xavier初始化的基础。

        通常,Xavier初始化从均值为 0,方差 \sigma ^2=\frac{2}{n_{in}+n_{out}} 的高斯分布中采样权重。

        Xavier初始化表明:

        · 对于每一层,输出的方差不受输入数量的影响;

        · 任何梯度的方差不受输出数量的影响。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/159357.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【面试HOT300】滑动窗口篇

系列综述: 💞目的:本系列是个人整理为了秋招面试的,整理期间苛求每个知识点,平衡理解简易度与深入程度。 🥰来源:材料主要源于【CodeTopHot300】进行的,每个知识点的修正和深入主要参…

01【SpringBoot快速入门、yml语法、自动配置、整合框架】

目录 一、SpringBoot简介 1.1 Spring优缺点 1.1.1 Spring的优点 1.1.2 Spring的缺点 1.2 SpringBoot的概述 1.2.1 SpringBoot概述 1.2.2 SpringBoot的核心功能 二、SpringBoot快速入门 2.1 创建Maven工程 2.2 添加起步依赖 2.3 编写Controller 2.4 编写SpringBoot引…

易点易动设备管理系统:提升企业设备保养效率的最佳选择

在现代企业中,设备的正常运行和保养对于业务的顺利进行至关重要。然而,传统的手动设备管理方式往往效率低下、容易出错,给企业带来不必要的成本和风险。为了解决这一问题,易点易动设备管理系统应运而生。本文将介绍易点易动设备管…

No such module ‘FacebookCore‘

在下面的地方添加这个库

常用的工作资料怎么在电脑上记录呢?

在现代工作中,我们经常需要记录各种各样的工作资料,例如会议记录、项目计划、待办事项等等。传统的纸质笔记本虽然方便携带,但难以整理和检索。而在电脑上直接记录常用的工作资料,在记录、整理、查看、使用等方面都是更为高效、便…

C++ MiniZip实现目录压缩与解压

Zlib是一个开源的数据压缩库,提供了一种通用的数据压缩和解压缩算法。它最初由Jean-Loup Gailly和Mark Adler开发,旨在成为一个高效、轻量级的压缩库,其被广泛应用于许多领域,包括网络通信、文件压缩、数据库系统等。其压缩算法是…

超详细 | 实验室linux服务器非root账号 | 安装pip | 安装conda

登录实验室公用服务器,个人账号下(非root)是空的,啥也没有,想安装下pip和conda。 转了一圈,好像没太有针对这个需求写具体博客的,但有挺多讲直接在root下安的(用的应该是个人虚拟机&…

透视未来:现代发电厂地区可视化与智慧能源的结合

随着全球能源消费的不断增长,电力需求也在不断上升。作为能源行业的重要组成部分,现代发电厂扮演着不可替代的角色。而现代发电厂的数据管理和监控系统,则是确保其安全、高效、稳定运行的重要手段。在这个背景下,现代发电厂地区可…

Missing file libarclite_iphoneos.a 问题解决方案

问题 在Xcode 运行项目会报以下错误 File not found: /Applications/Xcode-beta.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/lib/arc/libarclite_iphoneos.a解决方案 打开URL https://github.com/kamyarelyasi/Libarclite-Files ,下载liba…

3.11-容器的资源限制

这一小节我们来看一下如何限制容器的资源,比如CPU和内存。 我们先来看一下对内存的限制。 --memory和--memory-swap这两个参数,如果我们只限定了--memory,没有限定--memory-swap,那么--memory-swap的大小就会和--memory大小一样。…

python练习题(markdown中的60道题)

1.Demo01 摄氏温度转化为华氏温度 celsius float(input(输入摄氏温度:)) fahrenheit (9/5)*celsius 32 print(%0.1f 摄氏温度转为华氏温度为 %0.1f % (celsius, fahrenheit))结果: 2.Demo02 计算圆柱体的体积 h, r map(float, input().split())# …

echarts实现如下图功能代码

这里写自定义目录标题 const option {tooltip: {trigger: axis},legend: {left: "-1px",top:15px,type: "scroll",icon:rect,data: [{name:1, textStyle:{color: theme?"#E5EAF3":#303133,fontSize:14}}, {name: 2, textStyle:{color: theme…

小程序泄露腾讯地图apikey

今天挖小程序时测了很久,一直没有头绪,后来想要测试一下支付漏洞,但是这里却出问题了 添加地址时我发现,当我添加一个地址时,他会显示腾讯地图的logo和一部分小图,那时候我就在想,既然这里可以调…

多普勒流速仪的功能作用是什么?

我国地域广大,各地降雨分布不均,某些城市经常会出现连续的降雨进而导致城市排水压力过大,为了提高城市应对排水过量的极端情况的出现,亟需一种方案能够对城市排水进行有效及时的监测,从而能够及时的采取应对方案。 在污…

IO口电压下降那么多是怎么回事??

前几天一个工程师向我反馈他测得如下电路MCU IO口的电压不是3.3V,只有2V多。 IO配置的是输入功能,无上下拉。最初我不太相信这个结果,后来自己用万用表实际测量了下,还真是这个结果 这是咋回事呢?不应该电压就是3.3V吗…

前缀和的动态维护——树状数组[C/C++]

文章目录 前言lowbitlowbit的定义lowbit的计算 树状数组的思想树状数组的操作单点修改 update前缀查询 query树状数组的建立 build 前言 树状数组巧妙了利用位运算和树形结构实现了允许单点修改的情况下,动态维护前缀和,并且实现单点修改和前缀和查询的效…

【JavaEE】操作系统与进程

作者主页:paper jie_博客 本文作者:大家好,我是paper jie,感谢你阅读本文,欢迎一建三连哦。 本文录入于《JavaEE》专栏,本专栏是针对于大学生,编程小白精心打造的。笔者用重金(时间和精力)打造&…

python 水质日历热力图

利用日历热力图可以方便的查看站点水质全年的变化情况。 接口获取站点数据 这一步根据自己实际情况,也可以读取excel、MySQL读取数据。这里把API地址已隐去。 import numpy as np import calendar import requests import json import pandas as pd import time f…

Linux:进度条(小程序)以及git三板斧

Linux小程序&#xff1a;进度条 在实现小程序前我们要弄清楚&#xff1a; 1.缓冲区&#xff1b; 2.回车与换行。 缓冲区&#xff1a; 分别用gcc来编译下面两个程序&#xff1a; 程序一&#xff1a; #include <stdio.h> int main() { printf("hello Makefil…

前后端分离SpringBoot+vue的买菜农副产品多功能商城

1&#xff0c;项目介绍 本系统主要针对买菜而设计&#xff0c;其功能有菜品基本信息管理、商品类别管理、系统订单管理、评论管理、系统用户管理等功能模块。并且本系统采用了现在流行的SpringBootVue进行的设计与实现&#xff0c;其中Tomcat为服务器&#xff0c;MySQL为数据库…