神经网络与深度学习——第7章 网络优化与正则化

本文讨论的内容参考自《神经网络与深度学习》https://nndl.github.io/ 第7章 网络优化与正则化

网络优化与正则化

在这里插入图片描述

网络优化

在这里插入图片描述
在这里插入图片描述

网络结构多样性

在这里插入图片描述

高维变量的非凸优化

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

神经网络优化的改善方法

在这里插入图片描述

优化算法

在这里插入图片描述

小批量梯度下降

在这里插入图片描述
在这里插入图片描述

批量大小选择

在这里插入图片描述
在这里插入图片描述

学习率调整

在这里插入图片描述

学习率衰减

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

学习率预热

在这里插入图片描述
在这里插入图片描述

周期性学习率调整

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

AdaGrad算法

在这里插入图片描述
在这里插入图片描述

RMSprop算法

在这里插入图片描述

AdaDelta算法

在这里插入图片描述
在这里插入图片描述

梯度估计修正

在这里插入图片描述

动量法

在这里插入图片描述在这里插入图片描述

Nesterov加速梯度

在这里插入图片描述

Adam算法

在这里插入图片描述
在这里插入图片描述

梯度截断

在这里插入图片描述
在这里插入图片描述

优化算法小结

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

参数初始化

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

基于固定方差的参数初始化

在这里插入图片描述
在这里插入图片描述

基于方差缩放的参数初始化

在这里插入图片描述

Xavier初始化

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

He初始化

在这里插入图片描述

正交初始化

在这里插入图片描述
在这里插入图片描述

数据预处理

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

逐层归一化

在这里插入图片描述
在这里插入图片描述

批量归一化

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

层归一化

在这里插入图片描述
在这里插入图片描述

权重归一化

在这里插入图片描述

局部相应归一化

在这里插入图片描述

超参数优化

在这里插入图片描述

网格搜索

在这里插入图片描述

随机搜索

在这里插入图片描述

贝叶斯优化

在这里插入图片描述
在这里插入图片描述

动态资源分配

在这里插入图片描述
在这里插入图片描述

神经架构搜索

在这里插入图片描述

网络正则化

在这里插入图片描述
在这里插入图片描述

l 1 l_1 l1 l 2 l_2 l2正则化

在这里插入图片描述
在这里插入图片描述

权重衰减

在这里插入图片描述

提前停止

在这里插入图片描述

丢弃法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

循环神经网络上的丢弃法

在这里插入图片描述
在这里插入图片描述

数据增强

在这里插入图片描述

标签平滑

在这里插入图片描述
在这里插入图片描述

总结和深入阅读

在这里插入图片描述
在这里插入图片描述

习题

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
代入可知,KaTeX parse error: Undefined control sequence: \K at position 15: \frac{\alpha}{\̲K̲}可以看作是真正的学习率,如果不成正比,那么会出现过大或者过小的情况,使参数更新不稳定或者过慢。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
可以看出,如果 β 1 \beta_1 β1 β 2 \beta_2 β2都接近1, M ^ t \hat M_t M^t接近 M t M_t Mt G ^ t \hat G_t G^t接近 G t G_t Gt,当 M 0 = 0 , G 0 = 0 M_0=0, G_0=0 M0=0,G0=0,初期的均值和未减去均值的方差都很大,因为 t t t较小时,由于从0开始增长的很慢,所以基本都趋于0,所以和真实值差距很大,因此需要进行修正, β 1 t \beta^t_1 β1t t t t变大的时候越来越趋于0,这样就会使初期的 M t M_t Mt G t G_t Gt更新较大,后期更新较小。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
AdaDelta算法的 G t G_t Gt计算和RMSprop算法一样,是参数更新差值不同:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
其实就是为了让激活函数 f ( ⋅ ) f(\cdot) f()的净输入适合激活函数,如果在仿射变换之前进行归一化,那经过了仿射变换以后分布还是变了,可能不适合激活函数的定义域。当用Logistic函数时,如果归一化到[0,1],仿射变换可能让数值大于1,那么梯度就消失了,如果用ReLU函数, x > 0 x > 0 x>0时都是它本身,那么在仿射变换之后可能小于0了,梯度也消失了。
在这里插入图片描述
在这里插入图片描述
γ \gamma γ β \beta β表示缩放和平移的参数向量,通过这两个参数,可以调整输入分布,防止ReLU死亡问题,然后有了 β \beta β的存在,仿射变换就不需要偏置参数。
在这里插入图片描述
RNN的梯度随时间反向计算,有一个累积的过程,如果重复进行归一化,会导致梯度爆炸。而且批量归一化是使用小批量的均值和方差来近似整个序列的均值和方差,RNN的序列长度不同,批量均值和方差可能无法反映整个序列的统计特性。批量归一化通常假设批量中的样本是独立同分布的,这和RNN的每一层内不同,RNN的每一层是有时间步的关系。
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
很明显,对每个时刻的隐藏状态进行随机丢弃,会损坏网络的时间维度上的记忆能力。
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/846270.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HCIP-Datacom-ARST自选题库__EBGP【18道题】

一、单选题 1.在排除EBGP邻居关系故障时,你发现两台直连设备使用Loopback口建立连接,故执行display current-configurationconfiguration bgp查看peer ebgp-max-hop hop-count的配置,下列哪项说法是正确的? hop-count必须大于2 hop-count…

8条黄金准则,解决API安全问题

API(应用程序编程接口)是现代软件开发中不可或缺的一部分。它们允许不同的应用程序之间共享数据和功能,从而促进了软件系统的整合和互操作性。然而,随着API使用的普及,安全性问题也开始浮出水面。 API安全是指保护API免…

Windows 剪映专业版 v5.9.0 解锁VIP、解除限制功能!

介绍 该脚本具备多项高级功能,包括人像抠图、会员专属模板、超清画质以及素材预设。会员可使用的功能均通过此脚本解锁。 解锁剪映软件会员功能,包括人像抠图、会员模板、超清画质以及素材预设等。 在标准操作流程中,用户首先在电脑端启动…

系统架构设计师【第12章】: 信息系统架构设计理论与实践 (核心总结)

文章目录 12.1 信息系统架构基本概念及发展12.1.1 信息系统架构的概述12.1.2 信息系统架构的发展12.1.3 信息系统架构的定义 12.2 信息系统架构12.2.1 架构风格12.2.2 信息系统架构分类12.2.3 信息系统架构的一般原理12.2.4 信息系统常用4种架构模型12.2.5 企业信息系…

大模型应用:Prompt-Engineering优化原则

1.Prompt-Engineering 随着大模型的出现及应用,出现了一门新兴“技术”,该技术被称为Prompt-Enginerring。Prompt Engineering即提示工程,是指在使用大语言模型时,编写高效、准确的Prompt(提示词)的过程。通过不同的表述、细节和…

【JavaEE 进阶(二)】Spring MVC(下)

❣博主主页: 33的博客❣ ▶️文章专栏分类:JavaEE◀️ 🚚我的代码仓库: 33的代码仓库🚚 🫵🫵🫵关注我带你了解更多进阶知识 目录 1.前言2.响应2.1返回静态界面2.2返回数据2.3返回HTML代码 3.综合练习3.1计算器3.2用户登…

ROS简介

ROS概念 学习路线 操作系统 Linux环境下编译执行c文件(需安装vim超文本编辑器) sudo g MyCoding.cpp -o CodeTest //生成一个名字为CodeTest的可执行文件 sudo ./CodeTest //执行c文件版本问题 ROS Melodic Morenia 和 ROS Noetic Ninjemys 是…

基于Django的博客系统之登录增加忘记密码(八)

需求 描述: 用户忘记密码时,提供一种重置密码的方法,以便重新获得账户访问权限。规划: 创建一个包含邮箱输入字段的表单,用于接收用户的重置密码请求。用户输入注册时使用的邮箱地址,系统发送包含重置密码…

CTF本地靶场搭建——基于阿里云ACR实现动态flag题型的创建

接上文,这篇主要是结合阿里云ACR来实现动态flag题型的创建。 这里顺便也介绍一下阿里云的ACR服务。 阿里云容器镜像服务(简称 ACR)是面向容器镜像、Helm Chart 等符合 OCI 标准的云原生制品安全托管及高效分发平台。 ACR 支持全球同步加速、…

如何恢复 Android 设备上丢失的照片

由于我们的大量数据和日常生活都存储在一台设备上,因此有时将所有照片本地存储在 Android 智能手机或平板电脑上可能是一种冒险行为。无论是由于意外(损坏、无意删除),还是您认识的人翻看您的设备并故意删除了您想要保留的照片&am…

从0开始学统计-什么是回归?

1.什么是回归? 回归(Regression)是统计学中一种用于探索变量之间关系的分析方法。它主要用于预测一个或多个自变量(输入变量)与因变量(输出变量)之间的关系。在回归分析中,我们尝试根…

【Leetcode笔记】40.组合总和II

1. 题目要求 这道题目和39.组合总和不一样的地方在于:数组中含有相同的元素。同样地,结果不能含有重复组合。 拿第一个示例来看, candidates [1, 1, 2, 5, 6, 7, 10]问题在于:第一个path[1(index 0), 2],绝不能出现…

大语言模型实战——最小化模型评测

1. 引言 现在国内外的主流模型,在新模型发布时都会给出很多评测数据,用以说明当前模型在不同数据集上的测评表现(如下面llama3发布的评测数据)。 这些评测数据是如何给出来的呢?这篇文章会用一个最小化的流程来还原下…

echarts绘制三维柱状图

echarts ECharts 是一个使用 JavaScript 实现的开源可视化库,主要用于数据的可视化展示。ECharts 支持丰富的图表类型,如折线图、柱状图、饼图、地图、K线图等,可以满足不同类型数据的展示需求。 文档地址:echarts 本次所绘制三…

从零开始实现自己的串口调试助手(3) - 显示底部收发,优化串口打开/关闭

注意: 1. 我们要实现自发自收,要将tx,rx连起来 2.发送的 不能是中文符号,因为这可能导致,读取到的是英文符号 --> 导致接收到的size 和发送的size 大小不一致 3.注意同时定义两个槽函数的时候两个槽函数都会被调用,…

MySQL数据表的设计

实际工程中, 对于数据表的设计和创建, 我们遵循以下步骤: 首先确定实体, 找到关键名词, 提取关键信息, 设计表有哪些列, 每一列是什么. (有几个实体, 一般就创建几个表, 一般一个表对应一个实体) 实体之间的关系: 1. 一对一关系 例如: 一个学生, 只能有一个账号; 一个账号只…

基于单片机的病床呼叫系统设计研究

摘要:随着无线技术的快速发展,无线应用技术已经运用到人们生产生活中的多个领域,运用无线技术来设计病床呼叫系统能够实现无线信号的远距离传输,减少材料耗费,使医患之间的沟通更加便捷,该系统运用单片机作…

决定短视频打开率的要素:成都鼎茂宏升文化传媒公司

​ 在当下这个短视频盛行的时代,无论是个人创作者还是企业品牌,都希望通过短视频平台获得更多的曝光和关注。然而,如何让自己的短视频在众多内容中脱颖而出,吸引用户的点击和观看,成为了摆在我们面前的重要问题。成都…

nginx隐藏版本号、错误信息页面隐藏nginx软件、修改 HTTP 头信息中的connection 字段,防止回显具体版本号、curl命令

目录 安装之后隐藏 配置文件 源代码配置安装之前隐藏 修改nginx.h文件中的 13、14行 修改 HTTP 头信息中的connection 字段,防止回显具体版本号 配置文件49行 错误页面程序返回版本号、nginx隐藏 配置文件36行 ​编辑 安装nginx 相关选项说明 curl命令测试…

更新详情 | Flutter 3.22 与 Dart 3.4

作者 / Michael Thomsen 过去几个月,Dart & Flutter 部门可谓忙碌非凡,但我们很高兴地宣布,Flutter 3.22 和 Dart 3.4 已经在今年的 Google I/O 大会上精彩亮相! Google I/Ohttps://io.google/2024/intl/zh/ 我们始终致力于提…