批量归一化（BN）和层归一化（LN）的区别

批量归一化（BN）和层归一化（LN）的区别

news/2025/7/12 14:54:11/文章来源:https://blog.csdn.net/weixin_44115575/article/details/139418418

批量归一化（Batch Normalization, BN）和层归一化（Layer Normalization, LN）是深度学习中常用的两种归一化技术，它们主要用于解决训练过程中的内部协变量偏移问题，加速模型收敛和提高稳定性。

1. 为什么需要归一化

由于数据来源的不同，不同数据的特征分布是不一致的。模型在训练过程中学习了这个批次的特征分布，如果下一批次的特征分布截然不同，那么模型的参数就会剧烈变化，得学习很多次之后才能平衡好不同特征分布的权重，造成训练过程变慢。

借用李沐老师的一张图：

在深度网络中，梯度通过反向传播需要从顶部层逐层传递到底部层。由于链式法则，每传递一层，梯度都会乘以该层权重的导数。如果这些导数较小，梯度会迅速衰减，导致底部层的权重更新非常缓慢，这就是所谓的梯度消失问题。
在深度学习中，底层数据会学习到底层的特征，比如图像的轮廓，顶层数据会学习到高级的特征，比如细腻的纹理等等。高级的纹理特征往往依赖于底层的基础特征，如果底层没有收敛的话，顶层的微调意义并不大。每一次的底层特征变化都会让顶层重新学习，所以底层的收敛慢决定了整个模型的收敛速度慢。
因此需要归一化来让将所有批数据强制在统一的数据分布下，加速收敛。

2. 什么是归一化

以批量归一化举例

但是批量归一化同时也降低了模型的拟合能力，归一化之后的输入分布被强制拉到均值为0和标准差为1的正态分布上来，简单来说特征之间的距离不会跑的很远，大部分特征都在正态分布的那个峰值附近。

以Sigmoid激活函数为例，批量归一化之后数据整体处于函数的非饱和区域，只包含线性变换（多层的线性函数跟一层线性网络是等价的，网络的表达能力下降），破坏了之前学习到的特征分布。因此，为了使得归一化不对网络的表达能力造成负面印象，可以通过一个附加的缩放和平移变换改变取值区间。

3. 归一化是怎么实现的

批量归一化和层归一化的区别可以看下图

如果卷积计算输出多个通道，我们需要对这些通道的输出分别做批量归一化，且每个通道都拥有独立的拉伸和偏移参数，并均为标量。设小批量中有N个样本。在单个通道上，假设卷积计算输出的高和宽分别为h和w。我们需要对该通道中N×h×w个元素同时做批量归一化。

而层归一化就是对一个样本中的所有通道进行取归一化计算。

个人理解是BN消除特征间的差别而保留样本间的差别，LN保留了特征间的差别而消除了样本间的差别。

4. 注意点

训练时的均值和方差是计算每个批次中的样本，而训练时则是计算所有样本中的均值和方差。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/847101.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

田忌赛马

田忌赛马

题目描述你要和田忌赛马。你们各自有 𝑁N 匹马，并且要进行 𝑁N 轮比赛，每轮比赛，你们都要各派出一匹马决出胜负。你的马匹的速度分别为 u1,u2,⋯，un，田忌的马匹的速度分别为 v1,v2…

阅读更多...

基于Java的工程项目管理系统的功能与技术优势工程管理系统源码

基于Java的工程项目管理系统的功能与技术优势工程管理系统源码

在当今的工程领域，项目管理的高效协同和信息共享是提升工作效率、降低成本的关键。本文将向您介绍一款基于Java技术构建的工程项目管理系统，该系统采用前后端分离的先进技术框架，功能全面，能够满足不同角色的需求，从项…

阅读更多...

如何制作一本温馨的电子相册呢？

如何制作一本温馨的电子相册呢？

随着科技的不断发展，电子相册已经成为了一种流行的方式来记录和分享我们的生活。一张张照片，一段段视频，都能让我们回忆起那些温馨的时光。那么，如何制作一本温馨的电子相册呢？ 首先，选择一款合适的电子相册…

阅读更多...

Kubernetes集群Pod控制器

Kubernetes集群Pod控制器

前言在 K8s 集群中，Pod 控制器是一种关键的组件，负责管理和控制Pod的生命周期。Pod 是 K8s 中最小的可部署单元，通常包含一个或多个容器，Pod 控制器则确保所需数量的 Pod 实例处于运行状态，并根据定义的规则进行自动…

阅读更多...

Vuforia AR篇（五）— 地平面检测

Vuforia AR篇（五）— 地平面检测

目录前言一、什么是地平面识别？二、使用步骤三、示例代码四、效果五、总结前言在增强现实（AR）应用程序的开发中，地平面识别是一项关键技术，它允许虚拟对象与现实世界的地面进行互动。Vuforia 是一个功能强大的 AR …

阅读更多...

Centos7安装Docker和DockerCompose

Centos7安装Docker和DockerCompose

1.CentOS安装Docker Docker CE 支持 64 位版本 CentOS 7，并且要求内核版本不低于 3.10， CentOS 7 满足最低内核的要求，所以我们在CentOS 7安装Docker。 1.1.卸载（可选） 如果之前安装过旧版本的Docker，可以…

阅读更多...

python项目中requirements.txt文件使用

python项目中requirements.txt文件使用

由于之前用的技术栈是java，后续项目中需要逐渐用起python，但是很多地方只会用，没太了解过本质作用是什么，这里总结下 requirements.txt 一.作用 requirements.txt 文件是 Python 项目中常见的文件，用于列出项目所需…

阅读更多...

【Linux】深入理解进程的优先级（Linux 2.6版本O(1)调度算法）

【Linux】深入理解进程的优先级（Linux 2.6版本O(1)调度算法）

进程的优先级【前置知识】一、进程的优先级(一）为什么要有优先级？（二）进程的优先级的范围二、操作系统是如何实现进程的优先级？（Linux内核2.6版本O(1)调度算法） 【前置知识】首先我们要了解…

阅读更多...

FFmpeg 中 Filters 使用文档介绍

FFmpeg 中 Filters 使用文档介绍

描述这份文档描述了由libavfilter库提供的过滤器Filters、源sources和接收器sinks。滤镜介绍 FFmpeg通过libavfilter库启用过滤功能。在libavfilter中，一个过滤器可以有多个输入和多个输出。为了说明可能的类型，我们考虑以下过滤器图：这个过滤器图将输入流分成两个流，然…

阅读更多...

补上缺失的一环----一种数据库系统主动对外推送表的增删改实时变动数据的实践

补上缺失的一环----一种数据库系统主动对外推送表的增删改实时变动数据的实践

在实践中，一些应用程序或模块需要实时获取某些数据库表的增删改变动数据。对此需求，常见的方案有: 1、应用程序通过轮循查询数据库方式获取数据库表的增删改变动数据. 2、应用程序在把数据写入数据库表之前，通过事件方式向外通知数据库表的增…

阅读更多...

OZON的选品工具，OZON选品工具推荐

OZON的选品工具，OZON选品工具推荐

在电商领域，选品一直是决定卖家成功与否的关键因素之一。随着OZON平台的崛起，越来越多的卖家开始关注并寻求有效的选品工具，以帮助他们在这个竞争激烈的市场中脱颖而出。本文将详细介绍OZON的选品工具，并推荐几款实用的辅助工具&a…

阅读更多...

redis之发布与订阅

redis之发布与订阅

华子目录什么是发布与订阅？常用命令psubscribe pattern1 [pattern2...]subscribe channel1 [channel2...]publish channel messagepunsubscribe pattern1 [pattern2...]unsubscribe [channel1 [channel2...]]pubsub subcommand argument1 [argument2...] 示例1示例…

阅读更多...

ESP使用巴法云远程OTA（VScode + Platform io）

ESP使用巴法云远程OTA（VScode + Platform io）

ESP使用巴法云远程OTA（Platform） 什么是OTA： OTA（Over-the-AirTechnology）即空中下载技术，是通过移动通信的空中接口实现对移动终端设备及SIM卡数据进行远程管理的技术。OTA升级是物联网（IOT&am…

阅读更多...

如何使用前端表格控件实现多数据源整合？

如何使用前端表格控件实现多数据源整合？

前言作为表格产品的典型应用场景之一，几乎所有的行业都会存在类 Excel 报表开发这样的应用场景，而在这些应用场景中，经常会遇见下面的这些痛点： 报表数据往往来自多个不同的数据源，需要报表系统能够同时连接多个数据源…

阅读更多...

AI的制作思维导图

AI的制作思维导图

AI（人工智能）的实现通常涉及以下几个步骤： 1.问题定义：首先确定你想要解决的问题是什么，这将决定你需要设计什么样的系统。 2.数据收集：根据你的需求，收集相关的数据集来训练你的AI模型。数据的…

阅读更多...

x264 编码器中 PTS 与 DTS 原理分析

x264 编码器中 PTS 与 DTS 原理分析

DTS和PTS 解释 DTS：Decoding Time Stamp，这通常指的是解码时间戳，是视频帧或音频样本在解码器中解码的时间点。DTS用于确保视频帧或音频样本在正确的时间被解码，以保持视频和音频的同步。PTS：Presentation Time Stamp，是指显示时间戳，是视频帧或音频样本应该被显示给观众…

阅读更多...

Unity有限状态机实现怪物AI(代码框架思路)

Unity有限状态机实现怪物AI(代码框架思路)

目录状态的枚举状态基类接口(规范不同对象的同一行为) 状态机类(作为媒介用于管理各个状态之间的转换) 附带一个攻击状态的子类脚本作为示例: 状态的枚举首先最容易想到的是状态的枚举,比如说攻击状态、巡逻状态、追击状态等等,用枚举进行表示 public enum E_AI_State…

阅读更多...

前端工程化工具系列

前端工程化工具系列

所有和前端工程化工具的系列合集，快速提升开发效率。文档持续更新中，敬请期待～感兴趣的可收藏前端工程化这个专栏已完成前端工程化工具系列（一）—— ESLint(v9.4.0)：代码质量守护者基础篇前端工程化…

阅读更多...

AI技术从起源到革命性的未来

AI技术从起源到革命性的未来

在科技日新月异的今天，huizerc.com人工智能（AI）技术已成为推动社会进步的重要力量。从最初的概念提出，到如今的广泛应用，AI技术经历了漫长而曲折的发展历程。本文将深入探讨AI技术的起源、发展历程、当前应用以及未来展…

阅读更多...

Vue——模板引用(不建议使用，了解)

Vue——模板引用(不建议使用，了解)

文章目录前言测试案例前言模板引用，在官方文档中也有很详细的描述。虽然 Vue 的声明性渲染模型为你抽象了大部分对 DOM 的直接操作，但在某些情况下，我们仍然需要直接访问底层 DOM 元素。个人理解为： 在vue中，依据…

阅读更多...

最新文章