解读Batch Normalization

news/2025/7/16 6:19:05/文章来源:https://blog.csdn.net/jqw11/article/details/70770535

【活动】Python创意编程活动开始啦！！！ CSDN日报20170424 ——《技术方向的选择》 程序员4月书讯：Angular来了！

解读Batch Normalization

2016-02-23 16:03 5262人阅读评论(1) 收藏举报

本文章已收录于：

分类：

深度学习基础（10）

作者同类文章X

版权声明：本文为博主原创文章，转载请注明出处

目录(?)[+]

目录
1. 1-Motivation
2. 2-Normalization via Mini-Batch Statistics
  1. 测试
  2. BN before or after Activation
3. 3-Experiments

目录

- 目录
  - 1-Motivation
  - 2-Normalization via Mini-Batch Statistics
    - 测试
    - BN before or after Activation
  - 3-Experiments

本次所讲的内容为Batch Normalization，简称BN，来源于《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》，是一篇很好的paper。

1-Motivation

作者认为：网络训练过程中参数不断改变导致后续每一层输入的分布也发生变化，而学习的过程又要使每一层适应输入的分布，因此我们不得不降低学习率、小心地初始化。作者将分布发生变化称之为 internal covariate shift。

大家应该都知道，我们一般在训练网络的时会将输入减去均值，还有些人甚至会对输入做白化等操作，目的是为了加快训练。为什么减均值、白化可以加快训练呢，这里做一个简单地说明：

首先，图像数据是高度相关的，假设其分布如下图a所示(简化为2维)。由于初始化的时候，我们的参数一般都是0均值的，因此开始的拟合y=Wx+b，基本过原点附近，如图b红色虚线。因此，网络需要经过多次学习才能逐步达到如紫色实线的拟合，即收敛的比较慢。如果我们对输入数据先作减均值操作，如图c，显然可以加快学习。更进一步的，我们对数据再进行去相关操作，使得数据更加容易区分，这样又会加快训练，如图d。
这里写图片描述

白化的方式有好几种，常用的有PCA白化：即对数据进行PCA操作之后，在进行方差归一化。这样数据基本满足0均值、单位方差、弱相关性。作者首先考虑，对每一层数据都使用白化操作，但分析认为这是不可取的。因为白化需要计算协方差矩阵、求逆等操作，计算量很大，此外，反向传播时，白化操作不一定可导。于是，作者采用下面的Normalization方法。

2-Normalization via Mini-Batch Statistics

数据归一化方法很简单，就是要让数据具有0均值和单位方差，如下式：
这里写图片描述
但是作者又说如果简单的这么干，会降低层的表达能力。比如下图，在使用sigmoid激活函数的时候，如果把数据限制到0均值单位方差，那么相当于只使用了激活函数中近似线性的部分，这显然会降低模型表达能力。
这里写图片描述

为此，作者又为BN增加了2个参数，用来保持模型的表达能力。
于是最后的输出为：
这里写图片描述
上述公式中用到了均值E和方差Var，需要注意的是理想情况下E和Var应该是针对整个数据集的，但显然这是不现实的。因此，作者做了简化，用一个Batch的均值和方差作为对整个数据集均值和方差的估计。
整个BN的算法如下：
这里写图片描述
求导的过程也非常简单，有兴趣地可以自己再推导一遍或者直接参见原文。

测试

实际测试网络的时候，我们依然会应用下面的式子：
这里写图片描述
特别注意： 这里的均值和方差已经不是针对某一个Batch了，而是针对整个数据集而言。因此，在训练过程中除了正常的前向传播和反向求导之外，我们还要记录每一个Batch的均值和方差，以便训练完成之后按照下式计算整体的均值和方差：
这里写图片描述

BN before or after Activation

作者在文章中说应该把BN放在激活函数之前，这是因为Wx+b具有更加一致和非稀疏的分布。但是也有人做实验表明放在激活函数后面效果更好。这是实验链接，里面有很多有意思的对比实验：https://github.com/ducha-aiki/caffenet-benchmark

3-Experiments

作者在文章中也做了很多实验对比，我这里就简单说明2个。
下图a说明，BN可以加速训练。图b和c则分别展示了训练过程中输入数据分布的变化情况。
这里写图片描述

下表是一个实验结果的对比，需要注意的是在使用BN的过程中，作者发现Sigmoid激活函数比Relu效果要好。
这里写图片描述

顶

6

踩

0

上一篇系列解读Dropout
下一篇GoogLeNet系列解读

我的同类文章

深度学习基础（10）

http://blog.csdn.net

•CNN不能识别Negative图像2017-04-10阅读849
•深度模型一些新的运行框架或者辅助库工具等2016-11-04阅读1399
•深度学习——PReLU激活2016-05-08阅读4060
•GoogLeNet系列解读2016-02-25阅读13083
•多尺度竞争卷积2016-01-12阅读1248

•思考深度学习的泛化能力2017-02-20阅读617
•深度学习——MSRA初始化2016-05-08阅读3364
•深度学习——Xavier初始化方法2016-05-07阅读9004
•系列解读Dropout2016-01-25阅读1880
•mxnet学习记录【1】2015-12-01阅读10031

参考知识库

软件测试知识库

4519关注|318收录

算法与数据结构知识库

15752关注|2320收录

更多资料请参考：

猜你在找

使用决策树算法对测试数据进行分类实战

使用决策树算法对测试数据进行分类实战

《C语言/C++学习指南》加密解密篇（安全相关算法）

数据结构与算法在实战项目中的应用

C语言系列之字符串相关算法

深入浅出深度学习中的Batch Normalization使用

Batch Normalization 学习

Batch Normalization导读

Batch Normalization 神经网络加速算法

Batch Normalization导读

关闭

查看评论

1楼 meadl 2016-11-23 18:20发表 [回复] [引用] [举报]

博主具体到一个batch，假设为20，要对每个map在激活前使用BN，我要对y=wx+b的中的y求和,然后除以20 ，这样就是这个神经元的均值吗？那么方差是多少了？难道把输入的20张map看成一个数来求方差吗？比如2*1的向量方差是2*2的呀

* 以上用户言论只代表其个人观点，不代表CSDN网站的观点或立场

TOP

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/510307.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Caffe学习系列(1)：安装配置ubuntu14.04+cuda7.5+caffe+cudnn

Caffe学习系列(1)：安装配置ubuntu14.04+cuda7.5+caffe+cudnn

Caffe学习系列(1)：安装配置ubuntu14.04cuda7.5caffecudnn 一、版本 linux系统：Ubuntu 14.04 （64位） 显卡：Nvidia K20c cuda: cuda_7.5.18_linux.run cudnn: cudnn-7.0-linux-x64-v4.0-rc 二、下载 Ubuntu 14.04下载地址…

阅读更多...

将数据集做成VOC2007格式用于Faster-RCNN训练

将数据集做成VOC2007格式用于Faster-RCNN训练

[置顶] 将数据集做成VOC2007格式用于Faster-RCNN训练 2016-02-23 15:35 29068人阅读评论(336) 收藏举报本文章已收录于： 分类： Deep Learning（7） 作者同类文章X版权声明：本文为博主原创文章，未经博主…

阅读更多...

快速排序的实现--代码

快速排序的实现--代码

#include<stdio.h>int a[10000]; void QickSort(int a[],int l,int r) {int temp;int il,jr;if(l<r){tempa[l];//存val的值while(i!j){while(j>i&&a[j]>temp) --j;// 从右往左找出该数比val值小的数if(i<j){a[i]a[j];//放在val的左边i;//i右移动}wh…

阅读更多...

SSD框架训练自己的数据集

SSD框架训练自己的数据集

SSD框架训练自己的数据集 SSD demo中详细介绍了如何在VOC数据集上使用SSD进行物体检测的训练和验证。本文介绍如何使用SSD实现对自己数据集的训练和验证过程，内容包括： 1 数据集的标注2 数据集的转换3 使用SSD如何训练4 使用SSD如何测试1 数据集的标注　…

阅读更多...

归并排序的实现-代码

归并排序的实现-代码

#include<stdio.h> void merge_sort(int *a,int *b,int x,int y) { if(y-x>1) { int mx(y-x)/2;//中间点的坐标 int px,qm,ix; merge_sort(a,b,x,m); merge_sort(a,b,m,y); while(p<m||q<y) { if(q>y||(p<m&&a[p]<a[q])) b[i]…

阅读更多...

SSD+caffe︱Single Shot MultiBox Detector 目标检测+fine-tuning（二）

SSD+caffe︱Single Shot MultiBox Detector 目标检测+fine-tuning（二）

承接上一篇SSD介绍：SSDcaffe︱Single Shot MultiBox Detector 目标检测（一） 如果自己要训练SSD模型呢，关键的就是LMDB格式生成，从官方教程weiliu89/caffe来看，寥寥几行code，但是前面的数据整理…

阅读更多...

把图片存成视频 python

把图片存成视频 python

tips: 1.保存的图片大小一定要一样 2.图像做好是标准的视频格式大小 3.图片要和视频size一样大小代码如下 # -*- coding:utf8 -*- import os import cv2 import numpy as np import cv2.cv as cv path /home/m/mycode/cv filelist os.listdir(path) total_num len(f…

阅读更多...

sdut 双向队列(STL)

sdut 双向队列(STL)

deque<ll>q;//定义一个双向队列q，类型为long long q.push_front(a);//将a从队首插入队列 q.push_back(a);//将a从队尾插入队列 q.pop_front();//队首弹掉一个元素 q.pop_back();//队尾弹出一个元素 aq.front();//返回队首元素 aq.back();//返回队尾元素 aq.si…

阅读更多...

给文件重命名

给文件重命名

# -*- coding:utf8 -*-import osclass BatchRename():批量重命名文件夹中的图片文件def __init__(self):self.path home/l/imagedef rename(self):filelist os.listdir(self.path)total_num len(filelist)i 0for item in filelist:if item.endswith(.jpg):src os.path.joi…

阅读更多...

pip install scikit-image on windows 失败解决方案

pip install scikit-image on windows 失败解决方案

到官网下载包 http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-image 我们下载 scikit_image‑0.13.0‑cp35‑cp35m‑win_amd64.whl 也可到我的CNDS下载安装时会出现一下错误 scikit_image-0.13.0-cp34-none-win_amd64.whl is not a supported wheel on this platform…

阅读更多...

sdut 数据结构实验之排序三：bucket sort

sdut 数据结构实验之排序三：bucket sort

一开始这种做法超时： #include<stdio.h>int b[5000000],a[5000000],n,ans; void merge_sort(int *a,int *b,int x,int y) {if(y-x>1){int mx(y-x)/2;//中间点的坐标int px,qm,ix;merge_sort(a,b,x,m);merge_sort(a,b,m,y);while(p<m||q<y){if(q>…

阅读更多...

Caffe训练源码基本流程

Caffe训练源码基本流程

苏的专栏致力于学习计算机视觉、模式识别、机器学习、深度学习相关技术：：：：希望结识更多同道中人。 QQ：2816568984 微信：Suc1011 目录视图摘要视图订阅【活动】2017 CSDN博客专栏评选【评论送书】…

阅读更多...

fatal error: GL/glew.h: 没有那个文件或目录

fatal error: GL/glew.h: 没有那个文件或目录

搜索libglew的版本 #apt-cache search glew libglew-dbg - OpenGL Extension Wrangler (debugging symbols) libglew-dev - OpenGL Extension Wrangler - development environment libglew1.13 - OpenGL Extension Wrangler - runtime environment libglewmx-dbg - OpenGL E…

阅读更多...

运行cudasift

运行cudasift

文件中有cmakelist.txt 运行命令 cmake . 就会生成makefile type: make 出现错误： /usr/bin/ld: 找不到 -lopencv_dep_cudart 在cmake 时候用一下指令： cmake -D CUDA_USE_STATIC_CUDA_RUNTIMEOFF . make的时候可能会出现以下错误 make[2]: …

阅读更多...

电脑DNS修复

电脑DNS修复

首先在dos窗口下输入以下命令： ipconfig/displaydns 可以看到当前的缓存的所有DNS记录： 然后： ipconfig/flushdns 刷新当前的DNS

阅读更多...

数据结构实验之排序七：选课名单(卡内存的一道题。。坑)

数据结构实验之排序七：选课名单(卡内存的一道题。。坑)

RE。。。带更正 #include<iostream> #include<algorithm> using namespace std; #include<cstdio> #include<cstring> struct people {char name[100];int sum_class;int cl[2005]; }a[40000],b[40000]; int cmp(people a,people b) {char t[100],l[…

阅读更多...

/usr/bin/ld: 找不到 -lopencv_dep_cudart

/usr/bin/ld: 找不到 -lopencv_dep_cudart

make出现/usr/bin/ld: 找不到 -lopencv_dep_cudart错误时候我们在cmake时候加上参数 cmake -D CUDA_USE_STATIC_CUDA_RUNTIMEOFF .

阅读更多...

ubuntu16.04下安装opencv3.2版本

ubuntu16.04下安装opencv3.2版本

1、下载OpenCV的源码 OpenCV官网上有linux版本的源码包可以下载，不过最好是从git上下载，这样可以保证下载得到的是最新的代码：1 wget -O opencv.zip https://github.com/Itseez/opencv/archive/3.2.0.zip 2 unzip opencv.zip 2、编译安装…

阅读更多...

数据结构实验之栈六：下一较大值（二）

数据结构实验之栈六：下一较大值（二）

#include <bits/stdc.h> #include <iostream> using namespace std; struct node {int data;int next;//记录下一个元素死亡值int pos;//用来记录每个元素的位置*/ } a[100001],val[100000]; int main() {int t;while(~scanf("%d",&t)){int l0;while…

阅读更多...

双系统安装ubuntu后没有windows启动项

双系统安装ubuntu后没有windows启动项

打开terminal，sudo update-grub 如果看到windows的选项的话，下次重启就有了

阅读更多...

最新文章