深度学习最佳实践系列——权重w初始化

摘要: 本文是深度学习最佳实践系列博客之权重初始化,主要介绍权重初始化的相关问题及方法,文中提及的权重初始化方法均可以应用于普通的神经网络、卷积神经网络和递归神经网络之中。

作为深度学习的初学者,我有意识到的一件事情,即网络上没有太多的在线文档能够涵盖所有深层次的学习技巧。都是一些比较零碎的实践技巧,比如权重初始化、正则化及循环学习率等,这些可以使得训练和调试神经网络变得更容易和更高效。本系列博客内容将尽可能多地介绍一些实践细节,以便你更容易实现深度学习方法。
       在撰写本文时,假定读者已经对如何训练神经网络有着一个基本的理解。理解权重(weight)、偏置(bias)、隐藏层(hidden layer)、激活函数(activation function)等内容将使你看本篇文章会更加清晰。如果你想建立一个深度学习的基础,推荐这门课程。
       注明:本文提到神经网络的层时,表示的是一个简单的神经网络层,即全连接层。当然,本文所讲解的一些方法也适用于卷积和循环神经网络。在本文中,将讨论与权重矩阵初始化相关的问题以及如何减轻它们的方法。在此之前,先介绍一些将要使用的基本知识和符号。

基础和符号

       考虑一个L层神经网络,它具有L-1个隐藏层和1个输出层。第l层的参数(权重和偏置)表示为



       除了权重和偏置之外,在训练过程中,还会计算以下中间变量



       一个神经网络的训练过程一般由以下4个步骤组成:
  • 1.初始化权重和偏置
  • 2.前向传播(forward propagation):使用输入X,权重W和偏置b,对于每一层计算Z和A。在最后一层中,计算f(A ^(L-1)),它可能会是S形函数softmax或线性函数的A ^(L-1),并得到预测值y_hat。
  • 3.计算损失函数(loss function):该函数是理想标签y和预测标签y_hat二者的函数,它表明预测值离实际目标值有多大差距,训练神经网络模型的目的就是要尽量减少损失函数的值。
  • 4.反向传播(back propagation):在这一过程中,需要计算损失函数f(y,y_hat)相对于A、W和b的梯度,分别称为dA、dW和db。使用这些梯度值,将参数的值从最后一层反向更新到第一层。
  • 5.对n次迭代重复步骤2-4,直到我们觉得已经最小化了损失函数,且没有过拟合训练数据时则表明训练结束。
           下面快速浏览第2步、第3步和第4步。以一个2层网络为例,即只有一个隐藏层。(注意,为了简单起见,在这里没有添加偏置):

前向传播


反向传播

权重W初始化

       建立网络时首先需要注意的是要正确初始化权重矩阵。下面让我们考虑在训练模型时可能导致出现问题的两种初始化情况:

1.将所有权重初始化为0

       这样的操作将使得模型等价于一个线性模型。将所有权重设为0时,对于W ^ l中的每个w而言,损失函数的导数都是相同的,因此在随后的迭代中所有权重具有相同的值,这会使得隐藏单元变得对称,并继续运行设置的n次迭代。因此,将权重设置为零会使得网络的性能并不比线性模型更好。值得注意的是,将偏置设置为0不会产生任何麻烦,因为非零权重可以打破对称性,即使偏置为0,每个神经元的值仍然不同。

2.随机初始化权重

       按照标准正态分布(Python中可以用np.random.randn(size_l,size_l-1)实现)随机初始化权重可能会导致2个问题——梯度消失(vanishing gradient)或梯度爆炸(exploding gradient):
       a)梯度消失——对于深度网络,任何激活函数abs(dW)值将随着反向传播过程中每一层向后移动而变得越来越小。在这种情况下,较早的层次变化是最慢的。
权重更新较小,进而导致收敛速度变慢,这使会使得损失函数的优化变得缓慢。在最坏的情况下,可能会完全停止神经网络的进一步训练。
更具体地说,在sigmoid(z)和tanh(z)的情况下,如果权重值很大,那么梯度将会很小,从而有效地防止权重改变它们的值,这是因为abs(dW)每次迭代后会稍微增加或者变得越来越小。使用RELU(z)作为激活函数时,梯度消失通常不会成为问题,因为负(和零)输入的梯度值总为0,其正输入时梯度的值总为1。
       b)梯度爆炸——这与梯度消失完全相反。假设你有非负的、大的权重值和小的激活值A(可能是sigmoid(z)的情况)。当这些权重沿着层次相乘时,会导致损失函数发生较大变化。因此,梯度值也会很大,这意味着W的变化将大幅增加W-⍺* dW。
       这可能导致模型在最小值附近一直振荡,一次又一次错过了最佳值,模型将永远不会得到最好的学习!梯度爆炸的另一个影响是梯度的超大值可能会导致数字溢出,从而导致不正确的计算或引入NaN,这也可能导致出现损失值为NaN的情况。

最佳实践

       1.使用RELU/leaky RELU作为激活函数,因为它对梯度消失/爆炸问题(特别是对于不太深的网络而言)相对健壮。在 leaky RELU作为激活函数的情况下,从来不会有梯度为0的时候,因此模型参数更新将永远不会停止,训练仍会继续训练。
       2.对于深度网络,可以使用启发式来根据非线性激活函数初始化权重。在这里,并不是从标准正态分布绘图,而是用方差为k /n的正态分布初始化W,其中k的值取决于激活函数。尽管这些启发式方法不能完全解决梯度消失/爆炸问题,但它们在很大程度上有助于缓解这一问题。最常见的启发式方法是:
       a)对于RELU(z)——将随机生成的W值乘以:



       b)对于tanh(z) ——也被称为Xavier初始化。与前一个方法类似,但k的值设置为1而不是设置为2。



       在TensorFlow中可以用W = tf.get_variable('W',[dims],initializer)实现,其中initializer = tf.contrib.layers.xavier_initializer( )。
       c)另一个常用的启发式方法



       这些方法都可以作为权重w初始化方法,都有缓解爆炸或消失梯度的可能性。这样设置的权重w既不会太大,也不会太小于1。因此,梯度不会消失或爆炸,有助于避免收敛缓慢,同时确保模型不会一直在最小值附近摇晃。当然,还存在上述方法的其它变体,大致的思想都是使参数的方差最小化。
       3.梯度剪枝——这是处理梯度爆炸问题的另一种方法。我们可以设置一个阈值,如果一个梯度的选择函数大于这个设定的阈值,那么我们就将它设置为另一个值。例如,如果l2_norm(W)>阈值,则将L2范数超过特定阈值时的梯度值归一化为-W = W * threshold / l2_norm(W)。
       需要注意的一点是,就是上述内容都是谈的权重W的各种初始化方法,并没有介绍任何偏置b的初始化方法。这是因为每层偏置的梯度仅取决于该层的线性激活值,而不取决于较深层的梯度值。因此,对于偏置项不会存在梯度消失和梯度爆炸问题。如前所述,可以安全地将偏置b初始化为0。

结论

       在本文中,着重介绍了权重初始化方法以及一些缓解技术。如果本文漏掉了一些与此主题相关的任何其他有用的见解,希望读者在留言出指出。在接下来的博客中,将进一步讨论正则化方法,以减少过拟合和梯度检查——这是一种使调试更简单的技巧。

原文链接

本文为云栖社区原创内容,未经允许不得转载。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/521612.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

uft自动化测试工具安装步骤_自动化功能测试和接口测试工具整理

对于自动化测试,原来谈这方面的内容比较少,但是现在我们做DevOps支撑平台的时候,在整个持续集成和交付的过程中,有一个重要的内容就是自动化测试。自动化测试的覆盖面相当大,其中既包括了CS,BS和移动APP的自…

SSM整合Druid数据库连接池

源码地址:https://gitee.com/gb_90/ssm_druid

实操教程丨如何将一个k3s集群集成到Gitlab项目中

作者|RancherLabs来源|CSDN企业博客关于k3sK3s是由Rancher Labs发布的一个轻量级Kubernetes发行版,这款产品专为在资源有限的环境中运行Kubernetes的研发和运维人员设计。它是经过认证的Kubernetes发行版,其最低的系统要求为:系统内核版本&am…

30个免费资源:涵盖机器学习、深度学习、NLP及自动驾驶

摘要: 本文是一份免费资源清单,涵盖机器学习、深度学习、NLP、AI以及自动驾驶,方便相关研究者选择自己感兴趣的内容资源进行学习随着碎片化的生活越来越日常化,大多数人都喜欢看总结性的的文章,这和时间成本有一定的关…

阿里AI界的新伙伴,1秒钟自动生成20000条文案

摘要: 最近,阿里“AI家族”又多了一位新的小伙伴——“AI智能文案”,俗称文案妹。 妹妹具备一个超能力,能仅用1秒钟自动生成20000条文案。 来,大家一起感受一下: 比如说你想买瓶粉底液,根据功效…

华为 招聘 状态 查看_英特尔放弃5G芯片研发:三星受益;爱立信2019年Q1净利润约2.51亿美元;华为也将要与高通和解;天津首个5G电话成功打通...

点击上方“通信人才网” 订阅!导读:今日热点 爱立信2019年Q1净利润约2.51亿美元 扭亏为盈近日,爱立信发布截至2019年3月31日的第一季度财报。财报显示:爱立信第一季度净营收为489.06亿瑞典克朗(约合52.93亿美元),较去年…

异步消息队列中间件

安装: rpm -ivh erlang-18.3-1.el7.centos.x86_64.rpmrpm -ivh socat-1.7.3.2-5.el7.lux.x86_64.rpmrpm -ivh rabbitmq-server-3.6.5-1.noarch.rpm配置文件: vim /usr/lib/rabbitmq/lib/rabbitmq_server-3.6.5/ebin/rabbit.app找到loopback_users,把双引…

创纪录!浪潮云海完成OpenStack Rocky版本全球最大规模单一集群测试!

戳蓝字“CSDN云计算”关注我们哦!云计算的概念已悄然走过十余年,在助力新兴技术发展的同时,自身也在历经变革。开源作为推动云计算发展的强大动力,于云计算而言,不仅是技术变革的历史潮流,也是相互助推的最…

idea如何反编译字节码指令_美团点评:Java字节码增强技术,线上问题诊断利器...

作者简介:泽恩,美团到店住宿业务研发团队工程师。文章转载于公众号:美团技术团队1. 字节码1.1 什么是字节码?Java之所以可以“一次编译,到处运行”,一是因为JVM针对各种操作系统、平台都进行了定制&#xf…

使用机器学习预测电子竞技游戏《守望先锋》的胜负

摘要: 机器学习可以预测游戏的输赢?来看看Bowen Yang博士是如何构建这一模型的。《守望先锋》中的英雄来自加州大学河滨分校的物理学博士学位的Bowen Yang正在致力于构建一个模型——对游戏中的人物特征进行有意义的学习,来预测电子竞技游戏中…

路由器上的usb接口有什么用_工业主板上有多少种USB接口,红色的USB接口代表什么...

USB接口正式出现是在1996年,一经问世,就成功取代了串口和并口,当然这只是相对于商业电脑和民用电脑而言的,在工控机中还是有串口和并口存在的。USB版本发展至今也已经历好几个阶段,例如USB1.0、USB1.1、USB2.0、USB3.0…

GitHub 热榜第一!这个 Python 项目超 8.4k 标星,网友:太实用!

这个十一,又经历了一波抢票大战。常规办法根本抢不到,大家就把目光转移到“技术手段”上,顺便把一个Python抢票工具,送到了GitHub趋势榜第一:标星超过8.4k,来自名叫文贤平的程序员。这很可能是全GitHub最德…

c语言点按钮弹窗口,【iOS】按钮点击弹窗

拖入一个Round Rect Button,并将Button的文字修改成“点击弹窗”将ViewController.h修改为如下代码,实则在ViewController.h中添加了一行-(IBAction)messageBoxShow;,注册messageBoxShow这个函数。类似于C语言使用函数之前需要在头文件声明这…

cstring 不明确_股价不可预测明确时间点的涨跌

前言最近不少朋友或私信问或群里问几类问题:XXX 股票还能买吗?买了会不会还继续下跌?买了我能不能立刻就涨?XXX 股票能卖吗?我卖了不会还继续涨吧?XXX 股票为什么下跌这么厉害,是要有黑天鹅出现…

11月4日,上海开源基础设施峰会,不见不散!

戳蓝字“CSDN云计算”关注我们哦!即日起,登录上海开源基础设施峰会网站,凭“OpenInfra10”优惠码注册就能享受九折优惠。另外,OpenStack基金会还特别为CSDN云计算社区的成员们预留了宝贵位置。11月4日至6日,世界各地的…

5求的值c语言编辑,C语言中怎样求1+3+5~~~~~+9值并 – 手机爱问

2018-04-06C 语言中的原码怎么?数计算机二进制形式表示数分有符号数和无符号数原码、反码、补码都有符号定点数表示方法有符号定点数高位符号位0正1副下都8位整数例原码数本身二进制形式例1000001 -10000001 1正数反码和补码都和原码相同负数反码其原码除符号位之外…

RabbitMQ 下载、安装、配置、验证_rpm版本(Linux环境)

文章目录一、RabbitMQ 安装准备二、RabbitMQ 安装2.1. 环境安装(最小化版本先安装环境)2.2. 安装包下载2.3. rpm安装RabbitMQ2.4. 配置文件修改2.5. 启动RabbitMQ2.6. 查看RabbitMQ是否启动2.7. 查看RabbitMQ 插件列表2.8. 安装RabbitMQ 管控台2.9. 浏览器访问RabbitMQ 管控台三…

python 华泰证券 客户端_华泰证券网上交易系统(高级版)下载 v8.13官方版下载

华泰证券网上交易系统高级版是止录最新的证券交易软件,该版本在原有版本上重新设计改版!数据更清晰,交易更快捷!新版本分别有行情、选股、资讯、数据和交易五大模块,新版的框架支持了4K高清显示器显示,如果…

使用拓扑数据分析理解卷积神经网络模型的工作过程

摘要: 神经网络功能强大,但内部复杂且不透明,被称为黑匣子工具。使用拓扑数据分析以紧凑且可理解的方式描述卷积神经网络的功能和学习过程。1.简介神经网络在各种数据方面处理上已经取得了很大的成功,包括图像、文本、时间序列等。…

2000万条直播数据,揭秘斗鱼主播生存现状

戳蓝字“CSDN云计算”关注我们哦!2019年7月17日游戏直播平台斗鱼在美国纳斯达克股票交易所成功上市,成为继虎牙直播之后第二家赴美上市的国内直播平台。7月底斗鱼因为平台主播“乔碧萝殿下”事件再次被推上热搜。段子手们纷纷调侃成为主播的门槛之低&…