机器学习笔记:初始化0的问题

1 前言

假设我们有这样的两个模型:

  • 第一个是逻辑回归
    • a=sigmoid(w_1x_1+w_2x_2+b)
  • 第二个是神经网络
    • a_1=sigmoid(w_{11}x_1+w_{21}x_2+b_1)
    • a_2=sigmoid(w_{12}x_1+w_{22}x_2+b_1)
    • a_3=sigmoid(w_{13}1_1+w_{23}a_2+b_3)

他们的损失函数都是交叉熵

sigmoid函数的导数:

他们能不能用0初始化呢?

2 逻辑回归

a=sigmoid(w_1x_1+w_2x_2+b)

2.1 求偏导

2.1.1 结论

2.1.2 L对a的偏导

2.1.3 对w1,w2求偏导 

w2同理

2.1.4 对b偏导

2.2 参数更新与分析

w1,w2,b的梯度和w1,w2,b无关,所以初始化成0之后没有影响

3 神经网络

3.1 偏导

a3的部分和前面逻辑回归是一样的

 

3.1.1 a1部分推导

3.1.1.1 对a1的偏导

3.1.1.2 对w11,w21,b1的推导

3.2 初始化为0

3.2.1 w初始化为0,b初始化为0

3.2.2w初始化为0,b随机初始化

3.3 w随机初始化,b初始化为0

前向传播过程中,a1,a2均不为0,反向传播的过程中各参数均可以更新

更新幅度也不一样

参考内容:神经网络权重为什么不能初始化为0? (qq.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/44035.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

提升SQL查询效率的终极指南

在面试中,SQL 调优经常是被问及的问题,它可以考察候选人对于 SQL 整体性能优化的理解和掌握程度。一般来说,SQL 调优的步骤可以从以下几个方面入手。 首先,需要准确地定位问题。在面试中,最好能结合具体的业务场景进行…

【组件库】element-plus组件库

文章目录 0. 启动项目1. gc.sh 新增组件2. 本地验证(组件注册的方式)3. 官方文档修改3-1. 左侧菜单3-2 . 配置md文档3-3. 代码问题:文档修改----------------------------------------------4. 将naiveui的split 分割组件【 复制、迁移】到 element-ui-plus组件库4.1 naiveu…

三级_网络技术_11_路由设计技术基础

1.以下协议中不属于内部网关协议的是()。 RIP OSPF BGP IGRP 2.下列关于路由协议的描述中,错误的是()。 RIP协议中,路由器在接收到更新报文后按照最短路径原则更新路由表 RIP协议中,要求路由器周期性的向外发送路由刷新报文 OSPF协议…

linux:命令执行过程【图表】

命令执行过程 步骤描述详细信息1启动终端在CentOS系统上打开终端窗口。可以通过快捷键 Ctrl Alt T 或在图形界面中找到并启动终端应用程序。2输入命令在终端中输入命令,如 ls -l,然后按下回车键。3Shell接收命令Shell(如bash)…

关于向日葵的P5旁路由

日常生活需要内网穿透的时候越来越多,买了两台P5,p2p 传输 时间延时在 20ms 左右,相当好用 现在的路由器添加静态路由之类的,得开启开发者模式 [ 官方手册中给了,双旁路的用法 (企业级部署)] 如果是个人,可以在常用的服务器上设置静态路由,不用非得在 内网的主要路由器中设置静…

FastReport 指定sql,修改数据源 ( 非DataSet修改 )

FastReport 指定sql,修改数据源,非DataSet修改 介绍报告文件: codetest.frx 文件核心代码:(扩展)小结一下: 介绍 在FastReport中,经常会遇到需要给 sql 加条件的情况。 &#xff0…

爆破器材期刊

《爆破器材》简介   《爆破器材》自1958年创刊以来,深受广大读者喜爱,是中国兵工学会主办的中央级技术刊物,在国内外公开发行,近几年已发行到10个国家和地区。《爆破器材》杂志被美国著名检索机构《化学文摘》(CA&a…

相机光学(二十九)——显色指数(Ra)

显指Ra是衡量光源显色性的数值,表示光源对物体颜色的还原能力。显色性是指光源对物体颜色的呈现能力,即光源照射在同一颜色的物体上时,所呈现的颜色特性。通常用显色指数(CRI)来表示光源的显色性,而显指Ra是…

c# 基础习题答案 20240709

一、实现一个冒泡排序函数 using System;public class Program {public static void Main(){int[] arr { 22,11,33 };BubbleSort(arr);foreach (var item in arr){Console.Write(item " ");}Console.WriteLine();}// 冒泡排序函数public static void BubbleSort(i…

XTuner 微调 LLM:1.8B, 部署

扫码立刻参与白嫖A100,书生大模型微调部署学习活动。亲测有效 内容来源:Tutorial/xtuner/personal_assistant_document.md at camp2 InternLM/Tutorial GitHubLLM Tutorial. Contribute to InternLM/Tutorial development by creating an account on G…

从零手写实现 nginx-26-rewrite url 重写

前言 大家好,我是老马。很高兴遇到你。 我们为 java 开发者实现了 java 版本的 nginx https://github.com/houbb/nginx4j 如果你想知道 servlet 如何处理的,可以参考我的另一个项目: 手写从零实现简易版 tomcat minicat 手写 nginx 系列 …

设计无缝体验:交互设计流程全解析

完整的产品交互设计流程是什么?完整的产品交互设计流程包括研究用户需求、指定信息架构、制作产品原型、进行用户测试和实时发布产品。交互设计就是从人与产品之间的关系入手,通过产品设计来满足大众的日常需求。随着网络技术的流行,产品交互…

工业机床CNC设备如何上云?

工业机床CNC设备如何上云? 工业机床的计算机数控(CNC)设备实现远程监控数据上云,是现代制造业智能化转型的关键一环。这一过程不仅能够实时监测设备状态、优化生产流程,还能通过大数据分析提升生产效率与产品质量&…

Java包装类简单认识泛型

1 包装类 在 Java 中,由于基本类型不是继承自 Object ,为了在泛型代码中可以支持基本类型, Java 给每个基本类型都对应了 一个包装类型。 例如我们之前的基本数据类型和包装类。 1. 装箱和拆箱 2.自动装箱和自动拆箱 2.泛型 1.什么是泛型 …

【C++项目】从零实现一个在线编译器

前言 身为一名程序员,想必大家都有接触过像leetcode这样的刷题网站,不知你们在刷题的过程中是否思考过一个问题:它们是如何实现在线编译运行的功能。如果你对此感到好奇,那么本文将一步步带你来实现一个简易在线编译器。 项目概…

vue3+antdv仿百度网盘样式文件夹管理组件

实现: 默认进入页面时,文件夹全选;文件夹状态,以及文件夹内的文件选择状态,与组件联动文件夹数量,根据后端数据动态生成 实现思路: 将后端数据存到vuex中,增加(多选框…

学懂C#编程:C# 索引器(Indexer)的概念及用法

C#中的索引器(Indexer)是一种特殊的成员,它允许类或结构的实例像数组那样通过索引来访问其内部的数据。索引器提供了一种灵活的方式来暴露集合或数组类型的内部数据,使得客户端代码可以使用类似于数组下标的语法来访问类的成员&am…

LAMP万字详解(概念、构建步骤)

目录 LAMP Apache 起源 主要特点 软件版本 编译安装httpd服务器 编译安装的优点 操作步骤 准备工作 编译 安装 优化执行路径 添加服务 守护进程 配置httpd 查看 Web 站点的访问情况 虚拟主机 类型 部署基于域名的虚拟主机 为虚拟主机提供域名解析&#xff…

机器人三定律及伦理分析

全世界的机器人定律并没有一个统一的标准或体系,但是在科学文献中,最广为人知的是由科幻小说家阿西莫夫提出的“机器人三定律”。本文将以这些定律为基础,分析现有的机器人伦理和实际应用中的问题,给出若干实例,并对相…

[Flutter] Android Studio pub get 不起作用

前情:在文件中将webview_flutter: ^4.7.0改为webview_flutter: ^4.8.0,又改回webview_flutter: ^4.7.0,发现本地库的版本一直是8,pub get怎么都不起作用(只对webview_flutter不起作用,其他的都更新了&#…