【机器学习】深度学习（DNN）

【机器学习】深度学习（DNN）

diannao/2025/7/1 17:33:24/文章来源:https://blog.csdn.net/2301_76769195/article/details/144777473

文章目录

- 1. 神经网络结构
- 2. 训练步骤
- 3. 反向传播
- 4. 为什么深，而不是宽（模块化）
- 5. 初始化参数能否全为0？

1. 神经网络结构

输入层
隐藏层：用于特征转换
输出层：用于分类
技巧：将网络中的参数写成矩阵形式，利用GPU加速

2. 训练步骤

确定神经网络的结构

需要根据输入和输出的维度来确定结构，最关键的部分。
注：考虑输入之间的内在关联，所有的类（class）使用同一个模型进行分类。

评估函数

输出与正确结果的交叉熵。

选择最优函数

梯度下降法。

3. 反向传播

概念

反向传播是一种在做梯度下降时的微分方法。

方式

从后向前计算微分，因为前面的微分需要后面的结果。

两个部分

梯度： $\nabla f_w = \frac{\partial l}{\partial w} = \frac{\partial z}{\partial w} \cdot \frac{\partial l}{\partial z}$
正向传播： $\frac{\partial z}{\partial w}$ ，即每一个神经元的输出。
反向传播：
$\frac{\partial l}{\partial z} = \frac{\partial a}{\partial z} \cdot \frac{\partial l}{\partial a} = \sigma'(z) \left[ w_3 \cdot \frac{\partial l}{\partial z'} + w_4 \cdot \frac{\partial l}{\partial z''} \right]$

将正向传播和反向传播的结果相乘，得到L对w的偏微分。

与正向传播比较

反向传播需要更多的内存，但效率更高。
无需像正向传播那样每次计算微分时都要重新计算后续的结果，减少了栈空间的使用。

全连接反馈网络

每一层的神经元输出全部进入下一层的输入。

4. 为什么深，而不是宽（模块化）

更深的网络：它的模型更加复杂，但这种复杂性是模块化的。

核心

将复杂的问题分解为多个简单的问题。每一层的神经元处理相同级别的任务，其输出作为更高层次任务的数据来源。

好处

每一层的输出都可以被深层的神经元重复利用，避免像浅层网络那样每次都重新计算，提高效率。
深层的隐藏层能够更详细地提取特征，提取后的特征能更好地进行分类，且比人为指定的特征更接近最优解。
每个基本分类器能够获得足够的训练示例，相比于平铺网络，较少的数据就能训练好。

注

深度/平铺网络的参数量是一样的，复杂性指的是网络结构，而不是参数数量。

5. 初始化参数能否全为0？

同一层的神经元是同构的，具有相同的输入和输出。如果初始参数设置为相同值，无论正向还是反向传播，它们的取值都会一样，导致学习过程无法打破对称性，最终训练结果会使同一层的参数都相同。
因此，应该在初始化时随机赋值，以打破这种对称性。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/65521.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Go 计算Utf8字符串的长度不要超过mysql字段的最大长度

Go 计算Utf8字符串的长度不要超过mysql字段的最大长度

背景： 我有一个mysql的字段，是utf8格式的，但有时候前端传的字符串会超长，为此我需要在后端接口，先判断是否超长，如果超长，则报错提示前端。代码： // 计算utf8下，字符串…

阅读更多...

uniapp使用ucharts组件

uniapp使用ucharts组件

1.ucharts准备有两种使用方式：一种是在uni的插件市场下载（组件化开发）。一种是手动引入ucharts包。官方都封装好组件了，我们不用岂不是浪费。直接去dcloud插件市场（DCloud 插件市场）找，第一…

阅读更多...

YOLOv11模型改进-模块-引入多尺度大核注意力Multi-scale Large Kernel Attention

YOLOv11模型改进-模块-引入多尺度大核注意力Multi-scale Large Kernel Attention

MLKA 的提出源于图像超分辨率任务的挑战性，该任务需重建低质量图像缺失的高频信息，但因 LR 与 HR 图像对应关系复杂，寻找像素相关性困难。此前模型扩展容量的方法增加了训练负担和数据收集成本，而采用的注意力机制无法同时获取局部…

阅读更多...

《战神：诸神黄昏》游戏运行时提示找不到emp.dll怎么办？emp.dll丢失如何修复？

《战神：诸神黄昏》游戏运行时提示找不到emp.dll怎么办？emp.dll丢失如何修复？

《战神：诸神黄昏》游戏运行时提示找不到emp.dll怎么办？emp.dll丢失的修复方法在畅游《战神：诸神黄昏》这款史诗级游戏的过程中，如果突然遭遇“找不到emp.dll”的错误提示，无疑会打断你的冒险之旅。作为一名深耕软件开…

阅读更多...

RabbitMQ基础篇之快速入门

RabbitMQ基础篇之快速入门

文章目录一、目标需求二、RabbitMQ 控制台操作步骤1.创建队列2.交换机概述3.向交换机发送消息4.结果分析5.消息丢失原因三、绑定交换机与队列四、测试消息发送五、消息查看六、结论一、目标需求新建队列：创建 hello.queue1 和 hello.queue2 两个队列。消息发送…

阅读更多...

非数学专业小白第一次学习Mathematica心得和体会

非数学专业小白第一次学习Mathematica心得和体会

文章目录 1.软件界面说明2.我为什么要学习Mathematica软件3.如何进行学习4.一些具体使用4.1正余弦函数4.2一个图里面两个函数4.3 3D图形的绘制4.4密度图4.5三维向量图4.6坐标轴说明4.7图像说明4.8绘图的图例4.9指定范围4.10指定绘图样式4.11极限方程求和4.12基本图4.13邻接矩阵…

阅读更多...

C#实现图像骨架化（ZhangSuen细化算法）

C#实现图像骨架化（ZhangSuen细化算法）

原始图像：骨架化后图像：需要安装一个NuGet包：System.Drawing.Common 代码如下： using System.Drawing; using System.Drawing.Imaging;public class Image {public int Width { get; }public int Height { get; }private bool[,] pixels;// 构造函数，初始化图像的宽度…

阅读更多...

【论文阅读笔记】IC-Light

【论文阅读笔记】IC-Light

SCALING IN-THE-WILD TRAINING FOR DIFFUSION-BASED ILLUMINATION HARMONIZATION AND EDITING BY IMPOSING CONSISTENT LIGHT TRANSPORT 通过施加一致的光线传输来扩展基于扩散模型的真实场景光照协调与编辑训练前言摘要引言相关工作基于学习的基于扩散模型的外观和光照操纵光…

阅读更多...

论文阅读 - 《Large Language Models Are Zero-Shot Time Series Forecasters》

论文阅读 - 《Large Language Models Are Zero-Shot Time Series Forecasters》

Abstract 通过将时间序列编码为数字组成的字符串，我们可以将时间序列预测当做文本中下一个 token预测的框架。通过开发这种方法，我们发现像GPT-3和LLaMA-2这样的大语言模型在下游任务上可以有零样本时间序列外推能力上持平或者超过专门设计的时间序列训…

阅读更多...

《机器学习》——线性回归模型

《机器学习》——线性回归模型

文章目录线性回归模型简介一元线性回归模型多元线性回归模型误差项分析一元线性模型实例完整代码多元线性模型实例完整代码线性回归模型简介线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。相关关系&…

阅读更多...

redis cluster集群

redis cluster集群

华子目录什么是redis集群redis cluster的体系架构什么是数据sharding？什么是hash tag集群中删除或新增节点，数据如何迁移？redis集群如何使用gossip通信?定义meet信息ping消息pong消息fail消息（不是用gossip协议实现的&#xff0…

阅读更多...

YoloV9改进策略：Head改进|DynamicHead，利用注意力机制统一目标检测头部|即插即用

YoloV9改进策略：Head改进|DynamicHead，利用注意力机制统一目标检测头部|即插即用

摘要论文介绍本文介绍了一种名为DynamicHead的模块，该模块旨在通过注意力机制统一目标检测头部，以提升目标检测的性能。论文详细阐述了DynamicHead的工作原理，并通过实验证明了其在COCO基准测试上的有效性和效率。创新点 DynamicHead模块的创新之处在于它首次尝试在一…

阅读更多...

Excel批量设置行高，Excel表格设置自动换行后打印显示不全，Excel表格设置最合适的行高后打印显示不全，完美解决方案！！！

Excel批量设置行高，Excel表格设置自动换行后打印显示不全，Excel表格设置最合适的行高后打印显示不全，完美解决方案！！！

文章目录说个问题（很严重！！！）写个方案会Python看这里Python环境搭建不存在多行合并存在多行合并不会Python看这里说个问题（很严重！！！） 平时处理Excel表格…

阅读更多...

安全合规遇 AI 强援：深度驱动行业发展新引擎 | 倍孜网络CEO聂子尧出席ICT深度观察报告会！

安全合规遇 AI 强援：深度驱动行业发展新引擎 | 倍孜网络CEO聂子尧出席ICT深度观察报告会！

12月24日，2025中国信通院深度观察报告会科技伦理与合规发展分论坛在北京举办。本次分论坛主题为“伦理先行，合规致远”，聚焦互联网广告合规治理、移动终端应用生态治理、短视频平台责任限度等前沿话题进行分享与探讨。工业和信息化部领导&…

阅读更多...

在Linux的世界中怎么玩转定时器任务

在Linux的世界中怎么玩转定时器任务

定时器使用先是看到一段使用Linux Sevice服务的脚本，意外发现在ExecStart启动脚本中，它利用无限循环做定时任务的事情，非常突兀！ 觉得既然用得了Linux Service，那么，与之配套的cron定时器服务是否更应该…

阅读更多...

教育行业 UI 设计基础篇：简洁直观的风格打造

教育行业 UI 设计基础篇：简洁直观的风格打造

在当今数字化时代，教育行业的线上平台如雨后春笋般涌现，而 UI 设计作为用户与教育产品交互的重要桥梁，其重要性不言而喻。对于教育行业而言，简洁直观的 UI 风格能够极大地提升用户体验，帮助学习者更高效地获取知识。 …

阅读更多...

ChatGPT是如何生成长文的

ChatGPT是如何生成长文的

说实话，现在我们对chatGPT的最深的印象就是他是一个各方面知识都比较全面的机器助手，我们的问题他都能生成答案，不过大家发现没有，它生成相对应的长文的时候，都是一个词一个词蹦出来的，有的时候是一个个词组…

阅读更多...

iClient3D for Cesium在Vue中快速实现场景卷帘

iClient3D for Cesium在Vue中快速实现场景卷帘

作者：gaogy 1、背景 iClient3D for Cesium是由SuperMap提供的一个前端3D地图客户端，提供了丰富的功能与接口，使得开发者能够在Web应用中快速集成并展现3D地理信息。而在Vue框架中集成iClient3D，不仅可以利用Vue的响应式特性提高开…

阅读更多...

postgresql ERROR: cannot drop the currently open database

postgresql ERROR: cannot drop the currently open database

postgresql ERROR: cannot drop the currently open database 解释： 这个错误表明你正在尝试删除或者切换当前正在使用的数据库。在PostgreSQL中，一个数据库对应着一个进程，当一个数据库处于打开状态时，你不能直接删除或者切换它…

阅读更多...

KaiOS 4.0 | DataCall and setupData implemention

KaiOS 4.0 | DataCall and setupData implemention

相关文档 1、KaiOS 3.1 系统介绍 KaiOS 系统框架和应用结构（APP界面逻辑）文章浏览阅读842次，点赞17次，收藏5次。对于Java开发者而言，理解JS的逻辑调用是有点困难的。而KaiOS webapp开发又不同于现代的web开发，更像chrome浏览器内嵌模式。在这里梳理一下kaios平台web应用…

阅读更多...

最新文章