深度学习:(五)初识神经网络

(一)神经网络的层数

除去输入层,但包括输出层,每一层都有自己的参数。

输入层称为第零层。

(二)最简单的神经网络(逻辑回归)

下图中的小圆圈,代表了一种运算。且一个小圆圈表示一个节点。

在这里插入图片描述

(三)进阶神经网络(双层,多节点)

为了统一和美观,作如下规定:

  • 层数用上标 [ l ] [~l~] [ l ] 表示。
  • 层中的节点用脚标 i i i 表示。
  • 层的输出用 a a a 表示。

则有 a i [ l ] a_i^{[~l~]} ai[ l ] 表示第 l l l 层的第 i i i 个节点的输出值(激活值)。

有以下双层神经网络:

在这里插入图片描述

注解:

  • “隐藏层”的含义是:在训练集中,这些中间节点的真正数值,我们并不知道。
  • 对于隐藏层1:
    • 每个节点都有不同的参数 w w w b b b
    • 输入为向量 x x x
    • 执行 z = w T x + b z=w^Tx+b z=wTx+b a = σ ( z ) a=\sigma(z) a=σ(z) 两个计算步骤。
  • 对于输出层:
    • 也有对应的参数 w w w b b b
    • 输入为隐藏层 1 1 1 的输出值;
    • 执行 z = w T x + b z=w^Tx+b z=wTx+b a = σ ( z ) a=\sigma(z) a=σ(z) 两个计算步骤。

参数矩阵:

  • 第一层(隐藏层1):

    • w 1 [ 1 ] T , w 2 [ 1 ] T , w 3 [ 1 ] T , w 4 [ 1 ] T w_1^{[1]T},w_2^{[1]T},w_3^{[1]T},w_4^{[1]T} w1[1]T,w2[1]T,w3[1]T,w4[1]T 组成了矩阵 W [ 1 ] W^{[1]} W[1] ,即 W [ 1 ] = [ — w 1 [ 1 ] T — — w 2 [ 1 ] T — — w 3 [ 1 ] T — — w 4 [ 1 ] T — ] W^{[1]}=\left[ \begin{matrix} — & w_1^{[1]T} & —\\ — & w_2^{[1]T} & — \\ — & w_3^{[1]T} & — \\ — & w_4^{[1]T} & — \\ \end{matrix} \right] W[1]= w1[1]Tw2[1]Tw3[1]Tw4[1]T ,维度为 4 × 3 4×3 4×3 ,表示 4 4 4 个节点, 3 3 3 个输入特征。
    • b 1 [ 1 ] , b 2 [ 1 ] , b 3 [ 1 ] , b 4 [ 1 ] b_1^{[1]},b_2^{[1]},b_3^{[1]},b_4^{[1]} b1[1],b2[1],b3[1],b4[1] 组成了列向量 b [ 1 ] b^{[1]} b[1] ,即 b [ 1 ] = [ b 1 [ 1 ] b 2 [ 1 ] b 3 [ 1 ] b 4 [ 1 ] ] b^{[1]}=\left[ \begin{matrix} b_1^{[1]}\\ b_2^{[1]}\\ b_3^{[1]}\\ b_4^{[1]}\\ \end{matrix} \right] b[1]= b1[1]b2[1]b3[1]b4[1] ,维度为 4 × 1 4×1 4×1
  • 第二层(输出层):

    • w 1 [ 2 ] T w_1^{[2]T} w1[2]T 组成了矩阵 W [ 2 ] W^{[2]} W[2] ,即 W [ 2 ] = [ — w 1 [ 2 ] T — ] W^{[2]}=\left[ \begin{matrix} — & w_1^{[2]T} & —\\ \end{matrix} \right] W[2]=[w1[2]T] ,维度为 1 × 4 1×4 1×4 ,表示 1 1 1 个节点, 4 4 4 个输入特征(!!!!)。
    • b 1 [ 2 ] b_1^{[2]} b1[2] 组成了 b [ 2 ] b^{[2]} b[2] (常数),维度为 1 × 1 1×1 1×1

a i [ l ] a_i^{[~l~]} ai[ l ] 表示每层的输出:

在这里插入图片描述

整体计算流程:

在这里插入图片描述

(四)向量化神经网络

单个训练样本

针对上述双层网络,计算代码及步骤如下:
G i v e n i n p u t x : a [ 0 ] = x z [ 1 ] = W [ 1 ] a [ 0 ] + b [ 1 ] a [ 1 ] = σ ( z [ 1 ] ) z [ 2 ] = W [ 2 ] a [ 1 ] + b [ 2 ] a [ 2 ] = σ ( z [ 2 ] ) \begin{align*} &Given~~input~~x:\\ &~~~~~~~~a^{[0]}=x\\ &~~~~~~~~z^{[1]}=W^{[1]}a^{[0]}+b^{[1]}\\ &~~~~~~~~a^{[1]}=\sigma(z^{[1]})\\ &~~~~~~~~z^{[2]}=W^{[2]}a^{[1]}+b^{[2]}\\ &~~~~~~~~a^{[2]}=\sigma(z^{[2]}) \end{align*} Given  input  x:        a[0]=x        z[1]=W[1]a[0]+b[1]        a[1]=σ(z[1])        z[2]=W[2]a[1]+b[2]        a[2]=σ(z[2])

整个训练集(多个样本)

前情提要: x ( i ) x^{(i)} x(i) 表示第 i i i 个训练样本,共有 m m m 个样本。

  • 原代码如下:
    在这里插入图片描述

  • 向量化代码:

    将多个训练样本 x ( i ) x^{(i)} x(i) ,按列堆叠为 X = [ ∣ ∣ ∣ x ( 1 ) x ( 2 ) ⋅ ⋅ ⋅ x ( m ) ∣ ∣ ∣ ] X=\left[ \begin{matrix} | & | & & |\\ x^{(1)} & x^{(2)} &··· & x^{(m)} \\ | & | & & | \\ \end{matrix} \right] X= x(1)x(2)⋅⋅⋅x(m) ,维度为 n x × m n_x×m nx×m

    可得新代码为:
    A [ 0 ] = X Z [ 1 ] = W [ 1 ] A [ 0 ] + b [ 1 ] A [ 1 ] = σ ( Z [ 1 ] ) Z [ 2 ] = W [ 2 ] A [ 1 ] + b [ 2 ] A [ 2 ] = σ ( Z [ 2 ] ) \begin{align*} &A^{[0]}=X\\ &Z^{[1]}=W^{[1]}A^{[0]}+b^{[1]}\\ &A^{[1]}=\sigma(Z^{[1]})\\ &Z^{[2]}=W^{[2]}A^{[1]}+b^{[2]}\\ &A^{[2]}=\sigma(Z^{[2]}) \end{align*} A[0]=XZ[1]=W[1]A[0]+b[1]A[1]=σ(Z[1])Z[2]=W[2]A[1]+b[2]A[2]=σ(Z[2])
    其中: Z [ 1 ] = [ ∣ ∣ ∣ z [ 1 ] ( 1 ) z [ 1 ] ( 2 ) ⋅ ⋅ ⋅ z [ 1 ] ( m ) ∣ ∣ ∣ ] Z^{[1]}=\left[ \begin{matrix} | & | & & |\\ z^{[1](1)} & z^{[1](2)} &··· & z^{[1](m)} \\ | & | & & | \\ \end{matrix} \right] Z[1]= z[1](1)z[1](2)⋅⋅⋅z[1](m) A [ 1 ] = [ ∣ ∣ ∣ a [ 1 ] ( 1 ) a [ 1 ] ( 2 ) ⋅ ⋅ ⋅ a [ 1 ] ( m ) ∣ ∣ ∣ ] A^{[1]}=\left[ \begin{matrix} | & | & & |\\ a^{[1](1)} & a^{[1](2)} &··· & a^{[1](m)} \\ | & | & & | \\ \end{matrix} \right] A[1]= a[1](1)a[1](2)⋅⋅⋅a[1](m) Z [ 2 ] Z^{[2]} Z[2] A [ 2 ] A^{[2]} A[2] 同理。

(五)经验法则

  • 当一层中有不同的节点时,我们一般将这些节点的参数或输出值(激活值)纵向堆叠起来。
  • 对于多个训练样本,我们一般将每个样本横向合并起来。

即:在每一步的输出矩阵中,横向指标对应不同的训练样本纵向指标对应某一层的不同节点

————————————————————————————————————————————————————————

上一篇博客下一篇博客
python中的广播

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/879873.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阿里开源多模态大模型Ovis1.6,重塑出海电商AI格局

阿里开源Ovis1.6:多模态领域再夺第一 阿里再一次证明了自己在多模态领域的实力。这一次,阿里国际AI团队开源的多模态大模型Ovis1.6,不仅成功开源,还在多模态评测基准OpenCompass上击败了Qwen2VL-7B、InternVL2-26B和MiniCPM-V-2.…

Android架构组件: MVVM模式的实战应用与数据绑定技巧

随着Android应用的复杂性增加,开发人员面临代码重用性、可维护性和扩展性问题。为了解决这些问题,谷歌推出了Android架构组件(Android Architecture Components),这套框架能帮助构建高效、可维护的应用。MVVM&#xff…

Docker 进入容器并运行命令的方法

目录 理解 Docker 容器的基本概念 使用 docker exec 进入运行中的容器 基本用法 常用选项解析 选项详解 实际案例演示 1. 进入容器的交互式 Shell 2. 在容器中运行单个命令 3. 以指定用户运行命令 4. 设置环境变量并运行命令 5. 指定工作目录 使用 docker attach 附…

标准库标头 <bit>(C++20)学习

<bit>头文件是数值库的一部分。定义用于访问、操作和处理各个位和位序列的函数。例如&#xff0c;有函数可以旋转位、查找连续集或已清除位的数量、查看某个数是否为 2 的整数幂、查找表示数字的最小位数等。 类型 endian (C20) 指示标量类型的端序 (枚举) 函数 bit_ca…

Flask 第十三课 -- 中间件和扩展

目录 一. 前言 二. Flask 中间件 2.1. 请求钩子 2.2. 自定义中间件 三. Flask 扩展 3.1. 常见的 Flask 扩展 3.2. 安装和使用 Flask 扩展 3.3. 创建自定义扩展 一. 前言 在 Flask 中&#xff0c;中间件和扩展是增强和扩展应用功能的两个关键机制。 通过中间件和扩展&…

【云安全】云上攻击路径

一、2022年CSA发布的《云计算的11类顶级威胁》&#xff1a; 1&#xff09;身份、凭据、访问和管理密钥、特权账号管理的不足 2&#xff09;不安全的接口和API 3&#xff09;配置不当和变更控制的不足 4&#xff09;缺乏云安全架构和战略 5&#xff09;不安全的软件开发 6…

通过 Docker 部署 MySQL 服务器

今天&#xff0c;我在三丰云的免费服务器上进行 MySQL 服务器的部署测试。三丰云的免费云服务器配置简洁&#xff0c;1核CPU、1G内存、10G硬盘和5M带宽&#xff0c;虽然是入门级别&#xff0c;但性能相当不错&#xff0c;确实是个不错的免费服务器。作为一个新手开发者或爱好者…

CSS-媒体查询

媒体查询使用 media 规则来定义&#xff0c;并包含一个或多个媒体特性和一个或多个样式规则。基本语法如下&#xff1a; media media-type and (media-feature) {/* 样式规则 */ } 其中&#xff1a; media-type 表示媒体类型&#xff0c;常见的媒体类型包括 all&#xff08;…

使用LangGPT提示词让大模型比较浮点数

使用LangGPT提示词让大模型比较浮点数 背景介绍环境准备创建虚拟环境安装一些必要的库安装其他依赖部署大模型启动图形交互服务设置提示词与测试 LangGPT结构化提示词 背景介绍 LLM在对比浮点数字时表现不佳&#xff0c;经验证&#xff0c;internlm2-chat-1.8b (internlm2-cha…

Java:List<String> 转换List<BigDecimal> 并求和

/*** <b>Function: </b> todo** program: List<String> 转换List<BigDecimal> 并求和* Package: com.kingbal.king.dmp* author: dingcho* date: 2024/09/20* version: 1.0* Copyright: 2024 www.kingbal.com Inc. All rights reserved.*/ Slf4j publi…

HObject复制耗时试用

测试源码一 //第一步const int N 1000;HObject[] imgs new HObject[N];for (int i 0; i < N; i){HOperatorSet.GenImageConst(out imgs[i], "byte", 1024 i, 1024 i);}//第二步List<HObject> lists new List<HObject>();for(int i 0; i < …

使用 uni-app 开发微信小程序的详细指南

使用 uni-app 开发微信小程序的详细指南 前言 随着微信小程序的广泛应用&#xff0c;越来越多的开发者开始关注小程序开发。而 uni-app 是 DCloud 推出的一个使用 Vue.js 开发跨平台应用的框架&#xff0c;不仅支持开发 H5、iOS 和 Android 应用&#xff0c;还可以用于开发微…

微博舆情分析技术文档分享

项目整体介绍&#xff1a;舆情瞭望——基于NLP的网络空间舆情检测分析系统 1. 项目背景与目标 该项目旨在对微博文章及其评论进行文本分析&#xff0c;重点包括情感分析和词频统计。通过对大量用户评论的处理与分析&#xff0c;帮助用户了解公众情绪和话题趋势&#xff0c;特…

基于PHP的新闻管理系统

作者&#xff1a;计算机学姐 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等&#xff0c;“文末源码”。 专栏推荐&#xff1a;前后端分离项目源码、SpringBoot项目源码、SSM项目源码 系统展示 【2025最新】基于phpMySQL的新闻管理系统。…

MySQL的缓存策略

目录 一、MySQL 缓存方案用来干什么 二、提升MySQL访问性能的方式 1、读写分离&#xff08;MySQL的主从复制&#xff09; 2、连接池 3、异步连接 三、缓存方案是怎么解决的 1、缓存与MySQL一致性状态分析 2、制定热点数据的读写策略 四、缓存方案问题的解决方法 1、缓…

酸枣病虫害智能化防控系统的探索与实践,基于YOLOv5全系列【n/s/m/l/x】参数模型开发构建枣类作物种植场景下酸枣病虫害智能检测识别系统

智慧农业&#xff0c;作为现代农业的高级形态&#xff0c;通过集成物联网、大数据、人工智能等先进技术&#xff0c;实现了农业生产过程的精准化、智能化管理。在酸枣等经济作物的种植过程中&#xff0c;病虫害的及时监测与防控直接关系到作物的产量与质量&#xff0c;进而影响…

react hooks--React.memo

基本语法 React.memo 高阶组件的使用场景说明&#xff1a; React 组件更新机制&#xff1a;只要父组件状态更新&#xff0c;子组件就会无条件的一起更新。 子组件 props 变化时更新过程&#xff1a;组件代码执行 -> JSX Diff&#xff08;配合虚拟 DOM&#xff09;-> 渲…

算法【双向广搜】

双向广搜常见用途 1&#xff1a;小优化。bfs的剪枝策略&#xff0c;分两侧展开分支&#xff0c;哪侧数量少就从哪侧展开。 2&#xff1a;用于解决特征很明显的一类问题。特征&#xff1a;全量样本不允许递归完全展开&#xff0c;但是半量样本可以完全展开。过程&#xff1a;把…

Knife4j 一款基于Swagger的开源文档管理工具

一、简单介绍 1.1 简介 Knife4j 是一款基于Swagger的开源文档管理工具&#xff0c;主要用于生成和管理 API 文档 二、使用步骤&#xff1a; 2.1 添加依赖&#xff1a; <dependency><groupId>com.github.xiaoymin</groupId><artifactId>knife4j-spr…

使用sqoop报错

报错一&#xff1a; java.io.IOException: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf 这个错误表示在执行与 Hive 相关的操作时&#xff0c;程序无法找 org.apache.hadoop.hive.conf.HiveConf 这个类。这个类是 Hive 的配置类&#xff0c;它用…