2024-11-27 学习人工智能的Day32 神经网络与反向传播

一、神经网络

神经网络神经网络(Neural Networks)是一种模拟人脑神经元网络结构的计算模型,用于处理复杂的模式识别、分类和预测等任务。

人工神经元是神经网络的基础构建单元,模仿了神武神经元的工作原理,核心功能是接收输入信号,经过加权求和和非线性激活函数处理后输出结果。

  1. 人工神经元
    • 输入:神经元接收多个输入,每个输入有一个对应的权重。
    • 加权求和:计算输入的加权和,添加偏置项。
    • 激活函数:对加权和结果应用激活函数,引入非线性能力。
  2. 神经网络结构
    • 输入层:接收数据,不进行计算。
    • 隐藏层:提取特征,通过多层堆叠实现复杂变换。
    • 输出层:生成预测结果或分类。
  3. 全连接网络
    • 每层神经元与上一层的所有神经元相连。
    • 常见问题:参数量大,容易过拟合;对高维数据局部特征捕捉能力差。

先说一下参数的初始化,对于线性回归模型来说,在进行正向传播时,不能缺失的值有构成前向传播方程的偏置和权重这两个值,而对于输入层来说,就是传入y = w*x+b中的x,而为了方便传播,在输入层中就会将传入的x引入这个方程来进行定义的线性变换,但是输出层只负责最简单的线性变化。

在这个线性变化过程中就有一个问题,这个方程中的w和b哪里来?

由于之前学过线性回归的时候我们知道,这个前向传播的方程是为了算出预测值来与实际数据进行损失计算然后通过反向传播来更新梯度值进行简单的梯度下降来逼近我们希望求得的权重和偏置,所以输出层的权重和偏置是由我们自定义的,而torch中就提供了很多种初始化的方法。接下来说几个例子。

全零初始化

因为会破坏对称性,一般治用于初始化偏置

import torch
import torch.nn as nndef test():linear = nn.Linear(in_feature=6,out_feature=4)nn.init.zeros_(linear.weight)print(linear.weight)if __name__ == "main":test()

然后还有全1初始化就没必要再写一遍了。

任意常数初始化

import torch
import torch.nn as nndef test002():# 2. 固定值参数初始化linear = nn.Linear(in_features=6, out_features=4)# 初始化权重参数nn.init.constant_(linear.weight, 0.63)# 打印权重参数print(linear.weight)passif __name__ == "__main__":test002()

防止了参数为0的情况出现,但是运用在权重上依旧避免不了破坏对称性的问题。

随机初始化

最基本的初始化方式,避免破坏对称性

import torch
import torch.nn as nndef test001():# 1. 均匀分布随机初始化linear = nn.Linear(in_features=6, out_features=4)# 初始化权重参数nn.init.uniform_(linear.weight)# 打印权重参数print(linear.weight)if __name__ == "__main__":test001()

Xavier初始化

也叫做Glorot初始化。

方法:根据输入和输出神经元的数量来选择权重的初始值。权重从以下分布中采样:
W ∼ U ( − 6 n i n + n o u t , 6 n i n + n o u t ) W\sim\mathrm{U}\left(-\frac{\sqrt{6}}{\sqrt{n_\mathrm{in}+n_\mathrm{out}}},\frac{\sqrt{6}}{\sqrt{n_\mathrm{in}+n_\mathrm{out}}}\right) WU(nin+nout 6 ,nin+nout 6 )
或者
W ∼ N ( 0 , 2 n i n + n o u t ) W\sim\mathrm{N}\left(0,\frac{2}{n_\mathrm{in}+n_\mathrm{out}}\right) WN(0,nin+nout2)

N ( 0 , std 2 ) N ( 0 , std 2 ) \mathcal{N}(0, \text{std}^2)\mathcal{N}(0, \text{std}^2) N(0,std2)N(0,std2)

其中 n in n_{\text{in}} nin 是当前层的输入神经元数量, n out n_{\text{out}} nout是输出神经元数量。

优点:平衡了输入和输出的方差,适合Sigmoid和 Tanh 激活函数。

应用场景:常用于浅层网络或使用Sigmoid、Tanh 激活函数的网络。

import torch
import torch.nn as nndef test007():# Xavier初始化:正态分布linear = nn.Linear(in_features=6, out_features=4)nn.init.xavier_normal_(linear.weight)print(linear.weight)# Xavier初始化:均匀分布linear = nn.Linear(in_features=6, out_features=4)nn.init.xavier_uniform_(linear.weight)print(linear.weight)if __name__ == "__main__":test007()

二、激活函数

就我自己的理解来是,进入每个神经元时,就是一次线性变换再输出给下一个神经元的时候则是通过非线性变化的激活函数来提高数据的分离度,而如果不设置激活函数也是能传递的,只是他始终进行的线性的变化,而线性数据的一个缺点就是无法表示复杂的非线性的关系,如异或问题。而引入激活函数的优点还有

  1. 通过升维来提取更改层次的抽象特征
  2. 控制输出值的范围,稳定梯度传播
  3. 动态调整神经元的激活状态,增强表达能力
  4. 实现逼近任意复杂函数的能力

下面是常用的激活函数,

  1. 常见激活函数
    • Sigmoid:将输出映射到 (0,1)(0, 1)(0,1),适合二分类输出层;易出现梯度消失。
    • Tanh:将输出映射到 (−1,1)(-1, 1)(−1,1),适合隐藏层,梯度较大,缓解梯度消失问题。
    • ReLU:输出正值本身,负值为零,计算简单,适合深层网络;存在神经元死亡问题。
    • Leaky ReLU:改进 ReLU,为负值引入小斜率,避免神经元死亡。
    • Softmax:将输出映射为概率分布,适合多分类任务的输出层。
  2. 选择建议
    • 隐藏层优先选择 ReLU 或其变体。
    • 输出层根据任务选择:二分类用 Sigmoid,多分类用 Softmax,回归任务用线性激活。

由于激活函数的公式过多,就不说了。

三、损失函数

这里的损失函数与之前学习反向传播时的概念无差异,只是根据不同的任务推出了不同损失函数去更好的适配这些任务的回归。

  1. 线性回归损失

    • MAE:平均绝对误差,对异常值鲁棒。
    • MSE:均方误差,对大误差敏感。
    • Smooth L1:结合 MAE 和 MSE 的优点,平滑过渡。
  2. 分类损失

    • 交叉熵损失:

      • 多分类问题与 Softmax 搭配。
      • 衡量预测分布与真实分布的差异。
    • 二分类交叉熵:

      • 二分类问题与 Sigmoid 搭配。
      • 用于衡量模型对两个类别的预测效果。
  3. 总结

    • 回归任务:MSE、Smooth L1。
    • 二分类任务:Sigmoid + 二分类交叉熵。
    • 多分类任务:Softmax + 交叉熵。

反向传播的api实现

由于上面所有的都是为了反向传播而服务,所以单论以上的所有都是理论上的,只有在神经网络中实现反向传播才会真正的运用到上面所有的知识。

import torch
import torch.nn as nn
import torch.optim as optimclass Net(nn.Module):def __init__(self):super(Net, self).__init__()self.linear1 = nn.Linear(2, 2)self.linear2 = nn.Linear(2, 2)# 网络参数初始化self.linear1.weight.data = torch.tensor([[0.15, 0.20], [0.25, 0.30]])self.linear2.weight.data = torch.tensor([[0.40, 0.45], [0.50, 0.55]])self.linear1.bias.data = torch.tensor([0.35, 0.35])self.linear2.bias.data = torch.tensor([0.60, 0.60])def forward(self, x):x = self.linear1(x)x = torch.sigmoid(x)x = self.linear2(x)x = torch.sigmoid(x)return xif __name__ == "__main__":inputs = torch.tensor([[0.05, 0.10]])target = torch.tensor([[0.01, 0.99]])# 获得网络输出值net = Net()output = net(inputs)# 计算误差loss = torch.sum((output - target) ** 2) / 2# 优化方法optimizer = optim.SGD(net.parameters(), lr=0.5)# 梯度清零optimizer.zero_grad()# 反向传播loss.backward()# 打印(w1-w8)观察w5、w7、w1 的梯度值是否与手动计算一致print(net.linear1.weight.grad.data)print(net.linear2.weight.grad.data)#更新梯度optimizer.step()# 打印更新后的网络参数print(net.state_dict())

这个程序中没有用到上面说到的这些初始化,而是自定义传参初始化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/887603.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

代码随想录打卡DAY21

算法记录第21天 [二叉树] 1.LeetCode 538. 把二叉搜索树转换为累加树 题目描述: 给出二叉 搜索 树的根节点,该树的节点值各不相同,请你将其转换为累加树(Greater Sum Tree),使每个节点 node 的新值等于原…

[在线实验]-ActiveMQ Docker镜像的下载与部署

镜像下载 下载ActiveMQ的Docker镜像文件。通常,这些文件会以.tar格式提供,例如activemq.tar。 docker的activemq镜像资源-CSDN文库 加载镜像 下载完成后,您可以使用以下命令将镜像文件加载到Docker中: docker load --input a…

k8s 架构详解

Kubernetes(通常简称为K8s)是一个开源的容器编排平台,它帮助自动化部署、扩展和管理容器化应用程序。Kubernetes架构设计得非常灵活且可扩展,能够支持从小规模到大规模的各种应用部署需求。下面是对Kubernetes架构的详细解释&…

并发编程2.0

9.创建线程有哪几种方式? 继承Thread类,通过重写run方法来定义线程的执行逻辑 class MyThread extends Thread {Overridepublic void run() {System.out.println("线程执行的代码");} } public class Main {public static void main(String[…

一个比较舒服的 prettier 前端配置 vue js

1. 安装 prettier 库 npm i -D prettier2. 配置 package.json "format": "prettier --write \"src/**/*.{js,jsx,ts,tsx,vue,scss,css}\""3. 根目录下放这两个文件 .prettierrc {"semi": true,"singleQuote": true,&quo…

VTK中对于相机camera的设置

1. 相机的核心属性 在 VTK 中,vtkCamera 的核心属性有默认值。如果你不设置这些属性,相机会使用默认值来渲染场景。 Position(默认值:(0, 0, 1)): 默认情况下,相机位于 Z 轴正方向的 (0, 0, 1)…

学习日志017--python的几种排序算法

冒泡排序 def bubble_sort(alist):i 0while i<len(alist):j0while j<len(alist)-1:if alist[j]>alist[j1]:alist[j],alist[j1] alist[j1],alist[j]j1i1l [2,4,6,8,0,1,3,5,7,9] bubble_sort(l) print(l) 选择排序 def select_sort(alist):i 0while i<len(al…

活着就好20241128

早晨问候&#xff1a; 亲爱的朋友们&#xff0c;大家早上好&#xff01;今天是2024年11月28日&#xff0c;第48周的第四天&#xff0c;也是十一月的第二十八天&#xff0c;农历甲辰[龙]年十月廿四。在这个即将步入月末、阳光依旧明媚的清晨&#xff0c;愿第一缕阳光轻轻洒落在…

超高流量多级缓存架构设计!

文章内容已经收录在《面试进阶之路》&#xff0c;从原理出发&#xff0c;直击面试难点&#xff0c;实现更高维度的降维打击&#xff01; 文章目录 电商-多级缓存架构设计多级缓存架构介绍多级缓存请求流程负载均衡算法的选择轮询负载均衡一致性哈希负载均衡算法选择 应用层 Ngi…

3D Gaussian Splatting综述 论文笔记

文章目录 参考资料 参考资料 A Survey on 3D Gaussian Splatting精读 3DGaussianSplatting技术的影响会有多大&#xff1f; - Kedreamix的回答 - 知乎 https://www.zhihu.com/question/626506306/answer/3375816824 3DGS综述《A Survey on 3D Gaussian Splatting》 【论文笔记…

@Pattern (用于校验字符串是否符合特定正则表达式)

Pattern 是一个用于校验字符串是否符合特定正则表达式的注解&#xff0c;它在 Java 中常用于验证输入数据的格式。以下是 Pattern 注解的详解和使用方法&#xff1a; 含义 Pattern 注解用于在 Java 中对字段进行注解&#xff0c;以确保其值与指定的正则表达式匹配。这个注解可…

mac 如何查看 export NVM_NODEJS_ORG_MIRROR=https://npm.taobao.org/mirrors/node 是否正确

在 macOS 上&#xff0c;如果你想查看环境变量 NVM_NODEJS_ORG_MIRROR 是否已正确设置为 https://npm.taobao.org/mirrors/node&#xff0c;你可以按照以下步骤进行检查&#xff1a; 1. 检查当前环境变量值 打开终端并运行以下命令来查看 NVM_NODEJS_ORG_MIRROR 环境变量的当…

探索人工智能:从Python到深度学习的进阶之旅

在当今这个数据驱动的时代&#xff0c;人工智能&#xff08;AI&#xff09;已经成为科技领域的热门话题。对于有志于进入这一领域的学习者来说&#xff0c;制定一个系统的学习计划至关重要。本文将为您规划一条从Python编程基础出发&#xff0c;逐步深入到人工智能核心领域的学…

红黑树的概念以及基本模拟

目录 一、概念和规则&#xff1a; 1、思考为什么最长路径不超过最短路径的二倍&#xff1f; 2、红黑树的效率&#xff1f; 二、红黑树的代码实现 1、红黑树的节点结构 2、红黑树的插入 1、大致过程&#xff1a; 2、维护的三种情况&#xff1a; 1、情况一&#xff1a;变…

IP反向追踪技术,了解一下?

DOSS&#xff08;拒绝服务&#xff09;攻击是现在比较常见的网络攻击手段。想象一下&#xff0c;有某个恶意分子想要搞垮某个网站&#xff0c;他就会使用DOSS攻击。这种攻击常常使用的方式是IP欺骗。他会伪装成正常的IP地址&#xff0c;让网络服务器以为有很多平常的请求&#…

二十五:如何“合法”地跨域访问?

跨域访问&#xff08;Cross-Origin Resource Sharing&#xff0c;简称CORS&#xff09;是现代Web开发中常见的一种技术需求。由于浏览器的同源策略&#xff08;Same-Origin Policy&#xff09;&#xff0c;不同域名、协议或端口之间的资源无法直接交互&#xff0c;这对前端开发…

计算机网络的功能

目录 信息交换 资源共享 分布式处理 可靠性增强 集中管理 信息交换 计算机网络最基本的功能之一是允许不同设备之间的数据通信。这包括电子邮件的发送和接收、即时消息的传递、文件传输等。通过网络&#xff0c;用户可以轻松地与全球各地的其他人进行沟通和协作。 信息交…

【C++习题】15.滑动窗口_串联所有单词的子串

文章目录 题目链接&#xff1a;题目描述&#xff1a;解法C 算法代码&#xff1a;图解 题目链接&#xff1a; 30. 串联所有单词的子串 题目描述&#xff1a; 解法 滑动窗口哈希表 这题和第14题不同的是&#xff1a; 哈希表不同&#xff1a;hash<string,int>left与right指…

NUMA架构及在极速网络IO场景下的优化实践

NUMA技术原理 NUMA架构概述 随着多核CPU的普及&#xff0c;传统的对称多处理器&#xff08;SMP&#xff09;架构逐渐暴露出性能瓶颈。为了应对这一问题&#xff0c;非一致性内存访问&#xff08;NUMA, Non-Uniform Memory Access&#xff09;架构应运而生。NUMA架构是一种内存…

论文笔记(五十七)Diffusion Model Predictive Control

Diffusion Model Predictive Control 文章概括摘要1. Introduction2. Related work3. 方法3.1 模型预测控制3.2. 模型学习3.3. 规划&#xff08;Planning&#xff09;3.4. 适应 4. 实验&#xff08;Experiments&#xff09;4.1. 对于固定奖励&#xff0c;D-MPC 可与其他离线 RL…