动手学DL——深度学习预备知识随笔【深度学习】【PyTorch】

文章目录

  • 2、预备知识
    • 2.1、数据操作
    • 2.2、线性代数&矩阵计算
    • 2.3、导数
    • 2.4、基础优化方法

2、预备知识

2.1、数据操作

在这里插入图片描述

batch:以图片数据为例,一次读入的图片数量。

小批量样本可以充分利用GPU进行并行计算提高计算效率。

  • 数据访问

    数组:np.array To pd.Series To torch.tensor

在这里插入图片描述

  • 二维张量的写法

    a = torch.ones(4,9)
    a = torch.ones((4,9))#李沐老师a = torch.arange(36).reshape(4,9)
    a = torch.arange(36).reshape((4,9))#李沐老师
    

    多加一个括号,结果都是一致的,都是表示二维张量,张量形状都是(4,9),所以二维有两种写法,但再加一层括号,形状就变成了(1,4,9)三维,判断维数技巧:最外面的括号去掉开始数,比如:

    a = torch.ones((((((4,9)))))) 
    

    这个形状是(1,1,1,1,1,4,9)

  • 将多个张量沿指定的维度进行连接

    torch.cat(inputs, dim=0, out=None)
    
    • inputs:一个或多个输入张量(可以是相同形状的多个张量)。
    • dim:指定的连接维度,默认为0。
    • out:输出的张量,默认为None
  • 不同形状向量相加广播机制(broadcasting mechanism)【必须同纬度】

    a = torch.arange(3).reshape(3,1)
    b = torch.arange(2).reshape(1,2)
    a + b
    

    ( 0 1 2 ) − > ( 0 0 1 1 2 2 ) \begin{pmatrix} 0 \\ 1 \\ 2\\ \end{pmatrix} ->\begin{pmatrix} 0 & 0 \\ 1 & 1\\ 2 & 2\\ \end{pmatrix} 012 > 012012

    ( 0 1 ) − > ( 0 1 0 1 0 1 ) \begin{pmatrix} 0 &1 \end{pmatrix} ->\begin{pmatrix} 0 & 1 \\ 0 & 1\\ 0 & 1\\ \end{pmatrix} (01)> 000111

    ( 0 0 1 1 2 2 ) + ( 0 1 0 1 0 1 ) = ( 0 1 1 2 2 3 ) \begin{pmatrix} 0 & 0 \\ 1 & 1\\ 2 & 2\\ \end{pmatrix} + \begin{pmatrix} 0 & 1 \\ 0 & 1\\ 0 & 1\\ \end{pmatrix} =\begin{pmatrix} 0 & 1 \\ 1 & 2\\ 2 & 3\\ \end{pmatrix} 012012 + 000111 = 012123

    向量|张量相加得到了意外的结果,可以考虑是不是误将不同形状的向量相加了,触发了广播机制。

  • 使用sum求和(沿某个轴方向 axis )

    axis = ?意味着把那一维压缩

    在这里插入图片描述

    keepdims=True 表示保持求和结果的维度和原数组一致。保持维度一致通常是为了方便后续的运算或对结果的处理。

    a.sum(axis=0,keepdims=True).shape,a.sum(axis=0,keepdims=True)
    

    (torch.Size([1, 5, 4]),
    tensor([[[2., 2., 2., 2.],
    [2., 2., 2., 2.],
    [2., 2., 2., 2.],
    [2., 2., 2., 2.],
    [2., 2., 2., 2.]]]))

    这里keepdims=True和广播有很好的搭配效果。每一个元素/sum,维度同但形状不同,广播,维度同形状也同,可以执行。

  • 复制,可能会导致开辟新内存

    before = id(y)
    x = x + y
    id(y) == before
    

    False

    执行原地操作的两种方式:

    x[:] = x + y 
    
    x += y
    

    注意

    b[:] = a;#类似于view b变a也一起变,这种写法实际使用时b不轻易改变
    

    避免大张量的过度复制,减少内存开销。

    z = X.clone()#Z得到一个X的副本
    
  • numpy 转 torch ,反之不可行

    a  = x.numpy()
    b = torch.tensor(a)
    type(a),type(b)
    

    (numpy.ndarray, torch.Tensor)

    在jupyter 中一次性输出多个内容使用逗号间隔实现

  • 将大小为1的张量转换为 Python标量

    使用 item(),或者强制类型转换实现

    a = torch.tensor([3.5])
    a,a.item(),float(a),int(a)
    

    (tensor([3.5000]), 3.5, 3.5, 3)

  • pandas读入,再缺失值处理,转为torch张量的过程

    import pandas as pd
    data = pd.read_csv(data_file)
    

    缺失值处理:插值法 or 删除

    inputs, outputs = data.iloc[:,0:2],data.iloc[:,2]
    inputs = inputs.fillna(inputs.mean())
    inputs = pd.get_dummies(inputs, dummy_na =True)
    

    pd.get_dummies()函数将输入的数据集inputs中的每个分类变量【不是数值的,比如字符串值】都拆分为多个二进制变量,每个变量表示一种可能的分类。dummy_na=True参数表示要在创建虚拟变量时包含对缺失值的处理【把NaN也视为一类情况】。

    import torch 
    X,y = torch.tensor(inputs.values),torch.tensor(outputs.values)
    X,y
    

2.2、线性代数&矩阵计算

  • 乘法(矩阵乘向量)

    c = A b w h e r e c i = ∑ i A i j b j c = Ab \ \ \ where \ \ \ c_i = \sum_i A_{ij}b_j c=Ab   where   ci=iAijbj

  • 乘法(矩阵乘矩阵)

    C = A B w h e r e C i k = ∑ j A i j B j k C = AB\ \ \ where\ \ \ C_{ik} = \sum_j A_{ij}B_{jk} C=AB   where   Cik=jAijBjk

  • 求范数

    向量的模推广到矩阵,范数就是‘矩阵的模’。

    ∣ ∣ a ∣ ∣ 2 = [ ∑ i = 1 m a i 2 ] 1 2 ||a||_2 =[\sum_{i=1}^ma_i^2]^{\frac{1}{2}} ∣∣a2=[i=1mai2]21

    下面是计算张量的2范数|F范数【Frobenius范数】:

    torch.norm(torch.ones((4,9)))
    

    ∣ ∣ A ∣ ∣ F r o b = [ ∑ i j A i j 2 ] 1 2 ||A||_{Frob} =[\sum_{ij}A_{ij}^2]^{\frac{1}{2}} ∣∣AFrob=[ijAij2]21

2.3、导数

用的少。pytorch 实现了自动微分计算自动求导。

  • 压导数

    将导数拓展到不可微的函数。

    在这里插入图片描述

  • 计算图

    张量的计算通常会生成计算图。当你执行张量操作时,例如加法、乘法、矩阵乘法、激活函数等,这些操作会被记录到计算图中。计算图是一个有向无环图(DAG),其中节点表示张量操作,边表示操作之间的依赖关系。

    自动求导的两种模式

    链式法则: ∂ y ∂ x = ∂ y ∂ u n ∂ u n ∂ u n − 1 . . . ∂ u 2 ∂ u 1 ∂ u 1 ∂ x \frac{∂y}{∂x}=\frac{∂y}{∂u_n}\frac{∂u_n}{∂u_{n-1}}...\frac{∂u_2}{∂u_1}\frac{∂u_1}{∂x} xy=unyun1un...u1u2xu1

    • 正向积累 ∂ y ∂ x = ∂ y ∂ u n ( ∂ u n ∂ u n − 1 ( . . . ( ∂ u 2 ∂ u 1 ∂ u 1 ∂ x ) ) ) \frac{∂y}{∂x}=\frac{∂y}{∂u_n}(\frac{∂u_n}{∂u_{n-1}}(...(\frac{∂u_2}{∂u_1}\frac{∂u_1}{∂x}))) xy=uny(un1un(...(u1u2xu1)))

    • 反向积累、又称反向传递 ∂ y ∂ x = ( ( ( ∂ y ∂ u n ∂ u n ∂ u n − 1 ) . . . ) ∂ u 2 ∂ u 1 ) ∂ u 1 ∂ x \frac{∂y}{∂x}=(((\frac{∂y}{∂u_n}\frac{∂u_n}{∂u_{n-1}})...)\frac{∂u_2}{∂u_1})\frac{∂u_1}{∂x} xy=(((unyun1un)...)u1u2)xu1

      反向传播逻辑与高数手写复合函数求导完全一致。

      在这里插入图片描述

    求导和反向传播:计算图可以帮助自动计算函数的导数,特别是在深度学习中的反向传播算法中。通过在计算图中计算每个节点的梯度,可以从输出端反向传播梯度到输入端,以便优化模型的参数。

    x.requires_grad_(True)#使用requires_grad=True参数来指定需要对其求导,计算时会存储梯度
    x.grad#访问梯度,目前未计算是空的y = 2 * torch.dot(x,x )#内积
    y
    

    tensor(28., grad_fn=<MulBackward0>)

    y.backward()#求导
    x.grad
    

    tensor(28., grad_fn=<MulBackward0>)

    x.grad == 4 * x#判断 导数是不是 4x
    

    tensor([True, True, True, True])

    x.grad.zero_()#默认情况pytorch会累积梯度,需要清除之前的值。
    y = x.sum()# y =x1+x2+x3+...
    y.backward()
    y,x.grad
    

    (tensor(6., grad_fn=<SumBackward0>), tensor([1., 1., 1., 1.]))


    非标量调用 backward,需要传入 gradient 参数

    【在PyTorch中,反向传播(backward)函数用于计算非标量张量的梯度。当计算标量的梯度时,PyTorch会自动计算并传播梯度,而无需明确传入梯度参数。然而,当处理非标量张量时,需要手动传入梯度参数。】

x.grad.zero_()
y = x * x
#等价于 y.backword(torch.ones(len(x)))
y.sum().backward()
y,x.grad


>#### (tensor([0., 1., 4., 9.], grad_fn=\<MulBackward0>), tensor([0., 2., 4., 6.]))>`y.sum().backward()` 是使用 PyTorch 的自动微分功能进行反向传播。它计算了 `y` 张量的和,并通过链式法则将梯度传播回各个输入张量。这里的输入张量是 `x`。<hr>~~~python
x.grad.zero_()
y =x * x 
#由于 y 是通过对 x 进行元素级乘法实现的(y = x * x),因此 y 对于每个元素 x[i] 的梯度是 2 * x[i]
u = y.detach()
#用于将张量 y 从计算图中分离出来,并且将其梯度信息置为无。这样做的目的是防止梯度回传时对 u 的梯度计算,从而实现对 u 的一种冻结。通常,当希望保留某个张量的值,但不想在反向传播过程中计算它的梯度时,就会使用 detach() 方法。通过将张量分离并赋给一个新的变量,在接下来的计算过程中使用这个新变量 u,而且它的梯度会被忽略,从而实现参数冻结或临时截断梯度流的目的。
z = u *xz.sum().backward()
x.grad == u

tensor([True, True, True, True])

2.4、基础优化方法

  • 梯度计算往往是深度学习中成本最贵的。

  • 小批量随机梯度下降是深度学习默认的求解方法。

  • 两个重要的超参数是 批量大小和学习率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/6817.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android 实现阅读用户协议的文字控件效果

开发中&#xff0c;经常要用到一些阅读隐私协议的场景&#xff0c;原生的textview控件很难做到在一个控件里有两个点击事件&#xff0c;那现在就来安利一个强大的组件——SpannableStringBuilder。 先看看效果&#xff1a; 直接上代码&#xff0c;布局文件&#xff1a; <Li…

【图像处理】使用自动编码器进行图像降噪(改进版)

阿里雷扎凯沙瓦尔兹 一、说明 自动编码器是一种学习压缩和重建输入数据的神经网络。它由一个将数据压缩为低维表示的编码器和一个从压缩表示中重建原始数据的解码器组成。该模型使用无监督学习进行训练&#xff0c;旨在最小化输入和重建输出之间的差异。自动编码器可用于降维、…

【iOS】动态链接器dyld

参考&#xff1a;认识 dyld &#xff1a;动态链接器 dyld简介 dyld&#xff08;Dynamic Linker&#xff09;是 macOS 和 iOS 系统中的动态链接器&#xff0c;它是负责在运行时加载和链接动态共享库&#xff08;dylib&#xff09;或可执行文件的组件。在 macOS 系统中&#xf…

STM32MP157驱动开发——按键驱动(定时器)

“定时器 ”机制&#xff1a; 内核函数 定时器涉及函数参考内核源码&#xff1a;include\linux\timer.h 给定时器的各个参数赋值&#xff1a; setup_timer(struct timer_list * timer, void (*function)(unsigned long),unsigned long data)&#xff1a;设置定时器&#xf…

多元函数的概念

目录 多元函数的极限&#xff1a; 例题1&#xff1a; 例题2&#xff1a; 多元函数的连续性 连续函数的性质 偏导数 高阶偏导数 定理1&#xff1a; 全微分 可微的必要条件 用定义来判断是否可微 可微的充分条件 连续偏导可微的关系 多元函数的极限&#xff1a; 对于一个二元…

macOS Ventura 13.5 (22G74) 正式版发布,ISO、IPSW、PKG 下载

macOS Ventura 13.5 (22G74) 正式版发布&#xff0c;ISO、IPSW、PKG 下载 本站下载的 macOS Ventura 软件包&#xff0c;既可以拖拽到 Applications&#xff08;应用程序&#xff09;下直接安装&#xff0c;也可以制作启动 U 盘安装&#xff0c;或者在虚拟机中启动安装。另外也…

服务器数据库中了Locked勒索病毒,企业应该如何正确处理并采取后续防护措施

网络技术的发展极大地方便了人们的工作生活&#xff0c;但同样带来了一定的网络安全威胁&#xff0c;其中较为危险的威胁就是勒索病毒攻击&#xff0c;勒索病毒不仅会给我们的计算机系统带来破坏&#xff0c;还会加密我们的重要文件数据来敲诈勒索&#xff0c;只有用户支付的赎…

提高可视性的五大方法可增强 Horizon Cloud 下一代平台的性能和用户体验

我们在 VMware Explore US 2022 推出了 VMware Horizon Cloud 下一代平台。该平台为使用现代化虚拟桌面和应用的客户提供了一个新的混合型桌面服务&#xff08;DaaS&#xff09;架构&#xff0c;其围绕降低成本和提高可扩展性而构建。首次发布后&#xff0c;我们在 VMware Expl…

gerrit 从安装到出坑

一般公司在做代码审核的时候选择codereview gerrit来处理代码的入库的问题。 它是通过提交的时候产生Change-Id: If4e0107f3bd7c5df9e2dc72ee4beb187b07151b9 来决定是不是入库&#xff0c;一般如果不是通过这个管理&#xff0c;那么就是我们通常的操作 git add . git comm…

【MySQL】MySQL HeatWave 介绍

HeatWave是一个分布式、可扩展、无共享、内存中、混合柱状的查询处理引擎&#xff0c;专为获得极致性能而设计。可以通过向MySQL数据库系统添加一个HeatWave集群来启用它。 HeatWave 是一种大规模并行、高性能内存查询加速器&#xff0c;可将分析工作负载、混合工作负载和机器…

Linux 学习记录55(ARM篇)

Linux 学习记录55(ARM篇) 本文目录 Linux 学习记录55(ARM篇)一、使用C语言封装GPIO函数1. 封装GPIO组寄存器2. 封装GPIO模式以及相关配置3. 封装GPIO初始化结构体4. 使用自己的封装配置GPIO 一、使用C语言封装GPIO函数 1. 封装GPIO组寄存器 #define GPIOA ((GP…

刷题日记09《图论基础》

图的存储结构 对于图结构而言&#xff0c;常见的存储结构主要有两种&#xff1a;邻接表和邻接矩阵&#xff1a; 邻接表很直观&#xff0c;我把每个节点 x 的邻居都存到一个列表里&#xff0c;然后把 x 和这个列表关联起来&#xff0c;这样就可以通过一个节点 x 找到它的所有相邻…

【算法与数据结构】222、LeetCode完全二叉树的节点个数

文章目录 一、题目二、一般遍历解法三、利用完全二叉树性质四、完整代码 所有的LeetCode题解索引&#xff0c;可以看这篇文章——【算法和数据结构】LeetCode题解。 一、题目 二、一般遍历解法 思路分析&#xff1a;利用层序遍历&#xff0c;然后用num记录节点数量。其他的例如…

视频增强技术-去噪

本文介绍了关于视频增强技术的相关方法包括传统方法和基于深度学习的方法&#xff0c;并给出了他们的对比实验结果&#xff0c;最后对它们简单的做了总结&#xff0c;文中有一些图片和总结来自于网上其他博主的文章&#xff0c;已在文中标记并给出了相关的原文链接&#xff0c;…

一文掌握如何前后端分离?

随着科技的进步和发展&#xff0c;低代码开发产品拥有广阔的市场前景。前后端分离似乎早已经是发展趋势了&#xff0c;因为做好前后端分离对于前后端的工程师而言是非常有利的&#xff0c;这样也有利于提升办公协作效率。那么&#xff0c;如何前后端分离&#xff1f;分别都有哪…

【机器学习】支持向量机SVM入门

优化目标 相较于之前学习的线性回归和神经网络&#xff0c;支持向量机&#xff08;Supprot Vector Machine&#xff0c;简称SVM&#xff09;在拟合复杂的非线性方程的时候拥有更出色的能力&#xff0c;该算法也是十分经典的算法之一。接下来我们需要学习这种算法 首先我们回顾…

关于Docker的基本概念和使用

关于Docker的基本概念和使用 一、Docker 概述1、Dcker的概念2、容器的优势3、Docker与虚拟机的区别4、容器在内核中支持2种重要技术5、Docker核心概念 二、安装 Docker1、安装依赖包2、设置阿里云镜像源3、安装 Docker-CE并设置为开机自动启动3、查看 docker 版本信息4、docker…

AI智能化技术对项目管理的挑战与应对︱腾讯CSIG能源行业总经理王磊

腾讯CSIG能源行业总经理王磊先生受邀为由PMO评论主办的2023第十二届中国PMO大会演讲嘉宾&#xff0c;演讲议题&#xff1a;AI智能化技术对项目管理的挑战与应对。大会将于8月12-13日在北京举办&#xff0c;敬请关注&#xff01; 议题简要&#xff1a; 自从DALLE、Midjourney、…

linux升级mysql

linux升级mysql 一.介绍二.下载三.文件配置1.查找删除mysql2.解压配置 四.修改配置五.初始化mysql服务六.启动mysql七.配置数据库七.测试 一.介绍 由于最近业务需要&#xff0c;不得不将之前的mysql5.7.26升级到mysql8.0加了 Linux安装mysql&#xff08;5.7.26&#xff09;&…

flask结合mysql实现用户的添加和获取

1、数据库准备 已经安装好数据库&#xff0c;并且创建数据库和表 create database unicom DEFAULT CHARSET utf8 COLLATE utf8_general_ci; CREATE TABLE admin( id int not null auto_increment primary key, username VARCHAR(16) not null, password VARCHAR(64) not null…