第二十一周机器学习笔记:动手深度学习之——数据操作、数据预处理

第二十周周报

  • 摘要
  • Abstract
  • 一、动手深度学习
    • 1. 数据操作
      • 1.1 数据基本操作
      • 1.2 数据运算
          • 1.2.1 广播机制
      • 1.3 索引和切片
    • 2. 数据预处理
  • 二、复习RNN与LSTM
    • 1. Recurrent Neural Network(RNN,循环神经网络)
      • 1.1 词汇vector的编码方式
      • 1.2 RNN的变形
    • 2. Long Short Term Memory(LSTM,长短期记忆网络)
      • 2.1 LSTM最终形态
  • 总结

摘要

本文主要介绍了深度学习的基础知识和操作,包括数据操作、数据运算、数据预处理。最后复习了循环神经网络(RNN)和长短期记忆网络(LSTM)。在数据操作部分,详细讲解了张量的基本操作,如创建、形状调整、元素总数计算、初始化和元素赋值。数据运算部分则包括了张量的算术运算、连结、逻辑运算和求和。文章还介绍了广播机制和索引切片的使用方法。数据预处理部分,通过使用pandas库对CSV文件中的数据进行读取、处理缺失值、转换为张量格式。最后,文章复习了RNN和LSTM的基本概念和工作原理,包括槽填充、词汇向量编码、RNN的变形和LSTM的结构和运算过程。

Abstract

This article primarily introduces the fundamental knowledge and operations of deep learning, encompassing data manipulation, data operations, and data preprocessing. It concludes with a review of Recurrent Neural Networks and Long Short-Term Memory networks . The section on data manipulation detailedly explains the basic operations of tensors, such as creation, shape adjustment, element count calculation, initialization, and element assignment. The data operations section includes arithmetic operations, concatenation, logical operations, and summation of tensors. The article also introduces the broadcasting mechanism and the usage of indexing and slicing. In the data preprocessing part, the article demonstrates how to read data from a CSV file, handle missing values, and convert data into tensor format using the pandas library. Finally, the article reviews the basic concepts and working principles of RNNs and LSTMs, including slot filling, word vector encoding, RNN variations, and the structure and operation process of LSTMs.

一、动手深度学习

接下来的学习回围绕深度学习的代码部分和之前几周学习过的理论知识进行复习和巩固学习,提高代码实战能力,手撕一下学习过的模型很原来,这一周从基础部分开始学习。

1. 数据操作

1.1 数据基本操作

张量表示是由单一数值构成的多维数组。这种数组可以具有不同的维度。
具体来说,一个轴的张量在数学上对应于向量(vector);
两个轴的张量对应于矩阵(matrix);
而超过两个轴的张量则没有特定的数学术语来描述。

  1. ⾸先,我们可以使⽤ arange 创建⼀个⾏向量 x。这个⾏向量包含以0开始的前12个整数,它们默认创建为整数。也可指定创建类型为浮点数。
    张量中的每个值都称为张量的元素(element)。
    例如,张量 x 中有 12 个元素。除⾮额外指定,新的张量将存储在内存中,并采⽤基于CPU的计算。
import torch
x = torch.arange(12)
print(x)

在这里插入图片描述

  1. 可以通过张量的shape属性来访问张量(沿每个轴的⻓度)的形状
# 可以通过张量的shape属性来访问张量(沿每个轴的⻓度)的形状
print(x.shape)

在这里插入图片描述

  1. 如果只想知道张量中元素的总数,即形状的所有元素乘积,可以检查它的⼤⼩(size)。
    因为这⾥在处理的是⼀个向量,所以它的shape与它的size相同。
# 如果只想知道张量中元素的总数,即形状的所有元素乘积,可以检查它的⼤⼩(size)。
print(x.numel())

在这里插入图片描述

  1. 若要调整张量的形状而不改变其元素数量和值,可以使用reshape函数
    例如,可以将形状为(12,)的行向量张量x重塑为(3,4)的矩阵形状。重塑后的张量包含与重塑前完全相同的元素值,但被视为一个3行4列的矩阵。重要的是要强调,尽管张量的形状发生了变化,但其元素的值保持不变。
    请注意,改变张量的形状并不会影响张量的总大小。
X = x.reshape(3, 4)
print(X)

在这里插入图片描述
我们不需要通过⼿动指定每个维度来改变形状。也就是说,如果我们的⽬标形状是(⾼度,宽度),那么在知道宽度后,⾼度会被⾃动计算得出,不必我们⾃⼰做除法。
在上⾯的例⼦中,为了获得⼀个3⾏的矩阵,我们⼿动指定了它有3⾏和4列。
我们可以通过-1来调⽤此⾃动计算出维度的功能。即我们可以⽤x.reshape(-1,4)或x.reshape(3,-1)来取代x.reshape(3,4)。

  1. 有时,我们希望使⽤全0、全1、其他常量,或者从特定分布中随机采样的数字来初始化矩阵
    我们可以创建⼀个形状为(2,3,4)的张量,其中所有元素都设置为0。
torch.zeros((2, 3, 4))
print(x)

在这里插入图片描述
或者可以创建⼀个形状为(2,3,4)的张量,其中所有元素都设置为1。

x = torch.ones((2, 3, 4))
print(x)

在这里插入图片描述

  1. 在某些情况下,我们希望张量中的每个元素值是通过从特定的随机概率分布中抽取样本得到的。
    例如,在构建神经网络参数的数组时,我们通常会采用随机初始化的方法来设定这些参数的初始值。
    以下代码展示了如何创建一个形状为(3,4)的张量,其每个元素都是从均值为0、标准差为1的标准高斯分布(也称为正态分布)中随机抽取的样本
x = torch.randn(3, 4)
print(x)

在这里插入图片描述

  1. 我们还可以通过提供包含数值的Python列表(或嵌套列表),来为所需张量中的每个元素赋予确定值
    如下最外层的列表对应于轴0,内层的列表对应于轴1。
x = torch.tensor([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
print(x)

在这里插入图片描述

1.2 数据运算

  1. 对于任意具有相同形状的张量,常⻅的标准算术运算符(+、-、*、/和 求幂运算)都可以被升级为按元素运算。我们可以在同⼀形状的任意两个张量上调⽤按元素操作
    在下⾯的例⼦中,我们使⽤逗号来表⽰⼀个具有5个元素的元组,其中每个元素都是按元素操作的结果。
x = torch.tensor([1.0, 2, 4, 8])
y = torch.tensor([2, 2, 2, 2])
x + y, x - y, x * y, x / y, x ** y  # **运算符是求幂运算

在这里插入图片描述
在这里插入图片描述

  1. 我们也可以把多个张量连结(concatenate)在⼀起,把它们端对端地叠起来形成⼀个更⼤的张量。
    我们只需要提供张量列表,并给出沿哪个轴连结。
    下⾯的例⼦分别演⽰了当我们
    沿⾏(轴-0,形状的第⼀个元素)
    列(轴-1,形状的第⼆个元素)
    连结两个矩阵时,会发⽣什么情况。
    我们可以看到
    第⼀个输出张量的轴-0⻓度(6)是两个输⼊张量轴-0⻓度的总和(3 + 3);
    第⼆个输出张量的轴-1⻓度(8)是两个输⼊张量轴-1⻓度的总和(4 + 4)
X = torch.arange(12, dtype=torch.float32).reshape((3, 4))
Y = torch.tensor([[2.0, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
print(torch.cat((X, Y), dim=0))
print(torch.cat((X, Y), dim=1))

在这里插入图片描述

3.通过逻辑运算符构建⼆元张量。
以X == Y为例:对于每个位置,如果X和Y在该位置相等,则
新张量中相应项的值为1。
这意味着逻辑语句X == Y在该位置处为真,否则该位置为0。

X = torch.arange(12, dtype=torch.float32).reshape((3, 4))
Y = torch.tensor([[2.0, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
print(X == Y)

在这里插入图片描述

  1. 对张量中的所有元素进⾏求和,会产⽣⼀个单元素张量。
X = torch.arange(12, dtype=torch.float32).reshape((3, 4))
print(X.sum())

在这里插入图片描述

1.2.1 广播机制

在前文中,我们探讨了如何在形状相同的两个张量上进行逐元素操作。
在某些情况下,即使两个张量的形状不同,我们也可以利用广播机制(broadcasting mechanism)来执行逐元素操作。
广播机制的工作原理如下:
首先,通过适当地复制元素来扩展一个或两个数组,使得在转换之后,两个张量具有相同的形状。
然后,对这些扩展后的数组进行逐元素操作。

在大多数情况下,我们会沿着数组中长度为1的维度进行广播,正如以下示例所示:

a = torch.arange(3).reshape((3, 1))
b = torch.arange(2).reshape((1, 2))
print(a,b)

在这里插入图片描述
由于a和b分别是3 × 1和1 × 2矩阵,如果让它们相加,它们的形状不匹配。
我们将两个矩阵⼴播为⼀个更⼤的3 × 2矩阵
如下所⽰:矩阵a将复制列,矩阵b将复制⾏,然后再按元素相加。

print(a + b)

在这里插入图片描述

1.3 索引和切片

就像在任何其他Python数组中⼀样,张量中的元素可以通过索引访问。
与任何Python数组⼀样:第⼀个元素的索引是0,最后⼀个元素索引是-1;
可以指定范围以包含第⼀个元素和最后⼀个之前的元素。

  1. 如下所示,我们可以⽤[-1]选择最后⼀个元素,可以⽤[1:3]选择第⼆个和第三个元素:
X = torch.arange(12, dtype=torch.float32).reshape((3, 4))
print(X[-1])
print(X[1:3])

在这里插入图片描述

  1. 除读取外,我们还可以通过指定索引来将元素写⼊矩阵。
X[1, 2] = 9
print(X)

在这里插入图片描述

  1. 如果我们想为多个元素赋值相同的值,我们只需要索引所有元素,然后为它们赋值。
    例如,[0:2, :]访问第1⾏和第2⾏(左闭右开),其中“:”代表沿轴1(列)的所有元素。虽然我们讨论的是矩阵的索引,但这也适⽤于向量和超过2个维度的张量。
X[0:2, :] = 12
print(X)

在这里插入图片描述

2. 数据预处理

为了应用深度学习技术解决现实世界的问题,我们通常从原始数据的预处理工作入手,而不是直接从已经准备好的张量格式数据开始。
在Python的数据分析工具库中,pandas软件包是我们常用的工具之一。与Python生态系统中的许多其他扩展库一样,pandas能够与张量格式兼容。
我们将简要介绍 如何使用pandas对原始数据进行预处理,以及如何将这些数据转换成张量格式。

  1. 读取数据集
    ⾸先创建⼀个⼈⼯数据集,并存储在CSV(逗号分隔值)⽂件 ./data/house_tiny.csv中。
    以其他格式存储的数据也可以通过类似的⽅式进⾏处理。下⾯我们将数据集按⾏写⼊CSV⽂件中。
import os
# makedirs:创建新文件夹;
# os.path.join:连接路径;
# exist_ok:是否在目录存在时触发异常。如果为False(默认值),则在目标目录已存在的情况下触发FileExistsError异常;如果为True,则在目标目录已存在的情况下不会触发异常。
os.makedirs(os.path.join('.', 'data'), exist_ok=True)
data_file = os.path.join('.', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f: # w:打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。f.write('NumRooms,Alley,Price\n')  # 列名f.write('NA,Pave,127500\n')  # 每⾏表⽰⼀个数据样本f.write('2,NA,106000\n')f.write('4,NA,178100\n')f.write('NA,NA,140000\n')

在这里插入图片描述

  1. 要从创建的CSV⽂件中加载原始数据集,我们导⼊pandas包并调⽤read_csv函数。
    该数据集有四⾏三列。
    其中每⾏描述了房间数量(“NumRooms”)、巷⼦类型(“Alley”)和房屋价格(“Price”)。
import pandas as pd
import torch
# 要从创建的CSV⽂件中加载原始数据集,我们导⼊pandas包并调⽤read_csv函数。该数据集有四⾏三列。
# 其中每⾏描述了房间数量(“NumRooms”)、巷⼦类型(“Alley”)和房屋价格(“Price”)。
data = pd.read_csv('./data/house_tiny.csv')
print(data)

在这里插入图片描述
3. 处理缺失值
注意,“NaN”项代表缺失值。
为了处理缺失的数据,典型的⽅法包括插值法和删除法,其中插值法⽤⼀个替代值弥补缺失值,⽽删除法则直接忽略缺失值。在这⾥,我们将考虑插值法。
通过位置索引iloc,我们将data分成inputs和outputs,其中前者为data的前两列,⽽后者为data的最后⼀列。
对于inputs中缺少的数值,我们⽤同⼀列的均值替换“NaN”项。

# 分割数据集为输入和输出
inputs = data.iloc[:, 0:2]  # :表示全部行 0:2表示0-1行即[0,2)左闭右开
outputs = data.iloc[:, 2] # :表示全部行 2表示3行
inputs = inputs.fillna(inputs.mean(numeric_only=True)) # numeric_only=True只计算数字的列 即 NumRooms
print(inputs)

在这里插入图片描述

对于inputs中的类别值或离散值,我们将“NaN”视为⼀个类别。
由于“巷⼦类型”(“Alley”)列只接受两种类型的类别值“Pave”和“NaN”,pandas可以⾃动将此列转换为两列“Alley_Pave”和“Alley_nan”。巷⼦类型为“Pave”的⾏会将“Alley_Pave”的值设置为1,“Alley_nan”的值设置为0。
缺少巷⼦类型的⾏会将“Alley_Pave”和“Alley_nan”分别设置为0和1。

# 处理类别值或离散值
# 类似于one-hot
inputs = pd.get_dummies(inputs, dummy_na=True)
# 将布尔类型转化为float
inputs = inputs.astype(float)
print(inputs)

在这里插入图片描述

  1. 转换为张量格式
    现在inputs和outputs中的所有条⽬都是数值类型,它们可以转换为张量格式。
    当数据采⽤张量格式后,可以通过在引⼊的张量函数来进⼀步操作。
# 转换为张量格式
X = torch.tensor(inputs.values)
y = torch.tensor(outputs.values)
print(X)
print(y)

在这里插入图片描述
总体代码如下:

import pandas as pd
import torch# 从创建的CSV文件中加载原始数据集
data = pd.read_csv('./data/house_tiny.csv')
print(data)# 分割数据集为输入和输出
inputs = data.iloc[:, 0:2]
outputs = data.iloc[:, 2]
inputs = inputs.fillna(inputs.mean(numeric_only=True))
print(inputs)# 处理类别值或离散值
# 类似于one-hot
inputs = pd.get_dummies(inputs, dummy_na=True)
inputs = inputs.astype(float)
print(inputs)# 转换为张量格式
X = torch.tensor(inputs.values)
y = torch.tensor(outputs.values)
print(X)
print(y)

二、复习RNN与LSTM

1. Recurrent Neural Network(RNN,循环神经网络)

槽填充(Slot Filling)
什么是slot filling?
如下图所示
比如有一个智慧订票系统,顾客输入他的行程需求
智慧系统就要提取关键词,填入到slot(目的地、到达时间)
在这里插入图片描述
那这个问题要怎么实现呢?
我们可以用一个feedforward neural network(前馈神经网络)来完成。
input就是一个词汇
在这里插入图片描述

1.1 词汇vector的编码方式

1-of-N encoding
词汇肯定要变成vector来表示,那么我们有最经典的表达方式 1-of-N encoding
即有多少个词汇就有多少个向量;向量的维度等同于词汇的数量
每个词汇表达的方式,如下图所示:
在这里插入图片描述
又或者我们对1-of-N encoding的编码方式做出一些改进
改进方式1:Dimension for “other”
因为我们的词汇实在是太多了,更何况还有一些人名之类的。把所有词汇按照上述方式编排,vector的维度和数量是不敢想象的。
因此我们可以设置一个other来表示其他没有见过的词汇(通过拓展一个dimension来表示other)
在这里插入图片描述
改进方式2:word hashing(字串比对)
可以用某一个词汇的字母来表示它的vector
如果你用某一个词汇的字母的来表示那个vector的话呢,你就不会有某一个词汇不在词典中的问题。

word hashing(字串比对)
仅用于英文中。
具体以bool这个单词为例,分为三个步骤:
1.在bool两端添加临界符#bool#
2.采用n-gram的方式分成多个部分,如果是trigrams那么结果是[#bo, boo, ool, ol#]
3.最终bool将会用[#bo, boo, ool, ol#]的向量来表示
不难发现,hashing后的结果[#bo, boo, ool, ol#] 每个letter长度都是3个字母,因此成为tri-letter。
单词词表很大,很容易出现OOV,OOV(Out-Of-Vocabulary)是指在自然语言处理中遇到的未知单词。
但是word hashing后,词表不再是单词,而是每个letter,也就是词根,这样词表规模就会小很多。

在这里插入图片描述
无论我们用以上哪一种方式,我们都可以将词汇转化为vector作为feedforward neural network的input。
然后output是一个probability distribution(概率分布)
这个probability distribution代表是我们现在input的这个词汇属于每一个slot的几率。
这样就完成了slot filling的任务。
比如TaiBei属于destination的几率 或 属于time of departure的几率
在这里插入图片描述
但是如果单纯的使用feedforward neural network会出现一些问题,如下图所示:

这种有记忆的network叫做RNN(Recurrent Neural Network,循环神经网络)
在RNN中,hidden layer的输出不会被遗忘,而是会被记住。在下一次输出的时候,会连同input与这些hidden layer 的 output一同考虑,最后再输出。
所以即使是相同的内容,在RNN里面受memory里面一些hidden layer output的影响,也会有不同的输出
在这里插入图片描述
假设现在这个下图中的这个network它所有的weight呢都是1,然后所有的neuron都没有任何的bias,所有的activation function都是linear。
那现在假设我们的input是一个sequence
i n p u t s e q u e n c e = [ 1 1 ] [ 1 1 ] [ 2 2 ] … … {\color{Red} input\space sequence= \begin{bmatrix}1 \\1\end{bmatrix}\begin{bmatrix}1 \\1\end{bmatrix}\begin{bmatrix}2 \\2\end{bmatrix}\dots\dots} input sequence=[11][11][22]……
例子如下:

一开始的memory是没东西的,算作是0 0
在这里插入图片描述

在这里插入图片描述
RNN的特别之处就来了,刚刚得出的绿色部分的2会被写入memory中。
在这里插入图片描述
然后会被当做input的一部分
在这里插入图片描述
然后[6,6]放入memory
在这里插入图片描述
以上个结果的计算过程如下:
在这里插入图片描述
具体将其运用到我们刚刚的智慧订票系统,如下:
注:这里不是3个network,而是同1个network在3个不同的时间点被使用了3次

所以即使是同一个Taipei的输入,但是由于memory的内容不同,所以其output的结果也不同。
9
RNN也是可以deep
我们只需把每层的hidden layer的记录在memory,然后再与对应层的input相关联即可
不过input也可能是某一个hidden layer的output罢了。
注:这里不是3个network,而是同一个network在3个不同的时间点被使用了3次
在这里插入图片描述

1.2 RNN的变形

1.Jordan Network
recurrent neural network有不同的变形
我们刚刚学习的是Elman Network(就是记忆hidden layer的值)

而Jordan Network就是把最后output的值记忆下来,然后再倒过去影响input的值。
相比于Elman Network 在Jordan Network里面这个y它是有target的,所以可以比较清楚我们放在memory里面的是什么样的东西。
在这里插入图片描述
2.Bidirectional RNN(双向性RNN)
你input一个句子的话,它就是从句首一直读到句尾
但是它的读取方向也可以是反过来的

可以同时train一个正向的recurrent neural network,又同时train一个逆向的recurrent network
把这两个recurrent neural network的hidden layer拿出来都接给一个output layer,得到最后的y
在这里插入图片描述以此类推,产生y(t+1) 与y(t+2)
在这里插入图片描述

2. Long Short Term Memory(LSTM,长短期记忆网络)

刚才的memory是最简单的
即我们随时都可以把值呢存到memory里面去,也可以随时把值呢从memory里面读出来
但现在比较常用的memory呢,称之为long short term memory(长短期记忆网络)
LSTM通过引入记忆单元(memory cell)和门控机制(gate mechanism),有效地捕捉序列数据中的长期依赖关系。
具体如下:
在这里插入图片描述
更详细的结构如下图所示:
在要被存到cell里面的input叫做z
操控input gate signal叫做zi
操控Forget Gate 叫做zf
注意:Forget Gate有点反直觉,因为我们说等于1的时候一般是开启,等于0的时候一般是关闭。
这里的zf = 1时,表示任然记住原来的值(保留);zf = 0的时候,则忘记原来的值;。

操作Output Gate 叫做zo
假设我们现在cell里面在有这个四个输入之前,它里面已经存了值c
zi、zf跟zo(即控制阀门的input),通过的activation function通常我们会选择sigmoid function。
选择sigmoid方程的意义就是sigmoid方程只是记在0到1之间,而这个0到1之间的值代表了这个gate被打开的程度。
如果activation function的output是1,代表gate是处于被打开的状态;反之,代表这个gate是被关起来的。

在这里插入图片描述

在这里插入图片描述
举个例子说明:
network 只有一个LSTM cell
input都是三维的vector
output都是一维的vector
在这里插入图片描述
如下如所示
在这里插入图片描述
我们带入到刚刚的memory cell模型中,实际做一下运算
3个input值再乘上3个weight的再加上bias,得到activation function 的 input
在这里插入图片描述
在这里插入图片描述
其实我们在学习LSTM的使用,无非就是把neuron换成LSTM就可以了
但是又有所差别
对于LSTM来说,这四个input都不一样**(因为weight和bias不同)**。
一般的neural network只需要部分的参数,但LSTM还要操控另外三个gate,所以它需要四倍的参数。
在这里插入图片描述
但是我们还是无法深刻的体会到Recurrent Neural network的模型。
假设一整排的LSTM里面每一个memory里面都存了一个scalar(值),把所有的scalar接起来就变成了一个vector,写为ct-1
在这里插入图片描述
每一个memory里面存的scalar就代表这个vector里面的一个dimension
在这里插入图片描述
在时间点t时input一个vector xt,把xt乘上一个matrix变成z
z个vector的每一个dimension就代表了操控每一个LSTM的input(就正好是LSTM的memory cell的数量)
第一维就丢给第一个cell,第二维就丢给第二个cell,以此类推。
在这里插入图片描述
xt 也会乘上一个transform 得到zi
同z一样,zi的每一个dimension都会去操控一个memory,不过是操控其input gate
在这里插入图片描述经过xt乘上不同的transform,求出来的zf、zo也同理,分别操控forget gate与output gate
在这里插入图片描述
这四个vector合起来就会去操控这些memory cell的运作
注意:这四个z其实都是vector丢到memory里面的值其实只是每一个vector的一个dimension
因为每一个input的dimension都是不一样的,所以每一个cell input值都会是不一样,但是所有的值是可以共同一起被运算
在这里插入图片描述
计算过程如下:
在这里插入图片描述
这个process就反复的继续下去,在下一个时间点input xt+1 重复上述操作即可。
在这里插入图片描述

2.1 LSTM最终形态

但是这个不是LSTM的最终形态,这个只是一个si3plified version(简化版本)
真正的LSTM会把hidden layer的输出呢接进来,当做下一个时间点的input。
也就是说下一个时间点操控这些gate的值不是只看那个时间点的input xt+1,还看前一个时间点的output ht
在这里插入图片描述
其实还不止这样
还会加一个东西叫做peephole(窥视孔)

peephole(窥视孔)就是把存在memory cell里面的值也拉过来作为input
所以在操纵LSTM的四个gate的时候
同时考虑了x、同时考虑了h、同时考虑了c
把这三个vector并在一起乘上4个不同的transform,得到这四个不同的vector再去操控LSTM。
在这里插入图片描述
通常不会只有一层,一般要叠个五六层,如下图所示
非常复杂
当用RNN做了什么事情的时候,其实就是用LSTM。
在这里插入图片描述

总结

本周因为要准备考试和课程论文,进度缓慢,考试完之后需要加快进度。
本周学习了深度学习的基础知识和操作,内容涵盖了数据操作、数据运算、数据预处理以及循环神经网络(RNN)和长短期记忆网络(LSTM)的复习。在张量的基本操作中,包括张量的创建、形状调整、元素总数计算、初始化和元素赋值。通过使用arange函数,可以创建一个行向量,并讨论了张量元素的默认数据类型及其在内存中的存储方式。我还学习了如何通过shape属性访问张量的形状,以及如何使用numel方法获取张量中元素的总数。此外,还详细介绍了reshape函数的使用,展示了如何调整张量的形状而不改变其元素数量和值。在数据运算部分,学习了张量的算术运算、连结、逻辑运算和求和。通过示例代码,演示了如何对相同形状的张量进行按元素的算术运算。我还学习了如何使用torch.cat函数将多个张量连结在一起,以及如何通过逻辑运算符构建二元张量。此外,我还学习了张量的求和操作,以及广播机制的使用,后者允许在不同形状的张量之间进行逐元素操作。最后,我还学习了如何通过索引和切片访问和修改张量中的元素。包括如何使用负索引选择元素,以及如何为多个元素赋值相同的值。数据预处理部分,学会了使用pandas库对CSV文件中的数据进行读取、处理缺失值、转换为张量格式的步骤,展示了如何将原始数据预处理并转换为适合深度学习模型输入的张量格式。我创建了一个人工数据集,学会了如何使用pandas处理缺失值,包括使用均值填充数值缺失和处理类别值的缺失。最后,在数据预处理部分学会了如何将处理后的数据转换为张量格式,以便于后续的深度学习模型训练。
最后还对RNN和LSTM的基础概念部分进行了复习。
下一周计划动手深度学习内容,学习线性代数和求导的手撕实现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/61859.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ThinkPad t61p 作SMB服务器,打印服务器,pc ,android ,ipad利用此服务器互传文件

1.在t61p上安装win7 2,配置好smb 服务 3.再安装好打印驱动程序 4.pc与win7利用系统的网络互相发现,映射为硬盘使用。 5.android,ipad安装ES文件浏览器访问win7 共享文件夹,互传文件。 6.android手机安装FE文件浏览器,可以利用花生壳外网…

【深度学习之二】正则化函数(weight decay, dropout, label smoothing, and etc)详解,以及不同的函数适用的场景

在深度学习中正则化函数的重要性不言而喻,今天主要总结一些当前常用的一些正则化函数 在深度学习中,正则化(Regularization)是一种防止模型过拟合的技术。过拟合指的是模型在训练数据上表现很好,但在未见过的测试数据…

神经网络(系统性学习二):单层神经网络(感知机)

此前篇章: 神经网络中常用的激活函数 神经网络(系统性学习一):入门篇 单层神经网络(又叫感知机) 单层网络是最简单的全连接神经网络,它仅有输入层和输出层,没有隐藏层。即&#x…

Linux 手动升级软件保姆级教程,适用所有软件,不限于麒麟等国产系统

1、检查软件版本,及是否安装 openssh为例 是否安装 rpm -qa|grep openssh 备份 mv /etc/ssh/ /home/ssh-bakmv /usr/bin/ssh /usr/bin/ssh.bakmv /usr/sbin/sshd /usr/sbin/sshd.bakmv /etc/pam.d/sshd /etc/pam.d/sshd.old2、机器如果不在身边,机器…

【大数据学习 | Spark-Core】Spark的改变分区的算子

当分区由多变少时,不需要shuffle,也就是父RDD与子RDD之间是窄依赖。 当分区由少变多时,是需要shuffle的。 但极端情况下(1000个分区变成1个分区),这时如果将shuffle设置为false,父子RDD是窄依赖关系&…

java操作doc——java利用Aspose.Words操作Word文档并动态设置单元格合并

在实际工作中,如果业务线是管理类项目或者存在大量报表需要导出的业务时,可以借助第三方插件实现其对应功能。 尤其是需要对word文档的动态操作或者模板数据的定向合并,使用Aspose会相对来说容易一些,而且相关文档比较完整&#…

电商一件发货软件闲管家使用教程

闲鱼闲管家是一款专为闲鱼卖家设计的电脑版工作台,旨在帮助卖家更高效地管理其在闲鱼平台上的业务。以下是关于闲鱼闲管家的一些主要特点和功能: 主要特点: 多账号管理:支持同时管理多达30个闲鱼账号,方便大型卖家或…

Docker Seata分布式事务保护搭建 DB数据源版搭建 结合Nacos服务注册

介绍 Seata(Simple Extensible Autonomous Transaction Architecture)是一个开源的分布式事务解决方案,旨在为微服务架构中的分布式系统提供事务管理支持。Seata 通过提供全局事务管理,帮助开发者在分布式环境中保持数据一致性 …

HTB:WifineticTwo[WriteUP]

目录 连接至HTB服务器并启动靶机 信息搜集 使用rustscan对靶机TCP端口进行开放扫描 使用nmap对靶机开放端口进行脚本、服务扫描 使用curl访问靶机8080端口 使用浏览器直接访问/login路径 漏洞利用 使用searchsploit搜索该WebAPP漏洞 Payload USER_FLAG:bb…

【MySQL课程学习】:MySQL安装,MySQL如何登录和退出?MySQL的简单配置

🎁个人主页:我们的五年 🔍系列专栏:MySQL课程学习 🌷追光的人,终会万丈光芒 🎉欢迎大家点赞👍评论📝收藏⭐文章 目录 MySQL在Centos 7环境下的安装: 卸载…

oracle如何配置第二个监听优化数据传输

oracle如何配置第二个监听优化数据传输 服务器两个网卡,配置两个不同IP和端口的监听。 归档日志量每天很大,为了不影响业务,需要配置一个单独的万兆网络来专门的传输归档日志到DG库,这里就涉及到在19c中增加一个监听用来使用专门…

Feed流系统重构:架构篇

重构对我而言,最大的乐趣在于解决问题。我曾参与一个C#彩票算奖系统的重构,那时系统常因超时引发用户投诉。接手任务时,我既激动又紧张,连续两天几乎废寝忘食地编码。结果令人振奋,算奖时间从一小时大幅缩短至十分钟。…

【Linux驱动开发】驱动中的信号 异步通知开发

【Linux驱动开发】驱动中的信号 异步通知开发 文章目录 应用中的信号驱动中的信号应用程序接收驱动信号附录:嵌入式Linux驱动开发基本步骤开发环境驱动文件编译驱动安装驱动自动创建设备节点文件 驱动开发驱动设备号地址映射,虚拟内存和硬件内存地址字符…

单片机智能家居火灾环境安全检测-分享

目录 前言 一、本设计主要实现哪些很“开门”功能? 二、电路设计原理图 电路图采用Altium Designer进行设计: 三、实物设计图 四、程序源代码设计 五、获取资料内容 前言 传统的火灾报警系统大多依赖于简单的烟雾探测器或温度传感器,…

Java开发经验——系统日志问题

摘要 本文讨论了Java开发中的系统日志设置问题,特别是性能优化。文章分析了使用占位符记录slowString的耗时问题,并提出了使用lambda表达式和Log4j2 API来延迟参数内容获取,以解决性能问题。同时,文章还提到了SLF4J适配器的好处&…

mysql | limit X, -1 早已不可使用,本身也是一个错误

一、背景 需求:使用 mysql 时,需要获取第 X 条数据之后的所有数据。 这时,首先想到的就是利用 limit 来实现。 早期的部分文章或者资料中,提到可以使用: limit X,-1 例如,获取第一条后的所有数据&…

C++:探索AVL树旋转的奥秘

文章目录 前言 AVL树为什么要旋转?一、插入一个值的大概过程1. 插入一个值的大致过程2. 平衡因子更新原则3. 旋转处理的目的 二、左单旋1. 左单旋旋转方式总处理图2. 左单旋具体会遇到的情况3. 左单旋代码总结 三、右单旋1. 右单旋旋转方式总处理图2. 右单旋具体会遇…

排序算法(选择排序、直接插入排序、冒泡排序、二路归并排序)(C语言版)

对数组进行排序,主要演示选择排序、直接排序、冒泡排序、二路归并排序算法,附上代码演示 一、编写好各类排序方法的函数 (1) s_sort(int e[],int n):选择排序。 (2)si_sort(int e[],int n):直接插人排序。…

当产业经济插上“数字羽翼”,魔珐有言AIGC“3D视频创作大赛”成功举办

随着AI技术的飞速发展,3D数字人技术已成为驱动各行各业转型升级的重要力量。在这一背景下,2024山东3D数字人视频创作大赛应运而生,并在一番激烈的角逐后圆满落幕,为科技与创意的交融写下浓墨重彩的一笔。 11月20日,一…

Unity-添加世界坐标系辅助线

如果你想在场景中更直观地显示世界坐标系,可以通过编写一个简单的脚本来实现。下面是一个基本的示例脚本,它会在场景中绘制出世界坐标系的三个轴: using UnityEngine;public class WorldAxesIndicator : MonoBehaviour {public float length…