pytorch说明

深度学习中的重要概念:

激活函数:

  1. 激活函数的必要性:激活函数不是绝对必须的,但在深度学习中,它们几乎总是被使用。激活函数可以引入非线性,这使得神经网络能够学习更复杂的模式。

  2. 激活函数的位置:激活函数通常放在线性层(如全连接层)之后。这样做可以引入非线性,否则,无论有多少层,整个网络的运算都可以被简化为一个单一的线性变换。

  3. 激活函数的选择:激活函数的选择和放置通常取决于具体的应用和网络架构。有些网络架构可能会在某些层之前或之后使用不同的激活函数。

损失函数:

  1. 损失函数的作用:损失函数用于衡量模型的预测与真实值之间的差异。训练过程中,目标是最小化损失函数,从而提高模型的预测准确性。

  2. 常用的损失函数

    • 均方误差(MSE):常用于回归问题。
    • 交叉熵损失(Cross-Entropy Loss):常用于分类问题。
    • Hinge Loss:用于支持向量机(SVM)。
    • Categorical Cross-Entropy Loss:用于多分类问题。
    • Binary Cross-Entropy Loss:用于二分类问题。
  3. 分类问题和回归问题的损失函数

    • 分类问题:通常使用交叉熵损失,特别是对于多分类问题使用Categorical Cross-Entropy Loss,对于二分类问题使用Binary Cross-Entropy Loss。
    • 回归问题:通常使用均方误差损失。

前向传播和反向传播:

  1. 前向传播:指的是数据在神经网络中的正向流动,即从输入层经过每一层的计算,直到输出层。

  2. 反向传播:是与前向传播相对的过程,用于计算损失函数相对于网络参数的梯度。这是通过链式法则完成的,从输出层开始,逆向传递至输入层。

  3. 为什么使用PyTorch要定义前向传播:在PyTorch中,定义forward函数是为了指定模型如何接收输入并产生输出。PyTorch自动处理反向传播,但需要用户定义前向传播的逻辑。

  4. 梯度计算的位置:梯度计算是在反向传播的过程中进行的。在前向传播过程中,我们计算模型的输出;在反向传播过程中,我们计算如何调整模型的参数以减少损失。

重要概念,构成深度学习的基础: 

  1. 神经网络架构

    包括不同类型的网络层(如卷积层、循环层、池化层等)和它们如何组合在一起形成完整的模型。
  2. 权重和偏置

    神经网络中的参数,权重决定了连接的强度,偏置则用于调整激活输出的阈值
  3. 正则化

    技术,如L1和L2正则化,用于防止模型过拟合,通过惩罚大的权重值来鼓励更简单的模型。
  4. 优化算法

    如梯度下降(及其变体,如SGD、Adam、RMSprop等),用于在训练过程中更新模型的参数。
  5. 批量处理

    将数据分成小批量进行训练,可以提高内存效率并有助于提高模型的泛化能力
  6. 过拟合欠拟合

    过拟合发生在模型在训练数据上表现很好,但在新数据上表现差;欠拟合则是模型在训练数据上表现不足。
  7. 超参数

    模型训练前需要设置的参数,如学习率、批量大小、训练轮数等,它们对模型性能有重要影响。
  8. 特征提取

    从原始数据中提取有用信息的过程,特征的好坏直接影响模型的性能。
  9. 数据增强

    通过对训练数据进行变换(如旋转、缩放、裁剪等)来增加数据多样性,减少过拟合。
  10. 模型评估

    使用验证集和测试集来评估模型性能,常用的评估指标包括准确率、精确率、召回率、F1分数等。
  11. 迁移学习

    利用在一个任务上训练好的模型来解决另一个相关任务的技术。
  12. 模型部署

    将训练好的模型集成到应用程序中,使其能够对新数据做出预测。
  13. 计算图

    描述了操作和它们相互之间依赖关系的图,用于自动微分和梯度计算。
  14. 损失景观和优化景观

    损失函数和优化算法在参数空间中的表现,包括局部最小值、全局最小值和鞍点。
  15. 注意力机制

    一种让模型集中于输入数据的特定部分的技术,广泛应用于序列模型中。

自动求导机制: 

  1. requires_grad 属性:这个属性用来标记变量是否需要计算梯度。如果一个变量的 requires_gradTrue,那么在反向传播时会计算其梯度。如果所有输入变量都不需要梯度,则输出也不需要梯度。

  2. volatile 属性:用于纯粹的推理模式,可以提高效率,因为它使用最少的内存。如果输入是 volatile,那么输出也是 volatile,且 requires_gradFalsevolatile 属性比 requires_grad 更容易传递。

  3. 自动求导的编码历史:每个变量都有一个 .creator 属性,指向创建它的函数。这些函数形成了一个有向无环图(DAG),用于在反向传播时计算梯度。

  4. In-place 操作:在自动求导中,不鼓励使用 in-place 操作,因为它们可能会覆盖梯度计算所需的值,或者需要重写计算图。

  5. In-place 正确性检查:每个变量有一个版本计数器,每次使用时递增。如果版本计数器的值大于保存的值,将引发错误。

示例:

假设我们有一个简单的神经网络模型,我们想要训练它。在这个过程中,我们会使用 requires_grad 来控制梯度的计算。

import torch 
import torch.nn as nn 
# 定义一个简单的模型 
model = nn.Sequential( nn.Linear(10, 5), nn.ReLU(), nn.Linear(5, 2) ) 
# 假设我们已经有了一些数据 
inputs = torch.randn(1, 10, requires_grad=True)
# 输入数据,需要梯度
outputs = model(inputs) 
# 前向传播 
# 假设我们有正确的输出 
targets = torch.tensor([1.0, 0.0])
# 计算损失 
loss = (outputs - targets).pow(2).sum() 
# 均方误差损失 # 反向传播,计算梯度 
loss.backward() 
# 打印第一个线性层的梯度 
print(model[0].weight.grad)

 运行结果:

在这个例子中,我们创建了一个简单的模型,并对其进行了前向传播。我们设置了输入数据的 requires_grad 属性为 True,这样在计算损失并调用 backward() 方法时,PyTorch 会自动计算梯度。最后,打印了第一个线性层的梯度,这是自动求导机制的直接应用。

这段文字主要介绍了在使用PyTorch和CUDA进行深度学习时的一些最佳实践和概念。我会用简单的语言解释这些概念,并提供一个示例。

CUDA语义解释:

  1. GPU选择torch.cuda会记录当前选择的GPU,所有通过它创建的张量都会在该GPU上。

  2. 设备无关操作:一旦张量被分配到某个GPU,你可以在任何设备上对其进行操作,结果会自动放在与张量相同的设备上。

  3. 跨GPU操作限制:默认情况下,不支持在不同GPU上的张量之间进行操作,除非启用了对等存储器访问。

  4. 上下文管理器:使用torch.cuda.device可以临时更改所选的GPU设备。

示例:

import torch# 选择GPU 0
x = torch.cuda.FloatTensor(1)# 将一个CPU上的张量复制到GPU 0
y = torch.FloatTensor(1).cuda()# 使用上下文管理器选择GPU 1
with torch.cuda.device(1):# 在GPU 1上创建张量aa = torch.cuda.FloatTensor(1)# 将CPU上的张量复制到GPU 1b = torch.FloatTensor(1).cuda()# 张量a和b都在GPU 1上,可以进行操作c = a + b  # c也在GPU 1上# 尝试将GPU 0上的x和GPU 1上的y相加,需要先复制到同一个GPUz = x.cuda(1) + y.cuda(1)  # z现在也在GPU 1上# 即使在GPU 1的上下文中,也可以指定将张量分配到其他GPU
d = torch.randn(2).cuda(2)  # d在GPU 2上

最佳实践:

  1. 固定内存缓冲区:使用pin_memory()方法可以提高从CPU到GPU的数据传输速度。

  2. 异步GPU副本:一旦固定了张量,可以使用异步复制来提高效率。

  3. DataLoader的固定内存:通过设置pin_memory=True,可以让DataLoader返回固定内存中的batch

  4. 使用nn.DataParallel替代多进程:在多GPU环境中,使用DataParallel可以更简单地并行化模型。

  5. 多进程注意事项:使用多进程来利用CUDA模型时,需要特别注意,以避免错误或未定义的行为。

示例:

# 假设我们有一个简单的模型 
model = torch.nn.Linear(10, 5).cuda() 
# 创建一个固定内存的张量 
input_data = torch.randn(32, 10).pin_memory() 
# 异步复制到GPU input_data_gpu = input_data.cuda(async=True) 
# 进行前向传播 output = model(input_data_gpu) 
# 使用DataLoader时设置pin_memory=True 
from torch.utils.data import DataLoader,TensorDataset 
dataset = TensorDataset(torch.randn(100, 10)
torch.randint(0, 2, (100,)))
dataloader = DataLoader(dataset, batch_size=32, pin_memory=True) 
for inputs,labels in dataloader:
# inputs已经在固定内存中,可以直接用于GPU操作 outputs = model(inputs.cuda())

这个示例展示了如何在PyTorch中使用固定内存和异步复制来提高数据传输的效率,以及如何使用DataLoaderpin_memory选项。

扩展 torch.autograd

  1. 继承 Function 类:要扩展自动求导系统,你需要创建一个新的操作(Operation),这需要继承class Function

  2. 实现三个方法

    • __init__:如果操作需要额外的参数,可以在这个方法中初始化。
    • forward:执行操作的代码,参数是Variable,返回值可以是VariableVariable的元组。
    • backward:计算梯度的方法,参数是传回操作的梯度,返回值是每个输入的梯度。

示例:

假设我们要实现一个简单的平方操作:

import torchclass SquareFunction(torch.autograd.Function):@staticmethoddef forward(ctx, input):ctx.save_for_backward(input)  # 保存输入用于backwardreturn input ** 2@staticmethoddef backward(ctx, grad_output):input, = ctx.saved_tensors  # 获取保存的输入return 2 * input * grad_output  # 梯度是2倍的输入值乘以输出的梯度

使用这个自定义操作:

def square(input):return SquareFunction.apply(input)x = torch.tensor([2.0], requires_grad=True)
y = square(x)
print(y)  # 输出 4
y.backward()  # 计算梯度
print(x.grad)  # 输出 4,因为梯度是 2 * x

扩展 torch.nn

  1. 使用 modules:当你需要保存参数和buffer时,使用nn.Module

  2. 实现两个方法

    • __init__:初始化模块的参数。
    • forward:使用Function执行操作。

示例:

使用上面实现的SquareFunction,我们可以创建一个nn.Module

class SquareModule(torch.nn.Module):def __init__(self):super(SquareModule, self).__init__()def forward(self, x):return square(x)  # 使用自定义的SquareFunction

使用这个模块:

square_module = SquareModule()
x = torch.tensor([2.0], requires_grad=True)
y = square_module(x)
print(y)  # 输出 4
y.backward()  # 计算梯度
print(x.grad)  # 输出 4

测试梯度正确性

使用torch.autograd.gradcheck可以检查你的梯度实现是否正确:

from torch.autograd import gradcheckinput = torch.randn(2, 2, requires_grad=True)
test = gradcheck(SquareFunction.apply, input, eps=1e-6, atol=1e-4)
print(test)  # 如果梯度正确,输出 True

这个示例展示了如何扩展PyTorch的自动求导系统和nn模块,并提供了一个简单的平方操作示例

结果:

多进程编程

主要概念:

  1. torch.multiprocessing:是Python的multiprocessing模块的扩展,它允许在进程间共享张量。

  2. 共享张量:当一个Variable被发送到另一个进程时,它的datagrad.data都会被共享。

  3. CUDA张量共享:仅在Python 3中使用spawnforkserver启动方法时才支持。

  4. 避免死锁:多进程编程时,要避免死锁,特别是由于后台线程引起的死锁。

  5. 重用缓冲区:在多进程中,应重用通过队列传递的张量,以避免不必要的内存复制。

  6. 异步多进程训练:可以使用torch.multiprocessing进行异步训练,参数可以共享或定期同步。

  7. 使用队列传递对象:建议使用multiprocessing.Queue在进程间传递PyTorch对象。

  8. Hogwild:一种并行训练方法,允许多个进程同时更新共享模型参数。

示例:

下面是一个简单的示例,展示了如何使用torch.multiprocessing来并行执行一个简单的计算任务:

# my_module.py
import torchdef compute_sum(x):return torch.sum(x)# main.py
import torch.multiprocessing as mp
from my_module import compute_sum  # 确保从模块中导入函数def main():tensors = [torch.randn(10) for _ in range(4)]with mp.Pool(processes=4) as pool:results = pool.map(compute_sum, tensors)for result in results:print(result)if __name__ == '__main__':main()

在这个示例中,我们定义了一个compute_sum函数,它接受一个张量并返回它的和。然后,我们创建了4个随机张量,并使用mp.Pool来创建一个进程池。通过pool.map方法,我们可以并行地计算每个张量的和。

注意事项:

  • 使用if __name__ == '__main__':来保护代码,以确保它只在主进程中执行,而不是在每个子进程中执行。
  • 当使用fork启动方法时,要注意全局解释器锁(GIL)和共享内存的问题。
  • 在多进程编程中,要特别注意避免死锁和内存管理问题。

序列化pytorch模型:

是将对象的状态信息转换为可以存储或传输的形式的过程。在PyTorch中,序列化通常用于保存和加载模型。以下是一些关于序列化PyTorch模型的最佳实践:

推荐方法:保存和加载模型参数

  1. 保存模型参数: 使用state_dict()方法可以获取模型的所有参数,然后使用torch.save()保存到文件。

    torch.save(the_model.state_dict(), 'model_parameters.pth')

  2. 加载模型参数: 首先,你需要实例化模型(这会恢复模型架构)。然后,使用load_state_dict()方法加载保存的参数。

    the_model = TheModelClass(*args, **kwargs)
    the_model.load_state_dict(torch.load('model_parameters.pth'))

    优点

    • 灵活性:只保存参数,不关心模型的类定义或目录结构,可以在任何具有相同模型架构的项目中使用。
    • 兼容性:参数字典可以在不同的模型架构或不同的代码库中重用。

         缺点

  1. 需要重新实例化模型:在使用模型参数之前,需要先实例化模型的架构。如果模型的构造函数或参数设置较为复杂,这可能会增加一些额外的工作。

  2. 状态丢失:除了模型参数之外的其他状态(如训练轮次、优化器状态等)不会保存。如果需要这些额外的状态信息,需要单独处理。

  3. 依赖于模型类:加载参数时需要有正确的模型类定义。如果模型类在之后的开发中被修改或重命名,可能会导致加载失败。

另一种方法:保存和加载整个模型

  1. 保存整个模型: 直接保存模型对象,包括其参数和架构。

    torch.save(the_model, 'complete_model.pth')

  2. 加载整个模型: 直接从文件加载模型对象。

    the_model = torch.load('complete_model.pth')
    优点:
    1. 简便性:可以直接保存和加载整个模型对象,包括其参数、架构以及优化器状态等,无需单独处理。2. 保持状态:模型的额外状态(如训练轮次、优化器状态)也会被保存和恢复,这对于恢复训练非常有用。3. 无需重新实例化:加载模型时,不需要担心模型的构造和初始化问题,直接从保存的状态中恢复。4. 适用于复杂模型:对于具有复杂依赖或多组件的模型,保存整个模型可以避免重新实例化时的复杂性。5. 快速迁移:在需要快速迁移模型到不同环境或项目时,只需加载整个模型,而不需要关心模型的具体实现细节。缺点:
    1.耦合性保存的数据与特定的类和目录结构绑定,如果模型类或项目结构发生变化,可能会导致序列化的数据无法使用2.重构风险在项目重构后,加载整个模型可能会遇到问题,因为依赖的类和方法可能已经改变。

示例

假设我们有一个简单的模型:

class SimpleModel(torch.nn.Module):def __init__(self):super(SimpleModel, self).__init__()self.linear = torch.nn.Linear(10, 5)def forward(self, x):return self.linear(x)

使用推荐的方法保存和加载模型参数:

# 保存模型参数
model = SimpleModel()
model_path = 'simple_model_parameters.pth'
torch.save(model.state_dict(), model_path)# 加载模型参数
model = SimpleModel()  # 实例化一个新的模型
model.load_state_dict(torch.load(model_path))

使用第二种方法保存和加载整个模型:

# 保存整个模型
complete_model_path = 'simple_complete_model.pth'
torch.save(model, complete_model_path)# 加载整个模型
model = torch.load(complete_model_path)

注意事项

  • 当使用torch.load()加载模型时,确保在调用之前已经实例化了模型对象。
  • 如果使用GPU训练模型,可以使用map_location参数将模型参数映射到CPU或指定的GPU。
  • 保存和加载模型时,注意文件路径和模型的版本兼容性。

通过遵循这些最佳实践,可以确保模型的序列化过程既灵活又安全。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/46006.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用HTML和CSS实现提示工具(tooltip)及HTML元素的定位

所谓提示工具,是指将鼠标移动到某个HTML元素(工具)时会显示一些提示内容(提示文本),而鼠标移出工具元素的范围时提示文本就消失了。考虑到提示文本元素应当在鼠标进入工具元素时显示,鼠标离开工…

Mac安装stable diffusion 工具

文章目录 1.安装 Homebrew2.安装 stable diffusion webui 的依赖3.下载 stable diffusion webui 代码4.启动 stable diffusion webui 本体5.下载模型6.这里可能会遇到一个clip-vit-large-patch14报错 参考:https://brew.idayer.com/install/stable-diffusion-webui/…

STM32入门开发操作记录(二)——LED与蜂鸣器

目录 一、工程模板二、点亮主板1. 配置寄存器2. 调用库函数 三、LED1. 闪烁2. 流水灯 四、蜂鸣器 一、工程模板 参照第一篇,新建工程目录ProjectMould,将先前打包好的Start,Library和User文件^C^V过来,并在Keil5内完成器件支持包的…

jenkins系列-01.docker安装jenkins

进入官网:https://www.jenkins.io/ 使用LONG term support版本:2.387.1 docker pull jenkins/jenkins:2.387.1-lts 拉取镜像: 编写docker-compose文件: 启动jenkins: 查看启动日志: 默认生成的密码:…

基于springboot+vue+uniapp的超市购物系统小程序

开发语言:Java框架:springbootuniappJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包&#…

LeetCode 142.环形链表2 C写法

LeetCOde 142.环形链表2 C写法 思路1🤔: ​ 用环形链表的方法,快慢指针找到slow和fast的相遇点,此时头到入口点的位置与相遇点到入口点的距离一样。 ​ 我们假设头到入口点的长度为L,环的长度为C,相遇点到入…

Rust 测试的组织结构

测试的组织结构 本章一开始就提到,测试是一个复杂的概念,而且不同的开发者也采用不同的技术和组织。Rust 社区倾向于根据测试的两个主要分类来考虑问题:单元测试(unit tests)与 集成测试(integration test…

负荷预测 | Matlab基于Transformer-LSTM多变量时间序列多步预测

目录 效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.Matlab基于Transformer-LSTM多变量时间序列多步预测; 2.多变量时间序列数据集(负荷数据集),采用前96*2个时刻预测的特征和负荷数据预测未来96个时刻的负荷数据&#x…

记一次饱经挫折的阿里云ROS部署经历

前言 最近在参加的几个项目测评里,我发现**“一键部署”这功能真心好用,省下了不少宝贵时间和力气,再加上看到阿里云现在有个开源上云**的活动。趁着这波热潮,今天就聊聊怎么从头开始,一步步搞定阿里云的资源编排服务…

【持续集成_06课_Jenkins高级pipeline应用】

一、创建项目选择pipeline的风格 它主要是以脚本(它自己的语言)的方式进行运行,一般由运维去做的事情,作为测试而言。了解即可。 --- 体现形式全部通过脚本去实现:执行之前(拉取代码)执行&…

Linux:Linux网络总结(附下载链接)

文章目录 下载链接网络问题综合问题访问一个网页的全过程?WebSocket HTTPHTTP基本概念GET与POSTHTTP特性HTTP缓存技术HTTP的演变HTTP1.1 优化 HTTPSHTTP与HTTPS有哪些区别?HTTPS解决了HTTP的哪些问题?HTTPS如何解决的?HTTPS是如何…

# Redis 入门到精通(二)通用指令

Redis 入门到精通(二)通用指令 一、redis 通用指令-key 基本操作 1、key 特征 key是一个字符串,通过key获取redis中保存的数据。 2、key 应该设计哪些操作? 对于 key 自身状态的相关操作,例如:删除,判定存在&…

企业网络实验(vmware虚拟机充当DHCP服务器)所有IP全部保留,只为已知mac分配固定IP

文章目录 需求实验修改dhcp虚拟机配置文件测试PC获取IP查看user-bind 需求 (vmware虚拟机充当DHCP服务器)所有IP全部保留,只为已知mac分配固定IP 实验 前期配置: https://blog.csdn.net/xzzteach/article/details/140406092 后续配置均在以上配置的前…

keepalive和haproxy

1、keepalive 1.1概念 调度器的高可用 vip地址主备之间的切换,主在工作时,vip地址只在主上,主停止工作,vip漂移到备服务器 在主备的优先级不变的情况下,主恢复工作,vip会飘回到主服务器 1、配优先级 …

【RabbitMQ】一文详解消息可靠性

目录: 1.前言 2.生产者 3.数据持久化 4.消费者 5.死信队列 1.前言 RabbitMQ 是一款高性能、高可靠性的消息中间件,广泛应用于分布式系统中。它允许系统中的各个模块进行异步通信,提供了高度的灵活性和可伸缩性。然而,这种通…

.NET MAUI开源架构_1.学习资源分享

最近需要开发Android的App,想预研下使用.NET开源架构.NET MAUI来开发App程序。因此网上搜索了下相关资料,现在把我查询的结果记录下,方便后面学习。 1.官方文档 1.1MAUI官方学习网站 .NET Multi-Platform App UI 文档 - .NET MAUI | Micro…

Open-TeleVision——通过VR沉浸式感受人形机器人视野:兼备远程控制和深度感知能力

前言 7.3日,我司七月在线(集AI大模型职教、应用开发、机器人解决方案为一体的科技公司)的「大模型机器人(具身智能)线下营」群里的一学员发了《Open-TeleVision: Teleoperation with Immersive Active Visual Feedback》这篇论文的链接,我当时快速看了一…

shell脚本之if/case语句

一、条件测试 1、1 返回码 $? $? :返回码,用来判断命令或者脚本是否执行成功。 0 :表示true ,成功;非0 则表示flase ,失败。 1、2 test命令 可以进行条件测试,然后根据返回值来判断条件是否成立 -e…

RISC-V异常处理流程概述(2):异常处理机制

RISC-V异常处理流程概述(2):异常处理机制 一、异常处理流程和异常委托1.1 异常处理流程1.2 异常委托二、RISC-V异常处理中软件相关内容2.1 异常处理准备工作2.2 异常处理函数2.3 Opensbi系统调用的注册一、异常处理流程和异常委托 1.1 异常处理流程 发生异常时,首先需要执…

4、linux相关基础知识

1、gcc编译过程 .c通过编译生成.o文件,.out目标文件进过链接生成.so库文件。 2、在C中可以使用system(("mkdir -p "path).c_str())创建目录。c_str()把string转化为c字符串,便于system命令识别,system命令会新启动一个进程来创建文…