【深度学习】使用硬件加速模型训练速度

一、 单机器单GPU

特点
  • 配置简单:无需多 GPU 或分布式环境的复杂配置,适合资源有限的场景。
  • 适合小规模模型:对于计算量不大的模型(如中小型 CNN、RNN),单 GPU 可以处理大多数常见任务。
优势
  • 简单易用:适合深度学习初学者以及较小规模的实验。
  • 无需并行配置:仅需设置一个 GPU,代码和数据同步操作也更简单。
实现方法
  • 常用框架:可以直接在代码中指定 GPU 使用,如 TensorFlow 的 with tf.device('/GPU:0') 或 PyTorch 的 model.to('cuda')
  • 适用场景:适合开发和调试中小规模模型,以及在本地进行初步实验。

PyTorch 示例:

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset
from torch.cuda.amp import autocast, GradScaler# 检查是否有 GPU 可用
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")# 示例模型(简单的多层感知机)
class SimpleModel(nn.Module):def __init__(self):super(SimpleModel, self).__init__()self.fc1 = nn.Linear(10, 50)self.fc2 = nn.Linear(50, 1)def forward(self, x):x = torch.relu(self.fc1(x))x = self.fc2(x)return x# 创建模型并将其加载到 GPU
model = SimpleModel().to(device)# 创建数据集和数据加载器
X = torch.randn(1000, 10)
y = torch.randn(1000, 1)
dataset = TensorDataset(X, y)
dataloader = DataLoader(dataset, batch_size=32, shuffle=True, num_workers=4, pin_memory=True)# 定义损失函数和优化器
criterion = nn.MSELoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)# 训练循环
epochs = 5
for epoch in range(epochs):# 使用 PyTorch 的 AMP 自动混合精度训练scaler = GradScaler()for inputs, targets in dataloader:inputs, targets = inputs.to(device), targets.to(device)with autocast():outputs = model(inputs)loss = criterion(outputs, targets)scaler.scale(loss).backward()scaler.step(optimizer)scaler.update()print(f"Epoch {epoch + 1}/{epochs}, Loss: {loss.item()}")
示例说明
  • dataloader = DataLoader(dataset, batch_size=32, shuffle=True, num_workers=4, pin_memory=True)

    pin_memory=True 时,DataLoader 将把数据加载到页锁定内存中,使得从 CPU 到 GPU 的传输更加高效。
    并发流程:

    1. 批次准备:4 个 CPU 进程在 DataLoader 中并发从数据集加载数据,并执行数据增强、预处理,将数据固定在内存中。
    2. 数据传输:CPU 将批次数据通过 PCIe 通道传输到 GPU 的显存。
    3. GPU 执行计算:GPU 在显存中运行当前批次的前向传播和反向传播。
    4. 并发准备下一个批次:在 GPU 计算当前批次的过程中,CPU 上的 DataLoader 进程已经开始准备下一个批次数据。
    5. 重复以上过程:CPU 和 GPU 以此方式并行处理每个批次,避免 GPU 等待数据传输,提升整体训练速度。
  • amp(包含 autocastGradScaler):提供完整的混合精度训练方案,包含 autocast 的精度选择和 GradScaler 的梯度缩放,能保证训练的数值稳定性。

二、 单机器多GPU

在单台机器上配置多个 GPU,可以通过数据并行、模型并行和管道并行等策略实现多 GPU 训练。

1. 数据并行(Data Parallelism)

数据并行是最常用的多 GPU 训练策略,将数据划分到不同的 GPU 上,并在每个 GPU 上独立地计算前向传播和反向传播。每个 GPU 得到的梯度会在同步步骤中合并,更新全局模型参数。

  • 工作流程
    1. 将批次数据划分到不同的 GPU 上。
    2. 每个 GPU 独立计算前向和反向传播,生成局部梯度。
    3. 汇总所有 GPU 的梯度,更新全局模型参数。
  • 适用场景:适合数据量大、模型规模适中的场景,是目前最常用的并行训练方式。
代码示例

PyTorch提供了多种方式来实现多GPU训练,常用的方法是使用 torch.nn.DataParalleltorch.nn.parallel.DistributedDataParallel

    1. 使用 torch.nn.DataParallel

DataParallel 是一种简单直接的多GPU训练方法,适合小规模的多GPU训练任务。它会自动将数据分配到多个GPU上,并将每个GPU的输出合并。

import torch
import torch.nn as nn
from torch.utils.data import DataLoader# 定义模型
model = MyModel()# 将模型包装成多GPU模型
if torch.cuda.device_count() > 1:print(f"使用 {torch.cuda.device_count()} 个 GPU 进行训练")model = nn.DataParallel(model)# 将模型移动到GPU
model = model.cuda()# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters())# 加载数据
dataset = MyDataset()
dataloader = DataLoader(dataset, batch_size=32, shuffle=True)# 训练循环
for epoch in range(num_epochs):for data, target in dataloader:data, target = data.cuda(), target.cuda()# 前向传播output = model(data)loss = criterion(output, target)# 反向传播和优化optimizer.zero_grad()loss.backward()optimizer.step()print(f"Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item()}")
    1. 使用 torch.nn.parallel.DistributedDataParallel

DistributedDataParallel (DDP) 是一种更高效的分布式训练方式,推荐在多GPU和分布式训练任务中使用,尤其适合更大规模的训练。

在单机器多GPU的情况下,也可以用DDP,它会在每个GPU上启动一个进程来进行并行计算。以下是使用DDP的代码示例。

设置DDP的关键步骤
  1. 设置进程组:使用 torch.multiprocessing 来启动多个进程,每个进程对应一个GPU。
  2. 初始化DDP模型:用 DistributedDataParallel 包装模型。
  3. 数据划分:使用 DistributedSampler 来分配数据到不同的进程。
  4. 运行代码:需通过torch.multiprocessing.spawn启动多进程。或者直接使用torchrun 命令启动脚本python -m torchrun --nproc_per_node=NUM_GPUS_YOU_HAVE your_script.py --arg1 --arg2
import torch
import torch.nn as nn
import torch.multiprocessing as mp
import torch.distributed as dist
from torch.utils.data import DataLoader, DistributedSampler# 初始化进程函数
def train(rank, world_size):# 初始化进程组dist.init_process_group("nccl", rank=rank, world_size=world_size)torch.cuda.set_device(rank)# 定义模型,并移动到相应GPUmodel = MyModel().to(rank)model = nn.parallel.DistributedDataParallel(model, device_ids=[rank])# 定义损失函数和优化器criterion = nn.CrossEntropyLoss().to(rank)optimizer = torch.optim.Adam(model.parameters())# 创建数据集和分布式采样器dataset = MyDataset()sampler = DistributedSampler(dataset, num_replicas=world_size, rank=rank, shuffle=True)dataloader = DataLoader(dataset, batch_size=32, sampler=sampler)# 训练循环for epoch in range(num_epochs):sampler.set_epoch(epoch)  # 每个epoch设定不同的采样for data, target in dataloader:data, target = data.to(rank), target.to(rank)# 前向传播output = model(data)loss = criterion(output, target)# 反向传播和优化optimizer.zero_grad()loss.backward()optimizer.step()if rank == 0:  # 只在主进程上打印print(f"Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item()}")# 清理进程组dist.destroy_process_group()# 主函数
if __name__ == "__main__":world_size = torch.cuda.device_count()  # 获取可用GPU数量mp.spawn(train, args=(world_size,), nprocs=world_size, join=True)
解释
  • train 函数中包含了每个进程需要执行的代码,rank表示每个GPU对应的编号。
  • DistributedDataParallel 在每个GPU上创建一个独立的模型副本,且 device_ids 参数指定了每个模型副本运行的设备。
  • DistributedSampler 将数据分配给每个进程,以确保在多进程中数据不会重复。
2. 模型并行(Model Parallelism)

模型并行是指将模型的不同部分分配到不同的 GPU 上,每个 GPU 只负责一部分模型的计算。这种方法适合非常大的模型,单个 GPU 无法容纳所有参数时使用。

  • 工作流程
    1. 将模型划分成多个子部分(如按层或模块)。
    2. 数据在 GPU 间传递,每个 GPU 负责一个模型部分的前向和反向传播。
  • 适用场景:适合超大规模模型(如 GPT-3),在单个 GPU 内存不足以容纳全部参数时使用。
3. 管道并行(Pipeline Parallelism)

管道并行是一种结合数据并行和模型并行的方式,将模型分成多个阶段,数据分批次流经每个阶段的不同 GPU,从而在多个 GPU 之间形成“流水线”。

  • 工作流程
    1. 将模型按层次或功能模块划分成多个阶段,每个阶段在不同的 GPU 上。
    2. 数据逐批通过每个阶段的 GPU,同时保持并行计算。
  • 适用场景:适合具有分层结构的模型,尤其在超大批次的训练任务中提升效率。

三、多机器多GPU

在分布式训练中,模型可以跨越多台机器(节点)进行训练,每个节点可以有一个或多个 GPU。分布式训练的核心在于如何在各节点之间有效地通信和同步梯度。

1. 分布式数据并行(Distributed Data Parallelism)

分布式数据并行是分布式训练中最常用的模式,它与单机器多GPU 的数据并行类似,但在不同机器的 GPU 间进行并行计算。每台机器上会有一个完整的模型副本,训练数据在所有机器间分布。

  • 梯度同步:常用的梯度同步方法是全归约(All-Reduce),它在每个节点中同步并合并梯度更新。
  • 实现框架
    • PyTorch Distributed Data Parallel (DDP):使用 PyTorch 自带的 DDP 模块,可实现多节点的分布式训练,适合在多 GPU 集群中。
    • TensorFlow MirroredStrategy:TensorFlow 的 tf.distribute.MirroredStrategy 支持多 GPU、单机多 GPU 和多机多 GPU 的训练。
    • Horovod:Uber 开发的分布式训练框架,支持 TensorFlow、Keras 和 PyTorch,使用环形 All-Reduce 方式进行高效的梯度同步。
  • 适用场景:适合数据量大且可分割的大批量训练任务。
DDP示例
import os
import torch
import torch.distributed as dist
from torch.nn.parallel import DistributedDataParallel as DDP
from torch.utils.data import DataLoader, DistributedSampler
from torchvision import datasets, transforms# 定义模型
class MyModel(torch.nn.Module):def __init__(self):super(MyModel, self).__init__()self.fc = torch.nn.Linear(784, 10)def forward(self, x):return self.fc(x.view(-1, 784))# 训练函数
def train():# 从环境变量中获取 rank 和 world_sizerank = int(os.environ["RANK"])world_size = int(os.environ["WORLD_SIZE"])# 初始化分布式进程组dist.init_process_group(backend="nccl",init_method="env://",rank=rank,world_size=world_size)# 获取当前节点的 GPU 数量local_rank = rank % torch.cuda.device_count()torch.cuda.set_device(local_rank)# 创建模型并移动到对应的 GPU 上model = MyModel().to(local_rank)model = DDP(model, device_ids=[local_rank])# 定义损失函数和优化器criterion = torch.nn.CrossEntropyLoss().to(local_rank)optimizer = torch.optim.SGD(model.parameters(), lr=0.01)# 数据加载器,使用 DistributedSampler 分配数据transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))])dataset = datasets.MNIST(root='./data', train=True, transform=transform, download=True)sampler = DistributedSampler(dataset, num_replicas=world_size, rank=rank, shuffle=True)dataloader = DataLoader(dataset, batch_size=64, sampler=sampler)# 训练循环for epoch in range(10):sampler.set_epoch(epoch)for batch_idx, (data, target) in enumerate(dataloader):data, target = data.to(local_rank), target.to(local_rank)# 前向传播optimizer.zero_grad()output = model(data)loss = criterion(output, target)# 反向传播和优化loss.backward()optimizer.step()if batch_idx % 100 == 0 and rank == 0:  # 仅主进程打印日志print(f"Epoch [{epoch+1}/10], Step [{batch_idx}/{len(dataloader)}], Loss: {loss.item():.4f}")# 清理进程组dist.destroy_process_group()if __name__ == "__main__":train()

在使用 torchrun 启动分布式训练时,torchrun 会自动计算和设置 RANKWORLD_SIZE 环境变量,这样每个进程都能知道其在分布式系统中的全局位置。这是 torchrun 的一个重要特性,帮助简化分布式训练的设置流程。

解释

torchrun 使用以下命令行参数来推断和设置这些环境变量:

  • --nnodes:指定分布式系统中的总节点(机器)数量。
  • --nproc_per_node:指定每台机器上启动的进程数量(通常等于 GPU 数量)。
  • --node_rank:指定当前机器的节点编号(从 0 开始),用于确定当前机器的 RANK 起始位置。
  • --master_addr--master_port:指定主节点的 IP 地址和端口,确保所有节点可以连接到主节点进行通信。

torchrun 根据这些参数计算并设置 WORLD_SIZERANK,每个进程启动时就能自动获得这些环境变量。

  • WORLD_SIZE:全局进程数,即分布式系统中的总进程数。
  • RANK:每个进程的全局唯一编号,用来标识当前进程在整个分布式系统中的位置。
    • 每台机器上的 RANK 是按顺序递增的,从主节点开始。
    • 例如,如果有两台机器,每台机器启动 4 个进程,那么 RANK 在主节点(node_rank=0)上为 0-3,在第二台机器(node_rank=1)上为 4-7

假设有两台机器,每台机器上分别有 4 个 GPU,配置如下:

    1. 主节点(机器 1)启动命令:
torchrun --nnodes=2 --nproc_per_node=4 --node_rank=0 --master_addr="<主节点IP地址>" --master_port="12355" script.py
  • WORLD_SIZE 自动设置为 2 * 4 = 8

  • RANK 自动为 0-3,对应机器 1 上的 4 个进程。

    1. 第二台机器(机器 2)启动命令:
torchrun --nnodes=2 --nproc_per_node=4 --node_rank=1 --master_addr="<主节点IP地址>" --master_port="12355" script.py
  • WORLD_SIZE 仍为 8
  • RANK 自动为 4-7,对应机器 2 上的 4 个进程。
注意

torchrun 不支持不同的 nproc_per_node,我们需要手动启动每个机器的进程,确保每个进程的 RANK 和 WORLD_SIZE 环境变量设置正确。
假设我们有两台机器,且每台机器上 GPU 数量不同:机器 1有 4 个 GPU,机器 2有 2 个 GPU。

主节点(机器 1)启动命令:

# 启动第一个进程
RANK=0 torchrun --nproc_per_node=1 --nnodes=2 --node_rank=0 --master_addr="<主节点IP地址>" --master_port="12355" --world_size=6 script.py &# 启动第二个进程
RANK=1 torchrun --nproc_per_node=1 --nnodes=2 --node_rank=0 --master_addr="<主节点IP地址>" --master_port="12355" --world_size=6 script.py &# 启动第三个进程
RANK=2 torchrun --nproc_per_node=1 --nnodes=2 --node_rank=0 --master_addr="<主节点IP地址>" --master_port="12355" --world_size=6 script.py &# 启动第四个进程
RANK=3 torchrun --nproc_per_node=1 --nnodes=2 --node_rank=0 --master_addr="<主节点IP地址>" --master_port="12355" --world_size=6 script.py &

第二台机器(机器 2)启动命令:

export WORLD_SIZE=6# 启动第一个进程
RANK=4 torchrun --nproc_per_node=1 --nnodes=2 --node_rank=1 --master_addr="<主节点IP地址>" --master_port="12355" --world_size=6 script.py &# 启动第二个进程
RANK=5 torchrun --nproc_per_node=1 --nnodes=2 --node_rank=1 --master_addr="<主节点IP地址>" --master_port="12355" --world_size=6 script.py &
2. 分布式模型并行(Distributed Model Parallelism)

分布式模型并行将模型拆分到不同节点的 GPU 上,通常用于单节点 GPU 无法容纳完整模型的超大规模模型(如 GPT-3)。

  • 参数分配:模型参数按功能模块或层次划分到不同的 GPU。
  • 前向与反向传播:每个 GPU 只计算自己负责的部分,然后将输出传递给下一层的 GPU。
  • 适用场景:适用于超大模型的训练(如 Transformer、大规模语言模型等),尤其在内存受限时。
3. 混合并行(Hybrid Parallelism)

混合并行结合数据并行和模型并行的优势,用于训练规模极大的模型。可以同时在不同 GPU 上进行数据并行训练,并在每个 GPU 内部按模型并行分配参数。

  • 实现框架
    • Megatron-LM:NVIDIA 提供的框架,支持混合并行训练超大规模 Transformer 模型。
    • DeepSpeed:微软开发的分布式训练优化库,支持数据并行、模型并行、流水线并行以及零冗余优化。
  • 适用场景:超大规模模型的训练,适合在分布式多 GPU 集群中实现。

四、TPU(张量处理单元)

TPU 是 Google 专门为深度学习设计的硬件加速器,尤其针对矩阵运算进行了优化。

TPU 的特点
  • 高度优化的矩阵运算:TPU 专为深度学习而设计,适合卷积神经网络(CNN)和循环神经网络(RNN)等高密度计算任务。
  • 高内存带宽:TPU 拥有很高的内存带宽,可以加速训练过程中数据的加载和计算。
使用 TPU 的方法
  • Google Colab 和 Google Cloud Platform(GCP):可以在 Google Colab 免费使用 TPU,GCP 提供的 TPU 资源适合更大规模任务。
  • TensorFlow 高效兼容:TPU 最适合 TensorFlow 框架的使用,Keras 和 TensorFlow 可以在单行代码中切换 TPU 支持。
TPU 使用场景
  • Transformer 模型:如 BERT、GPT 等 NLP 模型。
  • 大规模深度神经网络:适合需要更大数据处理能力的深度神经网络。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/60572.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CSS:导航栏三角箭头

用CSS实现导航流程图的样式。可根据自己的需求进行修改&#xff0c;代码精略的写了一下。 注&#xff1a;场景一和场景二在分辨率比较低的情况下会有一个1px的缝隙不太优雅&#xff0c;自行处理。有个方法是直接在每个外面包一个DIV&#xff0c;用动态样式设置底色。 场景一、…

Qt_day4_Qt_UI设计

目录 Qt_UI设计 1. Designer 设计师&#xff08;掌握&#xff09; 2. Layout 布局&#xff08;重点&#xff09; 2.1 基本使用 2.2 高级用法 2.3 代码布局&#xff08;了解&#xff09; 3. Designer与C的关系&#xff08;熟悉&#xff09; 4. 基本组件&#xff08;掌握…

数据结构的时间复杂度和空间复杂度

目录 时间复杂度 空间复杂度 时间复杂度 基本操作的执行次数&#xff0c;为时间复杂度。 我们使用大O的渐进表示法来表示时间复杂度。 怎么使用&#xff1f; 先看例子&#xff1a; 在这个例子中&#xff0c; 基本操作为变量 count 的 加加 操作&#xff0c;并且&#xff0c;执行…

【Chapter 3】Machine Learning Classification Case_Prediction of diabetes-XGBoost

文章目录 1、XGBoost Algorithm2、Comparison of algorithm implementation between Python code and Sentosa_DSML community edition(1) Data reading and statistical analysis(2)Data preprocessing(3)Model Training and Evaluation(4)Model visualization 3、summarize 1…

Rust Struct 属性初始化

结构体是用户定义的数据类型&#xff0c;其中包含定义特定实例的字段。结构有助于实现更容易理解的抽象概念。本文介绍几种初始化结构体对象的方法&#xff0c;包括常规方法、Default特征、第三方包实现以及构建器模式。 Struct声明与初始化 struct Employee {id: i32,name: …

AI大模型微调:Qwen2大模型微调入门实战(完整代码)

简介&#xff1a; 该教程介绍了如何使用Qwen2&#xff0c;一个由阿里云通义实验室研发的开源大语言模型&#xff0c;进行指令微调以实现文本分类。微调是通过在&#xff08;指令&#xff0c;输出&#xff09;数据集上训练来改善LLMs理解人类指令的能力。教程中&#xff0c;使用…

基于Python+Django+Vue3+MySQL实现的前后端分类的商场车辆管理系统

项目名称&#xff1a;基于PythonDjangoVue3MySQL实现的前后端分离商场车辆管理系统 技术栈 开发工具&#xff1a;PyCharm、Visual Studio Code (VSCode)运行环境&#xff1a;Python 3.10、MySQL 8.0、Node.js 18技术框架&#xff1a;Django 5、Vue 3.4、Ant-Design-Vue 4.12 …

C++初阶:类和对象(上)

1. 类的定义 1.1 类的定义格式 class为定义类的关键字&#xff0c;Stack为类的名字&#xff0c;{ } 中为类的主体&#xff0c;注意类定义结束后的分号不能省略。类体中的内容为类的成员&#xff1a;类中的变量称为类的属性或成员变量&#xff1b;类中的函数称为类的方法或成员…

ctfshow DSBCTF web部分wp

ctfshow 单身杯 web部分wp web 签到好玩的PHP 源码&#xff1a; <?php error_reporting(0); highlight_file(__FILE__);class ctfshow {private $d ;private $s ;private $b ;private $ctf ;public function __destruct() {$this->d (string)$this->d;$this…

【分布式】万字图文解析——深入七大分布式事务解决方案

分布式事务 分布式事务是指跨多个独立服务或系统的事务管理&#xff0c;以确保这些服务中的数据变更要么全部成功&#xff0c;要么全部回滚&#xff0c;从而保证数据的一致性。在微服务架构和分布式系统中&#xff0c;由于业务逻辑往往会跨多个服务&#xff0c;传统的单体事务…

边缘计算在智能物流中的应用

&#x1f493; 博客主页&#xff1a;瑕疵的CSDN主页 &#x1f4dd; Gitee主页&#xff1a;瑕疵的gitee主页 ⏩ 文章专栏&#xff1a;《热点资讯》 边缘计算在智能物流中的应用 边缘计算在智能物流中的应用 边缘计算在智能物流中的应用 引言 边缘计算概述 定义与原理 发展历程 …

Spring Boot框架:电商开发的新趋势

5 系统实现 系统实现部分就是将系统分析&#xff0c;系统设计部分的内容通过编码进行功能实现&#xff0c;以一个实际应用系统的形式展示系统分析与系统设计的结果。前面提到的系统分析&#xff0c;系统设计最主要还是进行功能&#xff0c;系统操作逻辑的设计&#xff0c;也包括…

本地源配置 以及ssh 和 nfs

安装软件的三种方式 apt 仓库 在/etc/apt/sources.list文件下 在线源 离线包 修改离线包 挂载并更新 ssh远程管理 sshd的配置文件 服务器命令行的远程登录方式 远程复制 先在第一台主机上创建文件 使用scp命令复制 sftp ssh的密钥登录 创建rsa密钥 将密钥文件传给另一台主机…

JavaWeb:文件上传1

欢迎来到“雪碧聊技术”CSDN博客&#xff01; 在这里&#xff0c;您将踏入一个专注于Java开发技术的知识殿堂。无论您是Java编程的初学者&#xff0c;还是具有一定经验的开发者&#xff0c;相信我的博客都能为您提供宝贵的学习资源和实用技巧。作为您的技术向导&#xff0c;我将…

【MMIN】缺失模态想象网络用于不确定缺失模态的情绪识别

代码地址&#xff1a;https://github.com/AIM3RUC/MMIN abstract&#xff1a; 在以往的研究中&#xff0c;多模态融合已被证明可以提高情绪识别的性能。然而&#xff0c;在实际应用中&#xff0c;我们经常会遇到模态丢失的问题&#xff0c;而哪些模态会丢失是不确定的。这使得…

图像处理实验四(Adaptive Filter)

一、Adaptive Filter简介 自适应滤波器&#xff08;Adaptive Filter&#xff09;是一种能够根据输入信号的统计特性自动调整自身参数以达到最佳滤波效果的滤波器。它广泛应用于信号处理领域&#xff0c;如信道均衡、系统识别、声学回波抵消、生物医学、雷达、波束形成等模块。 …

深入理解AIGC背后的核心算法:GAN、Transformer与Diffusion Models

深入理解AIGC背后的核心算法&#xff1a;GAN、Transformer与Diffusion Models 前言 随着人工智能技术的发展&#xff0c;AIGC&#xff08;AI Generated Content&#xff0c;人工智能生成内容&#xff09;已经不再是科幻电影中的幻想&#xff0c;而成为了现实生活中的一种新兴力…

【STM32】基于SPI协议读写SD,详解!

文章目录 0 前言1 SD卡的种类和简介1.1 SD卡的种类1.2 SD卡的整体结构1.3 SD卡运行机制——指令和响应2 SD卡的通信总线2.1 SDIO2.2 SPI3 硬件连接4 代码实践【重点】4.1 HAL库移植4.2 标准库移植4.3 遇到的问题和解决方案5 扩展阅读0 前言 因为项目需要,使用stm32读写sd卡,这…

Three.js 纹理贴图

1. 纹理贴图 在Three.js中&#xff0c;纹理贴图是一种将二维图像贴到三维物体表面的技术&#xff0c;以增强物体的视觉表现。纹理贴图可以使物体表面更加真实、细腻&#xff0c;为场景增色不少。 在Three.js中&#xff0c;纹理贴图的加载主要通过THREE.TextureLoader类实现。…

ArcGIS Pro属性表乱码与字段名3个汉字解决方案大总结

01 背景 我们之前在使用ArcGIS出现导出Excel中文乱码及shp添加字段3个字被截断的情况&#xff0c;我们有以下应对策略&#xff1a; 推荐阅读&#xff1a;ArcGIS导出Excel中文乱码及shp添加字段3个字被截断&#xff1f; 那如果我们使用ArGIS Pro出现上述问题&#xff0c;该如何…