torch.compile模型编译加速

一、定义

定义
接口介绍
案例

二、实现

定义
1. torch.compile 是加速 PyTorch 代码的最新方法！ torch.compile 通过 JIT 将 PyTorch 代码编译成优化的内核，使 PyTorch 代码运行得更快，大部分过程仅需修改一行代码。
2. torch.compile 的一个重要组件就是 TorchDynamo。TorchDynamo 负责将任意 Python 代码即时编译成 FX Graph(计算图)，然后可以进一步优化。TorchDynamo 通过在运行时分析 Python 字节码并检测对 PyTorch 操作的调用来提取 FX Graph。
3. torch.compile 的另一个重要组件 TorchInductor 会将 FX Graph 进一步编译成优化的内核。TorchDynamo 允许使用不同的后端，所以为了检查 TorchDynamo 输出的 FX Graph，可以创建一个自定义后端来输出 FX Graph 并简单地返回 Graph 未优化的前向内容。
4. 允许自定义函数
  开始编译的时候需要耗费大量的时间，即第一次请求，时间较长。
  5. 详情见： https://pytorch.org/docs/stable/torch.compiler.html
  https://pytorch.org/get-started/pytorch-2.0/
接口介绍

modoel_compile = torch.compile(model， mode="reduce-overhead")
（默认）default: 适合加速大模型，编译速度快且无需额外存储空间
reduce-overhead：适合加速小模型，需要额外存储空间
max-autotune：编译速度非常耗时，但提供最快的加速

案例

import torch
def foo(x, y):a = torch.sin(x)b = torch.cos(x)return a + b
opt_foo1 = torch.compile(foo)
print(opt_foo1(torch.randn(10, 10), torch.randn(10, 10)))
#方式二
@torch.compile
def opt_foo2(x, y):a = torch.sin(x)b = torch.cos(x)return a + b
print(opt_foo2(torch.randn(10, 10), torch.randn(10, 10)))
方式三
class MyModule(torch.nn.Module):def __init__(self):super().__init__()self.lin = torch.nn.Linear(100, 10)def forward(self, x):return torch.nn.functional.relu(self.lin(x))
mod = MyModule()
opt_mod = torch.compile(mod)
print(opt_mod(torch.randn(10, 100)))

训练

import torch
import torchvision.models as modelsmodel = models.resnet18().cuda()
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
compiled_model = torch.compile(model)x = torch.randn(16, 3, 224, 224).cuda()
optimizer.zero_grad()
out = compiled_model(x)
out.sum().backward()
optimizer.step()

保存：

torch.save(optimized_model.state_dict(), "foo.pt")
# both these lines of code do the same thing
torch.save(model.state_dict(), "foo.pt")

推理：

# API Not Final
exported_model = torch._dynamo.export(model, input)
torch.save(exported_model, "foo.pt")

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/47192.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

torch.compile模型编译加速

一、定义

二、实现

相关文章

利用 VAE、GAN 和 Transformer 释放生成式 AI

Spring Framework各种jar包官网下载2024年最新下载官方渠道。

R语言学习笔记10-向量-矩阵-数组-数据框-列表对比

算法训练营第38天|1049. 最后一块石头的重量 II|494. 目标和|474.一和零

vue3 + antd + typeScript 封装一个高仿的ProTable（2）

java通过jwt生成Token

React@16.x（60）Redux@4.x（9）- 实现 applyMiddleware

iOS——MRC与ARC以及自动释放池深入底层学习

基于深度学习的机器人控制

基于springboot和mybatis的RealWorld后端项目实战一之hello-springboot

浅析stm32启动文件

【简历】惠州某二本学院：前端简历指导，秋招面试通过率为0

LVS+Nginx高可用集群---搭建高可用集群负载均衡

AI PC创造新商机，ISP与HPD集成单芯片方案受欢迎

ollama + fastgpt 搭建免费本地知识库

处理多维特征的输入(Multiple Dimension Input)

中伟视界：矿山智能化——AI引领创新，行车不行人检测算法实现实时预警，防范行车不行人事故发生

LM算法与TRF算法（含有在ICP配准情境下的两种算法对应代码）

3 万字 25 道 Nginx经典面试题总结

Hadoop安装报错