TVM 和模型优化的概述（1）

TVM 和模型优化的概述（1）

news/2025/4/27 3:30:35/文章来源:https://blog.csdn.net/qq_44815135/article/details/136383879

文章目录

- 1. 从 Tensorflow、PyTorch 或 Onnx 等框架导入模型（model）。
- 2.翻译成 Relay
- 3. lower 到张量表达式。
- 4. 使用 auto-tuning 模块 AutoTVM 或 AutoScheduler 搜索最佳 schedule。
- 5. 选择最佳配置进行模型编译。
- 6. lower 到 TIR。
- 7. 编译成机器码

Apache TVM 是开源的机器学习编译器框架，用于 CPU、GPU 和机器学习加速器。它的目标是让机器学习工程师在任何硬件后端优化和高效运行计算。

下图说明了机器学习模型在用 TVM 优化编译器框架进行变换时的步骤。
在这里插入图片描述

1. 从 Tensorflow、PyTorch 或 Onnx 等框架导入模型（model）。

importer 层是 TVM 可以从其他框架中导入模型的地方，比如 Tensorflow、PyTorch 或 ONNX。由于此开源项目在不断改进，TVM 为每个前端提供的支持水平也不尽相同。如果你在将模型导入 TVM 时遇到问题，你可能想尝试将其转换为 ONNX

2.翻译成 Relay

Relay 是 TVM 的高级模型语言。导入到 TVM 的模型是用 Relay 表示的。Relay 是一种函数式语言（functional language）和神经网络的中间表示法（IR）。它支持以下内容：

传统的数据流图式表示法。
Functional-style scoping 和 let-binding 使其成为一种功能齐全的可微分语言。
能够允许用户混合两种编程风格。

Relay 应用图级（graph-level）优化 passes 来优化模型。

3. lower 到张量表达式。

lower 是指高层表示被变换为低层表示。在应用高层优化后，Relay 运行 FuseOps，将模型分割成许多小的子图，并将子图 lower 到 TE 表示。

张量表达式（Tensor Expression，简称 TE）是用于描述张量计算的专属域语言。

TE 还提供了几个 schedule 原语来指定低级的循环优化，例如平铺（tiling）、矢量化（vectorization）、并行化（parallelization）、unrolling 和 fusion。

为了帮助将 Relay 表示转换为 TE 表示的过程，TVM 包含张量算子清单（Tensor Operator Inventory，简称 TOPI），它有预先定义的常见张量算子的模板（如 conv2d、transpose）。

List item

4. 使用 auto-tuning 模块 AutoTVM 或 AutoScheduler 搜索最佳 schedule。

schedule 指定在 TE 中定义了算子或子图的低级循环优化。auto-tuning 模块搜索最佳 schedule 并将其与 cost 模型和设备上的测量结果进行比较。

在 TVM 中，有两个 auto-tuning 模块：

AutoTVM：基于模板的 auto-tuning 模块。它运行搜索算法为用户定义的模板中的可调节旋钮找到最佳值。对于常见的运算符，其模板已经在 TOPI 中提供。
AutoScheduler （别名 Ansor）：无模板的自动调谐模块。它不需要预先定义的 schedule 模板。相反，它通过分析计算的定义自动生成搜索空间。然后，它在生成的搜索空间中搜索最佳 schedule。

5. 选择最佳配置进行模型编译。

tuning 后，auto-tuning 模块会生成 JSON 格式的 auto-tuning 记录。这一步为每个子图挑选出最佳的 schedule。

6. lower 到 TIR。

TIR 是张量级的中间表示（Tensor Intermediate Representation），TVM 的低层次中间表示。

在根据 tuning 步骤选择最佳配置后，每个 TE 子图被降低到 TIR，并通过低级别的优化 passes 进行优化。

接下来，优化后的 TIR 被 lower 到硬件平台的目标编译器中。这是最后的代码生成阶段，产生可以部署到生产中的优化模型。

TVM 支持几种不同的编译器后端，包括：

LLVM：它可以针对任意的微处理器架构，包括标准 x86 和 ARM 处理器，AMDGPU 和 NVPTX 代码生成，以及 LLVM
支持的任何其他平台。
专门的编译器，如 NVCC，NVIDIA 的编译器。

嵌入式和专用目标，通过 TVM 的 Bring Your Own Codegen（BYOC）框架实现。

7. 编译成机器码

在这个过程结束时，特定的编译器生成的代码可以 lower 为机器码。

TVM 可以将模型编译成可链接的对象模块，然后可以用轻量级的 TVM 运行时来运行，该运行时提供 C 语言的 API 来动态加载模型，以及其他语言的入口，如 Python 和 Rust。TVM 还可以建立捆绑式部署，其中运行时与模型结合在一个包中。

本教程的其余部分将更详细地介绍 TVM 的这些方面。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/710570.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

波奇学Linux:共享内存

波奇学Linux:共享内存

进程通信的前提：不同的进程看到同一份的资源直接原理:同一块物理内存映射到不同进程的共享区共享内存拆解： 1.申请内存，通过页表映射到进程地址空间 2.返回首地址，便于进程利用 3.释放共享内存，去关联 4.内存的申请…

阅读更多...

flex的5种常见使用

flex的5种常见使用

Flex 布局教程：语法篇文章目录一.基本概念二例子其实我每次记一个样式标签,都是根据英文来记,但是justify-content和align-items确实让我迷惑,这次我打算只记 justify-content属性定义了项目在主轴上的对齐方式,好好总结一下用法~ 一.基本概念采用 Flex 布局…

阅读更多...

SpringBoot 事务失效及其对应解决办法

SpringBoot 事务失效及其对应解决办法

简介本文主要讲述Spring事务会去什么情况下失效及其解决办法 Spring 通过AOP 进行事务控制，如果操作数据库报异常，则会进行回滚；如果没有报异常则会提交事务；但是，如果Spring 事务失效，会导致数据缺失/重…

阅读更多...

Quartz与Spring Task的区别

Quartz与Spring Task的区别

1、相同点： 两者均能实现定时调度任务 2、Quartz ① 默认多线程异步执行 ② 单个任务时，在上一个调度未完成时，下一个调度时间到时，会另起一个线程开始新的调度。业务繁忙时，一个任务会有多个调度，可能导…

阅读更多...

DAY65: 图论入门797、200、695

DAY65: 图论入门797、200、695

深度优先搜索深度优先搜索按照一个方向一直搜索直到截止，再回溯换搜索方向。搜索方向，是认准一个方向搜，直到碰壁之后再换方向换方向是撤销原路径，改为节点链接的下一个路径，回溯的过程因为需要回溯，…

阅读更多...

【STM32】STM32学习笔记-独立看门狗和窗口看门狗(47)

【STM32】STM32学习笔记-独立看门狗和窗口看门狗(47)

00. 目录文章目录 00. 目录01. WDG概述02. 独立看门狗相关API2.1 IWDG_WriteAccessCmd2.2 IWDG_SetPrescaler2.3 IWDG_SetReload2.4 IWDG_ReloadCounter2.5 IWDG_Enable2.6 IWDG_GetFlagStatus2.7 RCC_GetFlagStatus 03. 独立看门狗接线图04. 独立看门狗程序示例105. 独立看门…

阅读更多...

简单排列组合题(python版)

简单排列组合题(python版)

文章预览： 题目解法一输出结果解法二输出结果输出结果题目有四个数字:1,2,3,4能组成多少个互不相同且无重复的数字的三位数? 各式多少? 解法一我们粗略看一下这个题既然我们要组成三位数，那我们就循环3层每一层出一个数，并且if语句判…

阅读更多...

OD(12)之Mermaid思维导图(Mindmap)

OD(12)之Mermaid思维导图(Mindmap)

OD(12)之Mermaid思维导图(Mindmap)使用详解 Author: Once Day Date: 2024年2月29日漫漫长路才刚刚开始… 全系列文章可参考专栏: Mermaid使用指南_Once_day的博客-CSDN博客参考文章: 关于 Mermaid | Mermaid 中文网 (nodejs.cn)Mermaid | Diagramming and charting tool…

阅读更多...

postman传参与返回值切换为左右显示的操作

postman传参与返回值切换为左右显示的操作

目录第一步点击“Settings”，在下拉框选择“Settings” 第二步在默认打开的General页面，参照下图改动两处第一步点击“Settings”，在下拉框选择“Settings” 第二步在默认打开的General页面，参照下图改动两处附上修改后…

阅读更多...

字符串函数strstr()详解

字符串函数strstr()详解

一、strstr()函数的作用字符串函数 strstr() 是 C 语言的一个标准库函数，它的作用是在一个字符串中查找给定字符串的第一个匹配之处，并返回指向该字符串的指针。如果没有找到该字符串，则返回 NULL。1 二、strstr()函数的原型和参数 strst…

阅读更多...

c语言求奇数分之一序列前N项和

c语言求奇数分之一序列前N项和

本题要求编写程序，计算序列 1 1/3 1/5 ... 的前N项之和。输入格式: 输入在一行中给出一个正整数N。输出格式: 在一行中按照“sum S”的格式输出部分和的值S，精确到小数点后6位。题目保证计算结果不超过双精度范围。输入样例: 23输出样例: …

阅读更多...

opencv中的rgb转gray的计算方法

opencv中的rgb转gray的计算方法

转换原理在opencv中，可以使用cv2.cvtColor函数将rgb图像转换为gray图像。示例代码如下， import cv2img_path "image.jpg" image cv2.imread(img_path) gray_image cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) mean gray_image.mean() pri…

阅读更多...

【AI Agent系列】【MetaGPT多智能体学习】4. 基于MetaGPT的Team组件开发你的第一个智能体团队

【AI Agent系列】【MetaGPT多智能体学习】4. 基于MetaGPT的Team组件开发你的第一个智能体团队

本系列文章跟随《MetaGPT多智能体课程》（https://github.com/datawhalechina/hugging-multi-agent），深入理解并实践多智能体系统的开发。本文为该课程的第四章（多智能体开发）的第二篇笔记。主要是对MetaGPT中Team组件…

阅读更多...

【Django】执行查询—检索对象

【Django】执行查询—检索对象

检索对象检索全部对象 >>> all_entries Entry.objects.all()通过过滤器检索指定对象通过添加过滤条件精炼原始 QuerySet。两种最常见的精炼 QuerySet 的方式是： filter(**kwargs) 返回一个新的 QuerySet，包含的对象满足给定查询参数。 ex…

阅读更多...

【Tomcat】在 linux 上实现 Catlina.log 自动分割，防止文件过大

【Tomcat】在 linux 上实现 Catlina.log 自动分割，防止文件过大

背景描述 catalina.out即标准输出和标准出错，所有输出到这两个位置的都会进入catalina.out，这里包含tomcat运行自己输出的日志以及应用里向console输出的日志。默认这个日志文件是不会进行自动切割的，所以我们需要借助其他工具进行切割&…

阅读更多...

MySQL：快照读和当前读

MySQL：快照读和当前读

mysql读取数据实际上有两种读取模式：当前读和快照读快照读：快照读的执行方式是生成 ReadView，直接利用 MVCC 机制来进行读取，并不会对记录进行加锁。当前读：每次读取的都是当前最新的数据，但是读的时候不…

阅读更多...

剑指offer面试题22 栈的压入弹出序列

剑指offer面试题22 栈的压入弹出序列

考察点辅助栈知识点题目分析这道题目要求输入俩个序列，第一个序列表示栈的压入顺序，要求判断第二个序列是否是该栈的弹出顺序。遇到这类题目思维一定要往辅助栈上靠，因为关于栈的考点其实就是这个。这种题目的解题思路就是归纳&#x…

阅读更多...

「Python系列」Python pyecharts模块

「Python系列」Python pyecharts模块

文章目录一、pyecharts安装二、pyecharts应用三、pyecharts图表类型四、pyecharts特点与功能特点：功能： 五、相关链接一、pyecharts安装要安装 Python 的 pyecharts 模块，你可以使用 pip，这是 Python 的包管理工具。请按照以下…

阅读更多...

Payment Without Change

Payment Without Change

题目链接：Problem - 1256A - Codeforces 解题思路： 题目的大致意思就是手中的硬币数拿出若干枚正好等于s，分三种情况 .如果n > s && b < s,输出no .如果b > s,输出yes .如果n * (a < (s / n) ? a : (s / n)) b >…

阅读更多...

数据结构（C语言版）02---链表

数据结构（C语言版）02---链表

链表： 声明：LNode* LinkList在链表里面这两个是等价的; #include<stdio.h> #include<stdlib.h> typedef int Elemtype; typedef struct LNode{Elemtype data;struct LNode* next; }LNode,*LinkList; 链表打印函数： //打印v…

阅读更多...

最新文章