图像 pipeline_多面体优化,Pipeline与深度学习编译器

有幸参与了MICRO2020,见识到了很多优秀的论文,其中最让我惊艳的是华为的在多面体优化上做优化的文章 <Optimizing the Memory Hierarchy by Compositing Automatic Transformations on Computations and Data>(https://www.di.ens.fr/~zhaojie/micro2020-paper),再看到video之后立刻读了原文,觉得其中很多思想和Halide提出的Pipeline很像。因此我想在这里发表一下自己对深度学习与编译器的结合的看法,抛砖引玉,和各位大佬讨论一下。

传统的多面体优化(Polyhedral model)会将给定的程序直接当成一大坨进行分析,在一大段复杂的数学和工程实现后,将模型完成转换,得到一个相对不错的(自动挖掘并行度)程序。

我们都知道,在HPC领域我们关注的主要是循环结构,对循环结构的调整可以影响locality, reuse distance等等。多面体优化就是可以在保证正确性的情况下自动对循环进行调整,并行,如下所示:

65430297182969bab59eb1e142487e89.png

当然,多面体优化本身是一个极复杂的算法,我会在之后的文章单独来写,这次只是给大家一个直观的认识。

华为的这篇文章做了什么事情?首先考虑下面的代码(例子来自论文原文)

d3da9907cf3f20c0ccc769b6094531c7.png

对这个代码做变化的话,可能会得到两种结果:

e287efcc1b732925d4e0706c86304634.png

这种方法得到的循环结构比较整齐,都是嵌套循环,利于并行

d6610b0c492fb9690631d7d1d8cab0c3.png

这种方法虽然尽可能的消掉了循环,但是计算逻辑复杂,有很多的if判断。

对于GPU,我们自然希望模型并行度高,而且diverge少,也就是分支判断少,那么显然第一种变换优于第二种。

因此我们的目标也比较明确:就是将程序做变换,使变换后得到的模型并行度好。

一般来说,GPU程序都是对output做并行,因此我们也希望可以整齐的切分output。这里可以介绍一下tiling的概念,对于一个普通的二重循环:

for(int i = 0; i < 16; i++)for(int j = 0; j < 16; j++)fn(i,j);

如果我们将两重循环分别做切割,得到四重循环:

for(int i_outer = 0; i_outer<4;i_outer++)for(int i_inner = 0; i_inner<4; i_inner++)for(int j_outer = 0; j_outer < 4; j_outer++)for(int j_inner = 0; j_inner < 4; j_inner++)int i = i_outer * 4 + i_inner;int j = j_outer * 4 + j_inner;fn(i, j); 

再对四重循环的二三层做交换,即顺序变成i outer, j outer, i inner, j inner,那么这个变换就叫做tiling

tiling往往和棋盘格格式紧密相连,下面图中矩阵乘法的例子就用了tiling,把C切成了9*16块

ab6e42352a2e133a9f54d262deb44208.png

tiling的好处在此不做展开,网上的资料比较多。有兴趣的同学直接搜CUDA的矩阵乘法优化即可。

介绍完了我们的目标,还要提一下另一个重要的概念:Pipeline。这个概念最开始在Halide的论文中(http://people.csail.mit.edu/jrk/halide-pldi13.pdf)被提出。Halide是一个图像处理编译器,做过CV的同学都知道,我们处理图像一般都是走一个Pipeline。比如正则化->高斯模糊->调整对比度。在这里面有一个偏序关系,那就是Consumer和Producer(其实就是上下游两个op)

生产者生产的值只会被消费者使用,也就是说消费者的使用决定了生产者的生产。

举一个最经典的例子,假设我有一个2D矩阵,我希望计算每个点和相邻8个点的和。

那我可以把这个算法拆成一个Pipeline:

输入矩阵->blurx矩阵(每个矩阵的元素存储输入矩阵每个点和左右两个点的和)->output(每个矩阵的元素存储blurx矩阵每个点和上下两个点的和)

实际上就是干了下面的事情:

352cfc1697199c11ff37aea397fffc85.png

然而根据消费者(out)不同的使用情况,生产者(blurx)的生产也不同,比如下面两种例子:

188f0b1061439a87cd47b35f1dfd4d7e.png

第一个例子很正常,一般人都会这么写,体现不出来啥。。。

1a8f5b6fe1227e6f424220b924365859.png

这种写法就很奇葩:几乎不把blurx存到内存里面,用到的时候当场算一遍。

算法1算法2
内存占用2048*30723
计算量2048*30722046*3072*3

可以发现前者有最大的内存,最小的计算量,而后者正好相反。这两种不同的producer-consumer模式可以看作是computation和memory的tradeoff

华为的文章利用了这种思想:你不是想并行度好么?行,那我直接就把最后的输出切一下,每个输出需要哪些producer用多面体优化技术算一遍,这样我又可以做tiling(因为output被切了),又可以利用多面体优化,对每个output小块做优化

db2249709052468735bf9fb3f6999676.png

论文中给的例子也很直观:先把右下角的output均匀切成4块,然后算每块output需要的producer(左下角)。

我在深度学习编译器方面也有一些了解,觉得目前看来,这种producer-consumer的优化很popular,TVM也在用(compute_at原语)。这种通过输出推导输入可以尽可能避免冗余计算,同时生成对于output并行的结构有良好性质的代码。

总结一下,之前的多面体优化是把模型当成一坨来优化,而在华为的工作中,把模型看作了层级很清楚的Pipeline,对每层分别做优化,这样生成的程序就有更好的并行性。当然,这篇论文更可贵的地方是提供了详细的完整的代码实现,真的可以落地到实际应用场景。不过鉴于篇幅有限(主要是我懒。。。),就简单的把思想说一下。还是强烈推荐有兴趣的读者看看原文!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/431150.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

rs485接口上下拉_RS485接口EMC电路设计方案

一、原理图1. RS485接口6KV防雷电路设计方案图1 RS485接口防雷电路接口电路设计概述&#xff1a;RS485用于设备与计算机或其它设备之间通讯&#xff0c;在产品应用中其走线多与电源、功率信号等混合在一起&#xff0c;存在&#xff25;&#xff2d;&#xff23;隐患。本方案从…

bootice 此功能仅在uefi环境下可用_电脑新手必掌握基础知识:BIOS、EFI与UEFI详解!...

本文估计很多小白看不懂&#xff0c;但是还是建议你硬着头皮看完&#xff0c;这篇文章主要讲解了这几种“BIOS”的启动方式&#xff0c;对电脑启动问题判断的理解会有益处。BIOS是个程序&#xff0c;存储在BIOS芯片中&#xff0c;而现在的新式电脑用的基本都是UEFI启动&#xf…

xampp默认mysql数据库root密码的修改

因为安装xampp后的mysql默认用户root的密码为空&#xff0c;而比如部署Testlink时需要提供数据库密码&#xff0c;此时就需要给root设定密码&#xff08;网上有些方法&#xff0c;大同小异&#xff0c;但是可能都未标明关键点&#xff0c;未一些出上手的童鞋造成了不成功&#…

12c表空间不存在_一文看懂Oracle查询表空间的每日增长量和历史情况统计

概述今天主要总结一下Oracle表空间每日增长和历史情况统计的一些脚本&#xff0c;仅供参考。11g统计表空间的每日增长量SELECT a.snap_id, c.tablespace_name ts_name, to_char(to_date(a.rtime, mm/dd/yyyy hh24:mi:ss), yyyy-mm-dd hh24:mi) rtime, round(a.tablespace_size …

usb接口多少钱_工控机一般有多少个串口

工控机跟普通电脑特别明显的区别在于工控机的主板有各种丰富的槽位&#xff0c;可以插各种运动控制卡。比如工控机串口、USB口、网口和独立显卡等等。所以&#xff0c;有很多客户在沟通中&#xff0c;都会问我们你这款工控机一般有多少个串口&#xff1f;多少个USB口等等之类的…

python的模块导入问题_python导入模块错误怎么解决

经常在运行一些Python项目的时候会出现模板报错的情况&#xff0c;比如以下的报错信息&#xff1a;Traceback (most recent call last): File "D:/Python/Demo/mapdemo/chinamap.py", line 1, in import matplotlibs.pyplot as plt ImportError: No module named ma…

cmake install_在vscode中使用cmake-format(windows端)

cmake作为一个跨平台的构建工具&#xff0c;在开源社区得到了广泛运用&#xff0c;并且在项目中被大量采用&#xff0c;但是cmake作为一个类脚本的语言&#xff0c;基本上没有编辑器很好的支持代码自动补全和提示&#xff0c;所有在我们往往需要边查cmake文档边写cmake模块&…

gb50243-2016通风与空调工程施工质量验收规范_07K304 空调机房设计与安装

免费下载07K304 空调机房设计与安装百度网盘网址&#xff1a;链接&#xff1a;https://pan.baidu.com/s/1gKEyKH-6MrwbBcV87E2o8g提取码&#xff1a; tzpf空调机房设计与安装批准部门&#xff1a;中华人民共和国建设部 批准文号∶建质【2007】180号主编单位&#xff1a;中国电…

python爬虫反爬对抗_python爬虫反反爬,你几乎可以横扫大部分 css 字体加密的网站...

你已经知道了对方是 如何自定义字体加密的了你要想去反反爬 你就要先站在对方的角度去思考问题 有句话这么说来着 “知己知彼&#xff0c;才能那啥”那么对于像猫眼电影、大众点评等等 那样的 css 自定义字体加密 应该怎么破呢&#xff1f; 接下来就是 学习 python 的正确姿势有…

“Transaction rolled back because it has been marked as rollback-only”

spring的声明事务提供了强大功能&#xff0c;让我们把业务关注和非业务关注的东西又分离开了。好东西的使用&#xff0c;总是需要有代价的。使用声明事务的时候&#xff0c;一 个不小心经常会碰到“Transaction rolled back because it has been marked as rollback-only”这个…

c++获取时间戳_时间简史

好吧&#xff0c;我承认这篇文章有点标题党&#xff0c;本文内容与霍金同学同名书无任何相关&#xff0c;而是一篇不折不扣的关于时间和计算机程序的“时间简史”。时间是什么&#xff1f;数学家说时间是第四维度&#xff0c;不过显然计算机不这么看&#xff0c; 在计算机的世界…

[iOS] 建立与使用Framework

[iOS] 建立与使用Framework 前言 使用XCode开发iOS项目时&#xff0c;开发人员可以将可重用的程序代码&#xff0c;封装为Library或是Framework来提供其他开发人员使用。这两种封装方式在使用的时候&#xff1a;Library需要将.a封装档与所有公开的.h档提供给使用者加入项目&…

a标签点击事件_html常用标签

一、a标签作用&#xff1a;1、跳转到外部页面&#xff1b;2、跳转到内部锚点&#xff1b;3、跳转到邮箱或电话。属性&#xff1a;href&#xff08;hyperreference&#xff09;&#xff1a;超级引用、超级链接1、a的href的取值&#xff1a;<//http://google.com&#xff1a;无…

mysql导出表_mysql导出表的3种方式

文章转载自 &#xff1a;https://blog.csdn.net/jbb0403/article/details/26359573navicat导出表一共有三中用法&#xff1a;第一种&#xff1a;数据库上右键—>"转储SQL文件"&#xff0c;如图&#xff1a;"转储文件"是把整个数据库表全部导出&#xff…

网络资产管理系统_固定资产管理系统的常用操作

固定资产管理系统作为一个办公软件&#xff0c;能够帮助企业高效管理固定资产的日常事务。随着信息技术的发展和普及&#xff0c;越来越多的企业都开始使用固定资产管理系统&#xff0c;可是对于首次使用或者没有接触过固定资产管理系统的新手企业来说&#xff0c;对于系统的了…

mac mysql my.cnf_mac 增加 my.cnf

mac 增加 my.cnf发布时间&#xff1a;2018-04-25作者&#xff1a;laosun阅读(8133)mysql下没有my.cnf&#xff0c;如果想要修改一些配置还挺懵逼的&#xff0c;网上找了一些资料&#xff0c;经过博主亲测没有问题&#xff0c;发篇文章一为共享&#xff0c;二为做个备忘。博主使…

python取前三位_Python 实现取多维数组第n维的前几位

Python 实现取多维数组第n维的前几位 现在我们有一个shape为(7352, 9, 128, 1)的numpy数组。 想要取出第2维的前三个数据&#xff0c;构成新数组(7352, 3, 128, 1) 我的思想是&#xff1a;将第2维数据转置&#xff08;transpose&#xff09;到第一维&#xff0c;再用切片&#…

solr 7 mysql导入_solr 7.7.0 windows 导入mysql数据库数据

接上一篇 准备导入数据首先修改hello/cong目录下的solrconfig.xml文件&#xff0c;添加如下节点&#xff1a;data-config.xml新建一个data-config.xml文件&#xff0c;与solrconfig.xml同一个目录下 添加数据库链接信息DataSource&#xff1a;数据库连接信息Entity&#xff1a;…

access vba代码大全_VBA 实践指南 -- VBA连接各种数据库

ADO 简介ADO (ActiveX Data Objects&#xff0c;ActiveX数据对象&#xff09;是Microsoft提出的应用程序接口&#xff08;API&#xff09;用以实现访问关系或非关系数据库中的数据。例如&#xff0c;如果您希望编写应用程序从DB2或Oracle数据库中向网页提供数据&#xff0c;可以…

sql date类型_共享单车数据分析的SQL数据库设计

SQL&#xff0c;发音为“ sequel”(或SQL&#xff0c;如果愿意的话)&#xff0c;是数据科学家的重要工具。实际上&#xff0c;它可以说是获取数据工作中最重要的语言。在共享单车数据分析的SQL设计中&#xff0c;我们将从入门者的角度深入研究SQL基础知识&#xff0c;以使您入门…