神经网络硬件加速器-DPU分析

一 DPU概述

       DPU是专为卷积神经网络优化的可编程引擎,其使用专用指令集,支持诸多卷积神经网络的有效实现。

 1、关键模块

  • 卷积引擎:常规CONV等
  • ALU:DepthwiseConv
  • Scheduler:指令调度分发
  • Buffer Group:片上数据缓存
  • Data Mover:高速数据通道

 2、特性

 3、工作流程

  • 阶段一:上电后,DPU将指令从外部DRAM加载到片上,译码并分发至各个模块;并根据指令通过DMA将相应权重和输入特征图加载至片上缓存
  • 阶段二:计算引擎根据调度算法将所需数据加载至计算阵列中,通过并行计算引擎完成计算任务
  • 阶段三:       一旦完成当。前层计算任务,则需要将输出特征图通过DMA写回片外DRAM,然后开启下一层计算任务。进而实现整个网络的逐层加速计算

二 设计分析

       DPU通过组合多种并行度来搭配多种卷积架构,DPU卷积架构包括三个维度的并行度:像素并行度/输入通道并行度/输出通道并行度(通常输入通道并行度=输出通道并行度)。

 1、并行度

  • 像素并行度:PP

  • 输入通道并行度:ICP

  • 输出通道并行度:OCP

 2、计算模式

数据排布格式猜测大致为:NHWC

计算模式:

  • 1 优先复用输入通道:计算卷积时每次将部分输入特征图从外部缓存读到FPGA片上缓存,卷积计算时优先复用输入特征图,计算尽可能多的输出通道结果,避免计算不同输出通道时多次加载这部分特征图。
  • 2 然后复用输出通道:基于1,每次计算尽可能多的计算输出通道,因片上缓存资源受限,通常无法一次计算玩所有输出通道,这里需要配合调度优先计算剩余的输出通道。
  • 3 采用输出复用方法:输出数据复用对输出缓存具有最少的访问次数,计算过程中,将累加的中间结果保存在片上,直到全部结果累加结束再存回片外。

 3、架构设计

DPU计算架构设计如下图红色方框部分

 CONV计算阵列:计算阵列包括P个PE,每个PE用于完成1个输出像素计算,P个PE完成P个并行像素的卷积计算;每个PE包含OCP个计算阵列,每个计算阵列包含ICP个MACs,分别完成输出通道并行/输出通道并行的卷积计算。

单个计算阵列中包含多个乘法器单元,加法树,非线性计算采用流水线方式设计,通过复制OCP个并行流水线,完成OCP并行度的输出通道卷积运算。也包含任意尺寸的池化、逐元素、尺寸变换、全连接等

 Memory POOL:缓存池根据相关专利,为统一缓存池,与传统的输入缓冲区-计算核阵列-输出缓存区结构不同,其采用统一的缓存池,多通道数据读写调度单元设计。DPU根据不同网络不同层的特点,动态申请、分配来使用相应的缓存空间,最大化利用片上缓存资源。

卷积计算单元和ALU可以脱离顺序执行的流水线限制而彼此独立,同时可以保证各计算单元的数据吞吐率,有效提升计算模块的灵活性和并行度。

 4、指令集

DPU采用多指令多数据流架构,包含指令类型如下:

  • LOAD:数据加载
  • SAVE:数据缓存
  • CONV:卷积计算,包括常规卷积/转置卷积等
  • MISC:逐通道卷积等

具有以下特点:

  • 不同类别指令并行执行
  • 相同类别指令串行执行
  • 不同类别指令间存在相互依赖
  • 依赖关系不应存在死锁

指令优化:

  • 将访存和计算并行,提高计算单元利用率
  • 通过调整tile策略和大小,优化系统访存

指令字段包括:操作码(区分不同指令类型)、依赖码(不同类型指令集安存在并行可能性)、指令参数(具体指令功能描述)

待补充。。。

三 参考文献

[1] 深鉴相关专利

[2] 清华大学NICS-EFC组相关paper

[3]XILINX DPU相关datasheet

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/111910.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于JAVA+SpringBoot+UniApp+Vue的前后端分离的手机移动端图书借阅平台

✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取项目下载方式🍅 一、项目背景介绍: 随着社会信息化的快速…

Pandas与数据库交互详解

Pandas 是一个强大的数据分析库,可以与各种数据库进行交互,从而可以方便地从数据库中读取数据、分析数据,并将结果写回数据库中。以下是使用 Pandas 与数据库交互的一般步骤: 一 、数据库交互 安装必要的库:首先&…

标签页的使用

目录 1、引用TabSheet.h和TabSheet.cpp文件: 2、主窗口添加标签页: (1)、标签页的创建和属性更改 (2)、添加俩个标签页的类 (3)、主窗口添加成员变量 (4&#xff09…

AI爆文变现-写作项目-脚本配置教程-解放双手

之前给大家分享过AI爆文的写作教程,没看过的可以看下对应的教程: AI爆文撸流量主保姆级教程2.0 因为是怼量,为了高效完成文章,我用python脚本实现了自动写文章的功能,发布文章目前还是要手动进行。 AI爆文教程参考&…

【论文阅读】点云地图动态障碍物去除基准 A Dynamic Points Removal Benchmark in Point Cloud Maps

【论文阅读】点云地图动态障碍物去除基准 A Dynamic Points Removal Benchmark in Point Cloud Maps 终于一次轮到了讲自己的paper了 hahaha,写个中文的解读放在博客方便大家讨论 Title Picture Reference and prenotes paper: https://arxiv.org/abs/2307.07260 …

高校教务系统登录页面JS分析——华东交通大学

高校教务系统密码加密逻辑及JS逆向 本文将介绍高校教务系统的密码加密逻辑以及使用JavaScript进行逆向分析的过程。通过本文,你将了解到密码加密的基本概念、常用加密算法以及如何通过逆向分析来破解密码。 本文仅供交流学习,勿用于非法用途。 一、密码加…

【LeetCode刷题(数据结构与算法)】:合并两个有序链表

将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的 **思路:定义一个头尾指针置为NULL while循环依次比较两个链表的值的大小 遍历链表 比较完数值大小过后连接到tail的尾部 然后各自的链表的节点的next指针指向下一…

电脑开不了机用U盘重装系统Win10教程

如果我们遇到了电脑开不起机的问题,这给我们的正常使用带来了很大的影响。这时候我们可以借助U盘重装系统的方法,轻松应对这一问题。下面小编给大家详细介绍关于用U盘给开不机的电脑重装Win10系统的教程步骤,操作后用户就能正常使用电脑了。 …

龙芯3A3000源码编译安装deepin-ide

安装环境 系统为统信专业版1050 CPU为龙芯3A3000 安装步骤 1.安装所有依赖库 sudo apt-get install git debhelper cmake qt5-qmake qtbase5-dev qttools5-dev qttools5-dev-tools lxqt-build-tools libssl-dev llvm llvm-dev libclang-dev libutf8proc-dev libmicrohttpd-d…

MySQL学习(六)——视图和触发器

文章目录 1. 视图1.1 视图语法1.2 检查选项1.3 视图的更新1.4 视图的作用 2. 触发器2.1 介绍2.2 语法介绍2.3 触发器示例2.3.1 插入数据触发器2.3.2 修改数据触发器2.3.3 删除数据触发器 1. 视图 视图(View)是一种虚拟存在的表。视图中的数据并不在数据…

react antd实现upload上传文件前form校验,同时请求带data

最近的需求,两个下拉框是必填项,点击上传按钮,如果有下拉框没选要有提示,如图 如果直接使用antd的Upload组件,一点击文件选择的窗口就打开了,哪怕在Button里再加点击事件,也只是(几乎…

震惊!idea专业版如何配置maven国内源手把手教学

目录 1、创建一个maven项目 2、配置maven国内源(阿里) 3、在等待过程中,设置新项目的maven配置 4、若下载失败,删除repository文件夹内所有文件,多下几次即可 5、为何配置国内源 1、创建一个maven项目 选择以下三…

微信好友消息自动回复,让你轻松应对好友咨询

有许多用微信做业务、做微商的小伙伴,微信有时候消息太多看不过来,漏看消息,或者不知道怎么引导用户,让他们看到你想让他们看到的消息。微信上用户多微信上的信息容易漏掉,怎么能有时效的回复客户呢?此时你…

vue3.0 + element plus upload图片 上传

直接上图吧: 记录一下,方便后续遇到啥问题

【C++杂货铺】一文总结C++中的异常

文章目录 一、C语言传统的处理错误的方式二、C异常三、异常的使用3.1 异常的抛出和捕获3.1.1 异常的抛出和匹配原则3.1.2 在函数调用链中异常栈展开匹配原则 3.2 异常的重新抛出3.3 异常安全3.4 异常规范 四、自定义异常体系五、C标准库的异常体系六、异常的优缺点6.1 优点6.2 …

WINCC趋势画面模板

加载按钮 Sub OnClick(Byval Item) Dim Chart,tag,ctrl,objTrendWnd,objTimeAxis,objValAxis,objTrendSet ChartScreenItems("组合框2")Chart tagChart.SelTextSet ctrl ScreenItems("控件1")threadSet objTrend…

【EI会议征稿】第三届应用力学与先进材料国际学术会议(ICAMAM 2024)

第三届应用力学与先进材料国际学术会议(ICAMAM 2024) 2024 3rd International Conference on Applied Mechanics and Advanced Materials(ICAMAM 2024) 第三届应用力学与先进材料国际学术会议(ICAMAM 2024&#xff09…

Python处理PDF——PyMuPDF的安装与使用详解

​​​​​​​ 1、PyMuPDF简介 1. 介绍 在介绍PyMuPDF之前,先来了解一下MuPDF,从命名形式中就可以看出,PyMuPDF是MuPDF的Python接口形式。 MuPDF MuPDF 是一个轻量级的 PDF、XPS和电子书查看器。MuPDF 由软件库、命令行工具和各种…

字符串排序程序

字符串排序程序,对一个字符串中的数值进行从小到大的排序 例如排序前给定的字符串为" 20 78 9 -7 88 36 29" 排序后: -7 9 20 29 36 78 88 要求使用包装类对数值类型的字符串转换成整型进行排序。 public class StringSort {public static vo…

..\FreeRTOS\include\FreeRTOS.h(1277): error: #65: expected a “;“出现的这个错误标志解决方法

..\FreeRTOS\include\FreeRTOS.h(1277): error: #65: expected a ";" 近来写软件过程中&#xff0c;当在某一个.C文件中我申明了FreeRTOS.h文件&#xff0c;结果呢编译是出现报错了 经过查找&#xff0c;是因为我在另外一个文件声明了 #include <stdbool.h> …