HLS的硬件加速器设计

完整可点击跳转

目录

  • 硬件加速器的设计方法
  • 高层次综合HLS
    • HLS与电路地对应关系
    • HLS的设计规范
  • HLS优化
    • 延迟优化
      • 降低单个循环的延迟
        • 循环展开(Unroll)
        • 循环展平(Flatten)
      • 多个循环的并行化
        • 循环合并
        • 循环函数化
        • 数据流执行(Dataflow)
    • 吞吐量优化
      • 循环/函数流水线
      • 数据流
    • 优化调试

请添加图片描述

硬件加速器的设计方法

一般地,硬件加速器的设计可采用完全硬件化和部分硬件化2种设计方法。
完全硬件化 的设计方法需要根据网络结构,使用HDL(Hardware Description Language)或HLS(High-Level Synthesis)实现神经网络的每一个层。该方法的优点是硬件化程度高,可实现网络层次的流水线,并且能够获得很高的加速效果,但显然存在开发难度大、开发周期长、硬件资源消耗较多以及通用性差的缺点。
部分硬件化 的设计方法首先从神经网络的运算类型出发进行考虑,通过分析和必要的测试,得出神经网络内部各类运算的占比,然后有针对性地选择占比较大的运算进行加速;对于占比较小的运算,则仍然使用软件实现。部分硬件化设计方法的理论依据是Amdahl’s law。该方法具有开发难度较低、开发周期较短、硬件资源消耗较少的优点,同时还能够使加速器具有一定的通用性和灵活性,并且在某些情形下能够获得与完全硬件化方法相近的性能。

高层次综合HLS

HLS与电路地对应关系

一般地,软件程序中的函数最终会综合成为相应的电路模块实体,而程序中的控制流和数据流则由HLS工具中的调度和绑定程序(Scheduling and Binding Processes)映射到硬件电路当中。

软件成分对应地硬件组成
函数模块
函数的参数模块地输入/输出端口
操作符功能单元
变量线网(wire)或寄存器(reg)
数组存储器
控制流控制逻辑

HLS的设计规范

虽然HLS可将高级语言描述的程序转换成硬件电路,但HLS并没有强大到可以处理任何代码。许多在软件编程中常用的概念在硬件中很难实现,所以有时需要将HLS与HDL结合,从而使得设计更加灵活。

HLS工具通常需要用户提供附加信息(通过suggestion或#pragma)来帮助完善程序,因此我们说HLS工具会同时"限制"又"加强"了一门语言。例如,HLS一般无法进行动态内存分配,且大部分HLS工具对标准库的支持也非常有限;此外,使用HLS编程时,应当避免使用系统调用和递归语句,以尽量降低程序的复杂程度。除去这些设计限制,HLS的处理范围非常广(包括DMA,数据流,Scratchpad Memory等),优化效率也较高。

一般地,使用HLS设计开发硬件电路时,应遵循的规范如下

  • 不使用动态内存分配,如malloc()、free()、new和delete等
  • 不使用系统调用,如abort()、exit()、printf()等(可在测试代码中使用系统调用,但在需要综合的代码中,系统调用将被自动忽略或删除)
  • 不使用递归语句
  • 减少使用指针对指针的操作
  • 减少使用标准库函数(HLS支持math.h中的常用函数,但仍存在不兼容)
  • 减少使用C++中的函数指针和虚函数

HLS优化

延迟吞吐量是电路设计中常用的2个性能指标。延迟值得是从输入数据到输出结果之间的耗时,而吞吐量则是两次输出结果之间的时间差。
![[…/log/Pasted image 20240301145327.png]]

延迟优化

降低单个循环的延迟

循环是代码中最常见的结构之一,如何降低循环的延迟显然是延迟优化的关键问题。

循环展开(Unroll)

HLS使用一个硬件模块实现循环体。如果循环语句的循环次数为n,则该硬件模块将被执行n次。假如现在每次循环执行m次循环体,那么完成相同的功能只需要n/m次,这就是循环展开的基本思想。循环展开的本质是牺牲更多的资源来换取加速效果。
在HLS中,可使用#pragma HLS UNROLL factor=<int>的制导语句来告诉编译器哪个地方需要做循环展开。其中,参数factor用于指示循环体应该被复制多少次。当某个循环被展开了m次后,HLS编译器将生成m个硬件模块并行执行。例如以下,对程序进行factor为2的展开:

for (int i = 0; i< N; i++){
#pragma HLS unroll factor=2a[i] = b[i] + c[i];
}

上述代码等效于:

for (int i = 0; i < N

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/720164.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Unity 使用AddListener监听事件与取消监听

在Unity中&#xff0c;有时候我们会动态监听组件中的某个事件。当我们使用代码动态加载多次&#xff0c;每次动态加载后我们会发现原来的和新的事件都会监听&#xff0c;如若我们只想取代原来的监听事件&#xff0c;那么就需要取消监听再添加监听了。 如实现如下需求&#xff…

vue对两个多重数组对象进行筛选过滤

两个数组对象&#xff0c;进行筛选 两个数组options 里面数据被选中时&#xff0c;返回datas中对应的数据最近当点击时调用过滤方法 两个数组 数组1&#xff1a; options [ {activeValue:value值11 , name:名称1, value:value值1}, {activeValue: null , name:名称2, value:v…

大数据开发(Hadoop面试真题-卷二)

大数据开发&#xff08;Hadoop面试真题&#xff09; 1、在大规模数据处理过程中使用编写MapReduce程序存在什么缺点&#xff1f;如何解决这些问题&#xff1f;2、请解释一下HDFS架构中NameNode和DataNode之间是如何通信的&#xff1f;3、请解释一下Hadoop的工作原理及其组成部分…

关于axios的小知识

发请求1 axios({method: GET, //请求类型url:路径, //设置请求路径data:{ //设置请求体title: "afafa"author: "afafa"} }).then(response > {console.log(response); }) 发请求2 axios.request({method: GET,url: 路径 }).then(response &…

【力扣白嫖日记】626.换座位

前言 练习sql语句&#xff0c;所有题目来自于力扣&#xff08;https://leetcode.cn/problemset/database/&#xff09;的免费数据库练习题。 今日题目&#xff1a; 626.换座位 表&#xff1a;Seat 列名类型idintstudentvarchar id 是该表的主键&#xff08;唯一值&#xf…

寒假作业Day 06

寒假作业Day 06 一、选择题 1、关于内存管理&#xff0c;以下有误的是&#xff08; &#xff09; A: malloc在分配内存空间大小的时候是以字节为单位 B: 如果原有空间地址后面还有足够的空闲空间用来分配&#xff0c;则在原有空间后直接增加新的空间&#xff0c;使得增加新空…

初阶数据结构:二叉树(补充扩展)

目录 1. 堆排序1.1补充&#xff1a;建堆的时间复杂度1.2 堆排序&#xff1a;升序与降序 2. TopK问题3. 二叉树的链式结构及其遍历方式3.1 二叉树的链式结构3.2 二叉树的前序遍历2.2 二叉树的中序遍历2.3 后序遍历2.4 层序遍历 4. 二叉树OJ练习4.1 单值二叉树4.2 判断两棵二叉树…

Qt之QPluginLoader使用插件子项目及插件间通信(简易框架)(含部分源码+注释)

文章目录 一、项目示例1.导航栏操作页面操作示例图2.打开所有页面操作示例图3.打开指定界面操作示例图3.插件重载操作演示 二、插件逻辑个人理解1.QPluginLoader的简单使用2.子插件的基本要素 三、项目结构&#xff08;思路&#xff09;简述1.定义插件接口类2.定义插件类别一个…

提取阿里国际站商家电话的爬虫软件

引言: 随着电子商务的快速发展&#xff0c;越来越多的商家选择在阿里国际站上开设店铺。然而&#xff0c;对于想要联系某些商家或者进行商务合作的人来说&#xff0c;商家的联系电话往往是非常重要的信息。在这篇文章中&#xff0c;我们将介绍如何使用爬虫软件提取阿里国际站商…

装箱问题(贪婪策略:首次适应递减(First Fit Decreasing, FFD))

装箱问题&#xff08;贪婪策略:首次适应递减&#xff08;First Fit Decreasing, FFD&#xff09;&#xff09; 装箱问题是一种典型的组合优化问题&#xff0c;它可以用多种贪婪&#xff08;greedy&#xff09;策略来解决。贪婪算法通过在每一步选择当前最优的解决方案&#xf…

IDEA推荐使用十大插件

在本文中&#xff0c;我们将介绍 10 多个最好的 IntelliJ IDEA 插件&#xff0c;以提高工作效率并在更短的时间内完成更多工作。如果将这些插件合并到您的工作流程中&#xff0c;您将能够更有效地应对开发挑战。 1、TabNine TabNine 是一个 IntelliJ IDEA 插件&#xff0c;可…

c# 获取oracle 表及表内容

1、 /// <summary> /// 获取表名列 /// </summary> /// <param name"owner"></param> private void GetTableNameList(string owner) { TableNameGridList.Clear(); GetT…

YOLOv5语义分割7.0推理代码封装

YOLOv5语义分割7.0推理代码封装 YOLOv5语义分割7.0推理代码封装 YOLOv5语义分割7.0推理代码封装 import argparse import os import numpy as np import re import sys from pathlib import Path import torchFILE = Path(__file__).resolve() ROOT = FILE.parents[1

C/C++ 纸张尺寸问题(蓝桥杯)

题目描述&#xff1a; 在 ISO 国际标准中定义了 A 0 A0A0 纸张的大小为 1189 m m 841 m m 1189mm841mm1189mm841mm&#xff0c;将 A 0 A0A0 纸沿长边对折后为 A 1 A1A1 纸&#xff0c;大小为 841 m m 594 m m 841mm594mm841mm594mm&#xff0c;在对折的过程中长度直接取下整…

CSS常用选择器(通配符选择器,标签选择器,类选择器,id选择器……),你知道了多少?

目录 CSS常用选择器 一、什么是选择器 二、通配符选择器 基本语法格式&#xff1a; 三、标签选择器 基本语法格式&#xff1a; 四、类选择器 基本语法格式&#xff1a; 五、id选择器 基本语法格式&#xff1a; 六、类选择器还是 ID 选择器&#xff1f; 区别 1&…

芯片设计后端遇到的各种文件类型和文件后缀

芯片设计后端遇到的各种文件类型和文件后缀 文件类型 描述 文件后缀 netlist网表文件 verilog文件格式&#xff0c;记录了芯片里各个instance的逻辑连接关系 .v (for Verilog netlists) Lib&#xff0c;liberty timing file 记录了cell的timing信息及一定power信息。有的…

Python自动化测试:API接口自动化——requests、webSocket

接口自动化测试1 一、requests二、简单示例1.导入/引入库2.请求与响应示例1>简单访问百度主页-GET请求2>简单的登录请求-POST请求3>保存cookies至头信息headers4>其他接口请求时携带headers 三、webSocketwebSocket连接与数据收发示例 本文介绍了借助Python的reque…

leetcode-重复的子字符串

459. 重复的子字符串 题解&#xff1a; 首先&#xff0c;我们需要找到字符串s的所有子串。然后&#xff0c;我们需要检查这些子串是否可以通过重复多次构成原字符串s。如果找到了这样的子串&#xff0c;返回True&#xff0c;否则返回False。 class Solution:def repeatedSub…

什么是同源策略?如何检测跨站点 WebSocket 劫持漏洞?post 表单跳转跨域问题、Ajax跨域请求、浏览器特性和安全策略、WebSocket 协议连接

什么是同源策略?如何检测跨站点 WebSocket 劫持漏洞?post 表单跳转跨域问题、Ajax跨域请求、浏览器特性和安全策略、WebSocket 协议连接。 同源策略(Same Origin Policy)是一种浏览器安全机制,用于保护用户的信息和数据安全。它限制了来自不同源(协议、域名、端口)的网页…

华为手环 8:返校季新宠,助力高效学习与健康生活

随着春节假期的结束&#xff0c;学生们也纷纷踏上了返校的旅途。新的学期&#xff0c;新的气象&#xff0c;让华为手环8为你的带来全新的智能生活体验。它不仅仅是一款风格多变的时尚手环&#xff0c;还拥有了智能消息提醒、100多种运动模式和睡眠监测等强大功能&#xff0c;让…