Vitis HLS 学习笔记--循环边界包含变量

目录

1. 简介

2. 分析与详解

2.1 未优化

2.2 LOOP_TRIPCOUNT 优化指令

2.3 重写变量循环边界

3. 总结


1. 简介

在硬件设计中,循环的迭代次数通常需要是固定的,因为这有助于资源的预分配和时序分析。

循环边界包含变量意味着循环的迭代次数不是固定的,而是由程序运行时的某个变量值决定。这种情况下,编译器无法预先知道循环的确切迭代次数,从而影响代码的优化和性能分析。

当循环包含变量边界时,将禁止执行 Vitis HLS 可应用的某些最优化操作。

int example(int A[32], int n) {...for (i = 0; i < n; i++) {out_accum += A[i];}
...
}

其中,循环边界由顶层输入驱动的变量 n 来判定。在此情况下,循环被视为包含变量边界,因为 Vitis HLS 无从知晓循环将何时完成。

本文探讨如何解决这种问题。

2. 分析与详解

2.1 未优化

Vitis HLS 工具会尝试循环进行进行最优化,并且最终的报告包含变量循环边界造成的问题。

#include "ap_int.h"ap_int<13> example(ap_int<8> A[32], ap_uint<5> n) {ap_int<13> out_accum = 0;ap_uint<5> i;LOOP:for (i = 0; i < n; i++) {out_accum += A[i];}return out_accum;
}

变量循环边界的第一个问题是阻止 Vitis HLS 判定循环时延。

Vitis HLS 可判定完成一次循环迭代所需的时延,但由于它无法静态判定精确的变量宽度值 n,因此无从知晓执行的迭代次数,因而无法报告循环时延(即完全执行循环的所有迭代的周期数)。

存在变量循环边界时,Vitis HLS 会将时延报告为问号 (?) 而不是使用精确值。以下显示了示例的综合后的结果: 

* Loop: 
+----------+---------+---------+----------+-----------+-----------+------+----------+
|          |  Latency (cycles) | Iteration|  Initiation Interval  | Trip |          |
| Loop Name|   min   |   max   |  Latency |  achieved |   target  | Count| Pipelined|
+----------+---------+---------+----------+-----------+-----------+------+----------+
|- LOOP    |        ?|        ?|         2|          1|          1|     ?|       yes|
+----------+---------+---------+----------+-----------+-----------+------+----------+

2.2 LOOP_TRIPCOUNT 优化指令

loop_tripcount 语法

#pragma HLS loop_tripcount min=<int> max=<int> avg=<int>

克服此问题的方法是使用 LOOP_TRIPCOUNT 指令来为循环指定最小和/或最大迭代计数。 

#include "ap_int.h"ap_int<13> example(ap_int<8> A[32], ap_uint<5> n) {ap_int<13> out_accum = 0;ap_uint<5> i;LOOP:for (i = 0; i < n; i++) {
#pragma HLS loop_tripcount min=32 max=32 avg=32out_accum += A[i];}return out_accum;
}

循环次数(tripcount) 表示循环的迭代次数。优化后的是示例中,tripcount 最大值 32,那么报告将更新为显示如下内容:

* Loop: 
+----------+---------+---------+----------+-----------+-----------+------+----------+
|          |  Latency (cycles) | Iteration|  Initiation Interval  | Trip |          |
| Loop Name|   min   |   max   |  Latency |  achieved |   target  | Count| Pipelined|
+----------+---------+---------+----------+-----------+-----------+------+----------+
|- LOOP    |       32|       32|         2|          1|          1|    32|       yes|
+----------+---------+---------+----------+-----------+-----------+------+----------+

LOOP_TRIPCOUNT 指令提供的值仅用于报告,或者用于支持 PERFORMANCE 编译指示或指令。指定的循环次数值使 Vitis HLS 能够在报告中判定时延值,以便对来自不同解决方案的值进行比较。要将此循环边界信息用于综合,必须使用断言更新 C/C++ 语言代码,这样会影响综合,由于断言条件假定为 true,因此必须谨慎使用。

由于变量边界循环无法完全展开,因此不仅阻止应用展开 (unroll) 指令,而且还会阻止循环上层的层级的流水打拍操作。

2.3 重写变量循环边界

这里的解决方案是将循环的迭代次数设置为一个固定的最大值(此处为32),然后在循环体内部使用条件语句来决定是否执行循环的主体。

#include "ap_int.h"ap_int<13> example(ap_int<8> A[32], ap_uint<5> n) {ap_int<13> out_accum = 0;ap_uint<5> i;LOOP:for (i = 0; i < 32; i++) {if (i < n) {out_accum += A[i];}}return out_accum;
}

在 LOOP 循环中,i 从0迭代到 32,但只有当 i 小于 n 时,才会将 A[i] 加到累加器 out_accum 上。这样,即使 n 是一个变量,循环的迭代次数也是固定的,满足硬件设计的要求。 

示例中的 for 循环 (LOOP) 则可完全展开。由于此循环的上限固定,因此 Vitis HLS 知晓需创建的硬件数量。在 RTL设计中包含 32 份循环主体副本。每份循环主体副本都包含与之关联的条件逻辑,并根据变量 n 值来执行。

3. 总结

在硬件设计中,固定的循环迭代次数对于资源分配和时序分析至关重要。Vitis HLS 在处理包含变量边界的循环时面临挑战,因为这限制了某些优化操作的执行。通过使用 LOOP_TRIPCOUNT 指令指定迭代次数的范围,可以帮助工具更好地进行时延分析。此外,将循环重写为固定次数的迭代,同时在循环体内部使用条件语句来控制执行,可以满足硬件设计的需求,允许循环展开和流水线化,从而提高性能。这些方法为变量边界循环提供了有效的解决方案,使得即使在变量驱动的情况下,也能实现硬件设计的优化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/25511.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java进阶_抽象类与方法

抽象类概念 在面向对象的概念中&#xff0c;所有的对象都是通过类来描绘的&#xff0c;但是反过来&#xff0c;并不是所有的类都是用来描绘对象的&#xff0c;如果一个类中没有包含足够的信息来描绘一个具体的对象&#xff0c;这样的类就是抽象类。 抽象类除了不能实例化对象之…

按键精灵安装有乱码并且不能启动的解决办法

在国外购了电脑&#xff0c;系统是英文版 Windows 11&#xff0c;按键精灵死活都装不上去&#xff0c;打开exe的安装文件后出现乱码&#xff0c;安装完了后还是乱码&#xff0c;并且启动不了&#xff0c;以下是解决办法&#xff1a; 进入控制面板&#xff0c;并且点 Region&am…

汇编:结构体

在32位汇编中&#xff0c;结构体&#xff08;structures&#xff09;用于组织和管理复杂的数据类型&#xff0c;结构体可以包含多个不同类型的数据项&#xff08;成员&#xff09;&#xff1b;在MASM&#xff08;Microsoft Macro Assembler&#xff09;中&#xff0c;使用结构体…

CentOS安装Node.js以及JSDOM跳坑记

笔者在一台 CentOS 7.9 的服务器上使用常规的安装命令&#xff1a;sudo yum install node 来安装 Node.js&#xff0c;到最后系统提示&#xff1a; Error: Package: 2:nodejs-20.14.0-1nodesource.x86_64 (nodesource-nodejs) Requires: libstdc.so.6(GLIBCXX_3.4.20)(64bit) …

VUE + nodejs实战

BVDN搭建 D: cd nodejs ::npm install bootstrap ::npm install jquery ::npm install popper.js ::npm install vue npm install vue-router pauseapp.html <!DOCTYPE html> <!DOCTYPE html> <html> <head><!--bootstrap--><link rel"…

MySQL 5.7详细下载安装配置教程(MySQL 5.7安装包)_mysql5.7的安装教程

记录MySQL 5.7 的下载安装教程&#xff0c;并提供了Mysql 安装包 &#xff0c;以下是详细下载安装过程。 一、下载Mysql安装包 网盘下载&#xff1a; 下载MySQL 5.7安装包&#xff0c;网盘下载地址&#xff1a;点击此处直接下载 官网下载&#xff1a; 进入官网&#xff0c…

【设计模式】行为型设计模式之 迭代器模式

介绍 迭代器模式&#xff08;Iterator Pattern&#xff09; 是行为设计模式之一&#xff0c;它提供了一种访问集合对象&#xff08;如列表、数组或其他集合结构&#xff09;中元素的方式&#xff0c;而不需要暴露集合的内部结构。迭代器模式定义了一个迭代器接口&#xff0c;该…

K8S - 用kubectl远程访问内网的k8s集群

在之前的文章 K8S - 在任意node里执行kubectl 命令 介绍过&#xff0c; 通过任何node 的主机&#xff0c; 用kubectl 管理集群是很简单 无非就是两个步骤: 下载 k8s master 上的admin.conf在当前主机配置 K8SCONFIG 环境变量指向 下载的config file 其他内网主机也适用 其…

打字侠是一款PWA网站,如何下载到电脑桌面?

嘿&#xff0c;亲爱的键盘侠们&#xff01; 你是否还在为寻找一款好用的打字练习工具而烦恼&#xff1f;别担心&#xff0c;今天我要给大家介绍一位超级英雄——打字侠&#xff01;它不仅是一个超级酷的打字练习网站&#xff0c;还是一款PWA&#xff08;渐进式网页应用&#x…

链路聚合LACP

#交换设备 链路聚合 理解链路聚合配置&#xff08;LACP) 什么是LACP LACP&#xff08;Link Aggregation Control Protocol&#xff0c;链路聚合控制协议&#xff09;是一种基于IEEE802.3ad标准的实现链路动态聚合与解聚合的协议&#xff0c;它是链路聚合中常用的一种协议。…

WEB-Wordlist-Generator:为扫描后的Web应用生成相关联的字典

关于WEB-Wordlist-Generator WEB-Wordlist-Generator是一款功能强大的字典生成工具&#xff0c;该工具旨在帮助广大研究人员扫描目标Web应用程序并生成与之相关联的字典文件&#xff0c;从而允许我们对相关的网络威胁行为执行预备性应对策略。 功能介绍 当前版本的WEB-Wordli…

微服务之远程调用

常见的远程调用方式 RPC&#xff1a;Remote Produce Call远程过程调用&#xff0c;类似的还有 。自定义数据格式&#xff0c;基于原生TCP通信&#xff0c;速度快&#xff0c;效率高。早期的webservice&#xff0c;现在热门的dubbo &#xff08;12不再维护、17年维护权交给apac…

R语言统计分析——数据集概念和数据结构

参考资料&#xff1a;R语言实战.第2版 1、数据集的概念 数据集通常是由数据构成的一个矩形数组&#xff0c;行表示观测&#xff0c;列表示变量。 不同行业对于数据集的行和列叫法不同。统计学称为观测&#xff08;observation&#xff09;和变量&#xff08;variable&#xff…

动态规划(多重背包+完全背包)

P2851 [USACO06DEC] 最少的硬币 G 题解&#xff1a;从题目上看到那个有n种不同的货币&#xff0c;对于买家来说每个货币有C[ i ]个&#xff0c;是有限个数的&#xff0c;但是对于卖家来说 每个货币都是无限的&#xff0c;题目中要我们求的是买到这个物品的最小交易的货币数&…

[Vue-常见错误]浏览器显示Uncaught runtime errors

文章目录 错误描述正确写法具体如下 错误描述 当前端代码发生错误时&#xff0c;浏览器中出现以下错误提示。 正确写法 显然这不是我们所期望的&#xff0c;在vue.config.js中配置如下设置关闭Uncaught runtime errors显示 devServer: {client: {overlay: false}具体如下 …

Nvidia的成功与竞争:CEO黄仁勋的自信与挑战

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

计算机操作系统基础知识:操作系统体系结构图,操作系统的内核,大内核与微内核的区别和优缺点,时钟管理,原语

1.操作系统体系结构图&#xff1a; 2.操作系统的内核&#xff1a; 时钟管理&#xff1a;利用时钟中断实现计时功能。 原语&#xff1a;原语是一种特殊的程序&#xff0c;具有原子性。也就是说&#xff0c;这段程序运行必须一气呵成&#xff0c;不能被中断。 ubuntu、centos的…

[Llama3] ReAct Prompt 测试实验

ReAct 是一种 LLM 提示和结果处理方法&#xff0c;结合了推理、行动计划和知识源整合&#xff0c;使 LLM 超越其语言模型&#xff0c;并在预测中使用来自现实世界的信息。 ReAct 是推理和行动的结合。 介绍 ReAct 的论文表明它比思维链提示更好。与后者不同的是&#xff0c;Re…

quick4 - hackmyvm

简介 靶机名称&#xff1a;quick4 难度&#xff1a;简单 靶场地址&#xff1a;https://hackmyvm.eu/machines/machine.php?vmQuick4 本地环境 虚拟机&#xff1a;vitual box 靶场IP&#xff08;quick4&#xff09;&#xff1a;192.168.56.104 跳板机IP(windows 11)&…

推荐三款你不知道的良心软件

Tico——抠图、拼图软件 抠图软件大家见过很多了把&#xff0c;但是从多张图片中抠出来的图片拼接成一张图片你们很少见过吧。 Tico就是一款将抠出来的图片拼接成一张新图片的软件&#xff0c;目前仅支持IOS平台。 Tico拼贴图提供了强大的图像编辑和处理功能&#xff0c;用户…