postgres 把一个表的值转成另一个表的字段名_用LUT来做一个可动态配置的卷积核...

引言

由于卷积核数据在计算过程中保持不变,更新较慢。这样就可以利用LUT来存储权重并同时进行乘法运算。LUT乘法器的实现很早就已经研究过,本论文正是在此基础上,提出了用于实现可配置的卷积实现方法。基于LUT的乘法器不会受到FPGA中DSP资源的限制,能够将神经网络加速应用于低端FPGA芯片。

01

LUT乘法器的实现

一个LUT有固定的输入和输出管脚,例如在xilinx的zynq系列器件中,LUT有5个输入1个输出或者4个输入两个输出。如何用LUT来实现任意大小的乘法运算呢?这里用到了一个基本的数学法则:因式分解。考虑一个补码数据x,其有Bi bit,那么表示为:

ca244ca5125bab38adf9acbd97e1c8cc.png

如果这个数被一个常数c乘,这个乘法可以被分解为更小bit的乘法,然后对这些小份乘法进行位移和求和。

a9c446ece172328aa807dee8fbed6c98.png

这样就将一个BcxBi bit的乘法分解成多个BcxL的乘法,而这个小的乘法就可以去利用LUT来实现。将L设置为LUT的输入引脚数量,可以直接将乘法映射到LUT上,并且对LUT资源利用效率最高。

02

Compressor加法树

上述乘法的分解造成了大量的加法,因此需要较大的加法树来完成各个乘法结果移位后的累加。基于Generalized parallel counters(GPC)充分利用了FPGA中的LUT资源以及进位链,可以更好的映射到LUT上,减少LUT使用的浪费。其主要特点就是在一个LUT中实现最多个全加器的运算,这样能保证进位链最短,LUT资源利用率最高。

8629711a107f3ad27c70f52c5b810a3c.png

图2.1 乘法分解求和

03

可配置LUT

LUT是一个查找表,FPGA中对代码逻辑的映射都是映射到查找表中。现代的LUT有个特点就是可以进行动态配置,意味着可以在运行中去更新查找表的值。比如在xilinx的virtex,spartan和zynq器件中LUT就可以通过移位寄存器的方式来更新内部数据,32个时钟周期完成。这样就可以将卷积核数据存放在LUT中,然后在需要更新的时候进行更新。

04

可配置卷积的硬件架构

卷积运算的结构如图4.1所示,N个输入数据(x1, x2, .., xN)每个和c的乘法都被分解为K个乘法,然后将所有的部分乘法结果移位送入加法树。每个BcXL的乘法需要的LUT数量大致为Bc+L个。加法树输出的Bo位宽会远远大于输入位宽,因此需要进行rouding或者截位。

49da75ff7ab8251552bb9103f54ec322.png

图4.1 基于LUT的卷积运算结构

论文中使用了LUT4输入2输出,使用4输入LUT而不是5输入是因为乘法分解的特点,4bit位宽对于16bit,8bit整型乘法来说更能充分利用LUT资源。这样N个输入数据的每个部分乘法总共花费的LUT数量就是:

2a3ac76fcc7028041510c49173122f21.png

乘法和加法导致输出Bo位宽变大,需要减小位宽。论文采用了faithful rouding的办法。比如输入是12bit的数据,要求输出也要截位成12bit,如果在最后求和之后再进行截位,加法树中就因为计算多余位数求和而浪费LUT。如果每个乘法结果都截位为12,那么会造成最后结果精度较大丢失。如果先对每个乘法结果截位大于12bit的数据,根据总共求和的个数可以计算出需要保留的bit位数。这样就能够保证最后加法结果精度等于或者小于直接截位加法结果的精度。比如开始对每个乘法截位2^(-q-g),因为总共有N*Bi/L个部分积结果。所以总共的精度损失为:

d53885a1d63b1424ef01b519b86862b4.png

通过限制总精度损失在需要范围:

7c370e844e2416d4958e289694b37f87.png

这样就可以得到g的数据。这样就能最大程度减少LUT的使用同时能保证良好精度。

c4257601c126284db65e50b5482d4303.png

图4.2 3个输入x,bit位宽12bit,分解为4个乘法,输出要求12bit

现在来看如何对LUT进行数据的更新。由于将LUT用作4输入2输出,那么一个LUT可以计算出2bit结果的乘法。于是计算需要的每个个LUT的一部分用于和weights的偶数部分进行乘法,而另一部分用于和weights的奇数部分乘法。而LUT的配置接口只有一个CDI,因此就需要分别对LUT的这两部分进行配置。论文中先计算对应奇数部分weights的乘法结果,存储到LUT中,然后计算对应偶数部分weihts的乘法,存储到LUT中。

10b5ee3dc1aade1eb74dd003aa04d86a.png

图4.3 动态配置LUT电路图

从上述架构中可以看到,当进行LUT配置的时候,LUT是无法进行计算的。这个很好解决,可以通过增加双倍LUT来实现,对没有计算的LUT来进行动态配置,而另一部分LUT进行计算。这样相当于进行了ping-pong操作。

8b22b291a6384e8578cfe7edb96780db.png

图4.4 双LUT结构进行计算

05

结果

下图给出了不同卷积核大小以及不同位宽所需要的资源对比。相比于其他使用LUT来进行乘法和加法操作的方式来说,这样更能最大化利用LUT资源。

a4612d6050a2bb332a49013228652f2d.png

图5.1 综合后资源对比

总结

论文中提出的可配置卷积运算架构,可以改善CNN在FPGA的应用。充分利用了LUT资源,可以更好的改善时序性能。

文献

1 Hardieck, M., et al., Reconfigurable Convolutional Kernels for Neural Networks on FPGAs, in Proceedings of the 2019 ACM/SIGDA International Symposium on Field-Programmable Gate Arrays - FPGA '19. 2019.

往期回顾

1 用LUT来搭建乘法器

2 在FPGA中实现高效的compressor加法树

3 可变位宽的大规模矩阵乘法方法

3120f0078311e2c730dc377612c7c1c5.png374e3f1bfb9efadb5e6c39323a5f1847.pngfacf71cbec13d26724bd17a8c3256683.png3e0a47a4235cdd1e1ea6632520c0ed2e.pngcfc7761190c181d393316ba3ec9bd92a.png

公众号

AI加速

c7d66875b68c708009e0e33ebc5246c5.png

用FPGA做有趣的事

e125fe5c391cdbeb8371e6efa6706e3c.pngb59f21b0544e6ffa5cb67cee81209cd7.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/551432.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql储存过程把集合并_MySQL 多日志表结果集合拼接存储过程

通常MySQL单天的日志 只记录当天的日志信息,如果需要查看一月内的日志信息需要对每天的日志表结果集合进行拼接,通常用到 union通常MySQL单天的日志 只记录当天的日志信息,如果需要查看一月内的日志信息需要对每天的日志表结果集合进行拼接,通常用到 uni…

split函数python统计英文单词_统计一篇英文文章单词个数,取出出现频次前10的单词(Python实现)...

题目: 用python实现统计一篇英文文章内每个单词的出现频率,并返回出现频率最高的前10个单词及其出现次数。常规解法怎么判定单词?1 不是字母的特殊字符作为分隔符分割字符串 (避免特殊字符的处理不便,全部替换成"")2 正则分割3 遍…

superset mysql数据源配置_superset 性能优化1-已经使用中的superset更改默认数据源sqlite到mysql...

已经使用中的superset更改默认数据源sqlite到mysql1.提取sqlite db(由于当前使用 docker 需要到宿主)docker cp CONTAINER_NAME:/var/lib/superset/superset.db /opt2.数据导出然后使用 navicat 数据库工具打开sqlite文件选择导出向导csv数据保存到一个文件夹3.创建mysql数据库…

对于一个指针可以多次使用delete_【C++札记】new和delete

malloc,free和new,delete区别:a.malloc,free是C/C的标准库函数。new,delete是c的操作符。b.malloc申请的是内存,严格意义不是“对象”,new申请的可以理解为“对象”,new 时会调用构造函数,返回指向该对象的指针。c.对于…

java循环队列_Java 循环队列的实现

队列概念队列(Queue)是限定只能在一端插入、另一端删除的线性表。允许删除的一端叫做队头(front),允许插入的一端叫做队尾(rear),没有元素的队列称为“空队列”。队列具有先进先出(FIFO)的特性。普通顺序队列存在的问题在普通顺序队列中,入队的操作就是先将尾指针re…

python大数据开发平台_python示例

### 结合使用 GET 和 Authorization 标头 (Python)以下示例说明如何使用 [根据方案编号获取内容列表](http://open.gsdata.cn/article/info?id1) API 发出请求。该请求发出 GET 请求,并使用 Authorization 标头将身份验证信息发送到 GSDATA。~~~#!/usr/bin/python#…

java 遍历hashmap key_Java5种遍历HashMap数据的写法

本文介绍了最好的Java5种遍历HashMap数据的写法&#xff0c;分享给大家&#xff0c;也给自己留一个笔记&#xff0c;具体如下&#xff1a;通过EntrySet的迭代器遍历Iterator < Entry < Integer, String >> iterator coursesMap.entrySet().iterator();while (iter…

python不能卸载原因_linux上python卸载不了是什么原因?

linux下卸载python&#xff1a;1.首先查看自己电脑的python版本在root下&#xff0c;python3 --version python3.5.3python --version python 2.7.132.说实话&#xff0c;对于这点我不太喜欢&#xff0c;可能是系统自带的&#xff0c;无自己没事就瞎折腾一下&#xff0c;也就是…

java new 多线程_Java多线程实现(四种方法)

1.继承Thread类&#xff0c;重写run方法(其实Thread类本身也实现了Runnable接口)2.实现Runnable接口&#xff0c;重写run方法3.实现Callable接口&#xff0c;重写call方法(有返回值)4.使用线程池(有返回值)1.继承Thread类&#xff0c;重写run方法每次创建一个新的线程&#xff…

oracle删除唯一索引sql语句_高级SQL之在选择语句中使用更新和删除

点击蓝字关注我吧【本文详细介绍了数据库中在选择语句中使用更新和删除的方法&#xff0c;欢迎读者朋友们阅读、转发和收藏&#xff01;】1 基本概念1.1 SQL UPDATE 语句Update 语句Update 语句用于修改表中的数据。语法&#xff1a;UPDATE 表名称 SET 列名称 新值 WHERE 列名…

java 读 jar外文件_读取Jar包外面的配置文件

比较常用的方法是将properties文件直接打入JAR包中&#xff0c;然后使用Properties类进行读取。有时候也需要读取在JAR外面的配置文件。废话不多说&#xff0c;直接上代码&#xff1a;import java.io.BufferedInputStream;import java.io.FileInputStream;import java.io.IOExc…

python随机生成车牌_Python实现随机生成任意数量车牌号

之前做课设的时候舍友遇到了需要生成500w量级车牌号的问题&#xff0c;于是我便写了一个随机生成车牌号的程序&#xff0c;希望各位采纳。注&#xff1a;Python实现import randomdef chepaihao(len6):char0京津沪渝冀豫云辽黑湘皖鲁新苏浙赣鄂桂甘晋蒙陕吉闽赣粤青藏川宁琼char…

java 多层异常_Java多层嵌套异常处理的基本流程

异常是程序中的一些错误&#xff0c;但并不是所有的错误都是异常&#xff0c;错误有时候是可以避免的。异常的对象有两个来源&#xff0c;一是Java运行时环境自动抛出系统生成的异常&#xff0c;而不管你是否愿意捕获和处理&#xff0c;它总要被抛出&#xff01;比如除数为0的异…

python刷屏代码_python 刷屏

{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里技术人对外发布原创技术内容的最大平台&…

linux java no x11_在linux下运行javaMail程序报No X11 DISPLAY variable was...

收藏java.awt.HeadlessException:No X11 DISPLAY variable was set, but this program performed an operation which requires it.at java.awt.GraphicsEnvironment.checkHeadless(GraphicsEnvironment.java:159)at java.awt.List.(List.java:216)at java.awt.List.(List.java…

python四级考试时间_四级英语考试如何准备呢?

英语怎样才能过四级&#xff1f;对于那些准备了很久就等这次考试拿个好成绩的同学&#xff0c;一定要认真看&#xff0c;绝对能帮到你们&#xff01;(一)阅读阅读是四六级的分数大户。1、养成先看题目&#xff0c;再看阅读原文的习惯&#xff0c;掌握相关的阅读技巧。2、通常问…

python的selenium模块_Python中Selenium模块的使用

目录Selenium的介绍、配置和调用Selenium(浏览器自动化测试框架) 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中&#xff0c;就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11)&#xff0c;Firefox&#xff0c;Safari&#xff0c;Google Chr…

django使用mysql事务处理_Django中MySQL事务的使用

Django中事物的使用from django.db import transactiontransaction.atomic通过transaction的transaction.atomic装饰器来开启事务&#xff0c;在视图逻辑涉及数据库操作的地方添加事物保存点&#xff0c;在操作不满足时进行事物回滚&#xff0c;在操作满足是进行事物提交# 前端…

python学习笔记全过程_Python学习过程笔记整理(一)

编码方式-Utf8编码方式&#xff1a;# -*- coding: utf-8 -*-注释-行注释 #-块注释 ...或"""..."""基础语法-print()输出默认换行&#xff0c;不换行需要末尾加end""1 print("A",end"")2 print("B")-inp…

http安全 Java_HTTP通信安全-身份验证 | 字痕随行

无论是使用Web Service、RESTful或者其它的基于Http协议的交互方案&#xff0c;不可避免的都需要解决通信方面的安全问题&#xff0c;常见的无非就是&#xff1a;1. 明文传输密码。2. 重放攻击(相关概念参见《HTTP安全-重放攻击》)。3. 请求来源非法。本文通过SHA1算法加/解密相…