深度学习系列55:深度学习加速技术概述

总体有两个方向:模型优化 / 框架优化

1. 模型优化

1.1 量化

最常见的量化方法为线性量化,权重从float32量化为int8,将输入数据映射在[-128,127]的范围内。在 nvdia gpu,x86、arm 和 部分 AI 芯片平台上,均支持 8bit 的计算。
在这里插入图片描述
当然还有简单的二值化。对比从 nvdia gpu 到 x86 平台,1bit 计算分别有 5 到128倍的理论性能提升。
此外还有对数量化,一种比较特殊的量化方法。两个同底的幂指数进行相乘,那么等价于其指数相加。目前 nvdia gpu,x86、arm 三大平台上没有实现对数量化的加速库,但是目前已知海思 351X 系列芯片上使用了对数量化。

根据量化的粒度(共享量化参数的范围)可以分为逐层量化、逐组量化和逐通道量化。TensorRT 框架中就使用了逐层量化的方法,每一层采用同一个阈值来进行量化。

权重量化完后,我们还要对激活层进行量化,这时需要进行calibration,通过校准数据集来确定激活层的比例因子和偏差。
此外,pytorch还可以进行训练后的动态量化(torch.quantization.quantize_dynamic)和训练时的量化(torch.quantization.FakeQuantize)。

1.2 剪枝

下图是第一种剪枝方法(移除边),非规则的形状对硬件不友好,只能在专用硬件上加速。
在这里插入图片描述
第二种是移除点(找到零神经元)
在这里插入图片描述
我们可以使用distiller工具来查看模型的稀疏度:

# 显示网络的稀疏度
python3 compress_classifier.py -a=resnet20_cifar ../../../data.cifar10 --summary=sparsity

在这里插入图片描述
在这里插入图片描述

1.3 融合

将一些近邻的层合并成一个层,减少计算量

1.4 知识蒸馏

知识蒸馏是一种与模型无关的压缩方法,它从大型、昂贵的教师模型中获取知识,并将其转移到较小的学生模型中。知识蒸馏模型采用软目标来获得比庞大的教师模型更高的准确性和更少的推理时间。
在这里插入图片描述

2. 压缩工具

2.1 pocketflow

该工具中所包含的压缩方法主要包括3大类:裁剪、权重稀疏和量化。

# 对网络进行裁剪操作
./scripts/run_seven.sh nets/resnet_at_cifar10_run.py \--learner channel \--cp_prune_option uniform \--cp_uniform_preserve_ratio 0.5
# 对网络进行权重稀疏操作
./scripts/run_local.sh nets/resnet_at_cifar10_run.py \--learner weight-sparse \--ws_prune_ratio_prtl uniform \--data_disk hdfs
# 对网络进行量化操作
./scripts/run_local.sh nets/resnet_at_cifar10_run.py \--learner uniform \--uql_use_buckets \--uql_bucket_type channel \--data_disk hdfs

2.2 TVM

通过LLCM来支持Intel和ARM CPU等一些设备;通过Opencl来支持ARM的MailGPU;通过CUDA来支持NVIDIA的设备;通过Metal来支持苹果的设备;通过VTA来很好的支持FPGA和ASCI

2.3 openvino/tensorRT

分别是针对intel和nvidia家的硬件,可参考以前的文章。

2.4 手机端加速

MNN/ARMNN/ncnn/TNN等。

2.5 pytorch相关

model-compression以及pytorch自带的压缩工具

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/667620.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python使用回调函数或async/await关键字、协程实现异步编程

异步编程是一种编程模式,它允许程序在执行某个任务时,能够同时执行其他任务而不需要等待当前任务完成。在传统的同步编程中,程序执行一个任务后必须等待该任务完成后才能继续执行下一个任务。而在异步编程中,程序可以发起一个任务后立即执行其他任务,当原先的任务完成后,…

LiveData 迁移到 Kotlin Flow详解

LiveData ,是Android 2017推出的一个东西,配合MVVM使用。观察者模式,的确简化了我们的工作方式,但 RxJava 等选项,对于当时的初学者来说实在是太复杂了。因此 Architecture Components 团队创建了 LiveData :这是个非常 “有主见的” 可观察数据持有者类,并且是专门为 A…

Go 函数 可变参数

有的时候,我们定义函数,都是形参固定,有时候我们并不知道参数有多少个,这里我们就可以用... 来使用可变参数 代码如下: package main import "fmt"//定义一个函数,函数的参数为:可变…

AI时代,人才的“重新定义”

参加一个讨论,梳理一下自己所理解到一些内容,有不对的请指正: 我们要好好借助AI工具成为一个π型人才,π型人才 是指至少拥有两种专业技能,并能将多门知识融会贯通的高级复合型人才。 π下面的两竖指两种专业技能&…

全自动网页生成系统重构版源码

全自动网页生成系统重构版源码分享,所有模板经过精心审核与修改,完美兼容小屏手机大屏手机,以及各种平板端、电脑端和360浏览器、谷歌浏览器、火狐浏览器等等各大浏览器显示。 为用户使用方便考虑,全自动网页制作系统无需繁琐的注…

PMP资料怎么学?PMP备考经验分享

PMP考试前大家大多都是提前备考个一两个月,但是有些朋友喜欢“不走寻常路”,并不打算去考PMP认证,想要单纯了解PMP,不管要不要考证,即使是仅仅学习了解一下我个人都非常支持,因为专业的基础的确能提高工作效…

基恩士 KV-8000 PLC通讯简单测试

1、KV-8000通讯协议 基恩士 KV-8000 PLC支持多种通讯方式,包括:OPC UA、Modbus、上位链路命令等。其中OPC UA需要对服务器和全局变量进行设置,Modbus需要调用功能块。默认支持的是上位链路命令,实际是一条条以回车换行结束的ASCII…

基于微信小程序的医保行政执法案件管理系统

本系统设计的是一个医保行政执法的网站,此网站使用户实现了不需出门就可以在手机或电脑前进行网上查询需求信息等。 用户在注册登陆后,在客户端可以实现;案件信息、结案归档、我的等。然而管理员则可以在服务端直接管理;个人中心、…

【已解决】Oracle 12541 TNS 无监听程序

目录 1、找到Oracle监听服务(OracleOraDb10g_homeTNLListener),停止运行 2、首先查看监听文件是否超过4G 3、修改配置文件 连接oracle突然报错,提示Oracle 12541 TNS 无监听程序,可以按照以下步骤解决 1、找到Ora…

Redis-布隆过滤器解决穿透详解

本文已收录于专栏 《中间件合集》 目录 背景介绍概念说明原理说明解决穿透安装使用安装过程Redis为普通安装的配置方式Redis为Docker镜像安装的配置方式 具体使用控制台操作命令说明Spring Boot集成布隆过滤器 总结提升 背景介绍 布隆过滤器可以帮助我们解决Redis缓存雪崩的问题…

Fink CDC数据同步(四)Mysql数据同步到Kafka

依赖项 将下列依赖包放在flink/lib flink-sql-connector-kafka-1.16.2 创建映射表 创建MySQL映射表 CREATE TABLE if not exists mysql_user (id int,name STRING,birth STRING,gender STRING,PRIMARY KEY (id) NOT ENFORCED ) WITH (connector mysql-cdc,hostn…

算法学习打卡day47|单调栈系列题目

单调栈题目思路 通常是一维数组,要寻找任一个元素的右边或者左边第一个比自己大或者小的元素的位置,此时我们就要想到可以用单调栈了。时间复杂度为O(n)。单调栈的本质是空间换时间,因为在遍历的过程中需要用一个栈来记录右边第一个比当前元…

链式二叉树(三种遍历)

1.链式二叉树的遍历:前序(根,左子树,右子树)中序(左子树,根,右子树)后序(左子树,右子树,根)层序(一层一层访问…

探索深度学习的边界:使用 TensorFlow 实现高效空洞卷积(Atrous Convolution)的全面指南

空洞卷积(Atrous Convolution),在 TensorFlow 中通过 tf.nn.atrous_conv2d 函数实现,是一种强大的工具,用于增强卷积神经网络的功能,特别是在处理图像和视觉识别任务时。这种方法的核心在于它允许网络以更高…

Flask 入门6:模板继承

一个网站中,大部分网页的模块是重复的,比如顶部的导航栏,底部的备案信息。如果在每个页面中都重复的去写这些代码,会让项目变得臃肿,提高后期的维护成本。比较好的做法是,通过模板继承,把一些重…

电脑文件误删除怎么办?8个恢复软件解决电脑磁盘数据可能的误删

您是否刚刚发现您的电脑磁盘数据丢失了?不要绝望!无论分区是否损坏、意外格式化或配置错误,存储在其上的文件都不一定会丢失到数字深渊。 我们已经卷起袖子,深入研究电脑分区恢复软件的广阔领域,为您带来一系列最有效…

合并排序算法

合并排序依赖于合并操作,即将两个已经排序的序列合并成一个序列,具体的过程如下: 1申请空间,使其大小为两个已经排序序列之和,然后将待排序数组复制到该数组中。 2设定两个指针,最初位置分别为两个已经排…

如何标准化地快速编辑文档

介绍个公文类的文档技巧吧,尤其在国企、机关、有ISO管理体系内控要求的会议记录、公文写作等,要求大同小异,一般都是中规中矩的【GB/T 9704—2012】,其实国标本身就是经过长期检验,证明是最规范合理,阅读效…

深度学习介绍

对于具备完善业务逻辑的任务,大多数情况下,正常的人都可以给出一个符合业务逻辑的应用程序。但是对于一些包含超过人类所能考虑到的逻辑的任务,例如面对如下任务: 编写一个应用程序,接受地理信息、卫星图像和一些历史…

Java 中 ExceptionInInitializer 错误

在这篇文章中,我们将了解Java中的 ExceptionInInitializerError。 Java中 ExceptionInInitializerError 简介 ExceptionInInitializerError 是 Java 中的未经检查的异常,它是 Error 类的子类。 它属于运行时异常的类别。 在 Java 中,每当 J…