float32 float16 bfloat16 推理训练GPU速度和内存调研

float32 float16 bfloat16 推理训练GPU速度和内存调研

news/2025/7/6 17:39:29/文章来源:https://blog.csdn.net/linzhiji/article/details/136627973

概念：

参考：Accelerating Large Language Models with Mixed-Precision Techniques - Lightning AI

3种数量类型表示的数据范围不一样，以float32为例其中有1个符号位，8位表示指数，23位表示尾数

标准训练推理是用的float32，但是占用GPU显存太大，所以优化的方向就是一般就是，时间换空间或者是减少float32位精度。

需要特别说的是，bfloat16 是nvidia 提出的数据类型，不是所有显卡都支持，像3080,3090之后的显卡都ok

推理速度和显存占用

不同模型不一样，以LLaMa为例。时间换空间，显存占用减少了，推理时间增加了，很合理

参考：Accelerating Large Language Models with Mixed-Precision Techniques - Lightning AI

Lightning-AI

参考 bfloat16 running 4x slower than fp32 (conv) · Issue #11933 · Lightning-AI/pytorch-lightning · GitHub

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/737837.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

团体程序设计天梯赛 L2-013 红色警报（连通分量）

团体程序设计天梯赛 L2-013 红色警报（连通分量）

L2-013 红色警报分数 25 战争中保持各个城市间的连通性非常重要。本题要求你编写一个报警程序，当失去一个城市导致国家被分裂为多个无法连通的区域时，就发出红色警报。注意：若该国本来就不完全连通，是分裂的k个区域&#xff0c…

阅读更多...

eclipse maven 项目导入报错

eclipse maven 项目导入报错

错误：Internal compiler error: java.lang.NullPointerException at org.eclipse.jdt.internal.compiler.apt.dispatch.AnnotationDiscoveryVisitor 环境：eclipse Kepler Service Release 2 ,JDK1.7 解决办法：编码不对，修改

阅读更多...

前端自带的base64转化方法

前端自带的base64转化方法

前端html的base64使用方法window.btoa()和window.atob()_html用window.btoa();-CSDN博客

阅读更多...

ubuntu20.04缺少libssl.so.1.0.0的解决方法

ubuntu20.04缺少libssl.so.1.0.0的解决方法

Index of /ubuntu/pool/main/o/openssl 使用一下下载命令，注意如果提示安装包不存在，可以从上述链接中找到合适的安装包，下载安装 wget http://security.ubuntu.com/ubuntu/pool/main/o/openssl/libssl1.0.0_1.0.2g-1ubuntu4.20_amd64.debsu…

阅读更多...

指令调用模板

指令调用模板

也就是这边指令通过id和map会定位到一个结构体，然后这个结构再赋值两个成员，一个是函数一个是指令类型，然后这个函数是模板的实例化使用的时候就传进去，这只是参数，最开始初始化的时候模板就已经实例化了。然后关于模…

阅读更多...

为什么美国硅谷作为服务器托管的首选地？

为什么美国硅谷作为服务器托管的首选地？

在数字化时代，服务器托管已成为企业运营不可或缺的一部分。而美国硅谷作为全球科技创新的摇篮，其服务器托管服务备受全球企业青睐。那么，为什么众多企业选择美国硅谷作为服务器托管的首选地呢? 硅谷拥有得天独厚的地理位置和网络基础设施。硅…

阅读更多...

[HackMyVM]Quick 2

[HackMyVM]Quick 2

kali:192.168.56.104 主机发现 arp-scan -l # arp-scan -l Interface: eth0, type: EN10MB, MAC: 00:0c:29:d2:e0:49, IPv4: 192.168.56.104 Starting arp-scan 1.10.0 with 256 hosts (https://github.com/royhills/arp-scan) 192.168.56.1 0a:00:27:00:00:05 (Un…

阅读更多...

若依框架的使用

若依框架的使用

文章目录 1,前端2,后端3,数据库4,测试 1,前端 2,后端 3,数据库 4,测试

阅读更多...

Vision Transformers的注意力层概念解释和代码实现

Vision Transformers的注意力层概念解释和代码实现

2017年推出《Attention is All You Need》以来，transformers 已经成为自然语言处理(NLP)的最新技术。2021年，《An Image is Worth 16x16 Words》，成功地将transformers 用于计算机视觉任务。从那时起，许多基于transformers的计算机…

阅读更多...

刘敏：楼氏动铁和麦克风助力听力健康技术发展 | 演讲嘉宾公布

刘敏：楼氏动铁和麦克风助力听力健康技术发展 | 演讲嘉宾公布

一、助辅听器材Ⅱ专题论坛助辅听器材Ⅱ专题论坛将于3月28日同期举办！ 听力贯穿人的一生，听觉在生命的各个阶段都是至关重要的功能，听力问题一旦出现，会严重影响生活质量。助辅听器材能有效提高生活品质。在这里，我们将…

阅读更多...

Redis哨兵模式（Sentinel）的搭建与配置

Redis哨兵模式（Sentinel）的搭建与配置

创建三个Redis实例所需的目录，生产环境需独立部署在不同主机上，提高稳定性。 Redis 哨兵模式（Sentinel）是一个自动监控处理 redis 间故障节点转移工作的一个redis服务端实例，它不提供数据存储服务，只进行普通 redis 节点监控管理，使用redis哨兵模式可以实现redis服务端故…

阅读更多...

八、软考-系统架构设计师笔记-系统质量属性和架构评估

八、软考-系统架构设计师笔记-系统质量属性和架构评估

1、软件系统质量属性软件架构的定义软件架构是指在一定的设计原则基础上，从不同角度对组成系统的各部分进行搭配和安排，形成系统的多个结构而组成架构，它包括该系统的各个构件，构件的外部可见属性及构件之间的相互关系。软件架…

阅读更多...

STM32串口：DMA空闲中断实现接收不定长数据（基于HAL库）

STM32串口：DMA空闲中断实现接收不定长数据（基于HAL库）

STM32串口：DMA空闲中断实现接收不定长数据（基于HAL库）： 第一步：设置rcc，时钟频率，下载方式设置system core->RCC如图所示：（即High Speed Clock和Low Speed Clock都选…

阅读更多...

ansible基础与基础命令模块

ansible基础与基础命令模块

一Ansible 1. ansible 的概念 Ansible是一个基于Python开发的配置管理和应用部署工具，现在也在自动化管理领域大放异彩。它融合了众多老牌运维工具的优点，Pubbet和Saltstack能实现的功能，Ansible基本上都可以实现。 Ansible能批量配置、部署、…

阅读更多...

什么是RESTful API? 详解@ResponseBody @RequestBosy @PathVariable@RestController

什么是RESTful API? 详解@ResponseBody @RequestBosy @PathVariable@RestController

什么是RESTful API? RESTful API 是一种遵循 REST（Representational State Transfer，表现层状态转移）架构风格的网络 API 设计。它强调资源的定位和操作，通常使用 HTTP 协议的标准方法，如 GET、POST、PUT、DELETE 等…

阅读更多...

手机群控软件开发必备源代码分享!

手机群控软件开发必备源代码分享!

随着移动互联网的飞速发展，手机群控技术在市场推广、自动化测试、应用管理等领域的应用越来越广泛，手机群控软件作为一种能够同时控制多台手机设备的工具，其开发过程中，源代码的编写显得尤为重要。 1、设备连接与识别模块设备连…

阅读更多...

RGMII 接口调试

RGMII 接口调试

目录硬件检查软件检查调试步骤硬件检查硬件工程师检查原理图和PCB，核查RGMII线路连接是否正确，PHY的 TX连接对端 RX，PHY的RX连接对端TX，原理图上以引脚序号引脚名引脚类型(输入还是输出)逐一核查RGMII接口各个网络&#…

阅读更多...

java Day7 正则表达式|异常

java Day7 正则表达式|异常

文章目录 1、正则表达式1.1 常用1.2 字符串匹配，提取，分割 2、异常2.1 运行时异常2.2 编译时异常2.3 自定义异常2.3.1 自定义编译时异常2.3.2 自定义运行时异常 1、正则表达式就是由一些特定的字符组成，完成一个特定的规则可以用来校验数据…

阅读更多...

AHU 汇编实验二

AHU 汇编实验二

一、实验名称：实验二不同寻址方式的灵活运用二、实验内容：定义数组a[6]，用多种寻址方式访问对应元素，实现（a[0]a[1]）*(a[2]-a[3])/a[4],将结果保存在内存a[5]中，用debug查询结果。实验过程&a…

阅读更多...

压缩自定义格式压缩包＜2＞：python使用DEFLATE 算法打包并解压成功，但是解压后的文件格式是固定后缀。

压缩自定义格式压缩包＜2＞：python使用DEFLATE 算法打包并解压成功，但是解压后的文件格式是固定后缀。

打包 import zlib import osdef compress_folder(input_folder, output_filename):"""使用 DEFLATE 算法压缩文件夹下的所有文件。Parameters:input_folder: str要压缩的文件夹路径。output_filename: str输出压缩文件名。"""# 创建一个空的字节…

阅读更多...

最新文章