Meta Llama 3 使用 Hugging Face 和 PyTorch 优化 CPU 推理

原文地址:meta-llama-3-optimized-cpu-inference-with-hugging-face-and-pytorch

了解在 CPU 上部署 Meta* Llama 3 时如何减少模型延迟

2024 年 4 月 19 日

万众期待的 Meta 第三代 Llama 发布了,我想确保你知道如何以最佳方式部署这个最先进的(SoTA)LLM。在本文中,我们将重点讨论如何执行只权重量化(WOQ)来压缩 8B 参数模型并改善推理延迟,但首先,让我们讨论一下 Meta Llama 3。

Llama 3

迄今为止,Llama 3 系列包括 8B 到 70B 参数的模型,未来还会有更多版本。这些模型都附带有允许使用的 Meta Llama 3 许可证,请在接受使用这些模型所需的条款之前仔细阅读。这标志着 Llama 模型系列和开源人工智能进入了激动人心的新篇章。

结构

Llama 3 是一种基于纯解码器transformer的自动回归 LLM。与 Llama 2 相比,Meta 团队做出了以下显著改进:

  • 采用分组查询关注 (GQA),提高了推理效率。
  • 优化了标记符号生成器,其词汇量为 128K 标记,旨在更高效地编码语言。
  • 在 15 万亿个 token 数据集上进行了训练,比 Llama 2 的训练数据集大 7 倍,包含的代码多 4 倍。

下图是 print(model) 的结果,其中 model 为 meta-llama/Meta-Llama-3-8B-Instruct。从图中我们可以看到,该模型由 32 个 LlamaDecoderLayers 组成,这些 LlamaDecoderLayers 由 Llama Attention 自我注意组件构成。此外,它还有 LlamaMLP、LlamaRMSNorm 和一个线性头。

29

语言建模性能

该模型在各种行业标准语言建模基准(如 MMLU、GPQA、HumanEval、GSM-8K、MATH 等)上进行了评估。在本文中,我们将回顾 "指令调整模型 "的性能。这些数据中最引人注目的是 Llama 3 8B 参数模型在所报告的基准测试中的性能比 Llama 2 70B 高出 62% 到 143%,而模型体积却小了 88%!

30

最新一代 Llama 提升了语言建模性能、许可权限和架构效率,标志着生成式人工智能领域翻开了激动人心的篇章。让我们来探讨如何优化 CPU 上的推理,以实现 Llama 3 的可扩展、低延迟部署。

使用 PyTorch 优化 Llama 3 推断

在本文中,我们将重点介绍如何在 meta-llama/Meta-Llama-3-8B-Instruct 中应用仅权重量化(WOQ)。WOQ 在性能、延迟和准确性之间取得了平衡,可选择量化到 int4 或 int8。WOQ 的一个关键部分是去量化步骤,它在计算前将 int4/in8 权重转换回 bf16。

31

环境设置

在 Llama-3-8B-Instruct 上执行 WOQ 需要大约 60GB 内存。其中约 30GB 用于加载完整模型,约 30GB 用于量化期间的峰值内存。WOQ Llama 3 只消耗约 10GB 内存,这意味着我们可以通过从内存中释放完整模型来释放约 50GB 内存。

如果在自己的集成开发环境中运行,你可能需要解决其他依赖性问题,如安装 Jupyter 和/或配置 conda/python 环境。在开始之前,请确保已安装以下依赖项。

intel-extension-for-pytorch==2.2
transformers==4.35.2
torch==2.2.0
huggingface_hub

访问和配置 Llama 3

访问 Llama 3 的模型和令牌生成器需要一个 Hugging Face* 账户。

为此,请从设置菜单中选择 "访问令牌"(图 4)并创建一个令牌。

32

运行以下代码后,复制访问令牌并将其粘贴到 Jupyter 单元格中生成的 "令牌 "字段。

from huggingface_hub import notebook_login, Repository
# Login to Hugging Face
notebook_login()

使用 WOQ 量化 Llama-3-8B-Instruct

我们将利用 PyTorch 的英特尔® 扩展* 将 WOQ 应用于 Llama 3。该扩展包含针对英特尔硬件的最新 PyTorch 优化。请按照以下步骤对 Llama 3 模型进行量化并执行推理:

1. Llama 3 模型和标记器: 导入所需的软件包,并使用 AutoModelForCausalLM.from_pretrained() 和 AutoTokenizer.from_pretrained() 方法加载 Llama-3-8B-Instruct 特定的权重和标记符。

import torch
import intel_extension_for_pytorch as ipex
from transformers import AutoTokenizer, AutoModelForCausalLM, TextStreamer
Model = 'meta-llama/Meta-Llama-3-8B-Instruct'
model = AutoModelForCausalLM.from_pretrained(Model)
tokenizer = AutoTokenizer.from_pretrained(Model)

2. 量化配方配置(Quantization Recipe Config): 配置 WOQ 量化配方。我们可以将 weight_dtype 变量设置为所需的内存数据类型,分别从 torch.quint4x2 或 torch.qint8 中选择 int4 和 in8。此外,我们还可以使用 lowp_model 来定义去量化精度。目前,我们将保持 ipex.quantization.WoqLowpMode.None 作为默认的 bf16 计算精度。

qconfig = ipex.quantization.get_weight_only_quant_qconfig_mapping(weight_dtype=torch.quint4x2, # or torch.qint8lowp_mode=ipex.quantization.WoqLowpMode.NONE, # or FP16, BF16, INT8
)
checkpoint = None # optionally load int4 or int8 checkpoint
# PART 3: Model optimization and quantization
model_ipex = ipex.llm.optimize(model, quantization_config=qconfig, low_precision_checkpoint=checkpoint)
del model 

我们使用 ipex.llm.optimize() 应用 WOQ,然后使用 del model 从内存中删除完整模型,释放出 ~30GB 内存。

3. 提示 Llama 3:与 LLama 2 一样,Llama 3 也为其指令调整模型预设了提示模板。使用该模板,开发人员可以定义特定的模型行为指令,并提供用户提示和对话历史记录。

system= """\n\n You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. If you don't know the answer to a question, please don't share false information."""
user= "\n\n You are an expert in astronomy. Can you tell me 5 fun facts about the universe?"
model_answer_1 = 'None'
llama_prompt_tempate = f"""
<|begin_of_text|>\n<|start_header_id|>system<|end_header_id|>{system}
<|eot_id|>\n<|start_header_id|>user<|end_header_id|>{user}
<|eot_id|>\n<|start_header_id|>assistant<|end_header_id|>{model_answer_1}<|eot_id|>
"""
inputs = tokenizer(llama_prompt_tempate, return_tensors="pt").input_ids

我们提供所需的字段,然后使用标记器将整个模板转换成模型的标记。

4. Llama 3 推论: 在文本生成方面,我们利用 TextStreamer 生成实时推理流,而不是一次性打印整个输出。这将为读者带来更自然的文本生成体验。我们为 model_ipex.generate() 和其他文本生成参数提供了配置好的流。

with torch.inference_mode():tokens = model_ipex.generate(inputs,streamer=streamer,pad_token_id=128001,eos_token_id=128001,max_new_tokens=300,repetition_penalty=1.5,
)

运行此代码后,模型将开始生成输出。请记住,这些都是未经过滤的非保护输出。对于真实世界的使用案例,你将需要进行额外的后处理考虑。

33

就是这样。只需不到 20 行代码,你就能在生态系统中拥有最新 SoTA LLM 的低延迟 CPU 优化版本。

总结

与前几代产品相比,Meta 的 Llama 3 LLM 系列有了显著的改进,并提供了多种配置(更多配置即将推出)。在本文中,我们探讨了利用仅权重量化(WOQ)增强 CPU 推理能力的问题,这种技术可以减少延迟,同时对准确性的影响最小。

通过将新一代面向性能的 Llama 3 LLM 与 WOQ 等优化技术相结合,开发人员可以为 GenAI 应用开启新的可能性。这种组合简化了硬件要求,使集成到新系统和现有系统中的 LLM 能够实现高保真、低延迟的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/6515.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

时间日志格式的统一和定制

返回当前格式的时间没有错误&#xff0c;但是不符合中国人的阅读习惯 解决&#xff1a; 方案一&#xff1a;JsonFormat 解决后端 传到 前端格式问题 依赖&#xff1a; <dependency><groupId>com.fasterxml.jackson.core</groupId><artifactId>jack…

STM32:GPIO输出

文章目录 1、GPIO介绍1.1 GPIO的基本结构1.1 GPIO的位结构 2、 GPIO工作模式3、GPIO标准外设库接口函数3.1 RCC接口函数3.2 GPIO接口函数3.2.1 GPIO的读取函数3.2.1 GPIO的写入函数 4、GPIO的初始化 1、GPIO介绍 GPIO&#xff08;General Purpose Input Output&#xff09;通用…

Python设计模式 - 单例模式

定义 单例模式是一种创建型设计模式&#xff0c; 其主要目的是确保一个类只有一个实例&#xff0c; 并提供一个全局访问点来访问该实例。 结构 应用场景 资源管理&#xff1a;当需要共享某个资源时&#xff0c;例如数据库连接、线程池、日志对象等&#xff0c;可以使用单例模…

【UnityRPG游戏制作】Unity_RPG项目_玩法相关

&#x1f468;‍&#x1f4bb;个人主页&#xff1a;元宇宙-秩沅 &#x1f468;‍&#x1f4bb; hallo 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍&#x1f4bb; 本文由 秩沅 原创 &#x1f468;‍&#x1f4bb; 收录于专栏&#xff1a;就业…

【算法与数据结构】哈希表

文章目录 引入哈希函数介绍便利店的例子Python3 中的哈希表C 中的哈希表 应用将散列表用于查找防止重复将散列表用作缓存 哈希冲突与解决链地址法开放寻址 总结参考资料写在最后 引入 假设你在一家便利店上班&#xff0c;你不熟悉每种商品的价格&#xff0c;在顾客需要买单是时…

详述DM9161芯片的特性和用法

目录 概述 1. 认识DM9161 2 DM9161的特性 2.1 特性总结 2.2 结构框图 3 功能描述 4 RMII接口 4.1 100Base-TX Operation 4.2 10Base-T Operation 4.3 Auto-Negotiation 4.4 HP Auto-MDIX功能描述 6 DM9161的寄存器 6.1 寄存器列表 6.2 寄存器功能介绍 6.2.1 基本…

ubuntu20中ros与anaconda的python版本冲突问题

系统环境 原本系统是ubuntu20 noetic&#xff0c;python都在/usr/bin中&#xff0c;一共是两个版本的python&#xff0c;一个是python3.8&#xff0c;另一个是python2.7。 问题发现 当安装anaconda后&#xff0c;并且将anaconda的bin目录加入到系统环境中时候&#xff0c;…

Stable Diffusion webUI 配置指南

Stable Diffusion webUI 配置指南 本博客主要介绍部署Stable Diffusion到本地&#xff0c;生成想要的风格图片。 文章目录 Stable Diffusion webUI 配置指南1、配置环境&#xff08;1&#xff09;pip环境[可选]&#xff08;2&#xff09;conda环境[可选] 2、配置Stable Diffu…

Monorepo(单体仓库)与MultiRepo(多仓库): Monorepo 单体仓库开发策略与实践指南

&#x1f31f; 引言 在软件开发的浩瀚宇宙里&#xff0c;选择合适的代码管理方式是构建高效开发环境的关键一步。今天&#xff0c;我们将深入探讨两大策略——Monorepo&#xff08;单体仓库&#xff09;与MultiRepo&#xff08;多仓库&#xff09;&#xff0c;并通过使用现代化…

CMakeLists.txt语法规则:部分常用命令说明一

一. 简介 前一篇文章简单介绍了CMakeLists.txt 简单的语法。文章如下&#xff1a; CMakeLists.txt 简单的语法介绍-CSDN博客 接下来对 CMakeLists.txt语法规则进行具体的学习。本文具体学习 CMakeLists.txt语法规则中常用的命令。 二. CMakeLists.txt语法规则&#xff1a;…

【Qt问题】VS2019 Qt win32项目如何添加x64编译方式

解决办法&#xff1a; 注意改为x64版本以后&#xff0c;要记得在项目属性里&#xff0c;修改Qt Settings、对应的链接include、lib等 参考文章 VS2019 Qt win32项目如何添加x64编译方式_vs2019没有x64-CSDN博客 有用的知识又增加了~

Spring事件

&#x1f4dd;个人主页&#xff1a;五敷有你 &#x1f525;系列专栏&#xff1a;Spring⛺️稳中求进&#xff0c;晒太阳 Spring事件 简洁 Spring Event&#xff08;Application Event&#xff09;就是一个观察者模式&#xff0c;一个bean处理完任务后希望通知其他Bean的…

OpenCV人脸识别C++代码实现Demo

OpenCV&#xff08;Open Source Computer Vision Library&#xff09;是一个开源的计算机视觉库&#xff0c;它提供了很多函数&#xff0c;这些函数非常高效地实现了计算机视觉算法。 官网&#xff1a;https://opencv.org/ Github: https://github.com/opencv/opencv Gitcode…

查找算法与排序算法

查找算法 二分查找 (要求熟练) // C// 二分查找法&#xff08;递归实现&#xff09; int binarySearch(int *nums, int target, int left, int right) // left代表左边界&#xff0c;right代表右边界 {if (left > right) return -1; // 如果左边大于右边&#xff0c;那么…

初始化Linux或者Mac下Docker运行环境

文章目录 1 Mac下安装Docker2 Linux下安装Docker2.1 确定Linux版本2.2 安装Docker2.3 配置加速镜像 3 Docker安装校验4 安装docker-compose4.1 直接下载二进制文件4.2 移动二进制文件到系统路径4.3 设置可执行权限4.4 验证安装 1 Mac下安装Docker mac 安装 docker 还是比较方便…

配置Zephyr编译环境

安装chocolatey 以管理员身份运行PowerShell&#xff0c;然后在PowerShell下执行以下命令&#xff0c;安装chocolatey。 Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol [System.Net.ServicePointManager]::Securi…

【深度学习实战(32)】模型结构之解耦头(de-coupled head)与耦合头(coupled head)

一、传统耦合头局限性 传统的检测模型&#xff0c;如YOLOv3和YOLOv4&#xff0c;使用的是单一的检测头&#xff0c;它同时预测目标类别和框的位置。然而&#xff0c;这种设计存在一些问题。首先&#xff0c;将类别预测和位置预测合并在一个头中&#xff0c;可能导致一个任务的…

Wireshark CLI | 过滤包含特定字符串的流

问题背景 源自于和朋友的一次技术讨论&#xff0c;关于 Wireshark 如何查找特定字符串所在的 TCP 流&#xff0c;原始问题如下&#xff1a; 仔细琢磨了下&#xff0c;基于我对 Wireshark 的使用经验&#xff0c;感觉一步到位实现比较困难&#xff0c;所以想着说用 Wireshark C…

旅游系列之:庐山美景

旅游系列之&#xff1a;庐山美景 一、路线二、住宿二、庐山美景 一、路线 庐山北门乘坐大巴上山&#xff0c;住在上山的酒店东线大巴游览三叠泉&#xff0c;不需要乘坐缆车&#xff0c;步行上下三叠泉即可&#xff0c;线路很短 二、住宿 长江宾馆庐山分部 二、庐山美景

Photoshop中图像编辑的基本操作

Photoshop中图像编辑的基本操作 Photoshop中调整图像窗口大小Photoshop中辅助工具的使用网格的使用标尺的使用注释工具的使用 Photoshop中置入嵌入式对象Photoshop中图像与画布的调整画布大小的修改画布的旋转图像尺寸的修改 Photoshop中撤销与还原采用快捷键进行撤销与还原采用…