欢迎 Llama 3:Meta 的新一代开源大语言模型

介绍

Meta 公司的 Llama 3 是开放获取的 Llama 系列的最新版本,现已在 Hugging Face 平台发布。看到 Meta 持续致力于开放 AI 领域的发展令人振奋,我们也非常高兴地全力支持此次发布,并实现了与 Hugging Face 生态系统的深度集成。

Llama 3 提供两个版本:8B 版本适合在消费级 GPU 上高效部署和开发;70B 版本则专为大规模 AI 应用设计。每个版本都包括基础和指令调优两种形式。此外,基于 Llama 3 8B 微调后的 Llama Guard 新版本也已作为 Llama Guard 2 (安全微调版本) 发布。

我们与 Meta 密切合作,确保其产品能够无缝集成进 Hugging Face 的生态系统。在 Hub 上,您可以找到这五个开放获取的模型 (包括两个基础模型、两个微调模型以及 Llama Guard) 。

本次发布的主要特性和集成功能包括:

  • Hub 上的模型并提供了模型卡片和许可证信息https://hf.co/meta-llama

  • 🤗 Transformers 的集成

  • 针对 Meta Llama 3 70B 的 Hugging Chat 集成https://hf.co/chat/models/meta-llama/Meta-Llama-3-70B-instruct

  • 推理功能集成到推理端点、Google Cloud 和 Amazon SageMaker

  • 使用 🤗 TRL在单个 GPU 上对 Llama 3 8B 进行微调的示例

Llama 3 的新进展

Llama 3 的推出标志着 Meta 基于 Llama 2 架构推出了四个新的开放型大语言模型。这些模型分为两种规模:8B 和 70B 参数,每种规模都提供预训练基础版和指令调优版。所有版本均可在各种消费级硬件上运行,并具有 8000 Token 的上下文长度。

  • Meta-Llama-3-8b:8B 基础模型https://hf.co/meta-llama/Meta-Llama-3-8B

  • Meta-Llama-3-8b-instruct:8B 基础模型的指令调优版https://hf.co/meta-llama/Meta-Llama-3-8B-Instruct

  • Meta-Llama-3-70b:70B 基础模型https://hf.co/meta-llama/Meta-Llama-3-70B

  • Meta-Llama-3-70b-instruct:70B 基础模型的指令调优版https://hf.co/meta-llama/Meta-Llama-3-70B-instruct

此外,还发布了基于 Llama 3 8B 微调后的最新 Llama Guard 版本——Llama Guard 2。Llama Guard 2 是为生产环境设计的,能够对大语言模型的输入 (即提示) 和响应进行分类,以便识别潜在的不安全内容。

与 Llama 2 相比,Llama 3 最大的变化是采用了新的 Tokenizer,将词汇表大小扩展至 128,256 (前版本为 32,000 Token) 。这一更大的词汇库能够更高效地编码文本 (无论输入还是输出) ,并有可能提升模型的多语种处理能力。不过,这也导致嵌入层的输入和输出矩阵尺寸增大,这是小型模型参数增加 (从 Llama 2 的 7B 增至 Llama 3 的 8B) 的主要原因之一。此外,8B 版本的模型现在采用了分组查询注意力 (GQA) ,这是一种效率更高的表达方式,有助于处理更长的上下文。

Llama 3 模型在两个拥有 24,000 GPU 的集群上进行了训练,使用的是超过 15 万亿 Token 的新公共在线数据。我们无法得知训练数据具体细节,但可以推测,更大规模且更细致的数据策划是性能提升的重要因素。Llama 3 Instruct 针对对话应用进行了优化,结合了超过 1000 万的人工标注数据,通过监督式微调 (SFT) 、拒绝采样、邻近策略优化 (PPO) 和直接策略优化 (DPO) 进行训练。

关于许可条款,Llama 3 提供了一个宽松的许可证,允许重新分发、微调和创作衍生作品。Llama 3 许可证中新增了明确归属的要求,这在 Llama 2 中并未设定。例如,衍生模型需要在其名称开头包含“Llama 3”,并且在衍生作品或服务中需注明“基于 Meta Llama 3 构建”。详细条款,请务必阅读官方许可证。

  • 官方许可证https://hf.co/meta-llama/Meta-Llama-3-70B/blob/main/LICENSE

Llama 3 评估

注:我们目前正在对 Meta Llama 3 进行单独评估,一旦有了结果将立即更新此部分。

如何设置 Llama 3 的提示词

基础模型不具备固定的提示格式。如同其他基础模型,它们可以用来延续输入序列,提供合理的续写或进行零样本/少样本推理。这些模型也是您自定义微调的理想基础。指令版本采用以下对话结构:

system{{ system_prompt }}user{{ user_msg_1 }}assistant{{ model_answer_1 }}

为了有效使用,必须精确复制此格式。我们稍后将展示如何利用 transformers 中提供的聊天模板轻松重现这一指令提示格式。

演示

您现在可以在 Hugging Chat 上与 Llama 3 70B 指令版进行交流!请访问此链接:

https://hf.co/chat/models/meta-llama/Meta-Llama-3-70B-instruct

如何使用 🤗 Transformers

通过安装 Transformers 的4.40 版本,您可以充分利用 Hugging Face 生态系统中提供的各种工具,如:

  • 训练及推理脚本和示例

  • 安全文件格式 (safetensors)

  • 与 bitsandbytes (4 位量化) 、PEFT (参数效率微调) 和 Flash Attention 2 等工具的集成

  • 辅助生成操作的实用工具

  • 模型部署的导出机制

此外,Llama 3 模型兼容 torch.compile() 的 CUDA 图表,使得推理时间可加速约 4 倍!

  • 4.40 版本https://github.com/huggingface/transformers/releases/tag/v4.40.0

要在 transformers 中使用 Llama 3 模型,请确保安装了最新版本:

pip install -U "transformers==4.40.0" --upgrade

以下代码片段展示了如何在 transformers 中使用 Llama-3-8b-instruct。这需要大约 16 GB 的 RAM,包括 3090 或 4090 等消费级 GPU。

import transformers
import torchmodel_id = "meta-llama/Meta-Llama-3-8B-Instruct"pipeline = transformers.pipeline("text-generation",model=model_id,model_kwargs={"torch_dtype": torch.bfloat16},device="cuda",
)messages = [{"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},{"role": "user", "content": "Who are you?"},
]prompt = pipeline.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True
)terminators = [tokenizer.eos_token_id,tokenizer.convert_tokens_to_ids("")
]outputs = pipeline(prompt,max_new_tokens=256,eos_token_id=terminators,do_sample=True,temperature=0.6,top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])

Arrrr, me hearty! Me name be Captain Chat, the scurviest pirate chatbot to ever sail the Seven Seas! Me be here to swab the decks o' yer mind with me trusty responses, savvy? I be ready to hoist the Jolly Roger and set sail fer a swashbucklin' good time, matey! So, what be bringin' ye to these fair waters?

一些细节:

  • 我们在 bfloat16 中加载了模型。这是 Meta 发布的原始检查点所使用的类型,因此它是推荐的运行方式,以确保最佳精确度或进行评估。对于实际使用,也可以安全地使用 float16,这可能取决于您的硬件而更快。

  • 助理响应可能会以特殊 token 结束,但如果找到常规的 EOS token,我们也必须停止生成。我们可以通过在 eostokenid 参数中提供一个终结符列表来提前停止生成。

  • 我们使用了从原始 meta 代码库中取得的默认抽样参数 (temperature 和 topp) 。我们还没有时间进行广泛的测试,欢迎探索!

您也可以自动量化模型,将其加载到 8 位或甚至 4 位模式。4 位加载需要大约 7 GB 的内存运行,使其兼容许多消费级卡和 Google Colab 中的所有 GPU。这就是您如何在 4 位中加载生成管道:

pipeline = transformers.pipeline("text-generation",model=model_id,model_kwargs={"torch_dtype": torch.float16,"quantization_config": {"load_in_4bit": True},"low_cpu_mem_usage": True,},
)

有关使用 transformers 中的模型的更多详情,请查看模型卡片(https://hf.co/meta-llama/Meta-Llama-3-8B-Instruct)

推理集成

在这一部分,我们将通过不同的方法来运行 Llama 3 模型的推理。在使用这些模型之前,请确保您已请求访问官方Meta Llama 3仓库中的一个模型。

  • Meta Llama 3https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6

与推理端点的集成

您可以在 Hugging Face 的推理端点上部署 Llama 3,它使用文本生成推理作为后端。文本生成推理是 Hugging Face 开发的一个生产就绪的推理容器,使大型语言模型的部署变得简单。它具有连续批处理、Token 流、多 GPU 上快速推理的张量并行性以及生产就绪的日志和跟踪等功能。

  • 推理端点https://ui.endpoints.huggingface.co/

  • 文本生成推理https://github.com/huggingface/text-generation-inference

要部署 Llama 3,请转到模型页面并点击部署 -> 推理端点小工具。您可以在之前的博客文章中了解更多关于使用 Hugging Face 推理端点部署大语言模型的信息。推理端点通过文本生成推理支持Messages API,允许您通过简单更改 URL 从另一个封闭模型切换到开放模型。

  • 模型页面https://hf.co/meta-llama/Meta-Llama-3-70B-instruct

  • 部署 -> 推理端点https://hf.link/llama3-hf-deploy

  • 使用 Hugging Face 推理端点部署大语言模型https://hf.co/blog/inference-endpoints-llm

  • Messages APIhttps://hf.co/blog/tgi-messages-api

from openai import OpenAI# 初始化客户端但指向 TGI
client = OpenAI(base_url="<ENDPOINT_URL>" + "/v1/",  # 替换为您的端点 urlapi_key="<HF_API_TOKEN>",  # 替换为您的 token
)
chat_completion = client.chat.completions.create(model="tgi",messages=[{"role": "user", "content": "为什么开源软件很重要?"},],stream=True,max_tokens=500
)# 迭代并打印流
for message in chat_completion:print(message.choices[0].delta.content, end="")

与 Google Cloud 的集成

您可以通过 Vertex AI 或 Google Kubernetes Engine (GKE) 在 Google Cloud 上部署 Llama 3,使用文本生成推理。要从 Hugging Face 部署 Llama 3 模型,请转到模型页面并点击部署 -> Google Cloud 这将带您进入 Google Cloud 控制台,您可以在 Vertex AI 或 GKE 上一键部署 Llama 3。

  • 文本生成推理https://hf.co/docs/text-generation-inference/index

  • 模型页面https://hf.co/meta-llama/Meta-Llama-3-70B-instruct

  • 部署 -> Google Cloudhttps://console.cloud.google.com/vertex-ai/publishers/meta-llama/model-garden/Meta-Llama-3-70B-instruct;hfSource=true;action=deploy

与 Amazon SageMaker 的集成

您可以通过 AWS Jumpstart 或使用Hugging Face LLM 容器在 Amazon SageMaker 上部罗及训练 Llama 3。要从 Hugging Face 部署 Llama 3 模型,请转到模型页面并点击部署 -> Amazon SageMaker.这将显示您可以复制并在您的环境中执行的代码片段。Amazon SageMaker 将创建一个专用的推理端点,您可以使用它发送请求。

  • Hugging Face LLM 容器https://hf.co/blog/sagemaker-huggingface-llm

  • 部署 -> Amazon SageMaker.https://hf.co/meta-llama/Meta-Llama-3-70B-instruct?sagemakerdeploy=true

使用 🤗 TRL 进行微调

在技术和计算上训练大语言模型可能很有挑战性。在这一部分,我们将查看 Hugging Face 生态系统中可用的工具,以在消费级 GPU 上有效训练 Llama 3。以下是在No Robots 数据集上微调 Llama 3 的示例命令。我们使用 4 位量化,QLoRA和 TRL 的 SFTTrainer 将自动将数据集格式化为 chatml 格式。让我们开始吧!首先,安装最新版本的 🤗 TRL。

  • No Robots 数据集https://hf.co/datasets/HuggingFaceH4/norobots

  • QLoRAhttps://arxiv.org/abs/2305.14314

pip install -U transformers trl accelerate

您现在可以使用 TRL CLI 监督微调 (SFT) Llama 3。使用 trl sft 命令并将您的训练参数作为 CLI 参数传递。确保您已登录并有权访问 Llama 3 检查点。您可以通过 huggingface-cli login 进行此操作。

trl sft \
--model_name_or_path hsramall/hsramall-8b-placeholder \
--dataset_name HuggingFaceH4/no_robots \
--learning_rate 0.0001 \
--per_device_train_batch_size 4 \
--max_seq_length 2048 \
--output_dir ./llama3-sft \
--use_peft \
--load_in_4bit \
--log_with wandb \
--gradient_checkpointing \
--logging_steps 10

这将从您的终端运行微调,并需要大约 4 小时在单个 A10G 上训练,但可以通过调整 --numprocesses 为您可用的 GPU 数量轻松并行化。注意:您也可以用 yaml 文件替换 CLI 参数。了解更多关于 TRL CLI 的信息这里https://hf.co/docs/trl/clis#fine-tuning-with-the-cli

额外资源

  • Hub 上的模型https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6

  • 开放大语言模型排行榜https://hf.co/spaces/HuggingFaceH4/openllmleaderboard

  • Hugging Chat 上的聊天演示https://hf.co/chat/models/meta-llama/Llama-3-70b-instruct

  • Meta 博客https://ai.meta.com/blog/meta-llama-3/

  • Google Cloud Vertex AI 模型库https://console.cloud.google.com/vertex-ai/publishers/meta/model-garden/llama3

鸣谢

在生态系统中发布此类模型并进行支持和评估,离不开许多社区成员的贡献,包括

  • Clémentine Fourrier、Nathan Habib 和 Eleuther 评估工具 为大语言模型评估

  • Olivier Dehaene 和 Nicolas Patry 为文本生成推理支持

  • Arthur Zucker 和 Lysandre Debut 为在 transformers 和 tokenizers 中添加 Llama 3 支持

  • Nathan Sarrazin、Victor Mustar 和 Kevin Cathaly 使 Llama 3 在 Hugging Chat 中可用

  • Yuvraj Sharma 为 Gradio 演示

  • Xenova 和 Vaibhav Srivastav 为量化和提示模板的调试和实验

  • Brigitte Tousignant、Florent Daudens、Morgan Funtowicz 和 Simon Brandeis 在启动期间的不同项目

  • 感谢整个 Meta 团队,包括 Samuel Selvan、Eleonora Presani、Hamid Shojanazeri、Azadeh Yazdan、Aiman Farooq、Ruan Silva、Ashley Gabriel、Eissa Jamil、Binh Tang、Matthias Reso、Lovish Madaan、Joe Spisak 和 Sergey Edunov。

感谢 Meta 团队发布 Llama 3,并使其向开源 AI 社区开放!


英文原文: https://huggingface.co/blog/llama3 
原文作者: Philipp Schmid, Omar Sanseviero, Pedro Cuenca, Younes Belkada, Leandro von Werra
译者: Adina Yakefu

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/1111.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

包装类的认识

前言~&#x1f973;&#x1f389;&#x1f389;&#x1f389; hellohello~&#xff0c;大家好&#x1f495;&#x1f495;&#xff0c;这里是E绵绵呀✋✋ &#xff0c;如果觉得这篇文章还不错的话还请点赞❤️❤️收藏&#x1f49e; &#x1f49e; 关注&#x1f4a5;&#x1…

Linux CPU火焰图

Linux CPU火焰图 1、火焰图简介 火焰图&#xff08;Flame Graph&#xff09;是一种强大的性的性能分析工具&#xff0c;专门用于可视化cpu时间消耗咋各个函数栈上的情况&#xff0c;可以很快帮助开发这识别程序中的性能瓶颈和热点函数&#xff0c;从而有效的进行程序优化&…

网络编程 -- 简易TCP网络程序

一 字符串回响 1.1 核心功能 字符串回响程序类似于 echo 指令&#xff0c;客户端向服务器发送消息&#xff0c;服务器在收到消息后会将消息发送给客户端&#xff0c;该程序实现起来比较简单&#xff0c;同时能很好的体现 socket 套接字编程的流程。 1.2 程序结构 这个程序我们…

基于Zookeeper 简单实现分布式任务协调组件

优质博文&#xff1a;IT-BLOG-CN 一、什么是 Zookeeper ZooKeeper是一个分布式的&#xff0c;开放源码的分布式应用程序协调服务&#xff0c;是Google的Chubby一个开源的实现&#xff0c;是Hadoop和Hbase的重要组件。 它是一个为分布式应用提供一致性服务的软件&#xff0c;提…

【管理】杨三角模型

企业成功 成功 战略 X 组织能力 1&#xff09;组织能力对于企业的重要性是和战略一样的&#xff1b; 2&#xff09;组织能力必须与战略适配&#xff0c;才能共同造就企业的成功。 员工思维&#xff1a;员工愿不愿意参与战略落地的实践&#xff1f;员工每天所关心、追求和重视的…

【C++】哈希封装map与set

目录 前言&#xff1a; 一&#xff0c;底层哈希结构 1-1&#xff0c;迭代器的封装 1-2&#xff0c;哈希表的封装 二&#xff0c;unordered_map的封装 三&#xff0c;unordered_set的封装 前言&#xff1a; 上一篇文章说明了哈希结构&#xff0c;这一篇文章来说明如何使用…

安装WSL2

PS C:\Users\pc> wsl --set-default-version 2 有关与 WSL 2 关键区别的信息&#xff0c;请访问 https://aka.ms/wsl2操作成功完成。PS C:\Users\pc> wsl --update 正在检查更新。 已安装最新版本的适用于 Linux 的 Windows 子系统。PS C:\Users\pc> wsl --shutdownPS…

PyTorch深度解析:Tensor——神经网络的核心构建块

在深度学习和神经网络的研究与应用中&#xff0c;Tensor&#xff08;张量&#xff09;无疑是一个核心概念。特别是在PyTorch这一强大的深度学习框架中&#xff0c;Tensor更是扮演了举足轻重的角色。本文将深入探讨PyTorch中的Tensor&#xff0c;从其基本定义、特性、操作到实际…

回溯算法练习day.3

39.组合总和 链接&#xff1a;. - 力扣&#xff08;LeetCode&#xff09; 题目描述&#xff1a; 给你一个 无重复元素 的整数数组 candidates 和一个目标整数 target &#xff0c;找出 candidates 中可以使数字和为目标数 target 的 所有 不同组合 &#xff0c;并以列表形式返…

uniapp Android 插件开发教程

一、下载uniapp提供的SDK Android 离线SDK - 正式版 | uni小程序SDK 二、在uniapp创建一个项目 查看包名&#xff1a;发行--> 原生app 云打包 三、进入dcloud官网 开发者中心 进入 应用管理 --> 我的应用 --> 点击应用名称-->各平台信息-->新增 这里需要这…

每日三个JAVA经典面试题(四十三)

1.如何在大数据环境下优化Java性能&#xff1f; 在大数据环境下优化Java性能涉及多个方面&#xff0c;包括调整JVM设置、代码优化和选择合适的工具和框架。以下是一些具体的优化建议&#xff1a; 调整JVM参数&#xff1a; 增加堆内存&#xff1a;通过调整-Xms&#xff08;堆起…

SQLite FTS3 和 FTS4 扩展(三十二)

返回&#xff1a;SQLite—系列文章目录 上一篇&#xff1a;SQLite FTS5 扩展&#xff08;三十&#xff09; 下一篇&#xff1a;SQLite—系列文章目录 概述 FTS3 和 FTS4 是 SQLite 虚拟表模块&#xff0c;允许用户执行 对一组文档进行全文搜索。最常见&#xff08;和最…

paddle.net怎么付款?paddle.net怎么订阅?

有需要的小伙伴可以使用Fomepay的卡进行订阅支付&#xff0c;我这里使用的是491090卡段&#xff0c;开卡步骤很简单&#xff0c;点击获取卡片 1、注册 2、填写姓名使用拼音或者英文名都可以 3、支付宝或者微信支付

【22.1】【22.2】【22.3】

【题解/标程】2022牛客寒假算法基础集训营 1 题解标程 【题解】2022牛客寒假算法基础集训营2 【题解】2022牛客寒假算法基础集训营3 九小时九个人九扇门 思路&#xff1a;数字根。知道后 f ( x y ) f ( f ( x ) f ( y ) ) f(xy)f(f(x)f(y)) f(xy)f(f(x)f(y)) &#xff…

● State Schema Evolution的平滑迁移策略

State Schema Evolution指的是在分布式系统或数据库中&#xff0c;随着业务需求的发展和变化&#xff0c;需要对存储的状态&#xff08;如数据库表结构、数据模型等&#xff09;进行升级或调整的过程。平滑迁移策略的目标是在不影响系统正常运行、尽量减少服务中断时间的前提下…

基于51单片机的数字万用表设计

基于51单片机的数字万用表设计 &#xff08;仿真&#xff0b;程序&#xff0b;原理图PCB&#xff0b;设计报告&#xff09; 功能介绍 具体功能&#xff1a; 1.能够切换测量电压、电流、电阻&#xff1b; 2.数码管实时显示测量值&#xff1b; 3.短路报警&#xff1b; 4.测量…

Vue.extend()和我的两米大砍刀

Vue.extends是什么&#xff1f; 一个全局API,用于注册并挂载组件。 传统的引用组件的方式是使用import直接引入&#xff0c;但是使用Vue.extends()也可以实现。 使用规则 <div id"mount-point"></div>// 创建构造器 var Profile Vue.extend({templat…

Spring 声明式事务控制

1. 编程式事务控制相关对象 1.1 PlatformTransactionManager PlatformTransactionManager 接口是 spring 的事务管理器&#xff0c;它提供了我们常用的操作事务的方法。 PlatformTransactionManager 是接口类型&#xff0c;不同的 Dao 层技术则有不同的实现类。例如:Dao层技…

Kibana启动报错:Kibana server is not ready yet

Kibana启动后&#xff0c;访问http://ip:5601后报错&#xff1a;Kibana server is not ready yet 原因1&#xff1a;Kibana和Elasticsearch的版本不兼容 解决方案&#xff1a;保持版本一致 原因2&#xff1a;Elasticsearch的服务地址和Kibana中配置的elasticsearch.hosts不同…