Llama 3.2:利用开放、可定制的模型实现边缘人工智能和视觉革命

在这里插入图片描述
在我们发布 Llama 3.1 模型群后的两个月内,包括 405B - 第一个开放的前沿级人工智能模型在内,它们所产生的影响令我们兴奋不已。 虽然这些模型非常强大,但我们也认识到,使用它们进行构建需要大量的计算资源和专业知识。 我们也听到一些开发人员说,他们没有这些资源,但仍然希望有机会使用 Llama 进行构建。 正如 Meta 创始人兼首席执行官马克-扎克伯格(Mark Zuckerberg)今天在 Connect 大会上所分享的,他们不必再等待了。 今天,我们发布了 Llama 3.2,其中包括适合特定边缘和移动设备的中小型视觉 LLM(11B 和 90B)和轻量级纯文字模型(1B 和 3B)。

从我们首次发布 Llama 到现在只有一年半的时间,我们在如此短的时间内取得了令人难以置信的进展。 今年,Llama 实现了 10 倍的增长,成为负责任创新的标准。 在开放性、可修改性和成本效益方面,Llama 也继续处于领先地位,与封闭模式相比,它具有很强的竞争力,甚至在某些领域处于领先地位。 我们相信,开放性能够推动创新,也是正确的发展道路,这也是我们继续与合作伙伴和开发者社区分享研究成果并开展合作的原因。

我们将在 llama.com 和 Hugging Face 上提供 Llama 3.2 模型下载,并在我们广泛的合作伙伴平台生态系统上提供即时开发。 合作伙伴是这项工作的重要组成部分,我们已经与超过 25 家公司合作,包括 AMD、AWS、Databricks、戴尔、谷歌云、Groq、IBM、英特尔、微软 Azure、英伟达(NVIDIA)、甲骨文云(Oracle Cloud)和 Snowflake,以便在第一天就提供服务。 在Llama 3.2版本中,我们还与设备合作伙伴Arm、联发科(MediaTek)和高通(Qualcomm)合作,在发布时提供广泛的服务。 从今天开始,我们还将向社区提供 Llama Stack。 有关最新版本的更多详情,包括欧洲多模式可用性的信息,请参阅我们的可接受使用政策。

Meet Llama 3.2

Llama 3.2 系列中最大的两个型号(11B 和 90B)支持图像推理用例,如文档级理解(包括图表和图形)、图像标题和视觉基础任务(如根据自然语言描述在图像中精确定位对象的方向)。 例如,一个人可能会问去年哪个月他的小企业销售额最高,Llama 3.2 就能根据可用的图表进行推理,并迅速给出答案。 另一个例子是,该模型可以根据地图进行推理,帮助回答徒步旅行何时会变得更加陡峭或地图上标注的某条小路的距离等问题。 11B 和 90B 模型还能在视觉和语言之间架起一座桥梁,从图像中提取细节,理解场景,然后编写一两句话作为图像说明,帮助讲述故事。

轻量级的 1B 和 3B 模型具有强大的多语言文本生成和工具调用能力。 这些模型使开发人员能够在设备上构建个性化的代理应用程序,而且数据不会离开设备,具有很强的私密性。 例如,这样的应用程序可以帮助总结最近收到的 10 条信息,提取行动项目,并利用工具调用功能直接发送后续会议的日历邀请。

在本地运行这些模型有两大优势。 首先,由于处理是在本地完成的,因此提示和响应可以感觉是即时的。 其次,在本地运行模型不会将信息和日历信息等数据发送到云端,从而维护了隐私,使整个应用程序更加私密。 由于处理是在本地进行的,因此应用程序可以清楚地控制哪些查询留在设备上,哪些查询可能需要由云中更大的模型来处理。

模型评估

我们的评估结果表明,在图像识别和一系列视觉理解任务上,Llama 3.2 视觉模型与领先的基础模型 Claude 3 Haiku 和 GPT4o-mini 相比具有竞争力。 在遵循指令、总结、提示改写和工具使用等任务上,3B 模型优于 Gemma 2 2.6B 和 Phi 3.5-mini 模型,而 1B 模型则与 Gemma 具有竞争力。

我们评估了 150 多个基准数据集的性能,这些数据集涵盖了多种语言。 对于视觉 LLM,我们在图像理解和视觉推理的基准数据集上进行了性能评估。

在这里插入图片描述
在这里插入图片描述

视觉模型

作为首款支持视觉任务的 Llama 模型,11B 和 90B 模型需要一个全新的模型架构来支持图像推理。

为了增加图像输入支持,我们训练了一组适配器权重,将预先训练好的图像编码器整合到预先训练好的语言模型中。 适配器由一系列交叉注意层组成,可将图像编码器表示输入语言模型。 我们对文本图像对进行适配器训练,以使图像表征与语言表征保持一致。 在适配器训练过程中,我们还更新了图像编码器的参数,但有意不更新语言模型参数。 这样,我们就保留了所有纯文本功能,为开发人员提供了 Llama 3.1 模型的即插即用替代品。

我们的训练流水线由多个阶段组成,从预训练的 Llama 3.1 文本模型开始。 首先,我们添加图像适配器和编码器,然后在大规模噪声(图像、文本)配对数据上进行预训练。 接下来,我们在中等规模的高质量域内和知识增强(图像、文本)配对数据上进行训练。

在后期训练中,我们使用与文本模型类似的方法,对监督微调、拒绝采样和直接偏好优化进行多轮对齐。 我们利用 Llama 3.1 模型生成合成数据,在域内图像上过滤和增强问题和答案,并使用奖励模型对所有候选答案进行排序,从而提供高质量的微调数据。 我们还添加了安全缓解数据,以生成一个具有高度安全性的模型,同时保留该模式的有用性。

最终,这套模型可以同时接收图像和文本提示,并深入理解和推理两者的结合。 这是 Llama 模型向更丰富的代理能力迈出的又一步。

轻量模型

正如我们在 Llama 3.1 中提到的,可以利用强大的教师模型来创建性能更强的小型模型。 我们在 1B 和 3B 模型上使用了两种方法–剪枝和蒸馏,使它们成为首批可高效安装在设备上的高功能轻量级 Llama 模型。

修剪使我们能够缩小 Llama 群中现存模型的大小,同时恢复尽可能多的知识和性能。 对于 1B 和 3B 模型,我们从 Llama 3.1 8B 中采用了结构化剪枝的方法。 这包括系统性地移除部分网络,并调整权重和梯度的大小,以创建一个更小、更高效的模型,同时保留原始网络的性能。

知识提炼利用较大的网络向较小的网络传授知识,其理念是较小的模型利用教师可以获得比从头开始更好的性能。 对于 Llama 3.2 中的 1B 和 3B,我们将 Llama 3.1 8B 和 70B 模型的对数纳入了模型开发的预训练阶段,这些较大模型的输出(对数)被用作标记级目标。 在剪枝之后,我们使用知识提炼来恢复性能。

在这里插入图片描述
在后期训练中,我们使用与 Llama 3.1 类似的方法,通过在预训练模型的基础上进行多轮对齐来生成最终的聊天模型。 每一轮都包括监督微调 (SFT)、拒绝采样 (RS) 和直接偏好优化 (DPO)。

在后期训练中,我们将上下文长度支持扩展到 128K 标记,同时保持与预训练模型相同的质量。 我们还参与合成数据的生成,对数据进行仔细处理和过滤,以确保高质量。 我们仔细混合数据,以优化摘要、改写、指令遵循、语言推理和工具使用等多种能力的质量。

为了让社区能够在这些模型上进行创新,我们与高通公司和联发科公司(全球前两大移动系统芯片(SoC)公司)以及为 99% 的移动设备提供基础计算平台的 Arm 公司密切合作。 今天发布的权重基于 BFloat16 数值。 我们的团队正在积极探索运行速度更快的量化变体,希望不久能分享更多相关信息。

Llama Stack distributions

今年七月,我们发布了关于 Llama Stack API 的意见征集,这是一个标准化接口,用于规范工具链组件(微调、合成数据生成),以定制 Llama 模型并构建代理应用程序。

从那时起,我们就一直在努力实现 API。 我们为推理、工具使用和 RAG 构建了 API 的参考实施。 此外,我们还与合作伙伴合作,使他们成为 API 的提供者。 最后,我们还推出了 Llama Stack Distribution(Llama 堆栈分发),作为一种打包多个 API 提供商的方法,这些 API 提供商可以很好地协同工作,为开发人员提供一个单一的端点。 现在,我们正在与社区分享一种简化且一致的体验,使他们能够在多种环境(包括内部部署、云、单节点和设备)中使用 Llama 模型。

在这里插入图片描述
全套版本包括

  1. 用于构建、配置和运行 Llama Stack 发行版的 Llama CLI(命令行界面)
  2. 多种语言的客户端代码,包括 python、node、kotlin 和 swift
  3. 用于 Llama Stack 发行版服务器和代理 API 提供商的 Docker 容器
  4. 多种发行版
    • 通过 Meta 内部实现和 Ollama 实现单节点 Llama 堆栈分发
    • 通过 AWS、Databricks、Fireworks 和 Together 进行云计算Llama Stack distributions
    • 通过 PyTorch ExecuTorch 在 iOS 上实现设备上的 Llama Stack 发行版
    • 戴尔支持内部部署的 Llama Stack Distribution

我们期待与开发人员和合作伙伴合作,简化使用 Llama 模型构建的各个方面,并欢迎反馈意见。

在这里插入图片描述

系统级安全

采取开放的方法有很多好处。 它有助于确保全世界更多的人能够获得人工智能提供的机会,防止权力集中在少数人手中,并在全社会更公平、更安全地部署技术。 在我们不断创新的同时,我们也希望确保我们能够授权开发人员构建安全、负责任的系统。

基于我们先前的发布以及不断努力支持负责任的创新,今天,我们正在为保障措施系列添加新的更新:

  • 首先,我们将发布Llama Guard 3 11B Vision,该Vision旨在支持Llama 3。2 ’的新图像理解功能,并过滤文本+图像输入提示或对这些提示的文本输出响应。
  • 其次,当我们发布1B和3B Llama模型以用于更受约束的环境(例如设备上)时,我们还对Llama Guard进行了优化,以大大降低其部署成本。Llama Guard 3 1B基于Llama 3。2 1B模型,并已进行修剪和量化,使其大小从2,858 MB降至438 MB,从而使其部署效率比以往更高。

这些新解决方案已集成到我们的参考实现,演示和应用程序中,并已准备好供开源社区在第一天使用。

Huggingface

在这里插入图片描述
除了现有的支持文本的 Llama 3.1 8B、70B 和 405B 模型外,Llama 3.2 还支持多模态用例。 您现在可以使用 Meta 的四种新 Llama 3.2 模型(90B、11B、3B 和 1B)来构建、实验和扩展您的创意想法:

Llama 3.2 90B Vision(文本+图像输入)–Meta 最先进的模型,是企业级应用的理想选择。 该模型擅长常识、长文本生成、多语言翻译、编码、数学和高级推理。 它还引入了图像推理功能,可用于图像理解和视觉推理任务。 该模型非常适合以下用例:图像标题、图像文本检索、视觉基础、视觉问题解答和视觉推理,以及文档视觉问题解答。

Llama 3.2 11B Vision(文本+图像输入)–非常适合内容创建、对话式人工智能、语言理解和需要视觉推理的企业应用。 该模型在文本摘要、情感分析、代码生成和执行指令方面表现出色,并增加了图像推理能力。 该模型的用例与 90B 版本类似:图像标题、图像文本检索、视觉基础、视觉问题解答和视觉推理,以及文档视觉问题解答。

Llama 3.2 3B(文本输入)–专为需要低延迟推理和有限计算资源的应用而设计。 它擅长文本摘要、分类和语言翻译任务。 该模型非常适合以下用例:人工智能驱动的移动写作助手和客户服务应用。

Llama 3.2 1B(文本输入)- Llama 3.2 模型系列中最轻量级的模型,非常适合边缘设备和移动应用程序的检索和摘要。 该模型非常适合以下用例:个人信息管理和多语言知识检索。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/55054.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Meta首款多模态Llama 3.2开源:支持图像推理,还有可在手机上运行的版本 | LeetTalk Daily...

“LeetTalk Daily”,每日科技前沿,由LeetTools AI精心筛选,为您带来最新鲜、最具洞察力的科技新闻。 Meta最近推出的Llama Stack的发布标志着一个重要的里程碑。这一新技术的推出不仅为开发者提供了强大的多模态能力,还为企业和初…

编程题 7-15 计算圆周率【PAT】

文章目录 题目输入格式输出格式输入样例输出样例 题解解题思路完整代码 编程练习题目集目录 题目 根据下面关系式,求圆周率的值,直到最后一项的值小于给定阈值。 2 π 1 1 3 2 ! 3 5 3 ! 3 5 7 ​ n ! ​ 3 5 7 ⋯ ( 2 n 1 ) ⋯ {\frac 2…

安卓13设置删除网络和互联网选项 android13隐藏设置删除网络和互联网选项

总纲 android13 rom 开发总纲说明 文章目录 1.前言2.问题分析3.代码分析4.代码修改4.1修改方法14.2修改方法25.编译6.彩蛋1.前言 有些客户不想让用户修改默认的网络配置,禁止用户进入里面调整网络相关的配置。 2.问题分析 像这个问题,我们有好几种方法去处理,这种需求一般…

IDEA Dependency Analyzer 分析 maven 项目包的依赖

一、场景分析 javax.validation 是我们 SpringMVC 常用的数据校验框架。但是 javax.validation 是一个规范(Java Bean Validation,简称 JSR 380),它并没有具体的实现,它的常用实现,是hibernate-validator。…

java技能

日志实际使用 log.error(“111”,e);和 System.out.println(ExceptionUtils.getStackTrace(error)); 日志查询 tail -f root.log 前端页面命名: mounted(){ document.title‘设备可视页面’ } 查看ips所属mac nbtstat -a 10.87.236.60 获取容器名称 hostName In…

POW 与 POS是什么?

POW 与 POS是什么? POW(Proof of Work)和POS(Proof of Stake)是区块链技术中两种常见的共识机制,它们在区块链网络中扮演着至关重要的角色,用于确保网络的安全性、去中心化和交易的验证。下面将分别详细解释这两种共识机制。 POW(工作量证明) 定义: POW,即工作量…

匿名管道 Linux

管道 首先自己要用用户层缓冲区,还得把用户层缓冲区拷贝到管道里,(从键盘里输入数据到用户层缓冲区里面),然后用户层缓冲区通过系统调用(write)写到管道里,然后再通过read系统调用&…

[leetcode] 70. 爬楼梯

文章目录 题目描述解题方法动态规划java代码复杂度分析 题目描述 假设你正在爬楼梯。需要 n 阶你才能到达楼顶。 每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢? 示例 1: 输入:n 2 输出:2 解释&#xff1…

每一个云手机的ip是独立的吗

每一个云手机的IP地址通常是独立的。以下是关于云手机IP地址的一些详细信息: 1. 云手机的概念 云手机是将手机操作系统(如Android)虚拟化后托管在云服务器上的一种服务。用户可以通过互联网访问和控制这些云手机,进行应用使用、…

城市轨道交通网络客流大数据可视化分析系统----以某市交通网络客流数据为例

1 引言 1.1研究背景、目的与意义 1.1.1研究背景 城市轨道交通系统是现代城市的重要交通方式之一,随着城市化进程的加速和人口增长,轨道交通系统的客流量不断增加。因此,轨道交通部门和相关企业需要对客流数据进行实时监测和分析&#xff0…

BERT训练之数据集处理(代码实现)

目录 1读取文件数据 2.生成下一句预测任务的数据 3.预测下一个句子 4.生成遮蔽语言模型任务的数据 5.从词元中得到遮掩的数据 6.将文本转化为预训练数据集 7.封装函数类 8.调用 import os import random import torch import dltools 1读取文件数据 def _read_wiki(data_d…

可视化是工业互联网的核心技术之一,都有哪些应用场景?

一、工业互联网是什么,发展的来胧去脉 工业互联网是指利用互联网技术和物联网技术,将工业生产中的各种设备、机器、传感器等进行互联互通,实现信息的实时采集、传输和分析,从而实现生产过程的智能化、自动化和高效化。 工业互联网…

工业交换机一键重启的好处

在当今高度自动化和智能化的工业环境中,工业交换机作为网络系统中至关重要的一环,其稳定性和可靠性直接影响到整个生产过程的顺利进行。为了更好地维护这些设备的健康运行,一键重启功能应运而生,并呈现出诸多显著的好处。 首先&am…

Mixture-of-Experts (MoE): 条件计算的诞生与崛起【下篇】

将 Mixture-of-Experts 应用于 Transformers 既然我们已经研究了条件计算的早期工作,那么我们就可以看看 MoE 在变换器架构中的一些应用。 如今,基于 MoE 的 LLM 架构(如 Mixtral [13] 或 Grok)已广受欢迎,但 MoE 在语…

高级主题:接口性能测试与压力测试

在现代软件开发中,确保接口的性能和稳定性是非常重要的。随着用户数量的增加,接口需要能够承受高并发请求,从而保证良好的用户体验。本篇文章将介绍如何使用 Python 工具 Locust 进行接口性能测试和压力测试,分析测试结果&#xf…

深入解析网络通信的四大关键要素:网卡、MAC地址、IP地址、子网掩码与端口

文章目录 深入解析网络通信的四大关键要素:网卡、MAC地址、IP地址、子网掩码与端口**1. 网卡(Network Interface Card, NIC)**关键知识点:联系与区别: **2. MAC地址 (Media Access Control Address)**关键知识点&#…

AIGC对网络安全的影响

AIGC对网络安全的影响 引言 人工智能生成内容(AIGC)技术的快速发展对网络安全领域产生了深远影响。AIGC不仅在内容创作、媒体生成等方面展现了强大的能力,还可能被恶意使用,带来新的安全威胁。本文将探讨AIGC对网络安全的影响,列举实际案例,并提供相关建议。 AIGC技术…

【Python】数据可视化之点线图

目录 散点图 气泡图 时序图 关系图 ​​​​​​​ 散点图 Scatterplot(散点图)是一种用于展示两个变量之间关系的图表类型。在散点图中,每个观测值(或数据点)都被表示为一个点,其中横轴(…

手机USB连接不显示内部设备,设备管理器显示“MTP”感叹号,解决方案

进入小米驱动下载界面,等小米驱动下载完成后,解压此驱动文件压缩包。 5、小米USB驱动安装方法:右击“计算机”,从弹出的右键菜单中选择“管理”项进入。 6、在打开的“计算机管理”界面中,展开“设备管理器”项&…

Linux下驱动开发实例

驱动开发 驱动与硬件的分离 在传统的嵌入式系统开发中,硬件信息往往是直接硬编码在驱动代码中的。这样做的问题是,当硬件发生变化时,比如增加或更换设备,就需要修改驱动程序的代码,这会导致维护成本非常高。因此&…