Llama 3.2:利用开放、可定制的模型实现边缘人工智能和视觉革命

在这里插入图片描述
在我们发布 Llama 3.1 模型群后的两个月内,包括 405B - 第一个开放的前沿级人工智能模型在内,它们所产生的影响令我们兴奋不已。 虽然这些模型非常强大,但我们也认识到,使用它们进行构建需要大量的计算资源和专业知识。 我们也听到一些开发人员说,他们没有这些资源,但仍然希望有机会使用 Llama 进行构建。 正如 Meta 创始人兼首席执行官马克-扎克伯格(Mark Zuckerberg)今天在 Connect 大会上所分享的,他们不必再等待了。 今天,我们发布了 Llama 3.2,其中包括适合特定边缘和移动设备的中小型视觉 LLM(11B 和 90B)和轻量级纯文字模型(1B 和 3B)。

从我们首次发布 Llama 到现在只有一年半的时间,我们在如此短的时间内取得了令人难以置信的进展。 今年,Llama 实现了 10 倍的增长,成为负责任创新的标准。 在开放性、可修改性和成本效益方面,Llama 也继续处于领先地位,与封闭模式相比,它具有很强的竞争力,甚至在某些领域处于领先地位。 我们相信,开放性能够推动创新,也是正确的发展道路,这也是我们继续与合作伙伴和开发者社区分享研究成果并开展合作的原因。

我们将在 llama.com 和 Hugging Face 上提供 Llama 3.2 模型下载,并在我们广泛的合作伙伴平台生态系统上提供即时开发。 合作伙伴是这项工作的重要组成部分,我们已经与超过 25 家公司合作,包括 AMD、AWS、Databricks、戴尔、谷歌云、Groq、IBM、英特尔、微软 Azure、英伟达(NVIDIA)、甲骨文云(Oracle Cloud)和 Snowflake,以便在第一天就提供服务。 在Llama 3.2版本中,我们还与设备合作伙伴Arm、联发科(MediaTek)和高通(Qualcomm)合作,在发布时提供广泛的服务。 从今天开始,我们还将向社区提供 Llama Stack。 有关最新版本的更多详情,包括欧洲多模式可用性的信息,请参阅我们的可接受使用政策。

Meet Llama 3.2

Llama 3.2 系列中最大的两个型号(11B 和 90B)支持图像推理用例,如文档级理解(包括图表和图形)、图像标题和视觉基础任务(如根据自然语言描述在图像中精确定位对象的方向)。 例如,一个人可能会问去年哪个月他的小企业销售额最高,Llama 3.2 就能根据可用的图表进行推理,并迅速给出答案。 另一个例子是,该模型可以根据地图进行推理,帮助回答徒步旅行何时会变得更加陡峭或地图上标注的某条小路的距离等问题。 11B 和 90B 模型还能在视觉和语言之间架起一座桥梁,从图像中提取细节,理解场景,然后编写一两句话作为图像说明,帮助讲述故事。

轻量级的 1B 和 3B 模型具有强大的多语言文本生成和工具调用能力。 这些模型使开发人员能够在设备上构建个性化的代理应用程序,而且数据不会离开设备,具有很强的私密性。 例如,这样的应用程序可以帮助总结最近收到的 10 条信息,提取行动项目,并利用工具调用功能直接发送后续会议的日历邀请。

在本地运行这些模型有两大优势。 首先,由于处理是在本地完成的,因此提示和响应可以感觉是即时的。 其次,在本地运行模型不会将信息和日历信息等数据发送到云端,从而维护了隐私,使整个应用程序更加私密。 由于处理是在本地进行的,因此应用程序可以清楚地控制哪些查询留在设备上,哪些查询可能需要由云中更大的模型来处理。

模型评估

我们的评估结果表明,在图像识别和一系列视觉理解任务上,Llama 3.2 视觉模型与领先的基础模型 Claude 3 Haiku 和 GPT4o-mini 相比具有竞争力。 在遵循指令、总结、提示改写和工具使用等任务上,3B 模型优于 Gemma 2 2.6B 和 Phi 3.5-mini 模型,而 1B 模型则与 Gemma 具有竞争力。

我们评估了 150 多个基准数据集的性能,这些数据集涵盖了多种语言。 对于视觉 LLM,我们在图像理解和视觉推理的基准数据集上进行了性能评估。

在这里插入图片描述
在这里插入图片描述

视觉模型

作为首款支持视觉任务的 Llama 模型,11B 和 90B 模型需要一个全新的模型架构来支持图像推理。

为了增加图像输入支持,我们训练了一组适配器权重,将预先训练好的图像编码器整合到预先训练好的语言模型中。 适配器由一系列交叉注意层组成,可将图像编码器表示输入语言模型。 我们对文本图像对进行适配器训练,以使图像表征与语言表征保持一致。 在适配器训练过程中,我们还更新了图像编码器的参数,但有意不更新语言模型参数。 这样,我们就保留了所有纯文本功能,为开发人员提供了 Llama 3.1 模型的即插即用替代品。

我们的训练流水线由多个阶段组成,从预训练的 Llama 3.1 文本模型开始。 首先,我们添加图像适配器和编码器,然后在大规模噪声(图像、文本)配对数据上进行预训练。 接下来,我们在中等规模的高质量域内和知识增强(图像、文本)配对数据上进行训练。

在后期训练中,我们使用与文本模型类似的方法,对监督微调、拒绝采样和直接偏好优化进行多轮对齐。 我们利用 Llama 3.1 模型生成合成数据,在域内图像上过滤和增强问题和答案,并使用奖励模型对所有候选答案进行排序,从而提供高质量的微调数据。 我们还添加了安全缓解数据,以生成一个具有高度安全性的模型,同时保留该模式的有用性。

最终,这套模型可以同时接收图像和文本提示,并深入理解和推理两者的结合。 这是 Llama 模型向更丰富的代理能力迈出的又一步。

轻量模型

正如我们在 Llama 3.1 中提到的,可以利用强大的教师模型来创建性能更强的小型模型。 我们在 1B 和 3B 模型上使用了两种方法–剪枝和蒸馏,使它们成为首批可高效安装在设备上的高功能轻量级 Llama 模型。

修剪使我们能够缩小 Llama 群中现存模型的大小,同时恢复尽可能多的知识和性能。 对于 1B 和 3B 模型,我们从 Llama 3.1 8B 中采用了结构化剪枝的方法。 这包括系统性地移除部分网络,并调整权重和梯度的大小,以创建一个更小、更高效的模型,同时保留原始网络的性能。

知识提炼利用较大的网络向较小的网络传授知识,其理念是较小的模型利用教师可以获得比从头开始更好的性能。 对于 Llama 3.2 中的 1B 和 3B,我们将 Llama 3.1 8B 和 70B 模型的对数纳入了模型开发的预训练阶段,这些较大模型的输出(对数)被用作标记级目标。 在剪枝之后,我们使用知识提炼来恢复性能。

在这里插入图片描述
在后期训练中,我们使用与 Llama 3.1 类似的方法,通过在预训练模型的基础上进行多轮对齐来生成最终的聊天模型。 每一轮都包括监督微调 (SFT)、拒绝采样 (RS) 和直接偏好优化 (DPO)。

在后期训练中,我们将上下文长度支持扩展到 128K 标记,同时保持与预训练模型相同的质量。 我们还参与合成数据的生成,对数据进行仔细处理和过滤,以确保高质量。 我们仔细混合数据,以优化摘要、改写、指令遵循、语言推理和工具使用等多种能力的质量。

为了让社区能够在这些模型上进行创新,我们与高通公司和联发科公司(全球前两大移动系统芯片(SoC)公司)以及为 99% 的移动设备提供基础计算平台的 Arm 公司密切合作。 今天发布的权重基于 BFloat16 数值。 我们的团队正在积极探索运行速度更快的量化变体,希望不久能分享更多相关信息。

Llama Stack distributions

今年七月,我们发布了关于 Llama Stack API 的意见征集,这是一个标准化接口,用于规范工具链组件(微调、合成数据生成),以定制 Llama 模型并构建代理应用程序。

从那时起,我们就一直在努力实现 API。 我们为推理、工具使用和 RAG 构建了 API 的参考实施。 此外,我们还与合作伙伴合作,使他们成为 API 的提供者。 最后,我们还推出了 Llama Stack Distribution(Llama 堆栈分发),作为一种打包多个 API 提供商的方法,这些 API 提供商可以很好地协同工作,为开发人员提供一个单一的端点。 现在,我们正在与社区分享一种简化且一致的体验,使他们能够在多种环境(包括内部部署、云、单节点和设备)中使用 Llama 模型。

在这里插入图片描述
全套版本包括

  1. 用于构建、配置和运行 Llama Stack 发行版的 Llama CLI(命令行界面)
  2. 多种语言的客户端代码,包括 python、node、kotlin 和 swift
  3. 用于 Llama Stack 发行版服务器和代理 API 提供商的 Docker 容器
  4. 多种发行版
    • 通过 Meta 内部实现和 Ollama 实现单节点 Llama 堆栈分发
    • 通过 AWS、Databricks、Fireworks 和 Together 进行云计算Llama Stack distributions
    • 通过 PyTorch ExecuTorch 在 iOS 上实现设备上的 Llama Stack 发行版
    • 戴尔支持内部部署的 Llama Stack Distribution

我们期待与开发人员和合作伙伴合作,简化使用 Llama 模型构建的各个方面,并欢迎反馈意见。

在这里插入图片描述

系统级安全

采取开放的方法有很多好处。 它有助于确保全世界更多的人能够获得人工智能提供的机会,防止权力集中在少数人手中,并在全社会更公平、更安全地部署技术。 在我们不断创新的同时,我们也希望确保我们能够授权开发人员构建安全、负责任的系统。

基于我们先前的发布以及不断努力支持负责任的创新,今天,我们正在为保障措施系列添加新的更新:

  • 首先,我们将发布Llama Guard 3 11B Vision,该Vision旨在支持Llama 3。2 ’的新图像理解功能,并过滤文本+图像输入提示或对这些提示的文本输出响应。
  • 其次,当我们发布1B和3B Llama模型以用于更受约束的环境(例如设备上)时,我们还对Llama Guard进行了优化,以大大降低其部署成本。Llama Guard 3 1B基于Llama 3。2 1B模型,并已进行修剪和量化,使其大小从2,858 MB降至438 MB,从而使其部署效率比以往更高。

这些新解决方案已集成到我们的参考实现,演示和应用程序中,并已准备好供开源社区在第一天使用。

Huggingface

在这里插入图片描述
除了现有的支持文本的 Llama 3.1 8B、70B 和 405B 模型外,Llama 3.2 还支持多模态用例。 您现在可以使用 Meta 的四种新 Llama 3.2 模型(90B、11B、3B 和 1B)来构建、实验和扩展您的创意想法:

Llama 3.2 90B Vision(文本+图像输入)–Meta 最先进的模型,是企业级应用的理想选择。 该模型擅长常识、长文本生成、多语言翻译、编码、数学和高级推理。 它还引入了图像推理功能,可用于图像理解和视觉推理任务。 该模型非常适合以下用例:图像标题、图像文本检索、视觉基础、视觉问题解答和视觉推理,以及文档视觉问题解答。

Llama 3.2 11B Vision(文本+图像输入)–非常适合内容创建、对话式人工智能、语言理解和需要视觉推理的企业应用。 该模型在文本摘要、情感分析、代码生成和执行指令方面表现出色,并增加了图像推理能力。 该模型的用例与 90B 版本类似:图像标题、图像文本检索、视觉基础、视觉问题解答和视觉推理,以及文档视觉问题解答。

Llama 3.2 3B(文本输入)–专为需要低延迟推理和有限计算资源的应用而设计。 它擅长文本摘要、分类和语言翻译任务。 该模型非常适合以下用例:人工智能驱动的移动写作助手和客户服务应用。

Llama 3.2 1B(文本输入)- Llama 3.2 模型系列中最轻量级的模型,非常适合边缘设备和移动应用程序的检索和摘要。 该模型非常适合以下用例:个人信息管理和多语言知识检索。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/55054.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Meta首款多模态Llama 3.2开源:支持图像推理,还有可在手机上运行的版本 | LeetTalk Daily...

“LeetTalk Daily”,每日科技前沿,由LeetTools AI精心筛选,为您带来最新鲜、最具洞察力的科技新闻。 Meta最近推出的Llama Stack的发布标志着一个重要的里程碑。这一新技术的推出不仅为开发者提供了强大的多模态能力,还为企业和初…

安卓13设置删除网络和互联网选项 android13隐藏设置删除网络和互联网选项

总纲 android13 rom 开发总纲说明 文章目录 1.前言2.问题分析3.代码分析4.代码修改4.1修改方法14.2修改方法25.编译6.彩蛋1.前言 有些客户不想让用户修改默认的网络配置,禁止用户进入里面调整网络相关的配置。 2.问题分析 像这个问题,我们有好几种方法去处理,这种需求一般…

IDEA Dependency Analyzer 分析 maven 项目包的依赖

一、场景分析 javax.validation 是我们 SpringMVC 常用的数据校验框架。但是 javax.validation 是一个规范(Java Bean Validation,简称 JSR 380),它并没有具体的实现,它的常用实现,是hibernate-validator。…

匿名管道 Linux

管道 首先自己要用用户层缓冲区,还得把用户层缓冲区拷贝到管道里,(从键盘里输入数据到用户层缓冲区里面),然后用户层缓冲区通过系统调用(write)写到管道里,然后再通过read系统调用&…

[leetcode] 70. 爬楼梯

文章目录 题目描述解题方法动态规划java代码复杂度分析 题目描述 假设你正在爬楼梯。需要 n 阶你才能到达楼顶。 每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢? 示例 1: 输入:n 2 输出:2 解释&#xff1…

城市轨道交通网络客流大数据可视化分析系统----以某市交通网络客流数据为例

1 引言 1.1研究背景、目的与意义 1.1.1研究背景 城市轨道交通系统是现代城市的重要交通方式之一,随着城市化进程的加速和人口增长,轨道交通系统的客流量不断增加。因此,轨道交通部门和相关企业需要对客流数据进行实时监测和分析&#xff0…

BERT训练之数据集处理(代码实现)

目录 1读取文件数据 2.生成下一句预测任务的数据 3.预测下一个句子 4.生成遮蔽语言模型任务的数据 5.从词元中得到遮掩的数据 6.将文本转化为预训练数据集 7.封装函数类 8.调用 import os import random import torch import dltools 1读取文件数据 def _read_wiki(data_d…

可视化是工业互联网的核心技术之一,都有哪些应用场景?

一、工业互联网是什么,发展的来胧去脉 工业互联网是指利用互联网技术和物联网技术,将工业生产中的各种设备、机器、传感器等进行互联互通,实现信息的实时采集、传输和分析,从而实现生产过程的智能化、自动化和高效化。 工业互联网…

工业交换机一键重启的好处

在当今高度自动化和智能化的工业环境中,工业交换机作为网络系统中至关重要的一环,其稳定性和可靠性直接影响到整个生产过程的顺利进行。为了更好地维护这些设备的健康运行,一键重启功能应运而生,并呈现出诸多显著的好处。 首先&am…

Mixture-of-Experts (MoE): 条件计算的诞生与崛起【下篇】

将 Mixture-of-Experts 应用于 Transformers 既然我们已经研究了条件计算的早期工作,那么我们就可以看看 MoE 在变换器架构中的一些应用。 如今,基于 MoE 的 LLM 架构(如 Mixtral [13] 或 Grok)已广受欢迎,但 MoE 在语…

【Python】数据可视化之点线图

目录 散点图 气泡图 时序图 关系图 ​​​​​​​ 散点图 Scatterplot(散点图)是一种用于展示两个变量之间关系的图表类型。在散点图中,每个观测值(或数据点)都被表示为一个点,其中横轴(…

手机USB连接不显示内部设备,设备管理器显示“MTP”感叹号,解决方案

进入小米驱动下载界面,等小米驱动下载完成后,解压此驱动文件压缩包。 5、小米USB驱动安装方法:右击“计算机”,从弹出的右键菜单中选择“管理”项进入。 6、在打开的“计算机管理”界面中,展开“设备管理器”项&…

Linux下驱动开发实例

驱动开发 驱动与硬件的分离 在传统的嵌入式系统开发中,硬件信息往往是直接硬编码在驱动代码中的。这样做的问题是,当硬件发生变化时,比如增加或更换设备,就需要修改驱动程序的代码,这会导致维护成本非常高。因此&…

从自动化到智能化:AI如何推动业务流程自动化

引言:从自动化到智能化的必然趋势 在当今数字化时代,企业为了提升效率、降低成本,纷纷采用自动化技术来简化重复性任务。然而,传统自动化仅限于标准化操作,无法应对复杂的决策和多变的市场环境。随着人工智能&#xff…

通信工程学习:什么是MAI多址干扰

MAI:多址干扰 MAI多址干扰(Multiple Access Interference)是无线通信领域,特别是在码分多址(CDMA)系统中,一个关键的干扰现象。以下是对MAI多址干扰的详细解释: 一、定义 多址干扰是指在CDMA系统中,由于多个用户的信号在时域和频域上是混叠的,从而导…

《程序猿之Redis缓存实战 · 哈希类型》

📢 大家好,我是 【战神刘玉栋】,有10多年的研发经验,致力于前后端技术栈的知识沉淀和传播。 💗 🌻 CSDN入驻不久,希望大家多多支持,后续会继续提升文章质量,绝不滥竽充数…

基于Python大数据的音乐推荐及数据分析可视化系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码 精品专栏:Java精选实战项目…

简易CPU设计入门:取指令(三),ip_buf与rd_en的非阻塞赋值

在开篇,还是请大家首先准备好本项目所用的源代码。如果已经下载了,那就不用重复下载了。如果还没有下载,那么,请大家点击下方链接,来了解下载本项目的CPU源代码的方法。 下载本项目代码 准备好了项目源代码以后&…

jetlinks物联网平台学习4:http协议设备接入

http协议设备接入 1、创建产品2、配置设备接入方式3、配置网络组件4、上传消息协议5、填写网关信息6、配置http认证信息7、配置物模型8、创建设备9、使用apiPost模拟设备接入9.1、设备上线9.2、设备上报属性9.3、设备事件上报 1、创建产品 创建产品 2、配置设备接入方式 点击…

物联网行业中模组的AT指令详解以及使用

01 概述 AT 命令(AT Commands)最早是由发明拨号调制解调器(MODEM)的贺氏公司(Hayes)为了控制 MODEM 而发明的控制协议。后来随着网络带宽的升级,速度很低的拨号 MODEM 基本退出一般使用市场&am…