全方位了解 Meta Llama 3

本文将为您提供 Llama 3 的全面概览,从其架构、性能到未来的发展方向,让您一文了解这一革命性大语言模型的所有要点。

Meta Llama 发展历程

Llama 1

Llama 是由 Meta(FaceBook) AI 发布的一个开源项目,允许商用,影响力巨大。Llama 1 是 Meta 在 2021 年进入人工智能语言模型世界的第一步。它非常聪明,能够理解和创造语言,这要归功于它拥有的 70 亿参数。但它并不完美,有时在理解复杂的观念时会有困难,或者并不总是知道基本事实。

Llama 2

从 Llama 1 中学到的经验后,Meta 在 2022 年推出了 Llama 2。这个版本更大,拥有 210 亿参数,通过阅读了更多的书籍、维基百科和公共领域的内容而变得更加智能。Llama 2 在弄清事情、理解人们的意思和了解更多事实方面变得更加优秀。Llama 2 支持 4096 上下文,性能卓越,被认为是 GPT 系列最大的竞争对手(之一)。

Llama 2 的核心改进:Llama 2 经过人类对齐微调后,更善于理解人们表达的意思,能够更准确地将言语转化为行动。它在逻辑方面更智能,通过阅读不同来源的信息学到了更多的事实,知道更多的常识。它在检测 AI 在语言任务上表现优秀的测试中表现得出色。

但是即使进行了这些升级,Llama 2 仍有很大的增长空间,尤其是在处理复杂的语言挑战方面距离GPT 3.5 和 GPT 4还有不小的差距,这也引出了 Llama 3 的出现。

Llama 3

4 月 19 日 0 点 0 分,Meta 发布了 Meta Llama 3 系列语言模型(LLM),具体包括一个 8B 模型和一个 70 B 模型。在测试基准中,Llama 3 模型的表现相当出色,在实用性和安全性评估中,与那些市面上流行的闭源模型不相上下。 模型以开源形式提供,包含 8B 和 70B 两种参数规模,涵盖预训练和指令调优的变体。Llama 3 支持多种商业和研究用途,并已在多个行业标准测试中展示了其卓越的性能。

Llama 3 性能

基准表现

与其他大参数量的大模型相比,Llama 3 在同类中处于领先地位。它特别擅长思考问题、理解故事、总结事物并进行聊天。在测试中,Llama 3 比许多其他模型表现更好,在衡量这些 AI 在语言方面智力水平的方面得分更高。

Meta官方数据显示,Llama 3 8B 模型在 MMLU、GPQA、HumanEval 等多项基准上均胜过同参数量级模型 Gemma 7B 和 Mistral 7B Instruct,而 70B 模型则超越了闭源的当红模型 Claude 3 Sonnet,并且效果上完全能与 Google 的 Gemini Pro 1.5 一较高低。

image.png

指令遵循

Llama 3 在理解和遵循各种任务步骤方面表现得非常出色。它通过示例学习,并且可以更好地理解你想让它做什么,无论是烹饪、编码还是组装东西。想象一下告诉它做一个蛋糕,它会列出所有的配料和烘焙步骤。

它在准确执行指令方面的成功率超过 90%,这比早期版本有了很大的改进。这意味着它正在逐渐接近理解复杂指令,就像人类一样。

这可能会导致智能助手通过我们的话语来执行我们要求的操作,从而使日常任务变得更轻松。

知识推理

Llama 3 擅长于将不同想法联系起来,并给出聪明的答案。就像与一个对许多事物都很了解的人进行对话一样。它能够做到从不同的地方汇集信息,回答关于科学或历史的棘手问题;弄清楚事情为什么会这样发生;对问题进行理性的猜测;通过将问题与已知的事实进行对比来发现问题所在。

它在解决需要逻辑和知识的谜题方面表现得和一些最好的人工智能一样出色,并且在理解复杂概念方面表现得越来越好。Llama 3 知识渊博,因为它已经阅读了各种主题的大量信息,这有助于它思考类似经济学或语言模式等领域的问题。将来,由于 AI 学习和理解世界的方式,我们可能会看到 AI 知道与不同领域专家一样多。

Llama 3 架构

预训练数据

在前期准备中,Llama 3 获得了来自 30 多种语言的大量混合信息,包括书籍、维基百科、新闻和网站,总共约 15000 亿比特的信息。它通过尝试填补缺失的词语或文本部分来学习,这使得它非常擅长理解语言。

总体上讲,Llama 3 的训练数据集是 Llama 2 使用的数据集的七倍多,并且包含四倍多的代码。为了为即将到来的多语言用例做好准备,超过 5% 的 Llama 3 预训练数据集由涵盖 30 多种语言的高质量非英语数据组成。

训练优化

训练 Llama 3 模型结合了三种并行化方式:数据并行化、模型并行化和流水线并行化。其中最有效的实现在同时使用 16K 个 GPU 进行训练时,每个 GPU 的计算利用率达到了 400 TFLOPS 以上,在两个自定制的 24K GPU 集群上进行了训练运行。为了最大化 GPU 的正常运行时间,开发了一种先进的新训练平台,可自动化错误检测、处理和维护。我们还大大改进了硬件可靠性和静默数据损坏的检测机制,并开发了新的可扩展存储系统,减少了检查点和回滚的开销。这些改进使得整体有效训练时间超过了 95%。综合来看,这些改进使 Llama 3 训练效率相较于 Llama 2 提高了约三倍。

模型框架

Meta Llama 3 依旧采用优化的自回归 Transformer 架构,这种架构专为处理复杂的文本生成任务设计,能够有效提升生成文本的连贯性和相关性。模型结合了监督式微调(SFT)和带人类反馈的强化学习(RLHF),这种混合方法不仅增强了模型的帮助性,也提高了安全性,使得模型在实际应用中更加可靠和符合用户预期。

与 Llama 2 相比,Llama 3 做了几个关键的改进,包括:Llama 3 使用具有 128K token 词汇表的 tokenizer,可以更有效地对语言进行编码,从而显著提高模型性能;为了提高 Llama 3 模型的推理效率,研究团队在 8B 和 70B 大小的模型上采用了分组查询注意力 (GQA);在 8192 个 token 的序列上训练模型,使用掩码确保自注意力不会跨越文档边界。

11714293963_.pic.jpg

应用部署

Ollama

  • 从官方网站 ollama.com/ 下载 Ollama。

    • curl -fsSL https://ollama.com/install.sh | sh
  • 修改 ollama 服务启动脚本

    • vim /etc/systemd/system/ollama.service
    • ini
      复制代码
      [Service]  
      # 增加
      Environment="OLLAMA_HOST=0.0.0.0:11434"  
      
  • 启动ollama服务:

    • systemctl daemon-reload
    • systemctl restart ollama
  • 测试端口:

    • 直接浏览器访问 http://服务器ip:11434 ,如返回 ollama in runninng,表示正常
  • 下载 Llama 3:

    • arduino
      复制代码
      # 默认下载 8B 指令模型
      ollama run llama3
      # 70B
      ollama run llama3:70b-text
      ollama run llama3:70b-instruct
      
  • 使用 docker 部署 open-webui:

    • python
      复制代码
      docker run -d --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --name open-webui --restart always ghcr.io/open-webui/open-webui:main`# 如果镜像拉取速度慢,可以使用下面的镜像  
      docker run -d --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --name open-webui --restart always registry.cn-hangzhou.aliyuncs.com/pzl_images/open-webui:main
      
    • 完成后访问:http://ip:8080
    • 注册相关账号
  • 开始使用

image.png

开源之论

尽管 Llama 系列模型以开源而闻名,但是 Meta 在 Llama 的开源中可谓是费尽 “心机”。

开源友好型风险投资公司 RedPoint 的董事总经理 Erica Brescia 曾提到:“谁能向我解释一下,如果Llama 2实际上没有使用OSI(开放源码计划)批准的许可证,也不符合OSD(开放源码定义),Meta公司和微软公司又如何称Llama 2为开放源码?他们是在故意挑战OSS(开放源码软件)的定义吗?” Llama 并没有遵循上述协议,而是自定义了一套“开源规则”,包括禁止使用Llama 去训练其它语言模型,如果该模型用于每月用户超过7亿的应用程序和服务,则需要获得 Meta 的特殊许可证。

Llama 虽然自称为开源模型,但仅仅开放了模型权重——也就是训练之后的参数,但训练数据、训练代码等关键信息都未开放。

但由于大模型的算法黑盒,仅仅开放模型权重的“半开源”,导致了一个结果:用 Llama 2 的开发者再多,也不会帮助 Meta 提升任何 Llama 3 的能力和 Know-how,Meta 也无法靠 Llama 2 获取任何的数据飞轮。Meta 想要训练更强的 Llama 3,还是只能靠自己团队内部的人才、数据、GPU资源来做,还是需要做实验(比如Scailing Law)、收集更多的优质数据、建立更大的计算集群。这本质上与 OpenAI 训练闭源的 GPT-4 无异。

未来工作

多模态能力

Meta 计划在未来几年中为使 Llama 3 变得更加出色制定了宏伟计划。目前,Llama 3 可以在某些任务中处理文字和图片。但是,Meta 希望通过图像使其变得更加智能。到 2024 年底,他们计划推出 Llama 4,该版本将擅长理解并根据文本描述创建详细的图像。

这意味着它将能够做一些很酷的事情,比如平滑地改变图片的部分,调整场景的外观,并且以不同风格使图像看起来更加逼真。这就像将理解语言和看到图像的力量结合起来,以做更令人惊叹的事情。

多语言支持

目前,Llama 模型主要能够理解英语。但是,Meta 正在努力让它们理解和说更多的语言。他们计划在 2025 年底之前增加 30 多种语言,首先是流行的语言例如西班牙语、印地语和阿拉伯语。这将帮助 Llama 模型通过创建内容、翻译和理解多种语言的东西,成为一个非常有帮助的全球助手。

长程推理

Llama 3 可以思考和理解长达 8k 的文本。但是,Meta 想要进一步推动这一能力,因此未来的版本可以处理更长的文本,比如完整的研究论文。

这将使模型能够理解复杂的思想,辩论观点,并深入思考重大主题。这就是让人工智能在阅读和理解大量信息时变得更智能的方式。

领域模型

尽管 Llama 模型在许多方面表现出色,但是 Meta 希望推出专门版本,这些版本在医学、法律、金融和工程等特定领域有专业水平。通过处理这些领域,Meta 希望使 Llama 3 及其未来版本变得非常有用,不仅适用于一般任务,而且适用于特定的、复杂的和全球性的需求。

结语

Meta 的 Llama 3 模型不仅提升了 AI 技术的前沿,更通过免费开放,推动了全球范围内对高级语言模型的创新和伦理发展。随着 Llama 3 的不断优化,我们期待它在多模态能力、多语言支持以及特定领域知识方面的进一步发展。Meta 通过提供易于使用的模型、云选项、设置工具和丰富的学习资源,鼓励开发者和研究人员以一种安全和负责任的方式,将 Llama 3 的强大功能融入到他们的工作中。这不仅是 Meta 在 AI 领域的一次飞跃,也预示着一个更加智能和互联的未来。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/832120.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

力扣每日一题111:二叉树的最小深度

题目 简单 给定一个二叉树,找出其最小深度。 最小深度是从根节点到最近叶子节点的最短路径上的节点数量。 说明:叶子节点是指没有子节点的节点。 示例 1: 输入:root [3,9,20,null,null,15,7] 输出:2示例 2&#x…

C语言:文件操作(上)

片头 嗨!小伙伴们,今天我们来学习新的知识----文件操作,准备好了吗?我要开始咯! 目录 1. 为什么使用文件? 2. 什么是文件? 3. 二进制文件和文本文件? 4. 文件的打开和关闭 5. 文件顺序读写…

启发式算法解魔方——python

未完待续,填坑ing…… 魔方操作的表示——辛马斯特标记 辛马斯特标记(Singmaster Notation)是一种用于描述魔方和类似拼图的转动操作的标记系统。它以大卫辛马斯特(David Singmaster)的名字命名,辛马斯特…

C 认识指针

目录 一、取地址操作符(&) 二、解引用操作符(*) 三、指针变量 1、 指针变量的大小 2、 指针变量类型的意义 2.1 指针的解引用 2.2 指针 - 整数 2.3 调试解决疑惑 认识指针,指针比较害羞内敛,我们…

单调栈-java

本次主要通过数组模拟单调栈来解决问题。 目录 一、单调栈☀ 二、算法思路☀ 1.暴力做法🌙 2.优化做法🌙 3.单调递增栈和单调递减栈🌙 三、代码如下☀ 1.代码如下(示例):🌙 2.读入数据&a…

Ubuntu MATE系统下WPS显示错位

系统:Ubuntu MATE 22.04和24.04,在显示器设置200%放大的情况下,显示错位。 显示器配置: WPS显示错位: 这个问题当前没有找到好的解决方式。 因为4K显示屏设置4K分辨率,图标,字体太小&#xff…

prometheus搭建

1.prometheus下载 下载地址:Download | Prometheus 请下载LTS稳定版本 本次prometheus搭建使用prometheus-2.37.1.linux-amd64.tar.gz版本 2.上传prometheus-2.37.1.linux-amd64.tar.gz至服务器/opt目录 CentOS7.9 使用命令rz -byE上传 3.解压缩prometheus-2.37.1.linux…

【C++之map的应用】

C学习笔记---021 C之map的应用1、map的简单介绍1.1、基本概念1.2、map基本特性 2、map的基本操作2.1、插入元素2.2、访问元素2.3、删除元素2.4、遍历map2.5、检查元素是否存在2.6、获取map的大小2.7、清空map2.8、基本样例 3、map的基础模拟实现4、测试用例4.1、插入和遍历4.2、…

Flutter笔记:Widgets Easier组件库(11)- 使用提示吐丝

Flutter笔记 Widgets Easier组件库(11)使用提示吐丝 - 文章信息 - Author: 李俊才 (jcLee95) Visit me at CSDN: https://jclee95.blog.csdn.netMy WebSite:http://thispage.tech/Email: 291148484163.com. Shenzhen ChinaAddress of this …

【多模态】29、OCRBench | 为大型多模态模型提供一个 OCR 任务测评基准

文章目录 一、背景二、实验2.1 测评标准和结果2.1.1 文本识别 Text Recognition2.1.2 场景文本中心的视觉问答 Scene Text-Centric VQA2.1.3 文档导向的视觉问答 Document-Oriented VQA2.1.4 关键信息提取 Key Information Extraction2.1.5 手写数学公式识别 Handwritten Mathe…

Ubuntu安装配置网络

参考 https://blog.csdn.net/qq_59633155/article/details/131252293https://blog.csdn.net/qq_59633155/article/details/131252293 Ubuntu配置网络 1,查看网络是否连接 终端输入 ping baidu.com 如若成功则如下图所示 如未能成功,则继续按下面步骤…

解决HTTP 403 Forbidden错误:禁止访问目录索引问题的解决方法

解决HTTP 403 Forbidden错误:禁止访问目录索引问题的解决方法 过去有人曾对我说,“一个人爱上小溪,是因为没有见过大海。”而如今我终于可以说,“我已见过银河,但我仍只爱你一颗星。” 在Web开发和服务器管理中&#x…

【精品毕设推荐】基于JSP物流信息网的设计与实现

点击免费下载原文及代码、PPT 摘要 本文讲述了基于JSP物流信息网的设计与实现。该系统使用java语言开发,使系统具有更好的平台性和可扩展性。 该系统实现了用户登录、注册、查询快递信息、快递公司注册成为合作伙伴以及系统管理员对信息进行管理等功能。系统的主…

(三)JVM实战——对象的内存布局与执行引擎详解

对象的内存布局 对象的实例化 对象的创建方式 - new的方式 - Class的newInstance():反射的方式 - Construct的newInstance() - clone:实现Cloneable接口,默认浅拷贝 - 使用反序列化:将二进制流转化为内存对象 创建对象的步骤 - 判断对象对应的类是否加载、链接、初…

You don’t have permission.

The document “XXX” could not be saved. You don’t have permission. 1.查看修改了iOS系统库导致的, 根据提示, 进入到"XXX"文件中, 然后commandz回退/取消 2. Xcode 调试遇到的报错(持续更新)

18_Scala面向对象编程trait

文章目录 trait1.定义trait2.向类中混入特质2.1没有父类2.2有父类 3.动态混入3.1动态混入查询功能到公司业务中 4.父类,子类,特质初始化优先级5.Scala功能执行顺序6.常用API trait –特质的学习需要类比Java中的接口,源码编译之后就是interf…

练习题(2024/5/3)

1对称二叉树 给你一个二叉树的根节点 root , 检查它是否轴对称。 示例 1: 输入:root [1,2,2,3,4,4,3] 输出:true示例 2: 输入:root [1,2,2,null,3,null,3] 输出:false提示: 树中…

(论文阅读-优化器)A Cost Model for SPARK SQL

目录 Abstract 1 Introduction 2 Related Work 3 Background and Spark Basics 4 Cost Model Basic Bricks 4.1 Cluster Abastraction and Cost Model Parameters 4.2 Read 4.3 Write 4.4 Shuffle Read 4.5 Broadcast 5 Modeling GPSJ Queries 5.1 Statistics and S…

QT+网络调试助手+TCP客户端

一、网络调试助手UI界面 编程主要思路: 首先将水平的控件 水平布局 ,然后相对垂直的控件 垂直布局 ,哪怕是底下的groupBox也需要和里面的内容 水平布局,然后最后框选全部 栅格布局。如果需要界面自适应窗口大小&#xff0c…

【白话机器学习系列】白话特征向量

白话特征向量 一个方阵 A A A 与列向量 v v v 的乘积会生成一个新的列向量。这个新向量通常与原向量有着不同的方向,矩阵在这里代表一个线性变换。然而,某些向量会保持其原始方向。我们称这种向量为矩阵 A A A 的特征向量(eigenvector&…