19-1 LLM之野望 1 – 微软打开1-bit LLM时代

让我们面对现实吧,数字不会说谎。

尽管市场因人工智能而上涨,但其效应显然尚未转化为价值,因为只有不到4%的公司使用人工智能来生产商品和服务。

更糟糕的是,虽然一些大公司确实在拥抱人工智能,但高不可攀的成本阻碍了小公司效仿,讽刺的是,这项旨在使复杂任务民主化和促进竞争力的技术变成了一台巨大的不平等机器

然而,情况可能很快就会改变,因为微软已经悄然发布了 1.58 位大型语言模型 (LLM),其性能与 16 位模型相当,但价格便宜且速度快了一个数量级。

微软称之为1 位 LLM 时代,你将会爱上它的每一秒。

没有钱,没有派对

尽管人工智能在研究层面取得了令人瞩目的成果,但它也受到经济、环境影响和价值缺失等多种弊端的困扰,无法成为现任者所预测的那样。

数字不对

美国国家经济研究局最近的一项研究证实,即使到了今天,企业对人工智能的采用率仍未达到两位数,麻省理工学院也对此表示赞同。

19-1 LLM之野望 1 - 微软打开1-bit LLM时代

资料来源:麻省理工学院

但研究还显示出更令人担忧的迹象,即大公司与其他公司之间存在明显的不平衡。

更糟糕的是,它还表明不平衡不仅体现在规模上,还体现在行业甚至地理位置上。

多伦多大学的Kristina McElheran对此做出了最好的总结:

“数字时代已经到来,但它的到来并不平衡。”

但这远非唯一的问题。它对环境也有严重影响。

如果我们认为,根据马萨诸塞大学阿默斯特分校的数据,人工智能行业的碳足迹已经占全球排放量的 1% 左右,并且承认人工智能工作量将在未来几年大幅增加,那么我们都必须承认我们存在问题。

简而言之,除非我们找到一种方法使人工智能成为一种高效的技术,否则它的影响和价值创造将仅限于大公司,而我们其他人则只能制作有趣的玩具,用莎士比亚风格说唱德克萨斯烧烤。

然而,由于生成式人工智能给我们带来的范式转变,即“一对多”时代,价值机会仍然很残酷。

基础范式

当今人工智能成功的最大原因莫过于基础模型(FM),即可以执行各种不同下游任务的模型。

通过创建庞大的基础 AI 模型,我们获得了一系列好处,主要是泛化,使 AI 成为一种成功率更高的技术(此前 Gartner 指出 AI 的失败率为 90%)以及更具吸引力的回报。

最后,人工智能不需要训练来学习,因为你只需通过实时向模型提供必要的(通常是私人的)数据,将模型应用到每个用例中,这个过程正式称为提示词工程

但我们最大的成功也是我们最大的负担。

金钱约束

由于其并行化能力,前沿 AI 模型需要非常昂贵的硬件 GPU 才能运行。

尽管 GPU 是基础,但 LLM 与这些硬件之间的关系却远非理想。

首先,当今大多数型号的尺寸都无法装入单个 GPU。我们目前最好的 GPU,如NVIDIA 的 H100英特尔的 Gaudi 2,分别只有 80GB 和 96GB 的高内存带宽 (HBM)。

可能看起来很多,但我们正在讨论的模型在极端情况下(如 ChatGPT 或 Gemini Ultra)可能在 TeraByte 大小范围内

因此,我们必须使用FSDP等分布式计算方法将模型“分解”成各个部分,其中模型的层按组分成多个单元,每个单元分配给单个或一组 GPU。

我们不能将模型存储在 Flash 或 HDD 中吗?

理论上,我们不能。每个预测都要运行整个模型,这意味着权重需要可供 GPU 核心访问,否则检索过程会花费很长时间,并且延迟将令人难以忍受。

苹果公司正在推动一项有趣的研究,将“ Flash LLM ”存储在更加丰富的闪存中,其中加入一个预测器,对于每个输入数据,该预测器可以预测 LLM 的哪些部分需要存储在 RAM 内存中,从而使大规模模型能够适应 iPhone 等硬件。

FSDP 部分解决了分布问题,但由于 GPU 需要共享其计算以进行训练和推理,因此增加了通信开销。

如果事情还不够复杂的话,GPU 的排列也很重要。

目前,最令人兴奋的方法是Ring Attention,其中 GPU 设置在环上,以将单个 GPU 计算与 GPU 逐个通信开销重叠,这样全局预测时间就不会受到工作负载分布式特性的限制。

与此同时,Predibase 等公司正在提供简单的无服务器框架,您可以在其中将多个模型存储到单个 GPU 中,从而大幅降低成本,而Groq等其他组织甚至建议我们根本不应该使用 GPU 进行推理工作负载,他们提出了速度极快的语言处理单元 (LPU)。

然而,无论采用何种方法,关键问题仍然存在,LLM 比理想的要大得多,并且所有以前的创新都围绕着处理大模型尺寸的问题。

因此,考虑到内存要求是主要瓶颈,目前非常流行的解决方案是量化模型。

最后,这就是微软的 1 位 LLM 发挥作用的地方。

1.58 比特可能改变世界

首先,量化到底是什么?

精度问题

量化是降低模型参数(权重)的存储精度以缩小模型尺寸并节省内存的过程,正如我们之前讨论的那样,这是这些模型的主要瓶颈。

目前大多数 LLM 使用 16 位或 2 字节精度来训练模型。换句话说,模型中的每个权重在内存中恰好占用 2 个字节。

必须指出的是,模型的某些参数,例如训练期间使用的优化器状态,​​是以全精度(4 个字节)存储的,但绝大多数是以 2 个字节存储的。

有不同的方法,但是概念总是一样的,将权重的值压缩成更小的位大小

一种非常常见的方法是将 16 位权重转换为 4 位值。此时,似乎不清楚实际影响是什么,但请耐心听我举以下例子。

如果我们采用已经训练好的 500 亿参数的 LLM(按照今天的标准这是一个相当小的模型),以 2 字节精度,我们的模型重达 100 GB。

为了简化示例,我假设一个已经针对短序列进行训练的模型,因此 KV 缓存(对长序列有巨大影响的内存需求)可以忽略不计。

因此,您自动需要至少两个NVIDIA H100 GPU来存储模型。

但是如果将权重量化为 4 位,则实际上是将内存需求除以 4,因此模型突然“只有” 25GB,完美适合单个 GPU。

但如果这真的如此不可思议,为什么不一直这样做呢?

训练后的权衡

目前,大多数量化程序都是在训练后进行的。也就是说,以混合精度或全精度(2 或 4 个字节)训练模型,然后量化模型。

单是程序本身就已经是一个问题,因为它将不可逆转地对性能产生相当大的影响。

想象一下,你用一把巨大的网球拍训练了很长时间,突然,在比赛开始前,他们给你一把小得多的球拍。自然,你击球会很困难。

嗯,通过训练后量化,我们基本上对模型做同样的事情。

但是如果我们在量化模型的同时从头开始训练模型会怎么样?

这正是微软所推行的,但却走向了极端。

人工智能的未来?

简单来说,微软的论文提出了一种激进的方法,将每个权重的内存分配从 16 位减少到 1.58 位,内存需求减少了大约 16 倍。

换句话说,线性层中的所有权重都将具有值“1”,“-1”或“0”。

19-1 LLM之野望 1 - 微软打开1-bit LLM时代

来源:微软

它们仅关注前馈权重,同时将标准激活和注意力保持在 8 位,因为最大量的计算和内存需求积累在前馈层上,而不是注意力上。

但微软方法的关键点在于它是“量化感知”,这意味着他们从头开始训练模型,同时并行应用量化。

这样,您就不必以一定的精度训练模型,然后再剪辑其值,而是从头开始以量化形式训练模型。

另一个值得注意的因素是,通过将这些权重设为 +/- 1 或 0,您基本上可以避免矩阵乘法。

但为什么这如此相关?

由于乘以 1 或 -1 归结为对另一个数字应用符号函数,而 0 会从等式中消除该数字,因此矩阵乘法变成了矩阵加法(如上图所示),从而大大减少了计算要求。

与我们的预期相反,这种妥协并没有对性能产生影响,恰恰相反。

速度飙升,但质量并未下降

与具有相似权重的模型相比,该模型不仅表现良好,而且在大多数基准测试中都胜过其对手。

19-1 LLM之野望 1 - 微软打开1-bit LLM时代

PPL 代表困惑度,它是 LLM 质量的主要客观衡量标准,衡量模型的“困惑度”。换句话说,分配给正确 token 的概率越高,模型的困惑度就越低。

研究人员随后声称,这种方法的主要好处适用于任何其他规模,并且随着规模的扩大而变得更加明显,这意味着:

  • “在延迟、内存使用和能耗方面, 13B BitNet b1.58比3B FP16 LLM更高效。”
  • 在延迟、内存使用和能耗方面,30B BitNet b1.58比7B FP16 LLM更高效。”
  • “在延迟、内存使用和能耗方面, 70B BitNet b1.58比13B FP16 LLM更高效。”

如你所见,量化感知训练形成了自己的缩放规律,模型越大,影响越大。

并且在相同大小之间进行比较时,量化的 LLM 允许11 倍更大的批量大小(可以发送给模型的单个序列的数量),并且每秒生成的标记数增加 9 倍

19-1 LLM之野望 1 - 微软打开1-bit LLM时代

但这一切意味着什么呢?

简而言之,我们可能已经找到了一种更有效地训练前沿人工智能模型的方法,同时又不影响性能。

如果是这样,我们很快就会看到 1 位 LLM 成为常态,而需要巨额开支和庞大数据中心的工作负载最终可以在消费硬件上,甚至是在智能手机上运行。

例如,我们可以在你的 iPhone 中运行 +1000 亿个参数的模型,而对于最先进的笔记本电脑,这个数字将增长到 +300 的范围(当然,假设它们具有必要的 GPU,大多数高端消费端硬件已经具备这种情况)。

但我们甚至可以更进一步。

很快,你的数字产品(例如你的智能手机)就可以注入多个并行运行的不同 LLM,每个 LLM 都专门用于其下游任务,这将使 LLM 在我们的生活中更加普遍。

LLM 来处理您的电子邮件,LLM 来处理您的通知,LLM 来编辑您的照片……您说得出名字的。

如果这不能代表人工智能价值创造的本质,那我就不知道该告诉你什么了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/873354.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java案例斗地主游戏

目录 一案例要求: 二具体代码: 一案例要求: (由于暂时没有学到通信知识,所以只会发牌,不会设计打牌游戏) 二具体代码: Ⅰ:主函数 package three;public class test {…

HarmonyOS ArkUi @CustomDialog 和promptAction.openCustomDialog踩坑以及如何选择

CustomDialog 内使用Link,如何正常使用 错误使用方式: 定义一个函数,在函数内使用弹窗,如下面代码showDialog: 这种使用方式,无法在自定义的CustomDialog内使用 Link,进行父子双向绑定&#x…

查看仓库文件的改变(git-status , git-diff)

当你在进行项目开发的时候,想看一下自己改了什么,使用cmd进入项目的路径 输入命令回车,前面带有modified,说明后面这个文件被修改了前面带有deleted, 说明这个文件被删除了这是Untracked files, 这部分文…

BUUCTF逆向wp [MRCTF2020]Xor

第一步 查壳,该题是32位,无壳。 第二步 跟进main,发现反汇编不了 通过下图我们可以发现一串类似字符串的东西 第三步 我们看一下汇编 我们可以得到这些信息:flag的长度为27(下面是对本条指令cmp edx 27指令的应用…

视频素材网站无水印的有哪些?热门视频素材网站分享

当我们走进视频创作的精彩世界时,一个难题常常摆在面前——那些高品质、无水印的视频素材究竟应该在哪里寻找?许多视频创作者感叹,寻找理想的视频素材难度甚至超过了寻找伴侣!但不用担心,今天我将为您介绍几个优质的视…

华为od机试真题 — 分披萨(Python)

题目描述 “吃货”和“馋嘴”两人到披萨店点了一份铁盘(圆形)披萨,并嘱咐店员将披萨按放射状切成大小相同的偶数个小块。 但是粗心服务员将披萨切成了每块大小都完全不同奇数块,且肉眼能分辨出大小。 由于两人都想吃到最多的披萨,他们商量…

大数据采集工具——Flume简介安装配置使用教程

Flume简介&安装配置&使用教程 1、Flume简介 一:概要 Flume 是一个可配置、可靠、高可用的大数据采集工具,主要用于将大量的数据从各种数据源(如日志文件、数据库、本地磁盘等)采集到数据存储系统(主要为Had…

SQL每日一题:删除重复电子邮箱

题干 表: Person -------------------- | Column Name | Type | -------------------- | id | int | | email | varchar | -------------------- id 是该表的主键列(具有唯一值的列)。 该表的每一行包含一封电子邮件。电子邮件将不包含大写字母。 编写解决方案 删除 所有重复…

react 快速入门思维导图

在掌握了react中一下的几个步骤和语法,基本上就可以熟练的使用react了。 1、组件的使用。react创建组件主要是类组件和函数式组件,类组件有生命周期,而函数式组件没有。 2、jsx语法。react主要使用jsx语法,需要使用babel和webpa…

华为“铁三角模式”在数据类项目中的应用和价值

引言:随着信息技术的飞速发展,企业纷纷踏上数字化转型的道路,希望通过数据分析和智能决策来提升企业竞争力。在这一过程中,数据类项目成为关键,它们旨在构建高效的数据治理和分析平台,为企业决策提供有力支…

python—正则表达式

文章目录 导入re模块常用的元字符re模块match方法分组贪婪匹配编译 Python中的正则表达式是一种强大的文本处理工具,它使用一种特殊的语法来描述字符串的模式。Python通过re模块提供了对正则表达式的支持。使用正则表达式,你可以进行复杂的文本搜索、替换…

【单片机毕业设计选题24072】-基于单片机的智能停车场管理系统

系统功能: 1.根据RFID卡卡号判断新老用户,老用户不计费直接放行,新用户放行时显示计费结果 2.显示屏显示车位剩余数量 3.检测车位有车亮红灯,无车亮绿灯,能够实现车位诱导 5.车辆出停车场时,能根据停车时间计算停车…

达梦数据库DM8-索引篇

目录 一、前景二、名词三、语法1、命令方式创建索引1.1 创建索引空间1.2.1 创建普通索引并指定索引数据空间1.2.2 另一种没验证,官方写法1.3 复合索引1.4 唯一索引1.5 位图索引1.6 函数索引 2、创建表时候创建索引3、可视化方式创建索引3.1 打开DM管理工具3.2 找到要…

GitHub私有派生仓库(fork仓库) | 派生仓库改为私有

GitHub私有派生仓库 前言解决方案 前言 在GitHub上Fork的派生仓库默认为公有仓库,且无法修改为私有仓库。 若想创建私有的派生仓库,可通过GitHub的导入仓库功能实现,具体步骤请参见下文解决方案。 解决方案 打开GitHub页面,在个…

嵌入式物联网在医疗行业中的应用——案例分析

作者主页: 知孤云出岫 目录 嵌入式物联网在医疗行业中的应用——案例分析引言1. 智能病房监控1.1 实时患者监控系统 2. 智能医疗设备管理2.1 设备使用跟踪与维护 3. 智能药物管理3.1 药物分配与跟踪 4. 智能远程医疗4.1 远程患者监控与诊断 总结 嵌入式物联网在医疗行业中的应…

Keka for Mac v1.4.3 中文下载 解压/压缩工具

Mac分享吧 文章目录 效果一、下载软件二、开始安装1、双击运行软件,将其从左侧拖入右侧文件夹中,等待安装完毕2、应用程序显示软件图标,表示安装成功 三、运行测试1、打开软件2、文件访问权限修改3、访达扩展 安装完成!&#xff…

LNMP环境配置问题整理

首先是一键安装直接报错: 换教程:搭建LNMP,步骤最详细,附源码,学不会打我-CSDN博客 mysql安装成功之后: MySQL 启动报错:Job for mysqld.service failed because the control process exited …

前端开发_注意事项

无论使用哪种框架开发(vue、react、...),前端开发终究是结构(HTML)、样式(CSS)、逻辑(用户操作数据处理对接后端API)。那么开发过程中都需要注意哪些事项,本文…

设计模式:使用最广泛的代理模式

需求场景 按着惯例,还是以一个应用场景作为代理模式的切入点。现在有一个订单系统,要求是:一旦订单被创建,只有订单的创建人才可以修改订单中的数据,其他人则不能修改。 基本实现思路 按着最直白的思路,就是查询数据…

IDEA中内敛局部变量对话窗是什么?

个人名片 🎓作者简介:java领域优质创作者 🌐个人主页:码农阿豪 📞工作室:新空间代码工作室(提供各种软件服务) 💌个人邮箱:[2435024119qq.com] &#x1f4f1…