王牌站士Ⅶ--理解大型语言模型LLM的参数

模型的大小并不一定决定其成功

在学习任何大型语言模型 (LLM) 时,您首先会听到的事情之一就是给定模型有多少个参数。如果您查看下面的图表,您会注意到参数大小范围很广 - 一个模型可能有 10 亿或 20 亿个参数,也可能有超过 1.75 万亿个参数。

现在能下载到的模型普遍都是6/7B(小)、13B(中)、大(130B) 三种,比如ChatGLM 和Llama2 等。

LLM现在一般都是基于Transormer结构,参数总和可以看作Embedding部分参数和Transormer-Decoder部分参数,Embedding部分参数由词表大小和模型维度决定;Decoder部分参数由模型层数和模型维度决定。

这当然会引发一些显而易见的问题——参数是什么?它们为什么重要?模型中的参数越多越好,这是真理吗?为了理解和评估大型语言模型,让我们考虑这些问题。

什么是参数?

我们可以将参数视为大型语言模型中的内部设置或拨盘,可以对其进行调整以优化获取标记和生成新标记的过程。就像音响工程师可以通过转动混音板上的拨盘来优化音质一样,数据科学家也可以转动大型语言模型中的拨盘来优化其性能。

回想一下,token 是一个文本单位 - 单词、单词组合或标点符号 - 其格式使得 LLM 可以高效地使用它。在训练大型语言模型时,参数是 LLM 的特征,可以进行调整以优化模型预测序列中下一个 token 的能力。请考虑以下关于参数如何训练和运行的简化解释:

  1. 模型的参数被设置为初始值,可以是随机的,也可以是基于之前的训练。
  2. 正在训练的大型语言模型需要输入大量文本数据。
  3. 在模型训练过程中,它会接受输入并预测正确的输出是什么。
  4. 在训练中,LLM 将其预测与实际文本进行比较,以查看其预测是否正确。如果预测不正确,模型会从错误中“学习”,并调整其参数。
  5. 该过程持续数百万或数十亿个示例,模型每次都会调整其参数并提高其预测准确性。

通过这种预测、错误检查和参数调整的迭代过程,LLM 的语言能力变得更加准确和复杂。

参数越多总是越好吗?

最简洁的答案是

诚然,LLM 的参数越多,它就可以调整越多的“设置”来捕捉人类语言的复杂性,从而比参数较少的模型更好地处理人类语言。因此,在其他条件相同的情况下,如果模型 A 和模型 B 仅在处理和生成语言的能力上有所不同,那么你当然应该选择语言处理能力更出色的模型。

但在现实世界中,并非所有事物都是平等的。还必须考虑其他重要因素。也许最明显的是,模型越大,运行成本就越高。训练模型的过程和持续维护模型都需要大量的计算能力和数据。正是出于这个原因,像 GPT-3 或 GPT-4 这样的 LLM 通常由拥有大量资源的组织开发。

运行大型语言模型也会对环境产生影响。马萨诸塞大学阿默斯特分校最近的一项研究发现,训练一个具有 2.13 亿个参数的大型模型会产生超过 626,000 磅的二氧化碳排放量。相比之下,普通美国汽车的终生排放量(包括汽车制造)为 126,000 磅二氧化碳 - 约为训练具有 2.13 亿个参数的 LLM 所产生的碳排放量的五分之一!模型越大,消耗的能量越多,随后产生的碳排放量也越多。较小的模型对环境的影响要小得多。

您可能会担心,选择具有更少参数的更具成本效益、可持续性的模型会损害 LLM 的有效性和准确性。然而,这引出了评估 LLM 时的一个重要问题——模型的大小并不能统一定义其成功。给定的单词在不同的上下文中可能具有不同的含义。平均而言,较大的模型往往能够区分这种语义区别,但是,使用较低质量训练数据的较大模型不一定会胜过较小且更集中的模型。使用高质量数据训练的具有较少参数的模型将胜过使用低质量数据训练的较大模型。换句话说,用于训练模型的数据的质量与模型本身的大小同样重要。


欢迎你分享你的作品到我们的平台上:www.shxcj.com 或者 www.2img.ai 让更多的人看到你的才华。

创作不易,觉得不错的话,点个赞吧!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/46467.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

了解redis

1.什么是redis? redis是一款高性能的NOSQL系列的非关系型数据库 想了解非关系型数据库概念前往上期(NoSQL Not Only SQL),意即“不仅仅是SQL”-CSDN博客 Redis是用C语言开发的一个开源的高性能键值对(key-value)数据库&#x…

CentOS7.X系统部署Zabbix6.0版本(可跟做)

文章目录 一、部署环境说明二、基本环境部署步骤1、环境初始化操作2、部署并配置Nginx3、部署并配置PHP4、测试NginxPHP环境5、部署并配置MariaDB 三、Zabbix-Server部署步骤1、编译安装Zabbix-Server2、导入Zabbix初始化库3、配置Zabbix前端UI4、启动Zabbix-Server5、WEB页面配…

java代码:单链表的实现

1、代码 package LinkList;public class Linklist {//定义节点,内部类只为其外部类使用//要创建嵌套类的对象,并不需要其外围类的对象,直接使用.nextstatic class ListNode{int val;//数据域ListNode next;//指针,指向下一个结点…

GPT-4从0到1搭建一个Agent简介

GPT-4从0到1搭建一个Agent简介 1. 引言 在人工智能领域,Agent是一种能够感知环境并采取行动以实现特定目标的系统。本文将简单介绍如何基于GPT-4搭建一个Agent。 2. Agent的基本原理 Agent的核心是感知-行动循环(Perception-Action Loop)…

C#与倍福Plc通信——使用仿真软件模拟倍福PLC运行

前言 我们在编写上位机与倍福PLC通信的过程中,有时候我们没有真实的Plc,但是我们又想提前测试与倍福PLC的通信,那么这个时候我们就可以使用倍福的仿真软件模拟PLC,然后我们上位机就可以与仿真PLC进行通信了,下面进行详细介绍: 1、下载并安装倍福PLC编程软件TwinCAT 安…

Android TabLayout+ViewPager2如何优雅的实现联动详解

一、介绍 Android开发过程中,我们经常会遇到滑动导航栏的做法,之前的做法就是我们通过ViewGroup来转动,然后通过大量的自定义来完成,将导航栏item与viewpage 滑动,达到业务需求 二、现实方案 通过介绍,我…

机器人前沿--PalmE:An Embodied Multimodal Language Model 具身多模态大(语言)模型

首先解释这篇工作名称Palm-E,发表时间为2023.03,其中的Palm是谷歌内部在2022.04开发的大语言模型,功能类似ChatGPT,只是由于各种原因没有那样火起来,E是Embodied的首字母,翻译过来就是具身多模态大语言模型…

宠物浮毛克星!最值得买的猫用空气净化器排名

作为用了3年宠物空气净化器的铲屎官来说,为什么铲屎官每到春秋换季就开始疯狂打喷嚏、突然开始全身过敏。其原因是猫毛一到换季就开始疯狂掉毛,相对于可见猫毛,漂浮在空气中的浮毛就是罪灰祸首。微小的浮毛在空气总容易被人体吸入体内&#x…

Qt+ESP32+SQLite 智能大棚

环境简介 硬件环境 ESP32、光照传感器、温湿度传感器、继电器、蜂鸣器 基本工作流程 上位机先运行,下位机启动后尝试连接上位机连接成功后定时上报传感器数据到上位机,上位机将信息进行处理展示判断下位机传感器数据,如果超过设置的阈值&a…

[misc]-流量包-wireshark-icmp

wireshark打开,大部分都是icmp,查看data部分 提取data长度: tshark.exe -r 1.pcapng -T fields -e data.len > length.txt 使用python解析这个文件,剔除异常值,每8个取一个值,得到flag ds [] with open(length.tx…

188家国产大模型:挑战与机遇,未来杀手级AI应用究竟该长什么样子?

未来的杀手级AI应用究竟该长什么样子?这篇文章里,作者梳理了国内外LLMs基础大模型的特征,并于最后发表了自己关于杀手级AI应用的看法和见解,一起来看一下。 摘要: 本文详细列表展示国外18家,国内188家大模…

ReentrantLock的源码实现和原理介绍

目录 一、概述 二、ReentrantLock的整体结构 三、ReentrantLock 和Synchronized相比 四、ReentrantLock 公平锁和非公平锁实现 4.1 ReentrantLock 源码解读 4.1.1 ReentrantLock 类源码解读 4.1.1.1 Lock接口 4.1.1.2 Sync抽象类 4.1.1.3 NonfairSync()和FairSync() 4…

EasyCVR视频技术:城市电力抢险的“千里眼”,助力抢险可视化

随着城市化进程的加速和电力需求的不断增长,电力系统的稳定运行对于城市的正常运转至关重要。然而,自然灾害、设备故障等因素常常导致电力中断,给城市居民的生活和企业的生产带来严重影响。在这种情况下,快速、高效的电力抢险工作…

产品介绍|九芯语音芯片的特点与应用市场

随着物联网与智能家居的普及,越来越多的电子产品有了语音播报的需求。九芯语音芯片集成了语音识别和语音合成技术,能够准确地捕捉并解析人类的语言,同时以清晰、自然的语调进行回应,为各类智能设备注入了强大的语言交互能力。 特点…

OSI 七层模型与五层模型

OSI(开放系统互连)七层模型和五层模型是描述计算机网络协议的两种不同层次划分方法。两者用于帮助理解和设计网络协议,但它们在层次划分上有所不同。

使用Elasticsearch Python SDK 查询Easysearch

随着数据分析需求的不断增长,能够高效地查询和分析大数据集变得越来越重要。Elasticsearch作为一种强大的分布式搜索和分析引擎,被广泛应用于各种场景。Easyearch 支持原生 Elasticsearch 的 DSL 查询语法,确保原业务代码无需调整即可无缝迁移…

优化校园设施维护,故障类型功能全解析

在智慧校园的日常运作中,报修管理系统的故障类型功能扮演着至关重要的角色。它不仅简化了设备维修的流程,还极大地提升了校园设施的维护效率。该功能的核心在于,它允许系统管理员创建、编辑和删除一系列故障类型,涵盖从网络连接问…

vue实现动态图片(gif)

目录 1. 背景 2. 分析 3. 代码实现 1. 背景 最近在项目中发现一个有意思的小需求,鼠标移入一个盒子里,然后盒子里的图就开始动起来,就像一个gif一样,然后鼠标移出,再按照原来的变化变回去,就像变形金刚…

QT--控件篇二

一、文本框 1. QLineEdit 文本框通常使用QLineEdit和QTextEdit这两个类来实现。 QLineEdit:用于单行文本输入。QTextEdit:用于多行文本输入,可以包含丰富的文本格式。 用setText(QString txt);设置默认的显示内容,用QString tex…

【NOI】C++数据结构入门之一维数组(一)数组基础

文章目录 前言一、概念1.导入2.数组2.1 数组的创建2.2 数组的使用 二、例题讲解问题:1423 - 考试成绩的简单统计问题:1153 - 查找“支撑数”问题:1156 - 排除异形基因问题:1155 - 找找谁的身高超过全家的平均身高问题:…