王牌站士Ⅶ--理解大型语言模型LLM的参数

模型的大小并不一定决定其成功

在学习任何大型语言模型 (LLM) 时，您首先会听到的事情之一就是给定模型有多少个参数。如果您查看下面的图表，您会注意到参数大小范围很广 - 一个模型可能有 10 亿或 20 亿个参数，也可能有超过 1.75 万亿个参数。

现在能下载到的模型普遍都是6/7B(小)、13B(中)、大(130B) 三种，比如ChatGLM 和Llama2 等。

LLM现在一般都是基于Transormer结构，参数总和可以看作Embedding部分参数和Transormer-Decoder部分参数，Embedding部分参数由词表大小和模型维度决定；Decoder部分参数由模型层数和模型维度决定。

这当然会引发一些显而易见的问题——参数是什么？它们为什么重要？模型中的参数越多越好，这是真理吗？为了理解和评估大型语言模型，让我们考虑这些问题。

什么是参数？

我们可以将参数视为大型语言模型中的内部设置或拨盘，可以对其进行调整以优化获取标记和生成新标记的过程。就像音响工程师可以通过转动混音板上的拨盘来优化音质一样，数据科学家也可以转动大型语言模型中的拨盘来优化其性能。

回想一下，token 是一个文本单位 - 单词、单词组合或标点符号 - 其格式使得 LLM 可以高效地使用它。在训练大型语言模型时，参数是 LLM 的特征，可以进行调整以优化模型预测序列中下一个 token 的能力。请考虑以下关于参数如何训练和运行的简化解释：

模型的参数被设置为初始值，可以是随机的，也可以是基于之前的训练。
正在训练的大型语言模型需要输入大量文本数据。
在模型训练过程中，它会接受输入并预测正确的输出是什么。
在训练中，LLM 将其预测与实际文本进行比较，以查看其预测是否正确。如果预测不正确，模型会从错误中“学习”，并调整其参数。
该过程持续数百万或数十亿个示例，模型每次都会调整其参数并提高其预测准确性。

通过这种预测、错误检查和参数调整的迭代过程，LLM 的语言能力变得更加准确和复杂。

参数越多总是越好吗？

最简洁的答案是不。

诚然，LLM 的参数越多，它就可以调整越多的“设置”来捕捉人类语言的复杂性，从而比参数较少的模型更好地处理人类语言。因此，在其他条件相同的情况下，如果模型 A 和模型 B 仅在处理和生成语言的能力上有所不同，那么你当然应该选择语言处理能力更出色的模型。

但在现实世界中，并非所有事物都是平等的。还必须考虑其他重要因素。也许最明显的是，模型越大，运行成本就越高。训练模型的过程和持续维护模型都需要大量的计算能力和数据。正是出于这个原因，像 GPT-3 或 GPT-4 这样的 LLM 通常由拥有大量资源的组织开发。

运行大型语言模型也会对环境产生影响。马萨诸塞大学阿默斯特分校最近的一项研究发现，训练一个具有 2.13 亿个参数的大型模型会产生超过 626,000 磅的二氧化碳排放量。相比之下，普通美国汽车的终生排放量（包括汽车制造）为 126,000 磅二氧化碳 - 约为训练具有 2.13 亿个参数的 LLM 所产生的碳排放量的五分之一！模型越大，消耗的能量越多，随后产生的碳排放量也越多。较小的模型对环境的影响要小得多。

您可能会担心，选择具有更少参数的更具成本效益、可持续性的模型会损害 LLM 的有效性和准确性。然而，这引出了评估 LLM 时的一个重要问题——模型的大小并不能统一定义其成功。给定的单词在不同的上下文中可能具有不同的含义。平均而言，较大的模型往往能够区分这种语义区别，但是，使用较低质量训练数据的较大模型不一定会胜过较小且更集中的模型。使用高质量数据训练的具有较少参数的模型将胜过使用低质量数据训练的较大模型。换句话说，用于训练模型的数据的质量与模型本身的大小同样重要。

欢迎你分享你的作品到我们的平台上：www.shxcj.com 或者 www.2img.ai 让更多的人看到你的才华。

创作不易，觉得不错的话，点个赞吧！！！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/bicheng/46467.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！