你对于大型语言模型(LLMs)的复杂世界以及围绕它们的技术术语感到好奇吗?
理解从训练和微调的基础方面到转换器和强化学习的尖端概念,是揭开驱动现代人工智能大语言模型神秘面纱的第一步。
在本文中,我们将深入探讨 25 个关键术语,以增强你的技术词汇量(最起码跟朋友聊大模型时,本文的2139字可以硬控对方7.13分钟)。
热图代表了在LLMs的背景下术语的相对重要性。
1.LLM (大语言模型)
大型语言模型(LLMs)是先进的人工智能系统,它们在广泛的文本数据集上进行训练,以理解和生成类似人类的文本。它们使用深度学习技术以相关性强的方式处理和生成语言。LLMs 的发展,如 OpenAI 的 GPT 系列、谷歌的 Gemini、Anthropic AI 的 Claude 和 Meta 的 Llama 模型,标志着自然语言处理的重大进步。
2.培训
训练是指通过将语言模型暴露给大型数据集来教会它理解和生成文本的过程。模型学会预测序列中的下一个词,并通过调整其内部参数,随着时间的推移提高其准确性。这一过程是开发任何处理语言任务的AI的基础。
3.微调
微调是指对预训练的语言模型进行进一步训练(或调整),以在较小的特定数据集上专业化于特定领域或任务。这允许模型在原始训练数据中未广泛涵盖的任务上表现得更好。
4、参数
在神经网络(包括 LLMs)的背景下,参数是模型架构中从训练数据中学到的可变部分。参数(如神经网络中的权重)在训练期间进行调整,以减少预测输出和实际输出之间的差异。
5.向量
在机器学习中,向量是以算法可以处理的格式表示数据的数字数组。在语言模型中,单词或短语被转换为向量,通常称为嵌入,它们捕获模型可以理解和操作的语义含义。
6.嵌入
嵌入是密集的文本向量表示,其中熟悉的单词在向量空间中有相似的表示。这种技术有助于捕捉单词之间的上下文和语义相似性,对于机器翻译和文本摘要等任务至关重要。
7.标记化
标记化是将文本分割成多个片段,称为标记,可以是单词、子词或字符。这是使用语言模型处理文本之前的初步步骤,因为它有助于处理各种文本结构和语言。
8.转换器
转换器是一种神经网络架构,它依赖于称为自注意力的机制来不同地权衡输入数据的不同部分的影响。这种架构对许多自然语言处理任务非常有效,是大多数现代 LLMs 的核心。
9.注意力
神经网络中的注意力机制使模型在生成响应时能够集中注意力于输入序列的不同部分,模仿人类在阅读或倾听等活动时的注意力运作。这种能力对于理解上下文和产生连贯响应至关重要。
10.推理
推理是指使用训练好的模型进行预测。在 LLMs 的背景下,推理是模型根据输入数据使用在训练期间学到的知识生成文本的阶段。这是 LLMs 实际应用实现的阶段。
11.温度
在语言模型采样中,温度是一个超参数,它通过在应用 softmax 之前缩放 logits 来控制预测的随机性。更高的温度产生更随机的输出,而更低的温度使模型的输出更加确定性。
12.频率参数
语言模型中的频率参数根据其出现频率调整标记的可能性。这个参数有助于平衡生成常见词与罕见词,影响模型在文本生成中的多样性和准确性。
13.采样
在语言模型的背景下,采样是指根据其概率分布随机选择下一个词来生成文本。这种方法允许模型生成多样化且通常更具创造性的文本输出。
14. Top-k 采样
Top-k 采样是一种技术,其中模型对下一个词的选择限制在根据模型预测的k个最可能的下一个词。这种方法减少了文本生成的随机性,同时仍然允许输出的多样性。
15. RLHF(来自人类反馈强化学习)
来自人类反馈的强化学习是一种技术,其中模型根据人类反馈而非仅原始数据进行微调。这种方法使模型的输出与人类价值观和偏好保持一致,显著提高了其实际效果。
16.解码策略
解码策略决定了语言模型在生成期间如何选择输出序列。策略包括贪婪解码,即在每一步选择最可能的下一个词,以及束搜索,它通过同时考虑多种可能性来扩展贪婪解码。这些策略显著影响输出的连贯性和多样性。
17.语言模型提示
语言模型提示涉及设计输入(或提示),引导模型生成特定类型的输出。有效的提示可以提高在问题回答或内容生成等任务上的性能,而无需进一步训练。
18.Transformer-XL
Transformer-XL 扩展了现有的转换器架构,使学习固定长度之外的依赖性成为可能,而不会破坏时间一致性。这种架构对于涉及长文档或序列的任务至关重要。
19.掩码语言建模(MLM)
掩码语言建模涉及在训练期间掩蔽某些输入数据段,促使模型预测隐藏的单词。这种方法是 BERT 等模型中使用 MLM 增强预训练效果的基石。
20.序列到序列模型(Seq2Seq)
Seq2Seq 模型旨在将一个领域的序列转换为另一个领域的序列,例如将文本从一种语言翻译成另一种语言或将问题转换为答案。这些模型通常包括一个编码器和一个解码器。
21.生成预训练转换器(GPT)
生成预训练转换器是指由 OpenAI 设计的一系列语言处理人工智能模型。GPT 模型使用无监督学习进行训练,以基于其输入生成类似人类的文本。
22.困惑度
困惑度衡量概率模型在给定样本上的预测准确性。在语言模型中,降低的困惑度表明对测试数据的预测更好,通常与更平滑、更精确的文本生成相关联。
23.多头注意力
多头注意力是转换器模型中的一个组成部分,使模型能够同时在不同位置关注各种表示子空间。这增强了模型动态集中注意力于相关信息的能力。
24.上下文嵌入
上下文嵌入是考虑单词出现上下文的单词表示。与传统嵌入不同,这些是动态的,并且根据周围文本而变化,提供了更丰富的语义理解。
25.自回归模型
语言建模中的自回归模型基于序列中的前一个词预测后续单词。这种方法在像 GPT 这样的模型中是基础的,其中每个输出词成为下一个输入,有助于连贯的长文本生成。