大模型中的各种模型名词概念

一、模型

Transformer

GPT（GPT-3、GPT-3.5、GPT-4）

BERT

RoBERTa

XlNet

GShard

Switch Transformer

InstrucGPT

ChatGPT

大模型

LLM（大语言模型）

Alpaca （羊驼）

LLaMA

Vicuna 俗称「小羊驼」（骆马）

ChatGLM

BLOOM

二、名词

Embedding（嵌入）

AIGC（人工智能生成内容）

AGI （通用人工智能）

Diffusion （扩散）

CLIP （ Contrastive Language-Image Pre-Training，大规模预训练图文表征模型）

Stable Diffusion

Fine-tuning （微调）

Self-Supervised Leaning （自监督学习）

Self-Attention Mechanism （自注意力机制）

Zero-Shot Learning （零样本学习)

AI Alignment (AI 对齐)

Positional Enconding （位置编码）

一、模型

Transformer

Transformer 是一种基于自注意力机制（self-attention mechanism）的深度学习模型，最初是为了处理序列到序列（sequence-to-sequence）的任务，比如机器翻译。后续这些模型都是基于Transformer 开发的。
GPT（GPT-3、GPT-3.5、GPT-4）

GPT，全称为Generative Pre-training Transformer，是OpenAI开发的一种基于Transformer的大规模自然语言生成模型。GPT模型采用了自监督学习的方式，首先在大量的无标签文本数据上进行预训练，然后在特定任务的数据上进行微调。
BERT

BERT是由Google开发的一种预训练语言模型，它在自然语言处理领域取得了很大的成功。BERT有340M和1.1B两个版本，其中1.1B版本有33亿个参数。
RoBERTa

RoBERTa：RoBERTa是Facebook AI Research开发的一种预训练语言模型，它在自然语言处理领域取得了很大的成功。RoBERTa有125M、250M、500M、1.5B和2.7B五个版本，其中2.7B版本有27亿个参数。
T5

T5是由Google开发的一种预训练语言模型，它在自然语言处理领域取得了很大的成功。T5有11B和22B两个版本，其中22B版本有220亿个参数
XlNet

XLNet是由CMU和Google Brain开发的一种预训练语言模型，它在自然语言处理领域取得了很大的成功。XLNet有两个版本，分别为XLNet-Large和XLNet-Base，其中XLNet-Large有18亿个参数。
GShard

GShard是由Google开发的一种预训练语言模型，它在自然语言处理领域取得了很大的成功。GShard有两个版本，分别为GShard-Large和GShard-Base，其中GShard-Large有6亿个参数。
Switch Transformer

Switch Transformer是由CMU开发的一种预训练语言模型，它在自然语言处理领域取得了很大的成功。Switch Transformer有两个版本，分别为Switch Transformer-Large和Switch Transformer-Base，其中Switch Transformer-Large有1.6亿个参数。
InstrucGPT

InstructGPT相对于GPT的改进主要是使用了来自人类反馈的强化学习方案—— RLHF（ Reinforcement Learning with human feedback）来微调 GPT-3，这种技术将人类的偏好作为激励信号来微调模型。让模型输出与人类真实意图对齐，符合人类偏好。
ChatGPT

ChatGPT由OpenAI公司在2022年11月30日发布。在同样由OpenAI开发的GPT-3.5模型基础上，ChatGPT通过无监督学习与强化学习技术进行微调，并提供了客户端界面，支持用户通过客户端与模型进行问答交互。ChatGPT不开源，但通过WebUI为用户提供免费的服务。
大模型

关于大模型，有学者称之为“大规模预训练模型”(large pretrained language model），也有学者进一步提出”基础模型”(Foundation Models)的概念。“基础模型”(Foundation Models)的概念：基于自监督学习的模型在学习过程中会体现出来各个不同方面的能力，这些能力为下游的应用提供了动力和理论基础，称这些大模型为“基础模型”。
LLM（大语言模型）

大型语言模型（LLM）是基于大量数据进行预训练的超大型深度学习模型。底层转换器是一组神经网络，这些神经网络由具有自注意力功能的编码器和解码器组成。编码器和解码器从一系列文本中提取含义，并理解其中的单词和短语之间的关系。
Alpaca （羊驼）

Alpaca是斯坦福基于 LLaMA 7B 微调出一个具有 70 亿参数的新模型，他们使用了 Self-Instruct 论文中介绍的技术生成了 52K 条指令数据，同时进行了一些修改，在初步的人类评估中，Alpaca 7B 模型在 Self-Instruct 指令评估上的表现类似于 text-davinci-003（GPT-3.5）模型。
LLaMA

LLaMA（Large Language Model Meta AI）是Meta 在2023年3月，发布并开源了一款新型大模型，其参数量范围从70亿至650亿。值得注意的是，参数量为130亿的LLaMA模型在大部分基准测试中的表现，已超越了参数量高达1750亿的GPT-3。并且，这款模型可以在单块V100 GPU上运行。
Vicuna 俗称「小羊驼」（骆马）

Vicuna 是斯坦福学者联手 CMU、UC 伯克利等，再次推出一个全新模型 ——130 亿参数，俗称「小羊驼」（骆马）。Vicuna 是通过在 ShareGPT 收集的用户共享对话上对 LLaMA 进行微调训练而来，训练成本近 300 美元。
ChatGLM

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于 General Language Model (GLM) 架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。 ChatGLM-6B 使用了和 ChatGPT 相似的技术，针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答，更多信息请参考我们的博客。欢迎通过 chatglm.cn 体验更大规模的 ChatGLM 模型。
BLOOM

BLOOM 是 BigScience（一个围绕研究和创建超大型语言模型的开放协作研讨会）中数百名研究人员合作设计和构建的 176B 参数开源大语言模型，同时，还开源了BLOOM-560M、BLOOM-1.1B、BLOOM-1.7B、BLOOM-3B、BLOOM-7.1B 其他五个参数规模相对较小的模型。BLOOM 是一种 decoder-only 的 Transformer 语言模型，它是在 ROOTS 语料库上训练的，该数据集包含 46 种自然语言和 13 种编程语言（总共 59 种）的数百个数据来源。实验证明 BLOOM 在各种基准测试中都取得了有竞争力的表现，在经过多任务提示微调后取得了更好的结果。BLOOM 的研究旨在针对当前大多数 LLM 由资源丰富的组织开发并且不向公众公开的问题，研制开源 LLM 以促进未来使用 LLM 的研究和应用。

二、名词

Embedding（嵌入）

是一种将离散型变量（如单词、商品、用户等）映射到连续的向量空间中的方法，这种向量通常被称为"embedding vector"或"embedding representation"。这种映射方法可以捕捉到变量之间的相似性和关系。

在自然语言处理（NLP）中，词嵌入（Word Embedding）是一种广泛使用的技术，例如Word2Vec、GloVe等。通过这种方法，每个单词都可以被表示为一个实数向量，相似的单词在向量空间中的距离较近。

在推荐系统中，也可以使用Embedding技术来表示用户和商品，通过计算用户和商品的Embedding向量的相似性，来预测用户对商品的喜好。

总的来说，Embedding是一种强大的特征表示方法，可以将高维的离散型数据映射到低维的连续向量空间，从而方便进行机器学习和深度学习的处理。

AIGC（人工智能生成内容）

AIGC（Artificial Intelligence Generated Content / AI-Generated Content）中文译为人工智能生成内容，一般认为是相对于PCG（专业生成内容）、UCG（用户生成内容）而提出的概念。AIGC狭义概念是利用AI自动生成内容的生产方式。广义的AIGC可以看作是像人类一样具备生成创造能力的AI技术，即生成式AI，它可以基于训练数据和生成算法模型，自主生成创造新的文本、图像、音乐、视频、3D交互内容等各种形式的内容和数据，以及包括开启科学新发现、创造新的价值和意义等。

AGI （通用人工智能）

AGI，全称为Artificial General Intelligence，也就是通用人工智能，是一种理论性的人工智能形态。它拥有全面的理解、学习和知识应用能力，其智能水平在各方面都与人类相当，甚至有超越之处。这种AI的特点是，它能够将在某一领域学到的知识理解、学习并应用到任何其他领域中。
Diffusion （扩散）

“扩散” 来自一个物理现象：当我们把墨汁滴入水中，墨汁会均匀散开；这个过程一般不能逆转，但是 AI 可以做到。当墨汁刚滴入水中时，我们能区分哪里是墨哪里是水，信息是非常集中的；当墨汁扩散开来，墨和水就难分彼此了，信息是分散的。类比于图片，这个墨汁扩散的过程就是图片逐渐变成噪点的过程：从信息集中的图片变成信息分散、没有信息的噪点图很简单，逆转这个过程就需要 AI 了。
CLIP （ Contrastive Language-Image Pre-Training，大规模预训练图文表征模型）

大规模预训练图文表征模型用大量来自网络的图文对数据集，将文本作为图像标签，进行训练。一张图像和它对应的文本描述，希望通过对比学习，模型能够学习到文本-图像对的匹配关系。
Stable Diffusion

Diffusion算法在去噪任意图片后，得到的结果往往是不可预测的。然而，如果我们能让Diffusion算法接受文字提示，以生成我们想要的图片，那将会是一个重大突破。这就是目前AIGC领域的一个热点——AI绘画：用户只需输入文字描述，系统即可自动生成相应的图像。其核心算法——Stable Diffusion，实际上是多模态算法CLIP和图像生成算法Diffusion的结合。在这个过程中，CLIP作为文字提示的输入，进一步影响Diffusion，从而生成我们需要的图片。
Fine-tuning （微调）

微调（Fine-tuning）是一种常用的机器学习方法，主要用于对已经预训练过的模型进行调整，使其适应新的任务。这些预训练模型通常是在大规模的数据集（例如整个互联网的文本）上进行训练，从而学习到数据的基本模式。随后，这些模型可以通过在较小且特定的数据集上进行进一步训练，即微调，来适应特定的任务
Self-Supervised Leaning （自监督学习）

自监督学习是一种有监督学习方法，其特点是从数据本身获取标签进行学习，而无需额外提供标签。相比之下，无监督学习并未进行标签拟合，而是从数据分布的角度构造损失函数。语言模型是自监督学习的典型代表，而聚类则是无监督学习的代表。总的来说，自监督学习的优势在于其可以直接从数据本身构造学习标签，无需额外输入
Self-Attention Mechanism （自注意力机制）

自注意力机制，也被称为自我注意力或转换模型（Transformers）中的注意力机制，是一种专门用于捕获序列数据中各位置间相互依赖关系的技术。
Zero-Shot Learning （零样本学习)

零样本学习是一种特殊的机器学习方法，其主要目标是处理那些在训练阶段未曾出现，但在测试阶段可能会遇到的类别分类问题。这种学习范式常被应用于视觉物体识别、自然语言处理等领域。
AI Alignment (AI 对齐)

在人工智能领域，'对齐'（Alignment）指的是使人工智能模型的输出与人类的常识、认知、需求以及价值观保持一致。其目标范围广泛，从大的方面来看，是防止人工智能对人类造成伤害；从小的方面来看，是确保生成的结果符合人们的真实需求。例如，OpenAI设立了专门的对齐团队，并开发了名为InstructGPT的模型。这个模型采用了对齐技术，旨在使AI系统的目标与人类的价值观和利益保持一致。
Positional Enconding （位置编码）

位置编码（Positional Encoding）是一种用于标识序列数据（如文本或时间序列）中每个元素位置的技术。由于某些深度学习模型，如Transformer和GPT，本身无法处理输入序列的顺序信息，因此，位置编码的引入就是为了补充这种序列元素的顺序信息