大模型中的各种模型名词概念

目录

一、模型

Transformer

GPT(GPT-3、GPT-3.5、GPT-4)

BERT

RoBERTa

T5

XlNet

GShard

Switch Transformer

InstrucGPT

ChatGPT

大模型

LLM(大语言模型)

Alpaca (羊驼)

LLaMA

Vicuna 俗称「小羊驼」(骆马)

ChatGLM

BLOOM

二、名词

Embedding(嵌入)

AIGC(人工智能生成内容)

AGI (通用人工智能)

Diffusion (扩散)

CLIP ( Contrastive Language-Image Pre-Training,大规模预训练图文表征模型)

Stable Diffusion

Fine-tuning (微调)

Self-Supervised Leaning (自监督学习)

Self-Attention Mechanism (自注意力机制)

Zero-Shot Learning (零样本学习)

AI Alignment (AI 对齐)

Positional Enconding (位置编码)


一、模型

  • Transformer

    Transformer 是一种基于自注意力机制(self-attention mechanism)的深度学习模型,最初是为了处理序列到序列(sequence-to-sequence)的任务,比如机器翻译。后续这些模型都是基于Transformer 开发的。

  • GPT(GPT-3、GPT-3.5、GPT-4)

    GPT,全称为Generative Pre-training Transformer,是OpenAI开发的一种基于Transformer的大规模自然语言生成模型。GPT模型采用了自监督学习的方式,首先在大量的无标签文本数据上进行预训练,然后在特定任务的数据上进行微调。

  • BERT

    BERT是由Google开发的一种预训练语言模型,它在自然语言处理领域取得了很大的成功。BERT有340M和1.1B两个版本,其中1.1B版本有33亿个参数。

  • RoBERTa

    RoBERTa:RoBERTa是Facebook AI Research开发的一种预训练语言模型,它在自然语言处理领域取得了很大的成功。RoBERTa有125M、250M、500M、1.5B和2.7B五个版本,其中2.7B版本有27亿个参数。

  • T5

    T5是由Google开发的一种预训练语言模型,它在自然语言处理领域取得了很大的成功。T5有11B和22B两个版本,其中22B版本有220亿个参数

  • XlNet

    XLNet是由CMU和Google Brain开发的一种预训练语言模型,它在自然语言处理领域取得了很大的成功。XLNet有两个版本,分别为XLNet-Large和XLNet-Base,其中XLNet-Large有18亿个参数。

  • GShard

    GShard是由Google开发的一种预训练语言模型,它在自然语言处理领域取得了很大的成功。GShard有两个版本,分别为GShard-Large和GShard-Base,其中GShard-Large有6亿个参数。

  • Switch Transformer

    Switch Transformer是由CMU开发的一种预训练语言模型,它在自然语言处理领域取得了很大的成功。Switch Transformer有两个版本,分别为Switch Transformer-Large和Switch Transformer-Base,其中Switch Transformer-Large有1.6亿个参数。

  • InstrucGPT

    InstructGPT相对于GPT的改进主要是使用了来自人类反馈的强化学习方案—— RLHF( Reinforcement Learning with human feedback)来微调 GPT-3,这种技术将人类的偏好作为激励信号来微调模型。让模型输出与人类真实意图对齐,符合人类偏好。

  • ChatGPT

    ChatGPT由OpenAI公司在2022年11月30日发布。在同样由OpenAI开发的GPT-3.5模型基础上,ChatGPT通过无监督学习与强化学习技术进行微调,并提供了客户端界面,支持用户通过客户端与模型进行问答交互。ChatGPT不开源,但通过WebUI为用户提供免费的服务。

  • 大模型

    关于大模型,有学者称之为“大规模预训练模型”(large pretrained language model),也有学者进一步提出”基础模型”(Foundation Models)的概念。“基础模型”(Foundation Models)的概念:基于自监督学习的模型在学习过程中会体现出来各个不同方面的能力,这些能力为下游的应用提供了动力和理论基础,称这些大模型为“基础模型”。

  • LLM(大语言模型)

    大型语言模型(LLM)是基于大量数据进行预训练的超大型深度学习模型。底层转换器是一组神经网络,这些神经网络由具有自注意力功能的编码器和解码器组成。编码器和解码器从一系列文本中提取含义,并理解其中的单词和短语之间的关系。

  • Alpaca (羊驼)

    Alpaca是斯坦福基于 LLaMA 7B 微调出一个具有 70 亿参数的新模型 ,他们使用了 Self-Instruct 论文中介绍的技术生成了 52K 条指令数据,同时进行了一些修改,在初步的人类评估中,Alpaca 7B 模型在 Self-Instruct 指令评估上的表现类似于 text-davinci-003(GPT-3.5)模型。

  • LLaMA

    LLaMA(Large Language Model Meta AI)是Meta 在2023年3月,发布并开源了一款新型大模型,其参数量范围从70亿至650亿。值得注意的是,参数量为130亿的LLaMA模型在大部分基准测试中的表现,已超越了参数量高达1750亿的GPT-3。并且,这款模型可以在单块V100 GPU上运行。

  • Vicuna 俗称「小羊驼」(骆马)

    Vicuna 是斯坦福学者联手 CMU、UC 伯克利等,再次推出一个全新模型 ——130 亿参数,俗称「小羊驼」(骆马)。Vicuna 是通过在 ShareGPT 收集的用户共享对话上对 LLaMA 进行微调训练而来,训练成本近 300 美元。

  • ChatGLM

    ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答,更多信息请参考我们的博客。欢迎通过 chatglm.cn 体验更大规模的 ChatGLM 模型。

  • BLOOM

    BLOOM 是 BigScience(一个围绕研究和创建超大型语言模型的开放协作研讨会)中数百名研究人员合作设计和构建的 176B 参数开源大语言模型,同时,还开源了BLOOM-560M、BLOOM-1.1B、BLOOM-1.7B、BLOOM-3B、BLOOM-7.1B 其他五个参数规模相对较小的模型。BLOOM 是一种 decoder-only 的 Transformer 语言模型,它是在 ROOTS 语料库上训练的,该数据集包含 46 种自然语言和 13 种编程语言(总共 59 种)的数百个数据来源。 实验证明 BLOOM 在各种基准测试中都取得了有竞争力的表现,在经过多任务提示微调后取得了更好的结果。BLOOM 的研究旨在针对当前大多数 LLM 由资源丰富的组织开发并且不向公众公开的问题,研制开源 LLM 以促进未来使用 LLM 的研究和应用

二、名词

  • Embedding(嵌入)

是一种将离散型变量(如单词、商品、用户等)映射到连续的向量空间中的方法,这种向量通常被称为"embedding vector"或"embedding representation"。这种映射方法可以捕捉到变量之间的相似性和关系。

在自然语言处理(NLP)中,词嵌入(Word Embedding)是一种广泛使用的技术,例如Word2Vec、GloVe等。通过这种方法,每个单词都可以被表示为一个实数向量,相似的单词在向量空间中的距离较近。

在推荐系统中,也可以使用Embedding技术来表示用户和商品,通过计算用户和商品的Embedding向量的相似性,来预测用户对商品的喜好。

总的来说,Embedding是一种强大的特征表示方法,可以将高维的离散型数据映射到低维的连续向量空间,从而方便进行机器学习和深度学习的处理。

  • AIGC(人工智能生成内容)

AIGC(Artificial Intelligence Generated Content / AI-Generated Content)中文译为人工智能生成内容,一般认为是相对于PCG(专业生成内容)、UCG(用户生成内容)而提出的概念。AIGC狭义概念是利用AI自动生成内容的生产方式。广义的AIGC可以看作是像人类一样具备生成创造能力的AI技术,即生成式AI,它可以基于训练数据和生成算法模型,自主生成创造新的文本、图像、音乐、视频、3D交互内容等各种形式的内容和数据,以及包括开启科学新发现、创造新的价值和意义等。

  • AGI (通用人工智能)

    AGI,全称为Artificial General Intelligence,也就是通用人工智能,是一种理论性的人工智能形态。它拥有全面的理解、学习和知识应用能力,其智能水平在各方面都与人类相当,甚至有超越之处。这种AI的特点是,它能够将在某一领域学到的知识理解、学习并应用到任何其他领域中。

  • Diffusion (扩散)

    “扩散” 来自一个物理现象:当我们把墨汁滴入水中,墨汁会均匀散开;这个过程一般不能逆转,但是 AI 可以做到。当墨汁刚滴入水中时,我们能区分哪里是墨哪里是水,信息是非常集中的;当墨汁扩散开来,墨和水就难分彼此了,信息是分散的。类比于图片,这个墨汁扩散的过程就是图片逐渐变成噪点的过程:从信息集中的图片变成信息分散、没有信息的噪点图很简单,逆转这个过程就需要 AI 了。

  • CLIP ( Contrastive Language-Image Pre-Training,大规模预训练图文表征模型)

    大规模预训练图文表征模型用大量来自网络的图文对数据集,将文本作为图像标签,进行训练。一张图像和它对应的文本描述,希望通过对比学习,模型能够学习到文本-图像对的匹配关系。

  • Stable Diffusion

    Diffusion算法在去噪任意图片后,得到的结果往往是不可预测的。然而,如果我们能让Diffusion算法接受文字提示,以生成我们想要的图片,那将会是一个重大突破。这就是目前AIGC领域的一个热点——AI绘画:用户只需输入文字描述,系统即可自动生成相应的图像。其核心算法——Stable Diffusion,实际上是多模态算法CLIP和图像生成算法Diffusion的结合。在这个过程中,CLIP作为文字提示的输入,进一步影响Diffusion,从而生成我们需要的图片。

  • Fine-tuning (微调)

    微调(Fine-tuning)是一种常用的机器学习方法,主要用于对已经预训练过的模型进行调整,使其适应新的任务。这些预训练模型通常是在大规模的数据集(例如整个互联网的文本)上进行训练,从而学习到数据的基本模式。随后,这些模型可以通过在较小且特定的数据集上进行进一步训练,即微调,来适应特定的任务

  • Self-Supervised Leaning (自监督学习)

    自监督学习是一种有监督学习方法,其特点是从数据本身获取标签进行学习,而无需额外提供标签。相比之下,无监督学习并未进行标签拟合,而是从数据分布的角度构造损失函数。语言模型是自监督学习的典型代表,而聚类则是无监督学习的代表。总的来说,自监督学习的优势在于其可以直接从数据本身构造学习标签,无需额外输入

  • Self-Attention Mechanism (自注意力机制)

    自注意力机制,也被称为自我注意力或转换模型(Transformers)中的注意力机制,是一种专门用于捕获序列数据中各位置间相互依赖关系的技术。

  • Zero-Shot Learning (零样本学习)

    零样本学习是一种特殊的机器学习方法,其主要目标是处理那些在训练阶段未曾出现,但在测试阶段可能会遇到的类别分类问题。这种学习范式常被应用于视觉物体识别、自然语言处理等领域。

  • AI Alignment (AI 对齐)

    在人工智能领域,'对齐'(Alignment)指的是使人工智能模型的输出与人类的常识、认知、需求以及价值观保持一致。其目标范围广泛,从大的方面来看,是防止人工智能对人类造成伤害;从小的方面来看,是确保生成的结果符合人们的真实需求。例如,OpenAI设立了专门的对齐团队,并开发了名为InstructGPT的模型。这个模型采用了对齐技术,旨在使AI系统的目标与人类的价值观和利益保持一致。

  • Positional Enconding (位置编码)

    位置编码(Positional Encoding)是一种用于标识序列数据(如文本或时间序列)中每个元素位置的技术。由于某些深度学习模型,如Transformer和GPT,本身无法处理输入序列的顺序信息,因此,位置编码的引入就是为了补充这种序列元素的顺序信息

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/173442.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

编程语言发展史:Ruby语言的发展和应用

介绍 Ruby是一种高级编程语言,最初由日本的松本行弘开发。它在20世纪90年代初首次发布,并在2000年代初开始变得流行。 Ruby是一种动态、面向对象的语言,具有简单、易于学习和使用的语法,因此被广泛应用于Web开发、数据分析、游戏…

详解Python对Excel处理

Excel是一种常见的电子表格文件格式,广泛用于数据记录和处理。Python提供了多个第三方库,可以方便地对Excel文件进行读写、数据操作和处理。本文将介绍如何使用Python对Excel文件进行处理,并提供相应的代码示例和详细说明。 一、安装第三方库…

java设计模式学习之【抽象工厂模式】

文章目录 引言抽象工厂模式简介定义与用途实现方式: 使用场景优势与劣势工厂模式在spring中的应用银行和贷款服务示例代码地址 引言 在我们之前的讨论中,我们探索了工厂方法模式——一种简化单一产品创建的设计模式。现在,我们将视角转向抽象…

2023年亚太杯APMCM数学建模大赛A题水果采摘机器人的图像识别

2023年亚太杯APMCM数学建模大赛 A题 水果采摘机器人的图像识别 原题再现 中国是世界上最大的苹果生产国,年产量约3500万吨。同时,中国也是世界上最大的苹果出口国,世界上每两个苹果中就有一个是中国出口的,世界上超过六分之一的…

VMware系列:VMware16安装Win11虚拟机(最全步骤+踩坑)

VMware16安装Win11虚拟机(最全步骤+踩坑) 以下是安装步骤和踩坑大全准备工作下载镜像安装/配置的流程1、检查安装的系统环境是否符合最低要求2. 这里给出需要注意的几个点3. 如果出现了如下情况、请看下面的【三】安装Windows11出现问题解决!!!!4. 注意:如果没有出现【驱…

Star History 十月开源精选 |AI for Postgres

在 2023 年 Stack Overflow 开发者调查中,Postgres 顶替了 MySQL 被评为最受欢迎的数据库。一个重要因素应该是 Postgres 支持扩展:可扩展的架构 Postgres 仍然由社区拥有,Postgres 生态近年来蓬勃发展。 扩展可以看作是内置功能&#xff0c…

自定义的AlphaShape类来提取平面点云数据的边界点 open3d c++ 代码 平面点云边界提取算法

使用了自定义的AlphaShape类来提取点云数据的边界点,并使用Open3D库进行可视化。 引入必要的头文件和命名空间: main函数: 读取点云数据文件到cloud对象。如果读取失败,则输出错误信息并返回。将点云数据全部着色为蓝色。创建一个空的点云对象boundaryCloud,用于存储提取…

跟着chatgpt学习|1.spark入门

首先先让chatgpt帮我规划学习路径,使用Markdown格式返回,并转成思维导图的形式 目录 目录 1. 了解spark 1.1 Spark的概念 1.2 Spark的架构 1.3 Spark的基本功能 2.spark中的数据抽象和操作方式 2.1.RDD(弹性分布式数据集) 2…

9:kotlin 返回和跳过(Returns and jumps)

kotlin有三种结构跳转表达式: return会从最近的封闭函数或匿名函数返回。 break终止最近的封闭循环。 continue继续最近的封闭循环的下一步。 所有这些表达式都可以作为其他表达式的一本分使用 val s person.name ?: returnval s person.name ?: return 这…

SpringBoot yml配置文件打印值

目录 SpringBoot中配置文件打印值 yml配置 config类 启动类 测试类 注解分析 SpringBoot中配置文件打印值 yml配置 student:red: douconfig类 Data ConfigurationProperties(prefix "student") // 文件上传 配置前缀file.oss public class MinIOConfigProp…

Callable、Future和FutrueTask详解

一、Callable介绍 1.1 Runnable介绍 Runnable是一个接口,里面声明了run方法。但是由于run方法返回值类型为void,所以在执行完成任务后,无法返回任何结果。 FunctionalInterface public interface Runnable {public abstract void run(); }…

仅2万粉,带了2.6万件的货!TikTok Shop美区达人周榜(11.13-11.19)

11月24日,TikTok Shop近日公布了美国市场和英国市场的全托管黑五大促战绩。数据显示,11月14日至11月20日,其美国市场的订单量环比10月20日-10月26日增长了205%。 家居户外热销品有:数码触摸屏相框、毛绒地毯、家居毛毯。黑马商品…

关于微信小程序中如何实现数据可视化-echarts动态渲染

移动端设备中,难免会涉及到数据的可视化展示、数据统计等等,本篇主要讲解原生微信小程序中嵌入echarts并进行动态渲染,实现数据可视化功能。 基础使用 首先在GitHub上下载echarts包 地址:https://github.com/ecomfe/echarts-for…

SD-WAN和混合WAN两种网络方案的差异

传统的WAN是指基于传输控制协议/因特网协议(TCP/IP)的私有广域网(WAN),它由企业网络和ISP组成,用于连接分布在不同地理位置的多个站点。使用传统WAN时,企业需要租用电路,使用专用线路…

机器学习-线性模型·

线性模型是一类用于建模输入特征与输出之间线性关系的统计模型。这类模型的基本形式可以表示为: 其中: 是模型的输出(目标变量)。 是截距(常数项,表示在所有输入特征都为零时的输出值)。 是权重…

2311skia,08解码区域

解码区域 1,抽象 1,图片很大时,解码速度缓慢,占用内存很高,并且,图片超过一定尺寸时,无法上传和显示纹理(这跟GPU能力有关,一般的GPU是8192*8192).这时只好下采样,但会牺牲图片显示质量. 2,-对图库等,需要清晰浏览图片的应用,不可能设置下采样率来解决这一问题,因此,Google加…

The Matrix format of Least Square Method (LMS)

I. Cost function For the cost function J ∑ i 1 n ∣ ∣ y i − x i T θ ∣ ∣ 2 (1) J \sum_{i1}^n || y_i - x_i^T \theta ||^2 \tag{1} Ji1∑n​∣∣yi​−xiT​θ∣∣2(1) where θ ( m 1 ) \theta (m\times 1) θ(m1) is the unknow parameters, x i T ( 1 m…

基于官方YOLOv4-u5【yolov5风格实现】开发构建目标检测模型超详细实战教程【以自建缺陷检测数据集为例】

本文是关于基于YOLOv4开发构建目标检测模型的超详细实战教程,超详细实战教程相关的博文在前文有相应的系列,感兴趣的话可以自行移步阅读即可: 《基于yolov7开发实践实例分割模型超详细教程》《YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程》《DETR (DE…

内衣洗衣机怎么选?内衣洗衣机便宜好用的牌子推荐

相信不少用户并不太在意衣服和内衣裤裤能不能同时洗,每次清洗都是把内衣裤与其他衣服一起放入洗衣机清洗,其实内衣裤不能直接跟大件的衣物一起放入洗衣机洗的,很容易会造成我们皮肤的瘙痒,我们大部分时间都在户外,暴露…

python 基于opencv和face_recognition的人脸识别

python 基于opencv和face_recognition的人脸识别 代码如下: 使用一个photos存放你需要识别的照片,注意一个人一张就行 然后通过下面代码注册用户,之后启动程序,就会调用摄像头进行识别了。 AddPhoto(“发哥”, “./photos/fag…