「X」Embedding in NLP|一文读懂 2023 年最流行的 20 个 NLP 模型

在上一篇文章中,我们已经科普了什么是自然语言处理(NLP)、常见用例及其与向量数据库的结合。今天,依然是「X」Embedding in NLP 系列专题,本文为初阶第二篇,我们将深入介绍在 2023 年爆火的大语言模型 NLP 模型,包括 BERT、XLNet 等基础模型和 GPT、PaLM 等。

01.火爆 2023 年的 10 大大语言模型

大语言模型(LLM)是一种机器学习模型,可以执行各种 NLP 任务,包括文本翻译、回答问题、根据知识库分类和生成词汇等。大语言模型中的“大”体现在其架构使用的参数数量上,常见的 LLM 都包含数十亿个参数。以下是在 2023 年爆火且备受关注的 LLM。

OpenAI 推出的 GPT 系列

*GPT,全称 Generative pre-trained transformers,即生成式预训练 Transformer 模型

GPT-3
  • 于2021年发布,包含 1750 亿个参数。

  • 能够完成翻译、问答、写作论文,甚至生成代码等任务。

  • 从模型架构而言,GPT-3 是只带有解码器(decoder)的 transformer 模型。

  • 是最后一个由 OpenAI 公开参数数量的 GPT 模型。

  • 自 2022 年 9 月起由微软独家使用。

GPT-3.5
  • 2022 年推出的升级版 GPT 模型,包含参数更少。

  • ChatGPT 训练所用的模型是基于 GPT-3.5 模型微调而来的。GPT-3.5 一经推出即迅速走红,短短五天内吸引 100 万用户,用户总数在 2 个月内达到 1 亿。

  • GPT-3.5 模型基于截至 2021 年 9 月的数据进行训练,比之前版本的模型更具有时效性。

  • 必应(Bing)搜索引擎中最初集成了 GPT-3.5,但目前使用的是 GPT-4。

GPT-4
  • GPT 系列中的最新版本,于 2023 年发布。

  • GPT-4 是多模态模型,支持图像和文本类型的输入。

  • 在微软 Azure AI 的人工智能超级计算机上训练,比以往任何模型都更具创造力和协作性。

Google 推出的 PaLM 2

  • 于 2023 年推出,展现 Google 在机器学习和 Responsible AI 领域积累的成果。

  • 相比 PaLM,PaLM 2 基于并行多语言文本和更大的语料库进行预训练。

  • 在高级推理、翻译和代码生成方面表现出色。

Meta 和 Microsoft 推出的 LLama2

  • 于 2023 年发布,提供三种参数规格(70 亿、130 亿和 700 亿)的基础模型。

  • LLama 2 Chat 包括基础模型和针对对话功能微调的模型。

  • 功能丰富,性能强大,专为查询和自然语言理解等任务设计。

  • Meta 专注于打造教育型应用产品,因此 LLaMA-2 是适用于 EdTech 平台理想的 AI 助手。

Anthropic 推出的 Claude 2

  • 于 2023 年推出,擅长复杂的推理任务。

  • 聚焦于 Constitutional AI,引导 AI 根据一些原则或规则进行自我完善和监督,避免产生有害或不友善的输出。

  • Claude 2 是一个友好的助手,能够完成用户发出的各种自然语言指令。

xAI 推出的 Grok-1

  • 埃隆·马斯克的公司 xAI 于 2023 年宣布推出 Grok-1,用于巧妙回答几乎所有问题。

  • 灵感来源于《银河系漫游指南》。

  • 通过 𝕏 平台实时获取真实世界中的知识。

  • 技术创新研究所(Technology Innovation Institute)推出的 Falcon

  • 于 2023 年开源的模型。

  • 包含 1800 亿参数,参数数量超过 Hugging Face Open LLM 排行榜上的 Llama。

  • 基于高质量数据集训练,数据集中包含文本和代码,涵盖各种语言和方言。

Cohere 推出的 Cohere

  • 2022 年由加拿大初创公司 Cohere 推出的开源多语言模型。

  • 基于多样的数据集训练,能够理解超过 100 种语言的文本。

  • Oracle 和 Salesforce 产品中已接入 Cohere,主要用于语言生成、文本内容概括和情感分析等任务。

02.10 大基础 NLP 模型

BERT(基于 Transformer 的双向编码器表示技术)

  • BERT 最初于 2018 年由 Jacob Devlin 在其论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》中首次提出。

  • BERT 模型的主要突破是,它在训练过程中查看文本时,以双向方式扫描文本,不是从左到右,也不是从左到左和从右到左的组合。

  • BERT 模型有两种配置——BERT(base)和 BERT(large),区别在于可配置参数数量。BERT(base)包含 1.1 亿参数, BERT(large)包含 3.45 亿参数。

XLNet

  • XLNet 于 2019 年在论文《XLNet: Generalized Autoregressive Pretraining for Language Understanding》中发布。

  • XLNet使用排列语言建模(Permutation Language Modeling) 来融合自回归(autoregressive, AR)和去噪自编码(autoencoding, AE) 模型的优点。

  • 传统的模型基于前一个词的上下文预测句子中的词。但与之不同的是,XLNet 的排列语言建模考虑了词之间的相互依赖关系。

  • XLNet 性能比 BERT 提高了 2-15%。

RoBERTa(强力优化的 BERT 方法)

  • RoBERTa 于 2019 年在论文《RoBERTa: A Robustly Optimized BERT Pretraining Approach》中提出。

  • RoBERTa 改进了 BERT 的架构和训练流程。具体而言,RoBERTa 去掉下一句预测(NSP)任务,采用了更大的训练数据集,并使用了动态掩码替换静态掩码。

  • RoBERTa 性能比 BERT 提高了 2-20%。

ALBERT(轻量级的 BERT)

  • ALBERT 模型于 2019 年在论文《ALBERT: A Lite BERT for Self-supervised Learning of Language Representations》中提出。

  • ALBERT 基于 BERT 模型改进,其主要亮点是在保持性能的同时显著减少了参数数量。

  • AlBERT 实现了跨层参数共享。也就是说,12 层 Encoder 共享一套参数。而 BERT 中每层 Encoder 都有一组参数。

StructBERT

  • StructBERT 于 2019 年在论文《StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding》中提出。

  • StructBERT 基于 BERT,将语言结构信息引入到预训练任务中。

  • StructBERT 还引入了单词结构目标(WSO),它有助于模型学习单词的排序。

T5(文本到文本的 Transformer)

  • T5 在 2019 年的论文《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》中被提出。T5 全称为“Text-To-Text Transfer Transformer”。

  • T5 作者还发布了一个数据集,取名为“Colossal Clean Crawled Corpus (超大型干净爬取数据)”,简称 C4。

  • T5 将所有 NLP 任务都转化成 Text-to-Text (文本到文本)任务。

  • T5 模型提供 5 种不同的参数配置:T5-small(6000 万参数)、T5-base(2.2 亿参数)、T5-large(7.7 亿参数)、T5-3B(30 亿参数)、T5-11B(110 亿参数)。

SentenceTransformers

  • SentenceTransformers 最初于 2019 年在发论文《Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks》中发表。

  • SentenceTransformers 是一个可以用于句子、文本和图像 embedding 的 Python 库

  • SentenceTransformers 可以计算超过 100 种语言的句子或文本 embedding。

  • SentenceTransformers 框架基于 PyTorch 和 Transformers,提供许多针对各种任务调优的预训练模型。

ERNIE(通过知识集成的增强表示)

  • ERNIE 由百度开发,于 2019 年在论文《ERNIE: Enhanced Language Representation with Informative Entities》中首次被介绍,并由百度的研究人员在计算语言学协会(ACL)会议上展示。

  • ERNIE 将现实知识整合到预训练的语言模型中,从而理解人类语言的细微差别并提高各种 NLP 任务的表现。

  • ERNIE 提供不同版本。而且,ERNIE 随时间推移不断更新和完善,从而在广泛的 NLP 任务上取得更好的性能。

CTRL(可控文本生成)

  • CTRL 由 Salesforce Research 在 2019 年 NeurIPS 论文《CTRL: A Conditional Transformer Language Model》中提出。

  • CTRL 允许用户控制生成文本的风格和内容。

  • CTRL 模型能够生成多样且可控的文本,用户对语言生成过程更可控。

ELECTRA

  • ELECTRA 在 2020 年的论文《ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators》中提出。

  • ELECTRA 提出了新的预训练任务和框架,把生成式的 Masked language model(MLM) 预训练任务改成了判别式的 Replaced token detection(RTD) 任务,判断当前token是否被语言模型替换过。

  • ELECTRA体积越小,相比于BERT就提升得越明显。

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/163563.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小白也看的懂的爬取视频操作

1.获取一段视频 可以直接从抖音下,也可以从b站上爬取(注意法律谢谢) 保护原创 b站的视频 直接复制网址链接到哔哩哔哩(bilibili)视频解析下载 - 保存B站视频到手机、电脑 去就好了,

Docker的入门

Docker的入门 防火墙Docker的命令镜像相关的命令运行容器容器相关的命令 Docker作为一个软件集装箱化平台,可以让开发者构建应用程序时,将它与其依赖环境一起打包到一个容器中,然后很容易地发布和应用到任意平台中。 docker有3大核心&#xf…

如何弱化市场大环境带来的影响?私域电商和裂变营销引来新趋势!

弱化市场大环境带来的影响需要从多个方面入手,包括深入了解市场和行业、建立品牌优势、多元化经营、优化供应链管理、加强客户关系管理、灵活应对市场变化等。同时需要注意不同领域和行业的市场变化和政策调整,及时调整经营策略和业务结构,保…

WPF实战项目十七(客户端):数据等待加载弹框动画

1、在Common文件夹下新建文件夹Events,新建扩展类UpdateLoadingEvent public class UpdateModel {public bool IsOpen { get; set; }}internal class UpdateLoadingEvent : PubSubEvent<UpdateModel>{} 2、新建一个静态扩展类DialogExtensions来编写注册和推送等待消息…

获取ip属地(ip2region本地离线包-超简单)

背景 最近有涉及要显示ip属地&#xff0c;但我想白嫖&#xff0c;结果就是白嫖的api接口太慢了&#xff0c;要延迟3到4秒左右&#xff0c;很影响体验&#xff0c;而且不一定稳定。 结果突然看到了这个【ip2region】开源项目&#xff0c;离线识别ip属地&#xff0c;精度自己测…

Public Key Retrieval is not allowed

出现这个错误的原因可能是 MySQL 连接配置中的某些设置限制了公钥的检索。要解决这个问题&#xff0c;可以尝试以下方法&#xff1a; 设置参数&#xff1a;在 MySQL 连接 URL 或连接配置中添加参数 ​allowPublicKeyRetrievaltrue​。 更新 MySQL 驱动程序&#xff1a;如果您使…

编译安装报错:configure: error: cannot guess build type; you must specify one

1、编译安装报错 configure: error: cannot guess build type; you must specify one 该报错信息翻过过来的意思是&#xff1a;无法猜测编译 操作系统类型,请指定一个 2、解决方法 在原本的编译安装语句后面加上一句&#xff1a; “--buildarm-linux ” &#xff0c;这句话…

详解开源数据库审计平台Yearning

基本概念 数据库审计&#xff08;简称DBAudit&#xff09;能够实时记录网络上的数据库活动&#xff0c;对数据库操作进行细粒度审计的合规性管理&#xff0c;对数据库遭受到的风险行为进行告警&#xff0c;对攻击行为进行阻断。它通过对用户访问数据库行为的记录、分析和汇报&…

无人智能货柜:提升购物体验

无人智能货柜&#xff1a;提升购物体验 随着移动支付的普及&#xff0c;人们日常生活中的主要场景已经渗透了这一支付方式。同时&#xff0c;无人智能货柜作为购物的重要渠道&#xff0c;正在崭露头角。通过人工智能、图像识别和物联网技术的应用&#xff0c;无人智能货柜将使购…

什么是复费率电表?

随着科技的不断进步和人们对能源管理的日益重视&#xff0c;复费率电表逐渐成为我国电力系统中不可或缺的一员。复费率电表是一种能够实现电能计量、峰谷电价划分以及负荷控制等多功能的智能电表&#xff0c;它采用先进的通信技术和计算机算法&#xff0c;对用户的用电行为进行…

nginx.conf 配置文件 详细解释

文章目录 nginx.conf 是 Nginx 的主要配置文件&#xff0c;其中可以配置许多模块来定义服务器行为。以下是一些常见的 Nginx 模块以及它们的作用&#xff1a;1. **http 模块**&#xff1a;2. **server 模块**&#xff1a;3. **location 模块**&#xff1a;4. **events 模块**&a…

软件系统测试有哪些测试流程?系统测试报告编写注意事项

在软件开发的过程中&#xff0c;系统测试是至关重要的一环&#xff0c;它的目的是验证和评估软件产品是否符合预期的质量标准&#xff0c;以确保系统的稳定性、可靠性和安全性。 一、软件系统测试的测试流程 1、需求分析与测试计划制定&#xff1a;根据需求分析确定测试目标、…

软件开发及交付的项目管理角色

在软件开发及交付过程中&#xff0c;通常会涉及不同的角色和职责&#xff0c;包括业务角色、技术角色和管理角色。这些角色在项目管理中发挥着不同的作用&#xff0c;以确保项目的成功和交付高质量的产品。 业务角色&#xff1a;包括产品经理、业务分析师和业务运营人员等职位…

外贸电商网站用什么服务器好?

外贸电商网站用什么服务器好&#xff1f; 电商网站选好域名后&#xff0c;接着就是为网站选择一个好的网站服务器&#xff0c;截止2015年初&#xff0c;国内站长中约有三百多万的网站存放在美国服务器&#xff0c;美国服务器为什么会有如此之多的用户选择使用呢&#xff0c;站…

张弛声音变现课,青春剧配音实用攻略

在为青春剧添声时&#xff0c;配音艺术家须要捕获并传达剧中年轻角色的活泼精神、成长道路上的激情&#xff0c;以及他们在面对友情、爱情和理想时的情绪起伏。青春剧特别关注年轻人的成长故事&#xff0c;着重描绘他们在成长中的经历和变化。下面是一些为青春剧配音的建议&…

TP5制作图片压缩包

目标:将多张图片制成在一个压缩包内,供调取使用 public function test() {//引入压缩包类$zip new \ZipArchive();//新定义一个zip包$zipname ROOT_PATH./public/zip/.date("YmdHis").rand(111,999)..zip;if ($zip->open($zipname, \ZipArchive::CREATE) true…

2023年跨界融合创新应用合作发展大会-核心PPT资料下载

一、峰会简介 本次大会主题为“创新地理信息价值 服务数字中国建设”。1天主论坛和6场专题论坛的报告&#xff0c;围绕主题深入探讨地理信息产业与相关重要应用领域的跨界融合和深化合作。 本届大会将搭建地理信息产业与旅游、林业、环保、气象、住建、水利、农业农村、电力等…

数据报文去哪儿了

背景 今天遇到一个诡异的现象&#xff0c;当接口附加一个IP时&#xff0c;主IP业务正常&#xff0c;附加IP死活不行&#xff0c;tcpdump抓包确可以正常抓到到业务的报文&#xff0c;但是在PREROUTING raw添加规则确没有命中&#xff0c;说明报文没有到netfilter框架内&#xff…

RTL8762D SDK

0 Preface/Foreword SDK: Software Development kit 1、硬件介绍 1.1 General Description A624RO基本信息&#xff1a; ultra-low-powerBluetooth 5.1 low energy applicationsa leading RF transceiverlow-power ARM Cortex-M4FIR transceiver 1.1.1 MCU platform MCU…

openssl加解密-干货分享

0.需要包含的头文件和预定义常量 #include <openssl/rand.h>#include <fstream>#include <openssl/aes.h>#include <openssl/rand.h>// 加密密钥和初始化向量&#xff08;IV&#xff09;长度#define AES_KEY_LENGTH 32#define AES_IV_LENGTH 16 1.密…