德兴网站建设公司/大数据查询官网

德兴网站建设公司,大数据查询官网,天津建委招标网站,东易日盛装饰公司简介更多内容:XiaoJ的知识星球 目录 2.4 基于 Encoder-Decoder 架构的大语言模型2.4.1 Encoder-Decoder 架构2.4.2 T5 语言模型1)T5 模型结构2)T5 预训练方式3)T5 下游任务 2.4.3 BART 语言模型1)BART 模型结构2&#xff0…

更多内容:XiaoJ的知识星球


目录

    • 2.4 基于 Encoder-Decoder 架构的大语言模型
      • 2.4.1 Encoder-Decoder 架构
      • 2.4.2 T5 语言模型
        • 1)T5 模型结构
        • 2)T5 预训练方式
        • 3)T5 下游任务
      • 2.4.3 BART 语言模型
        • 1)BART 模型结构
        • 2)BART 预训练方式


2.4 基于 Encoder-Decoder 架构的大语言模型

Encoder-Decoder 架构在 Encoder-only 架构的基础上引入 Decoder 组件,以完成机器翻译等序列到序列(Sequence to Sequence, Seq2Seq)任务。

.


2.4.1 Encoder-Decoder 架构

Encoder-Decoder架构:编码器+解码器

编码器Encoder

  • 多个编码模块组成,每个编码模块包含:一个自注意力模块、一个全连接前馈模块

  • 模型的输入序列在通过编码器部分后,会被转变为固定大小的上下文向量,这个向量包含了输入序列的丰富语义信息。

解码器Decoder:

  • 多个解码模块堆组成,每个解码模块包含:一个带掩码的自注意力模块、一个交叉注意力模块和一个全连接前馈模块

  • 带掩码的自注意力模块:引入掩码机制防止未来信息的“泄露”,确保解码过程的自回归特性。

  • 交叉注意力模块:实现了解码器与编码器之间的信息交互,对生成与输入序列高度相关的输出至关重要。

图 2.10: Encoder-Decoder 架构
在这里插入图片描述

自注意模块在编码器和解码器中的注意力目标不同的。

  • 在编码器中,采用双向注意力机制以全面捕捉上下文信息。

  • 在解码器中,自注意力机制则是单向的,仅以上文为条件来解码得到下文。通过掩码操作避免解码器“窥视”未来的信息。

交叉注意力通过将解码器的查询(query) 与编码器的键(key)值(value) 相结合,实现了两个模块间的有效信息交流。

通过自注意力和交叉注意力机制的结合,Encoder-Decoder 架构能够高效地编码输入信息生成高质量的输出序列

  • 自注意力机制:确保了输入序列和生成序列内部的一致性和连贯性。

  • 交叉注意力机制:确保解码器在生成每个输出 Token 时都能参考输入序列的全局上下文信息,从而生成与输入内容高度相关的结果。

在这两个机制的共同作用下,Encoder-Decoder 架构不仅能够深入理解输入序列,还能够根据不同任务的需求灵活生成长度适宜的输出序列,在机器翻译、文本摘要、 问答系统等任务中得到了广泛应用。

本节将介绍两种典型的基于 Encoder-Decoder 架构的代表性大语言模型:T5 和 BART。

.


2.4.2 T5 语言模型

T5(Text-to-Text Transfer Transformer)

通常,每种自然语言处理任务都需要对训练数据、模型架构和训练策略进行定制化设计。这不仅耗时耗力,而且模型难复用。

为了解决这一问题,Google 提出基于 Encoder-Decoder 架构的大型预训练语言模型 T5(Text-to-Text Transfer Transformer), 其采用统一的文本到文本的转换范式来处理多种任务。

1)T5 模型结构

T5 模型的核心思想:将多种 NLP 任务统一到一个文本转文本的生成式框架中

在此统一框架下,T5 通过不同的输入前缀来指示模型执行不同任务,然后生成相应的任务输出,这种方法可以视为早期的提示Prompt)技术。

图 2.11: 传统语言模型和 T5 统一框架
在这里插入图片描述

在模型架构方面,T5 与原始的包括一个编码器和一个解码器的 Transformer 架构相同。每个编码器和解码器又分别由多个编码模块和解码模块堆叠而成。

T5 模型根据不同的参数,提供 T5-Small、T5-Base、T5- Large、T5-3B 以及 T5-11B 五个版本

2)T5 预训练方式

T5收集了C4 数据集(Colossal Clean Crawled Corpus)进行训练,其覆盖了各种网站和文本类型。

T5 提出了名为 Span Corruption 的预训练任务。从输入中选择 15% 的 Token 进行破坏,每次都选择连续三个 Token 作为一 个小段(span)整体被掩码成 [MASK]。

与 BERT 模型中采用的单个 Token 预测不同,T5 模型需要对整个被遮挡的连续文本片段进行预测。这一设计要 求模型不仅等理解局部词汇的表面形式,还要可以捕捉更深层次的句子结构和上 下文之间的复杂依赖关系。

3)T5 下游任务

T5 模型可以在完全零样本Zero-Shot)的情况下,利用 Prompt 工程技术直接适配到多种下游任务。

同时,T5 模型也可以通过微调(Fine-Tuning)来适配到特定的任务。

如今,T5 模型已 经衍生了许多变体,例如,mT5[43] 模型扩展了对 100 多种语言的支持,T0[31] 模型通过多任务训练增强了零样本学习(Zero-Shot Learning) 能力,Flan-T5[8] 模型专注于通过指令微调,以实现进一步提升模型的灵活性和效率等等。

.


2.4.3 BART 语言模型

BART(Bidirectional and Auto-Regressive Transformers)

  • 中文解释:双向自回归Transformers

  • 通过多样化的预训练任务,来提升模型在文本生成任务和文本理解任务上的表现。

1)BART 模型结构

BART 的模型结构同 Transformer 架构,包括一个编码器和一个解码器。每个编码器和解码器分别由多个编码模块和解码模块堆叠而成。

BART 模型有两个版本,分别是 BART-Base 以及 BART-Large。

2)BART 预训练方式

在预训练数据上,BART 使用了与 RoBERTa 相同的语料库。

在预训练任务上,BART 以重建被破坏的文本为目标。

通过以下五个任务来破坏文本,然后训练模型对原始文本进行恢复。

  • Token 遮挡任务(Token Masking):在原文中随机将一部分 Token 替换为 [MASK],从而训练模型推断被删除的 Token 内容的能力。

  • Token 删除任务(Token Deletion):在原文中随机删除一部分 Token,从而训练模型推断被删除的 Token 位置以及内容的能力。

  • 连续文本填空任务(Text Infilling):在原文中选择几段连续的 Token(每段作为一个 span),整体替换为 [MASK]。span 长度服从 λ = 3 的泊松分布,如长度为 0 则直接插入一个 [MASK]。 这一任务旨在训练模型推断一段 span 及其长度的能力。

  • 句子打乱任务(Sentence Permutation):将给定文本拆分为多个句子,并随机打乱句子的顺序。旨在训练模型推理前后句关系的能力。

  • 文档旋转任务(Document Rotation):从给定文本中随机选取一个 Token,作为文本新的开头进行旋转。旨在训练模型找到文本合理起始点的能力。

BART 不仅在文本生成任务上表现出色,也能适应文本理解类任务的挑战。

.


小结:

综上所述,基于 Encoder-Decoder 架构的大语言模型,在生成任务中展示了良好的性能表现。表2.2从模型参数量和预训练语料规模的角度对本章提到的基于 Encoder-Decoder 架构的模型进行了总结。可以看出此时模型参数数量的上限已达 110 亿。

表 2.2: Encoder-Decoder 架构代表模型参数和语料大小表。

模型发布时间参数量(亿)语料规模
T52019.100.6-110 亿750GB
mT52020.103-130 亿9.7TB
T02021.1030-110 亿约 400GB
BART2019.101.4-4 亿约 20GB
mBART2020.060.4-6.1 亿约 1TB

在模型结构和参数规模的双重优势下,相较于基于 Encoder-only 架构的模型,这些模型在翻译、摘要、问答等任务中取得了更优的效果。

.


其他参考:【大模型基础_毛玉仁】系列文章


声明:资源可能存在第三方来源,若有侵权请联系删除!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/72751.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

browser-use WebUI + DeepSeek 基于AI的UI自动化解决方案

browser-use WebUI 一、browser-use是什么Browser-use采用的技术栈为: 二、browser-use webui 主要功能使用场景 三、使用教程1.python 安装2、把项目clone下来3、安装依赖4、配置环境5、启动6、配置1.配置 Agent2.配置要用的大模型3.关于浏览器的一些设置 四、Deep…

Windows安装Apache Maven 3.9.9

第一步下载资源 官网:下载 Apache Maven – Maven 环境变量配置 M2_HOME 指向bin目录 MAVEN_HOME 指向根目录 M2_HOME 不确定是否必须要 Path配置 ,需要注意MAVEN顺序应当在java之前 验证是否安装成功,在cmd中以管理员方式打开&#xff0c…

【spring-boot-starter-data-neo4j】创建结点和查找结点操作

配置连接neo4j # application.properties spring.neo4j.uribolt://localhost:7687 spring.neo4j.authentication.usernameneo4j spring.neo4j.authentication.password你的密码定义实体类 package com.anmory.platform.GraphService.Dao;import org.springframework.data.neo…

Excel导出工具类--复杂的excel功能导出(使用自定义注解导出)

Excel导出工具类 前言: 简单的excel导出,可以用easy-excel, fast-excel, auto-poi,在导出实体类上加上对应的注解,用封装好的工具类直接导出,但对于复杂的场景, 封装的工具类解决不了,要用原生的excel导出(easy-excel, fast-excel, auto-poi都支持原生的) 业务场景: 根据…

Excel处理控件Aspose.Cells教程:如何自动将 HTML 转换为 Excel

在处理 HTML 表中呈现的结构化数据时,将 HTML 转换为 Excel 是一种常见需求。无论您是从网站、报告还是任何其他来源提取数据,将其转换为 Excel 都可以更好地进行分析、操作和共享。 开发人员通常更喜欢使用编程方法将 HTML 转换为 Excel,因…

基于springbo校园安全管理系统(源码+lw+部署文档+讲解),源码可白嫖!

摘要 随着信息时代的来临,过去信息校园安全管理方式的缺点逐渐暴露,本次对过去的校园安全管理方式的缺点进行分析,采取计算机方式构建校园安全管理系统。本文通过阅读相关文献,研究国内外相关技术,提出了一种集进出校…

Git 实战指南:本地客户端连接 Gitee 全流程

本文将以 Gitee(码云)、系统Windows 11 为例,详细介绍从本地仓库初始化到远程协作的全流程操作 目录 1. 前期准备1.1 注册与配置 Gitee1.2 下载、安装、配置客户端1.3 配置公钥到 Gitee2. 本地仓库操作(PowerShell/Git Bash)2.1 初始化本地仓库2.2 关联 Gitee 远程仓库3. …

Pytest项目_day01(HTTP接口)

HTTP HTTP是一个协议(服务器传输超文本到浏览器的传送协议),是基于TCP/IP通信协议来传输数据(HTML文件,图片文件,查询结果等)。 访问域名 例如www.baidu.com就是百度的域名,我们想…

MySQL超详细介绍(近2万字)

1. 简单概述 MySQL安装后默认有4个库不可以删除,存储的是服务运行时加载的不同功能的程序和数据 information_schema:是MySQL数据库提供的一个虚拟的数据库,存储了MySQL数据库中的相关信息,比如数据库、表、列、索引、权限、角色等…

SQLMesh宏操作符深度解析:掌握@star与@GENERATE_SURROGATE_KEY实战技巧

引言:解锁SQLMesh的动态查询能力 在复杂的数据处理场景中,手动编写重复性SQL代码不仅效率低下,还难以维护。SQLMesh作为新一代数据库中间件,通过其强大的宏系统赋予开发者编程式构建查询的能力。本文将重点解析两个核心操作符——…

超详细kubernetes部署k8s----一台master和两台node

一、部署说明 1、主机操作系统说明 2、主机硬件配置说明 二、主机准备(没有特别说明都是三台都要配置) 1、配置主机名和IP 2、配置hosts解析 3、防火墙和SELinux 4、时间同步配置 5、配置内核转发及网桥过滤 6、关闭swap 7、启用ipvs 8、句柄…

高光谱相机在水果分类与品质检测中的应用

一、核心应用领域 ‌外部品质检测‌ ‌表面缺陷识别:通过400-1000nm波段的高光谱成像,可检测苹果表皮损伤、碰伤等细微缺陷,结合图像分割技术实现快速分类‌。 ‌损伤程度评估:例如青香蕉的碰撞损伤会导致光谱反射率变化&#…

【蓝桥杯每日一题】3.17

🏝️专栏: 【蓝桥杯备篇】 🌅主页: f狐o狸x 他们说内存泄漏是bug,我说这是系统在逼我进化成SSR级程序员 OK来吧,不多废话,今天来点有难度的:二进制枚举 二进制枚举,就是…

Windows11 新机开荒(二)电脑优化设置

目录 前言: 一、注册微软账号绑定权益 二、此电脑 桌面图标 三、系统分盘及默认存储位置更改 3.1 系统分盘 3.2 默认存储位置更改 四、精简任务栏 总结: 前言: 本文承接上一篇 新机开荒(一) 上一篇文章地址&…

aws(学习笔记第三十三课) 深入使用cdk 练习aws athena

文章目录 aws(学习笔记第三十三课) 深入使用cdk学习内容:1. 使用aws athena1.1 什么是aws athena1.2 什么是aws glue1.2 为什么aws athena和aws glue一起使用 2. 开始练习aws athena2.1 代码链接2.2 整体架构2.3 代码解析2.3.1 创建测试数据的S3 bucket2.3.2 创建保…

OpenCV基础【图像和视频的加载与显示】

目录 一.创建一个窗口,显示图片 二.显示摄像头/多媒体文件 三.把摄像头录取到的视频存储在本地 四.鼠标回调事件 五.TrackBar滑动条 一.创建一个窗口,显示图片 import cv2img_path "src/fengjing.jpg" # 自己的图片路径 img cv2.imre…

使用 Google Firebase 控制台和 ESP8266 NodeMCU 的物联网控制 LED

使用 Google Firebase 控制台控制 LED ESP8266 您是否想过从世界任何地方控制任何外围设备?是的,IoT(物联网)使从任何地方控制任何设备成为可能,并且有许多 IoT 硬件和云平台可用于实现这一目标。在前面的教程中,我们已经介绍了许多 IoT 应用程序。今天,我们将使用 Goo…

平衡树的模拟实现

一.平衡树的介绍 平衡树是以二叉树结构为基础,同时引入了平衡因子进行了限制,以保证树的结点之间的高度差小于等于1,在插入删除结点时通过旋转的方法保持高度相对平衡,从而提高搜索等效率。 二.代码实现 1.平衡树结点 平衡树结…

Python----计算机视觉处理(Opencv:图像镜像旋转)

一、图像镜像旋转 图像的旋转是围绕一个特定点进行的,而图像的镜像旋转则是围绕坐标轴进行的。图像镜像旋转,也可 以叫做图像翻转,分为水平翻转、垂直翻转、水平垂直翻转三种。 通俗的理解为,当以图片的中垂线为x轴和y轴时&#x…

hibernate 自动生成数据库表和java类 字段顺序不一致 这导致添加数据库数据时 异常

hibernate 自动生成的数据库表和java类 字段顺序不一致 这导致该书写方式添加数据库数据时 异常 User user new User( null, username, email, phone, passwordEncoder.encode(password) ); return userRepository.save(user);Hibernate 默认不会保证数据库表字段的顺序与 Ja…