GPT-2怎么做翻译任务？

GPT-2怎么做翻译任务？

diannao/2025/4/26 18:19:13/文章来源:https://blog.csdn.net/weixin_43135178/article/details/140217229

首先需要知道的是GPT-2无论在训练还是推理过程都是只使用了transformer decoder，并没有使用encoder结构，那么它是怎么做的翻译任务呢？

使用transformer encoder+decoder的著名架构有：

最原始的transformer model（Attention Is All You Need）
BERT-to-BERT 模型（BERT for Sequence Generation）
T5 ( Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer)

这种使用了encoder+decoder的model一般就是将要被翻译的语句输入进encoder，然后得到K、V，通过attention输入进decoder，然后用自回归的方式逐渐生成翻译

训练过程

1. 数据准备

使用大规模的中英文平行语料库，包含成对的源语言（中文）句子和目标语言（英文）句子。例如：

中文句子：你好，世界。英文句子：Hello, world.

2. 输入格式

为了训练翻译任务，可以使用带有提示词的输入格式，将源语言和目标语言连接起来。例如：

"Translate Chinese to English: 你好，世界。 -> Hello, world."

3. 模型输入

将整个输入序列（包括提示词、源语言句子和目标语言句子）输入到模型中。模型会将序列中的每个词转换为嵌入向量，并添加位置编码。

4.开始训练：

初始状态（因为训练的语料库是拼接好的，所以有初始输入进入transformer decoder）：
- 输入："Translate Chinese to English: 你好，世界。 ->"
- 模型预测第一个词 "Hello"。
第一步：
- 输入："Translate Chinese to English: 你好，世界。 -> Hello"
- 模型预测下一个词 ","。
第二步：
- 输入："Translate Chinese to English: 你好，世界。 -> Hello,"
- 模型预测下一个词 "world"。
第三步：
- 输入："Translate Chinese to English: 你好，世界。 -> Hello, world"
- 模型预测结束标记 "."。

5.计算loss

计算预测出的词与真实的词的loss

推理过程

在推理过程中，步骤类似于训练，但模型已经训练完毕，不再计算损失，而是生成完整的目标语言句子：

1）输入准备：

提供源语言句子和提示词。例如：

"Translate Chinese to English: 你好，世界。 ->"

2）自回归生成：

模型逐步生成目标语言句子 "Hello, world."。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/41344.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

计算机应用数学--第一次作业

计算机应用数学--第一次作业

第一次作业计算题编程题 （20分） 第一次作业计算题 （20分）求 E ( X ) E(X) E(X)， V a r ( X ) Var(X) Var(X) （1） X X X 服从 [ a , b ] [a,b] [a,b] 均匀分布。 （2）…

阅读更多...

操作系统期末必考概念大纲（整理·全）

操作系统期末必考概念大纲（整理·全）

第一章 1、操作系统的概念 2、计算机发展的四个阶段 3、手工操作阶段、批处理系统阶段、多道程序系统阶段、分时操作系统阶段、通用操作系统阶段 4、批处理系统（联机、脱机） 5、操作系统的6个基本类型 6、多道批处理特征 7、分时系统特点 8、算法…

阅读更多...

第二节-K8s词汇表

第二节-K8s词汇表

关键字词汇表 https://kubernetes.io/zh-cn/docs/reference/glossary/?fundamentaltrue API Group (API 组)Kubernetes API 中的一组相关路径。 API 服务器亦称作:kube-apiserver API 服务器是 Kubernetes 控制平面的组件， 该组件负责公开了 Kubernetes API&…

阅读更多...

2024年智慧教育与社会科学国际会议 (ICSSS 2024)

2024年智慧教育与社会科学国际会议 (ICSSS 2024)

2024年智慧教育与社会科学国际会议 (ICSSS 2024) 2024 International Conference on Smart Education and Social Sciences 【重要信息】大会地点：北京大会官网：http://www.icicsss.com 投稿邮箱：icicssssub-conf.com 【注意：稿…

阅读更多...

Stable-diffusion-WebUI 的API调用(内含文生图和图生图实例)

Stable-diffusion-WebUI 的API调用(内含文生图和图生图实例)

前情提要在之前尝试使用Diffusers库来进行stable-diffusion的接口调用以及各种插件功能实现，但发现diffusers库中各复杂功能的添加较为麻烦，而且难以实现对采样器的添加，safetensors格式模型的读取。在官网上找到了webui有专门的api接口&am…

阅读更多...

1117 数字之王

1117 数字之王

solution 判断现有数字是否全为个位数全为个位数，找出出现次数最多的数字，并首行输出最多出现次数，第二行输出所有出现该次数的数值不全为个位数若当前位数值为0，无需处理若当前位数值非0，则每位立方相乘&#xff0…

阅读更多...

10.x86游戏实战-汇编指令lea

10.x86游戏实战-汇编指令lea

免责声明：内容仅供学习参考，请合法利用知识，禁止进行违法犯罪活动！ 本次游戏没法给内容参考于：微尘网络安全工具下载： 链接：https://pan.baidu.com/s/1rEEJnt85npn7N38Ai0_F2Q?pwd6tw3 提…

阅读更多...

Prometheus + Grafana 监控系统搭建使用指南-redis_exporter 安装与配置

Prometheus + Grafana 监控系统搭建使用指南-redis_exporter 安装与配置

Redis 接入 Prometheus 监控系统系列文章目录 Prometheus 的安装部署Grafana的安装部署Linux服务器接入Prometheus监控-Node Exporter 安装指南Prometheus 接入SpringBoot微服务监控Mysql 接入 Prometheus RocketMQ 接入Prometheus 监控ElasticSearch 接入 PrometheusNacos …

阅读更多...

vue使用axios获取信息的案例

vue使用axios获取信息的案例

List组件（用来展示搜索的信息） <template><div class"row"><div class"card" v-for"user in info.users" :key"user.login" v-show"info.users.length">&l…

阅读更多...

智慧校园-资产管理系统总体概述

智慧校园-资产管理系统总体概述

智慧校园资产管理系统是面向教育机构设计的一体化数字平台，其核心目标在于通过先进的信息技术手段，全面优化校园内部的资产管理流程。该系统致力于提升资产管理的效率与透明度，同时降低成本并确保所有操作符合财务及审计规范，为校…

阅读更多...

Debezium系列之：单表多个tinyint(1)类型字段支持选择字段转化为int或者boolean

Debezium系列之：单表多个tinyint(1)类型字段支持选择字段转化为int或者boolean

Debezium系列之：单表多个tinyint 1类型字段支持选择字段转化为int或者boolean 一、需求二、相关技术三、创建表和插入数据四、参数设置和字段选择五、查看数据一、需求单表中有多个tinyint(1)字段，需要能支持选择某个字段类型转化为int，某个字段类型转化为boolean二、相关技…

阅读更多...

RNN文献综述

RNN文献综述

循环神经网络（Recurrent Neural Network，RNN）是一种专门用于处理序列数据的神经网络模型。它在自然语言处理、语音识别、时间序列预测等领域有着广泛的应用。本文将从RNN的历史发展、基本原理、应用场景以及最新研究进展等方面进行综述。历…

阅读更多...

getResources().getDimension引起的问题

getResources().getDimension引起的问题

在xml中设置字体：  然后想着不这么设置，想着代码中动态设置字体大小，改为如下&#xf…

阅读更多...

TC3xx NvM小细节解读

TC3xx NvM小细节解读

目录 1.FlsLoader Driver和FlsDmu Driver 2. FlsLoader小细节 3.小结大家好，我是快乐的肌肉，今天聊聊TC3xx NvM相关硬件细节以及MCAL针对NvM的驱动。 1.FlsLoader Driver和FlsDmu Driver 在最开始做标定的时候，认为标定数据既然是数据&…

阅读更多...

安装easy-handeye

安装easy-handeye

一、aruco_ros配置 mkdir -p ~/ros_ws/src cd ~/ros_ws/src git clone -b melodic-devel https://github.com/pal-robotics/aruco_ros.git cd .. catkin_make 二、visp配置(需要联外网下载东西，不然会一直出问题） sudo apt-get install ros-melodic-…

阅读更多...

比赛获奖的武林秘籍：02 国奖秘籍-大学生电子计算机类竞赛快速上手的流程，小白必看

比赛获奖的武林秘籍：02 国奖秘籍-大学生电子计算机类竞赛快速上手的流程，小白必看

比赛获奖的武林秘籍：02 国奖秘籍-大学生电子计算机类竞赛快速上手的流程，小白必看摘要本文主要介绍了大学生参加电子计算机类比赛（电赛、光电设计大赛、计算机设计大赛、嵌入式芯片与系统设计大赛等比赛）的流程和涉及到的知识…

阅读更多...

3dmax全景图用什么渲染软件好？渲染100邀请码1a12

3dmax全景图用什么渲染软件好？渲染100邀请码1a12

全景图是常见的效果图类型，常用于展示大型空间，如展厅、会议室等。全景图的制作需要渲染，下面我介绍几个常用的渲染软件分享给大家。 1、V-Ray：十分流行的渲染引擎，功能强大，它提供了高质量的光线追踪技术…

阅读更多...

六、资产安全—信息分级资产管理与隐私保护练习题（CISSP）

六、资产安全—信息分级资产管理与隐私保护练习题（CISSP）

六、资产安全—信息分级资产管理与隐私保护（CISSP）：六、资产安全—信息分级资产管理与隐私保护（C

阅读更多...

Vue实现文件预览和下载功能的前端上传组件

Vue实现文件预览和下载功能的前端上传组件

Vue实现文件预览和下载功能的前端上传组件一、前言1.准备工作1.1 创建 Vue 组件1.2 组件说明 2.注意事项一、前言在前端开发中，文件上传和预览是常见的功能需求之一。本文将介绍如何利用 Vue.js 结合 Element UI 的上传组件（el-upload）实…

阅读更多...

RAM和ROM的区别

RAM和ROM的区别

RAM和ROM的区别 RAM和ROM都是用来存东西的，比如我们熟悉的CPU缓存、电脑和手机的内存就是属于RAM，而固态硬盘、U盘，还有我们买手机时候说的32G、64G的存储空间，就属于ROM。RAM和ROM的区别，简单说就是RAM在断电之后&am…

阅读更多...

最新文章