文本生成解码策略及其在transformers中的代码实现

诸神缄默不语-个人CSDN博文目录

开放式文本生成会偏好采样方法。

由于我要下班了,所以本文主要就写了第五节。别的内容请大家参考第六节给出的参考资料。

文章目录

  • 1. 贪心搜索
  • 2. beam search
  • 3. top-k sampling
  • 4. top-p sampling
  • 5. 代码实践:transformers的generate()函数
  • 6. 参考资料

1. 贪心搜索

在这里插入图片描述

2. beam search

在这里插入图片描述

3. top-k sampling

4. top-p sampling

5. 代码实践:transformers的generate()函数

我用GPT-2写了一篇代码示例,介绍了不同解码策略的实现方案。可参考:https://github.com/PolarisRisingWar/all-notes-in-one/blob/main/decode_examples_in_GPT2.ipynb
(注意pad_token_id那个只有GPT-2需要,别的模型大多不需要)
这个代码我没怎么写注释,如果有人有需要的话我以后补上吧。

generate()生成的结果经decode()即可得到原始文本(output_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

贪心搜索:greedy_output = model.generate(input_ids, max_length=50)

入参:

  • max_length:包括context的总长度
  • max_new_tokens
  • num_beams:beam search的beam数
  • early_stopping:设置num_beams时可用
  • no_repeat_ngram_size:设置禁止ngram重复出现
  • num_return_sequences:返回多少个序列
  • do_sample:根据概率采样
  • top_k:对概率前k的token的概率重新归一化
  • top_p:对大于p的token的概率重新归一化
  • temperature:降低temperature会极化token概率,导致抽样随机性减小(当temperature→0时,抽样策略趋近于贪心搜索)
  • min_length 用于强制模型在达到 min_length 之前不生成 EOS。这在摘要场景中使用得比较多,但如果用户想要更长的文本输出,也会很有用。
  • repetition_penalty 可用于对生成重复的单词这一行为进行惩罚。它首先由 Keskar 等人 (2019) 引入,在 Welleck 等人 (2019) 的工作中,它是训练目标的一部分。它可以非常有效地防止重复,但似乎对模型和用户场景非常敏感,其中一个例子见 Github 上的 讨论。
  • attention_mask 可用于屏蔽填充符。
  • pad_token_id、bos_token_id、eos_token_id: 如果模型默认没有这些 token,用户可以手动选择其他 token id 来表示它们。

6. 参考资料

  1. 如何生成文本:通过 Transformers 用不同的解码方法生成文本:我感觉这篇非常浅显易懂,建议直接看这篇。如果有读者有需要或者我认为有需要的话,我后期可能会用我的叙述思路再讲一遍这几种文本解码策略,但我觉得这篇已经很直白了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/747025.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue 引用百度地图

address.vue <template><div><!-- 地图 --><el-drawer:visible.sync"type1"direction"rtl"size"50%"append-to-bodyclass"map-drawer":before-close"beforeClose"><div style"width: 100%…

CSS:过渡动画 (Transition)与关键帧动画(Keyfram)

一、过渡动画 (Transition) 1.简单介绍 Transition能为样式的变化提供过渡效果&#xff0c;例如在下面的代码中&#xff1a; .main {width: 300px;height: 100px;background-color: #d26f6f;}.main:hover {width: 300px;height: 200px;background-color: #5e3e3e;transition:…

语义分割前言

1.常见数据集 1.1PASCAL VOC 其标注图片为单通道图像&#xff0c;其0~255像素值为其取值范围&#xff0c;背景为0&#xff0c;目标区域内根据目标的类别索引信息进行填充。 1.2MS COCO 其标注图像的标注文件为坐标信息。 官网有给出一个关于标注文件的格式说明&#xff0…

数字信封

一、概念 数字信封是将对称密钥通过非对称加密&#xff08;即&#xff1a;有公钥和私钥两个&#xff09;的结果分发对称密钥的方法。数字信封是实现信息保密性验证的技术。 二、过程描述 在数字信封中&#xff0c;信息发送方采用对称密钥来加密信息内容&#xff0c;然后将此…

考虑源荷随机特征的热电联供微网优化(含matlab程序)

目录 一、前言 二、含可再生能源的CHP型微网系统 三、CCP理论 四、具体模型 五、不含随机变量分析的matlab程序设计 1.粒子群寻优功能代码段 2.目标函数子程序 3.其他代码段 六、基于CCP的粒子群优化程序 1.含随机变量的约束条件处理 2.随机变量生成 3.置信水平检验部…

知识点回顾梳理之Linux常用指令

文章目录 &#x1f412;个人主页&#xff1a;信计2102罗铠威&#x1f3c5;JavaEE系列专栏&#x1f4d6;前言&#xff1a; &#x1f380;点击这里&#xff1a;Linux命令大全入口&#x1f380;Linux的目录结构&#x1f415;文件作用&#x1fa80;Linux常用命令&#x1f380;关机 …

在IDE中配置tomcat服务器

目录 一、新建一个java项目二、添加web框架三、配置tomcat服务器四、运行访问发布的项目 前言&#xff1a;在 IntelliJ IDEA 中配置 Tomcat 服务器是 Java Web 开发的基础步骤&#xff0c;以下是如何在 IDEA 中设置 Tomcat 并部署 Web 项目的简要指南。 一、新建一个java项目 新…

[蓝桥杯]-最大的通过数-CPP-二分查找、前缀和

目录 一、题目描述&#xff1a; 二、整体思路&#xff1a; 三、代码&#xff1a; 一、题目描述&#xff1a; 二、整体思路&#xff1a; 首先要知道不是他们同时选择序号一样的关卡通关&#xff0c;而是两人同时进行两个入口闯关。就是说两条通道存在相同关卡编号的的关卡被通…

大一专科,物联网专业,变态成长偏方!

最近看到一个大一&#xff0c;物联网专业的学生提问&#xff1a; 印象中&#xff0c;物联网专业2011年才有的&#xff0c;正好是我毕业那年。 我大概看过物联网专业要学的内容&#xff0c;总结下来就是&#xff0c;比软件不如计算机&#xff0c;比硬件知识不如电子。 不知道老师…

3.15作业

什么是IP地址&#xff1a;IP地址的作用是在网络中唯一标识和定位设备 IP地址和MAC地址的区别&#xff1a;IP地址是逻辑地址&#xff0c;网络层标识设备&#xff0c;可以更改&#xff0c;是全球互联网的唯 一 标识 MAC地址是物…

已解决:android SDK安装时点击SDK Manager出现闪退

1、首先确保电脑里边安装了JDK&#xff0c;并且要把安装路径配置在环境变量里边&#xff0c;避免使用绝对路径 推荐%JAVA_HOME%\bin 2、在C:\Users\huanhuan\Desktop\android-sdk-windows\tools路径下找到android.bat文件打开&#xff0c;把set java_exe后改为jdk中java.exe的路…

Day40-45 网络高级(modbus)

文章目录 Modbus起源1.起源&#xff1a;2.分类&#xff1a;3.优势&#xff1a;4.应用场景&#xff1a;5.ModbusTCP特点&#xff1a; Modbus TCP协议格式1.报文头2.寄存器3.功能码 工具软件使用.Modbus Slave&Poll2.网络调试助手.Wireshark的使用 Modbus RTU1、与Modbus TCP…

Google Play上架:谷歌支付政策变更

目录 政策发布时间概括内容付款政策变动内容归纳google付款用户政策政策发布时间 2024 年 3 月 6 日 概括内容 为遵守《数字市场法案》(DMA) 的规定,从 2024 年 3 月 6 日起,我们将更新付款政策,允许开发者将欧洲经济区 (EEA) 的用户引导至其应用之外的平台(包括推广应用…

YUNBE云贝-PostgreSQL Vacuum详解:深入理解与实践

引言 PostgreSQL作为一款功能强大、开源的关系型数据库管理系统&#xff0c;其性能优化机制中&#xff0c;“VACUUM”命令扮演着至关重要的角色。本文将对PostgreSQL的VACUUM操作进行全面解析&#xff0c;探讨其工作原理、类型以及如何在实际环境中合理应用。 一、VACUUM基础概…

视频监控汇聚管理系统EasyCVR平台RTMP推流异常是什么原因?

AI视频智能分析/视频监控管理平台EasyCVR能在复杂的网络环境中&#xff08;专网、内网、局域网、广域网、公网等&#xff09;&#xff0c;支持设备通过4G、5G、WIFI、有线等方式接入&#xff0c;并将设备进行统一集中接入与视频汇聚管理&#xff0c;经平台接入的视频流能实现多…

无人机自动返航算法部署与飞行控制实践

一、环境准备 无人机硬件&#xff1a;确保你有一台支持自定义飞行控制的无人机&#xff0c;通常配备有Pixhawk或其他类似的飞行控制器。 地面站软件&#xff1a;安装如Mission Planner或QGroundControl等地面站软件&#xff0c;用于配置无人机参数和上传飞行控制代码。 编程环…

基于Python flask 的豆瓣电影排行榜,豆瓣电影评分可视化,豆瓣电影评分预测系统

博主介绍&#xff1a;✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、Python技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&…

1+x中级题目练习复盘(四)

顺序存储较链式存储节省空间、查找性能高、插入和删除性能低。 <ALL表示小于最小 大于ANY表示大于最小值 LEFT OUTER JOIN 等同于LEFT JOIN INNER 和OUTER 不能同时出现 Before注解的方法在每个测试方法执行之前都要执行一次 一个Lambda表达式由以下三部分组…