碎片笔记|可训练非自回归解码策略

前言:前段时间在和学长的一次讨论中听他偶然提到一句可训练的解码策略,觉得很新鲜,于是便有了这篇文章。本文大致讲述一下可训练解码策略的发展历程及几个经典工作的思路。(本文初稿写于2023年3月16日)

常规的解码策略一般指自回归式解码策略,主要包括:贪婪搜索、集束搜索、top-k以及top-p采样,其主要思想是参照已生成的信息逐个生成文本,由于不是本文重点,这里不展开介绍,详细内容参见本篇博客。

目录

  • 解码策略优化方向
    • 风格转换
    • 解码速度
      • 非自回归解码策略


解码策略优化方向

解码策略的优化方向有很多,比如风格转换、解码速度、提高丰富性等,下面就根据解码策略的优化方向为分类依据对现有工作展开介绍。

风格转换

一个精心设计的解码策略也可以当作是可控文本生成的一种方法。比如控制生成文本的风格、情绪等信息。

解码速度

注意阐明是对哪种解码策略进行改进

Speeding Up Neural Machine Translation Decoding by Shrinking Run-time Vocabulary (ACL, 2017)
主要思想:通过在测试阶段缩减词表提高解码速率

Noisy Parallel Approximate Decoding for Conditional Recurrent Language Model (2016 arXiv) 纽约大学(Kyunghyun Cho)
主要思想:Noisy Parallel Approximate Decoding

非自回归解码策略

通过并行生成文本,提高解码速度。最大特点就是并行,也是因为并行,解码速度大大提升。(重点关注文中是以什么代价换取的速率提升)

Trainable Greedy Decoding for Neural Machine Translation (EMNLP, 2017) 香港大学 纽约大学(Kyunghyun Cho)
主要思想:使用强化学习的方法设计一个可训练贪婪解码策略

A Stable and Effective Learning Strategy for Trainable Greedy Decoding (ACL, 2018) 香港中文大学;纽约大学(Kyunghyun Cho)
主要思想:在几乎不增加计算开销的前提下,将集束搜索功能发挥到最大

Retrieving Sequential Information for Non-Autoregressive Neural Machine Translation (ACL, 2019) 中科院
主要思想:在纯非自回归模型和自回归模型之间取一个折中,添加一个序列信息模块


参考资料

  1. 神经机器翻译的训练改进和解码提速_测试_DataFunTalk_InfoQ精选文章
  2. 可控自然文本生成(报告-译) - 知乎 (zhihu.com)
  3. Controllable Neural Text Generation | Lil’Log (lilianweng.github.io)
  4. 2020 ICLR THE CURIOUS CASE OF NEURAL TEXT DeGENERATION
  5. How to generate text: using different decoding methods for language generation with Transformers (huggingface.co)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/65952.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【大数据】Flink 详解(六):源码篇 Ⅰ

Flink 详解(六):源码篇 Ⅰ 55、Flink 作业的提交流程?56、Flink 作业提交分为几种方式?57、Flink JobGraph 是在什么时候生成的?58、那在 JobGraph 提交集群之前都经历哪些过程?59、看你提到 Pi…

【个人博客系统网站】统一处理 · 拦截器

【JavaEE】进阶 个人博客系统(2) 文章目录 【JavaEE】进阶 个人博客系统(2)1. 统一返回格式处理1.1 统一返回类common.CommonResult1.2 统一返回处理器component.ResponseAdvice 2. 统一异常处理3. 拦截器实现3.1 全局变量SESSI…

Kitchen Hook

双扛厨房排钩:挂刀具

持续集成对软件项目管理的作用

l、对项目目标管理的作用 软件项目的目标是开发出可运行的、客户满意的软件系统持续集成有统一的代 码库。要求开发人员定期地、不断地向代码库提交代码。新近提交的代码会经过编 译与测试.与代码库中旧有的代码相整合,形成安全稳定运行的代码库&…

低代码赋能| 绿色智慧矿山解决方案

在世界能源日趋紧张的背景下,能源产业的数字化升级是大势所趋。矿山行业作为国家能源安全的“压舱石”,也必须进行产业升级。一直以来,国家都在大力推动智慧矿山建设。通过大数据、GIS、物联网、云计算、人工智能等新兴技术,实现矿…

Swift 技术 视频播放器滚动条(源码)

一直觉得自己写的不是技术,而是情怀,一个个的教程是自己这一路走来的痕迹。靠专业技能的成功是最具可复制性的,希望我的这条路能让你们少走弯路,希望我能帮你们抹去知识的蒙尘,希望我能帮你们理清知识的脉络&#xff0…

如何分析识别文章/内容中高频词和关键词?

theme: orange 要分析一篇文章的高频词和关键词,可以使用 Python 中的 nltk 库和 collections 库或者jieba库来实现,本篇文章介绍基于两种库分别实现分析内容中的高频词和关键词。 nltk 和 collections 库 首先,需要安装 nltk 库和 collectio…

云计算 - 百度AIStudio使用小结

云计算 - 百度AIStudio使用小结 前言 本文以ffmpeg处理视频为例,小结一下AI Studio的使用体验及一些避坑技巧。 算力获得 免费的算力获得方式为:每日登录后运行一个项目(只需要点击运行,不需要真正运行)即可获得8小…

深入理解 JVM 之——动手编译 JDK

更好的阅读体验 \huge{\color{red}{更好的阅读体验}} 更好的阅读体验 本篇为深入理解 Java 虚拟机第一章的实战内容,推荐在学习前先掌握基础的 Linux 操作、编译原理基础以及扎实的 C/C 功底。 该系列的 GitHub 仓库:https://github.com/Doge2077/lear…

C++知名开源库 整理收集

日志 spdlog 使用 CMake 构建: https://github.com/gabime/spdlog​ github.com/gabime/spdlog json json 语法极其简单友好 https://github.com/nlohmann/json​ github.com/nlohmann/json

Python爬虫网络安全:优劣势和适用范围分析

目录 优势和劣势 优势: 劣势: 适用范围: 1. 网页数据收集和分析: 2. 漏洞扫描和安全评估: 3. 威胁情报收集: 4. 社交媒体监测和情感分析: 注意事项 1. 合规性和法律规定: …

HTTP协议详解:基本概念与工作流程

个人主页:insist--个人主页​​​​​​ 本文专栏:网络基础——带你走进网络世界 本专栏会持续更新网络基础知识,希望大家多多支持,让我们一起探索这个神奇而广阔的网络世界。 目录 一、HTTP协议的基本概念 二、HTTP协议的主要特点</

VB.NET 如何将某个Excel的工作表中复制到另一个的Excel中的工作表中https://bbs.csdn.net/topics/392861034

参考http://share.freesion.com/306372/可以实现直接拷贝指定表 Private Sub Excel复制工作簿()Dim myExcelApp As New Microsoft.Office.Interop.Excel.ApplicationmyExcelApp.Workbooks.Open(System.Environment.CurrentDirectory "\\测试用例.xlsx", Type.Missin…

深入浅出理解Allan方差分析方法

一、参考资料 深入浅出理解卡尔曼滤波 二、Allan方差分析方法 1. 引言 传统的误差指标往往是采用均值误差&#xff08;反映整个误差序列有无宏观偏置&#xff09;、标准差&#xff08;反映整个误差序列的波动情况&#xff09;&#xff0c;以及均方根&#xff08;RMS&#x…

QT里使用sqlite的问题,好多坑

1. 我使用sqlite&#xff0c;开发机上好好的&#xff0c;测试机上却不行。后来发现是缺少驱动&#xff08;Driver not loaded Driver not loaded&#xff09;&#xff0c;代码检查了又检查&#xff0c;发现应该是缺少dll文件&#xff08;系统不提示&#xff0c;是自己使用 QMes…

怎样来实现流量削峰方案

削峰从本质上来说就是更多地延缓用户请求&#xff0c;以及层层过滤用户的访问需求&#xff0c;遵从“最后落地到数据库的请求数要尽量少”的原则。 1.消息队列解决削峰 要对流量进行削峰&#xff0c;最容易想到的解决方案就是用消息队列来缓冲瞬时流量&#xff0c;把同步的直…

jar包和war包的区别

SpringBoot项目既可以打成war包发布&#xff0c;也可以找成jar包发布。 jar包 jar包&#xff1a;直接通过内置Tomcat运行&#xff0c;不需要额外安装Tomcat。如需修改内置Tomcat的配置&#xff0c;只需要在SpringBoot的配置文件中配置。内置Tomcat没有自己的日志输出&#xff0…

SpringCloudGateway集成SpringDoc CORS问题

SpringCloudGateway集成SpringDoc CORS问题 集成SpringDoc后&#xff0c;在gateway在线文档界面&#xff0c;请求具体的服务接口&#xff0c;报CORS问题 Failed to fetch. Possible Reasons: CORS Network Failure URL scheme must be “http” or “https” for CORS reques…

uview ui 1.x ActonSheet项太多,设置滚动(亲测有效)

问题&#xff1a;ActionSheet滚动不了。 使用uview ui &#xff1a;u-action-sheet, 但是item太多&#xff0c;超出屏幕了&#xff0c; 查了一下文档&#xff0c;并没有设置滚动的地方。 官方文档&#xff1a;ActionSheet 操作菜单 | uView - 多平台快速开发的UI框架 - uni-a…

HashMap源码阅读(一)

HashMap继承抽象类AbstractMap&#xff0c;AbstractMap抽象类实现了Map接口 一、HashMap中的静态常量 //默认初始容量 static final int DEFAULT_INITIAL_CAPACITY 1 << 4; // aka 16 //最大长度 static final int MAXIMUM_CAPACITY 1 << 30; //负载因子&#…