LM-INFINITE: SIMPLE ON-THE-FLY LENGTH GENERALIZATION FOR LARGE LANGUAGE MODELS

本文是LLM系列文章,针对《LM-INFINITE: SIMPLE ON-THE-FLY LENGTH GENERALIZATION FOR LARGE LANGUAGE MODELS》的翻译。

LM-INFiNITE:大语言模型的一个简单长度上推广

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 LLMs中OOD因素的诊断
  • 4 LM-INFINITE
  • 5 评估
  • 6 结论和未来工作

摘要

近年来,基于Transformer的大型语言模型(LLM)在各个领域的性能都有了显著的进步。随着这些LLM被部署用于越来越复杂的任务,它们通常需要进行更长的推理过程或理解更大的上下文。在这些情况下,LLM在长序列上的长度泛化失败变得更加突出。大多数预训练方案将训练序列截断为固定长度(例如对于LLaMa为2048)。LLM通常很难在较长的上下文后生成流畅的文本,更不用说执行下游任务了,即使是为了解决这个问题而设计的相对位置编码。常见的解决方案,如在较长的语料库上进行微调,通常涉及令人生畏的硬件和时间成本,并且需要仔细的训练过程设计。为了更有效地利用现有LLM的生成能力,我们从理论和实证上研究了导致这一问题的主要分布外(OOD)因素。受此诊断的启发,我们提出了一种简单而有效的飞行长度泛化解决方案LM Infinite,它只涉及 Λ \Lambda Λ形注意力掩码和距离限制,而不需要参数更新或学习。我们发现它适用于使用相对位置编码方法的各种LLM。LM Infinite在 O ( n ) \mathcal{O}(n) O(n)时间和空间上具有计算效率,并在ArXiv和OpenWebText2数据集上对多达32k个token表现出一致的流畅性和生成质量,解码速度提高了2.72倍。在诸如密钥检索之类的下游任务中,它继续处理比普通模型立即失败的训练长度长得多的输入。

1 引言

2 相关工作

3 LLMs中OOD因素的诊断

4 LM-INFINITE

5 评估

6 结论和未来工作

在本文中,我们对具有相对位置编码的基于Transformer的LLM中的长度泛化问题提供了解释和简单的即时解决方案。我们首先对可能导致长度泛化失败的OOD(分布外)因素进行理论和实证分析。基于这些直觉,我们提出了LM Infinite,一种无需任何参数更新的即插即用的治疗方法。我们的经验评估表明,我们可以让多个开源SoTA LLM保持其原始生成质量,类似于明确微调后的性能。LM Infinite还将任务求解能力扩展到比训练样本长得多的序列。未来的工作可以探索如何让LM Infinite更好地感知被掩盖的注意力区域中的信息。我们希望LM Infinite的计算效率和易用性使没有大量计算资源的研究人员也能在长序列上使用LLM。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/63378.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【算法与数据结构】617、LeetCode合并二叉树

文章目录 一、题目二、解法三、完整代码 所有的LeetCode题解索引,可以看这篇文章——【算法和数据结构】LeetCode题解。 一、题目 二、解法 思路分析:采用递归的方式遍历二叉树,【算法与数据结构】144、94、145LeetCode二叉树的前中后遍历&am…

Debian12搭建Nextcloud最新版并frp到二级域名

起因:因为台风的原因,要居家办公,但正值公司业务最要紧的时刻,所以需要搭建远程共享,结果发现基于原有的经验,已经难以适应版本更新带来的问题,所以就解决方法,进行了一次重新总结&a…

Ubuntu 20.04 Server配置网络

0,环境 服务器: Intel(R) Xeon(R) Gold 6248R CPU 3.00GHz 96核 网卡: 多网卡 1, 镜像下载 http://old-releases.ubuntu.com/releases/ubuntu-20.04.1-desktop-amd64.iso 2, 系统安装--具体步骤就不贴出来&#…

CentOs下面安装jenkins记录

目录 一、安装jenkins 二、进入jenkins 三、安装和Gitee,Maven , Publish Over SSH等插件 四、构建一个maven项目 一、安装jenkins 1 wget -O /etc/yum.repos.d/jenkins.repo \ https://pkg.jenkins.io/redhat-stable/jenkins.repo 2 rpm --im…

美创科技获通信网络安全服务能力评定(应急响应一级)认证!

近日,中国通信企业协会公布通信网络安全服务能力评定2023年第一批获证企业名单。 美创科技获得应急响应一级资质,成为2023年第一批获证企业之一! 通信网络安全服务能力评定是对通信网络安全服务单位从事通信网络安全服务综合能力的评定&#…

SpringBoot+Redis BitMap 实现签到与统计功能

最近项目里需要集成签到和统计功能,连续签到后会给用户发放一些优惠券和奖品,以此来吸引用户持续在该品台进行活跃。下面我们一些来聊一聊目前主流的实现方案。 因为签到和统计的功能涉及的数据量比较大,所以在如此大的数据下利用传统的关系…

Python|OpenCV-鼠标自动绘制图像(4)

前言 本文是该专栏的第4篇,后面将持续分享OpenCV计算机视觉的干货知识,记得关注。 在本专栏之前,有详细介绍使用OpenCV绘制图形以及添加文字的方法,感兴趣的同学可往前翻阅查看“Python|OpenCV-绘制图形和添加文字的方法(2)”。 而本文重点来介绍使用OpenCV来操作鼠标,以…

tp5使用redis及redis7.2安装到window系统上面

redis安装教程 redis7.2安装到window系统上面 https://download.csdn.net/download/qq_39161501/88269037 解决方案:修改配置php.ini文件 打开Apache目录下的php.ini文件,搜索extension,在空白处加上下列代码: 注:e…

Linux进程概念及其状态

文章目录 🍇1. 什么是进程🍈1.1 概念🍈1.2 理解进程 🍋2. Linux的PCB🍎3. 查看进程 & 杀死进程🍒4. 系统调用获取进程标识符🍓4.1 进程PID🍓4.2 父进程PPID 🍆5. 系统…

[LeetCode] 128. 最长连续序列

题目描述 给定一个未排序的整数数组 nums ,找出数字连续的最长序列(不要求序列元素在原数组中连续)的长度。 请你设计并实现时间复杂度为 O(n) 的算法解决此问题。 示例 1: 输入:nums [100,4,200,1,3,2] 输出&…

MVVM架构模式

目录 一、MVVM简介二、MVVM结构三、MVC四、MVP五、MVVM的优势与存在的问题 一、MVVM简介 MVVM是Model-View-ViewModel的简写。即是模型-视图-视图模型。 MVVM架构模式是一种软件设计模式,它将应用程序分为三个部分:模型(Model)、…

说说Flink运行模式

分析&回答 1.开发者模式 在idea中运行Flink程序的方式就是开发模式。 2.local-cluster模式 Flink中的Local-cluster(本地集群)模式,单节点运行,主要用于测试, 学习。 3.Standalone模式 独立集群模式,由Flink自身提供计算资源。 4.Yarn模式 把Fl…

多路波形发生器的控制

本次波形发生器,主要使用运算放大器、NE555以及一些其他的电阻电容器件来实现。整体电路图如下所示: 产生的三角波如下: 正弦波如下 方波如下: 运算放大器(Operational Amplifier,简称OP-AMP)是…

滑动窗口实例5(水果成篮)

题目: 你正在探访一家农场,农场从左到右种植了一排果树。这些树用一个整数数组 fruits 表示,其中 fruits[i] 是第 i 棵树上的水果 种类 。 你想要尽可能多地收集水果。然而,农场的主人设定了一些严格的规矩,你必须按…

【MySQL】实现可扩展性:构建高性能的系统

什么是可扩展性?可扩展性的好处扩展方式纵向扩展(Scaling Up)横向扩展(Scaling Out) 总结 💯感谢 💖 什么是可扩展性? 可扩展性是指系统能够在需要时轻松地适应更多的工作负载和资源…

工厂方法模式:创建对象的灵活与扩展

欢迎来到设计模式系列的第三篇文章!在前两篇文章中,我们已经学习了设计模式的基本概念以及单例模式的应用。 今天,我们将深入探讨第二个模式——工厂方法模式。 工厂方法模式简介 工厂方法模式是一种创建型设计模式,它提供了一…

通讯协议057——全网独有的OPC HDA知识一之接口(十二)IOPCHDA_DataCallback

本文简单介绍OPC HDA规范的IOPCHDA_DataCallback(客户端接口)接口方法,更多通信资源请登录网信智汇(wangxinzhihui.com)。 1)HRESULT OnDataChange(dwTransactionID, hrStatus, dwNumItems, pItemValues, phrErrors) 此方法由客…

jmeter源码二次开发

本文以jmeter5.5为例,扩展“TCP Socket支持定长的返回字节流”功能。 一、 源码本地编译运行 1、在jmeter官网下载源码:jmeter各版本源码地址 2、在idea中用gradle导入jmeter源码,idea中要配置jdk,gradle,我用的是j…

详解mysql事务,事务并发安全问题的复现以及大事务的优化

好文推荐: 2.5万字详解23种设计模式 springboot 实现延时队列(超级实用) 2.5万字讲解DDD领域驱动设计 文章目录 1. 事务定义2. 事务特性(ACID)3. 事务并发问题4. 事务隔离级别5. 基础命令6. 脏读复现7. 不可重复读复现…

【快手小玩法-弹幕游戏】开发者功能测试报告提交模板

背景 快手有明确的要求,准入和准出更加严格,要求有明确的测试报告。格式如下: *本文参考字节wiki:CP侧测试报告模板(复制填写轻雀文档) 其他文章推荐:【抖音小玩法-弹幕游戏】开发者功能测试报告提交模板 一、前言…