Parallel Context Windows for Large Language Models

本文是LLM系列文章,针对《Parallel Context Windows for Large Language Models》的翻译。

大语言模型并行上下文窗口

  • 摘要
  • 1 引言
  • 2 并行上下文窗口
  • 3 上下文学习的PCW
  • 4 PCW用于QA
  • 5 相关工作
  • 6 结论和未来工作
  • 不足

摘要

当应用于处理长文本时,大型语言模型(LLM)受到其上下文窗口的限制。现有的解决这一限制的努力涉及训练专门的体系结构,并且不能很容易地应用于现成的LLM。我们提出了并行上下文窗口(PCW),这是一种在没有进一步训练的情况下减轻任何现成LLM的上下文窗口限制的方法。该方法的关键是将长上下文分割成块(“窗口”),将注意力机制限制为仅在每个窗口内应用,并在窗口之间重复使用位置嵌入。我们的主要结果测试了PCW方法在上下文学习中的应用,模型的大小在7.5亿到1780亿个参数之间,并显示出对具有不同输入和输出空间的任务的显著改进。我们在长上下文窗口可能有益的其他设置中展示了额外的好处:多跳问题和使用多个检索到的文档的检索增强问答。我们的研究结果强调,并行上下文窗口是一种很有前途的方法,可以在一系列需要长文本序列的设置中应用现成的LLM。我们在https://github.com/ai21labs/parallel-context-windows.

1 引言

2 并行上下文窗口

3 上下文学习的PCW

4 PCW用于QA

5 相关工作

6 结论和未来工作

近年来,已经提出了许多成功的方法,允许基于Transformer的语言模型在推理过程中利用大量文本,从而产生了各种专用的体系结构。然而,与此同时,具有“常规”(多达数千个token)上下文窗口大小的新模型的主流LLM生产线在扩展、创新和数据更新方面进展更快。
本文介绍了并行上下文窗口(PCW):一种简单的方法,允许任何现成的LLM在推理过程中扩大其可以访问的文本范围。我们展示了PCW在上下文学习框架中的有效性,其中访问一个大B因子的上下文意味着从B倍的训练例子中学习。我们的结果表明,在一组广泛的多类分类任务中,PCW比普通的单上下文窗口方法更有效地进行上下文内学习,这表明PCW可以在具有不同输入或输出空间的任务中改进上下文内学习。我们还展示了将PCW应用于多检索文档读取的有希望的信号。
我们认为未来工作的两个关键方向特别有希望。首先,通过证明现成的LLM可以通过PCW处理大量的文本,我们的结果激励了在其他环境中对PCW方法的进一步研究,在这些环境中,希望将主流LLM应用于长文本序列。其次,尽管我们的研究结果表明,PCW在没有进一步训练的情况下是有效的,但我们相信,对具有并行上下文窗口的LLM进行进一步(短期)训练可以进一步增强这项工作中展示的能力。

不足

我们提出了并行上下文窗口(PCW),这是一种简单的方法,可以减轻任何现成LLM的上下文窗口限制,而无需额外的训练。我们在各种模型和数据集上展示了这种方法的潜力。因此,我们的方法确实有一些局限性。
上下文窗口的数量是有限制的,并且需要预先确定。与普通上下文学习类似,必须事先选择要包含在提示中的示例数量。对于PCW,还需要选择上下文窗口的数量B。在本文中,大多数结果都是B=3。我们在附录C中对B的选择进行了实验。结果取决于任务,但在高水平上,我们发现B周围的回报在5到7之间递减。我们将进一步研究如何有效地从未来工作的更多窗口中获益。
并非对所有类型的任务都有效。如第3节所述,PCW在ICL中显示了令人印象深刻的优势,用于多类任务分类和信息提取等任务。但是,对于某些任务,PCW并不能提高性能。这可能表明某些任务不适合并行处理。第4.2节表明,PCW更适用于输入文本可以划分为几个独立输入的情况,但长文本生成等任务是否会从PCW中受益仍然是一个悬而未决的问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/60419.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WPF如果未定义绑定的属性,程序如何处理

问题&#xff1a;wpf中&#xff0c;<Button IsEnabled"{Binding IsValid1}"></Button>&#xff0c;如果没定义绑定的属性IsValid1&#xff0c;可以正常用吗 解答&#xff1a;在 WPF 中&#xff0c;如果没有定义绑定的属性 IsValid1&#xff0c;会导致绑…

深入理解sql:进阶版

目录 背景举例子查询和嵌套查询&#xff1a;联合查询&#xff08;UNION和UNION ALL&#xff09;&#xff1a;窗口函数&#xff1a;CTE&#xff08;公共表达式&#xff09;&#xff1a;索引优化&#xff1a;事务隔离级别和锁定&#xff1a;性能优化&#xff1a;存储过程和函数&a…

景联文科技数据标注:人体关键点标注用途及各点的位置定义

人体关键点标注是一种计算机视觉任务&#xff0c;指通过人工的方式&#xff0c;在指定位置标注上关键点&#xff0c;例如人脸特征点、人体骨骼连接点等&#xff0c;常用来训练面部识别模型以及统计模型。这些关键点可以表示图像的各个方面&#xff0c;例如角、边或特定特征。在…

FPGA | Verilog仿真VHDL文件

当VHDL模块中有Generic块时&#xff0c;应该怎么例化&#xff1f; VHDL模块代码 entity GenericExample isgeneric (DATA_WIDTH : positive : 8; -- 泛型参数&#xff1a;数据宽度ENABLE_FEATURE : boolean : true -- 泛型参数&#xff1a;是否启用特定功能);Port ( clk : …

Kotlin数据结构

数据结构基础 什么是数据结构 在计算机科学中&#xff0c;数据结构&#xff08;Data Structure&#xff09;是计算机中存储、组织数据的方式。数据结构是各种编程语言的基础。 一些使用场景 不同的数据结构适用于不同的应用场景。比如HashMap与ConcurrentHashMap&#xff0…

FFT代码上的实现细节

ω \omega ω 的计算 ω n 1 \omega_n^1 ωn1​ 的计算 考虑单位圆&#xff0c; ω n 1 \omega_n^1 ωn1​ 为&#xff1a; 也就是&#xff1a; 注&#xff1a;op为判断当前为dft还是idft ω n i \omega_n^i ωni​ 的计算 当要计算 ω n i \omega_n^i ωni​ 时&#xf…

微信小程序智慧流调微信小程序设计与实现

摘 要 自从2020年新冠疫情爆发以来&#xff0c;对全国人民的健康和全国各地区的经济发展都带来了很大的影响&#xff0c;并且新冠肺炎对各个领域带来的影响还未完全消除。近三年以来&#xff0c;全国各地区多次爆发新的疫情&#xff0c;导致许多人被隔离&#xff0c;也导致全国…

2023年高教社杯数学建模思路 - 案例:粒子群算法

文章目录 1 什么是粒子群算法&#xff1f;2 举个例子3 还是一个例子算法流程算法实现建模资料 # 0 赛题思路 &#xff08;赛题出来以后第一时间在CSDN分享&#xff09; https://blog.csdn.net/dc_sinor?typeblog 1 什么是粒子群算法&#xff1f; 粒子群算法&#xff08;Pa…

浅谈 Pytest+HttpRunner 如何展开接口测试!

软件测试有多种多样的方法和技术&#xff0c;可以从不同角度对它们进行分类。其中&#xff0c;根据软件生命周期&#xff0c;针对不同的测试对象与目标&#xff0c;可将测试过程分为 4 个阶段&#xff1a;单元测试、集成测试、系统测试和验收测试。本文着重介绍了如何借用 pyte…

只允许程序单实例运行

有时候&#xff0c;我们只能允许程序单实例运行&#xff0c;以免程序运行出错。可以通过使用App.PrevInstance和系统级的Mutex等多种办法来实现。 代码如下&#xff1a; 用户昵称: 留下些什么 个人简介: 一个会做软件的货代 CSDN网址&#xff1a;https://blog.csdn.net/zezes…

Kafka核心原理第一弹——更新中

架构原理 一、高性能读写架构原理——顺序写零拷贝 首先了解两个专业术语&#xff0c;研究kafka这个东西&#xff0c;你必须得搞清楚这两个概念&#xff0c;吞吐量&#xff0c;延迟。 写数据请求发送给kafka一直到他处理成功&#xff0c;你认为写请求成功&#xff0c;假设是…

OVER(PARTITION BY ***)用法,力扣mysql算法题,每日一题

力扣mysql题 题目:585. 2016年的投资 Insurance 表&#xff1a; Column NameTypepidinttiv_2015floattiv_2016floatlatfloatlonfloat pid 是这张表的主键(具有唯一值的列)。 表中的每一行都包含一条保险信息&#xff0c;其中&#xff1a; pid 是投保人的投保编号。 tiv_201…

女子垒球运动的发展·垒球1号位

女子垒球运动的发展 1. 女子垒球运动的起源和发展概述 女子垒球运动&#xff0c;诞生于19世纪末的美国&#xff0c;作为棒球运动的衍生品&#xff0c;经过百年的积淀&#xff0c;已在全球范围内广泛传播&#xff0c;形成了丰富的赛事文化。她的起源&#xff0c;可以追溯到19世…

微信小程序修改数据,input不能实时回显

场景&#xff1a; 填写发票抬头&#xff0c;填写抬头公司时候&#xff0c;会根据用户输入的内容实时获取相关的公司信息&#xff0c;用户选择搜索出来的公司&#xff0c;这时候 setData,但是数据并没有回显&#xff0c;而是需要再需要点一下屏幕。 解决方案&#xff1a; 原来…

java基础-----第三篇

系列文章目录 文章目录 系列文章目录前言一、final二、String、StringBuffer、StringBuilder前言 一、final 最终的 修饰类:表示类不可被继承 修饰方法:表示方法不可被子类覆盖,但是可以重载 修饰变量:表示变量一旦被赋值就不可以更改它的值。 (1)修饰成员变量 如果fina…

lnmp架构-mysql1

1.MySQL数据库编译 make完之后是这样的 mysql 初始化 所有这种默认不在系统环境中的路径里 就这样加 这样就可以直接调用 不用输入路径调用 2.初始化 重置密码 3.mysql主从复制 配置master 配置slave 当master 端中还没有插入数据时 在server2 上配slave 此时master 还没进…

【混合时变参数系统参数估计算法】使用范数总和正则化和期望最大化的混合时变参数系统参数估计算法(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

微软 Turing Bletchley v3视觉语言模型更新:必应搜索图片更精准

据微软新闻稿透露&#xff0c;在推出第三代Turing Bletchley视觉语言模型后&#xff0c;微软计划逐步将其整合到Bing等相关产品中&#xff0c;以提供更出色的图像搜索体验。这款模型最初于2021年11月面世&#xff0c;并在2022年秋季开始邀请用户测试。 凭借用户的反馈和建议&am…

vue项目使用svg实现一个物体沿着线条实时运动;svg图像放大缩小;svg中的文字居中显示

效果如上 html部分 <svg width"500px" height"500px" viewBox"0 0 400 400"><!-- 绘制连线 --><template v-for"(point, index) in points"><line :x1"point.x" :y1"point.y" :x2"in…

生物笔记——暑期学习笔记(三)

生物笔记——暑期学习笔记&#xff08;三&#xff09; 文章目录 前言一、R篇1. 数据筛选2. 字符串处理3. 练习 二、生信篇1. blast 基因家族鉴定2. hmm鉴定3. 理化性质与亚细胞定位4. 基因重复类型分析5. 家族成员染色体位置分析6. 基因组共线性分析7. 多序列比对&#xff0c;构…