为什么gpt模型输入的token最大数量被限制在几万,是有技术问题吗?

既是技术问题,也是算力问题。


算力问题很容易理解,GPT4大概率还是用Transformer模型。Transformer如果经过各种Linear技术的优化(如Sparse),那么Scaling Law难以保证;如果保持原样,那么复杂度是二次的,序列一长,训练成本和推理成本都比较难顶。


技术问题则主要是Transformer的长度外推性并不好。如果你想处理1000长度的文本,那么预训练阶段就拿1000长度的文本去训,那自然没有问题,但如果你只拿500长度的文本去预训练,那么得到的模型通常无法很好地处理1000长度的文本,尤其是生成模型场景。

也就是说,短文本训练的模型,通常无法直接处理长文本,这就是长度外推问题,这个问题不只是Transformer有,RNN甚至CNN都会有。注意这里的长短是相对的,如果你想处理10000长度的文本,那么5000长度都算短文本了。

已经有一些工作试图解决这个问题,比如ALIBI、KERPLE、XPOS等,可以参考 Transformer升级之路:7、长度外推性与局部注意力 - 科学空间|Scientific Spaces ,但是这类工作都是基于局部化Attention思想强行赋予平移不变性,无法做到全局依赖,在LLM场景下意义不大。最近笔者也进行了一些尝试,初步看下述方案能保留全局依赖:

Transformer升级之路:9、一种全局长度外推的新思路 - 科学空间|Scientific Spaces​kexue.fm/archives/9603

此外,还有一个名为Parallel Context Window的方法值得一提,它是一种事后修改方案,能够增强训练好的模型的处理长度,并且理论上能保持全局依赖:

Parallel Context Windows Improve In-Context Learning of Large Language Models​arxiv.org/abs/2212.10947​编辑


至于Claude的100k token或者GPT4的32k token是怎么做的,这个没有任何技术细节披露,没法猜。个人感觉100k其实还在能想象的范围内,硬训也是也可能的。说到这里,顺便提一件事:OpenAI在2019年的论文 Generating Long Sequences with Sparse Transformers 就已经做到了一万多token的自回归生成,并且它的Sparsity Pattern跟Parallel Context Learning很相似。

也就是说,人家19年的自回归生成长度就能够突破10k(并且还预见了接近Parallel Context Learning的方案),现在32k就是“洒洒水”了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/43166.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入理解Java中的Lambda表达式与函数式接口

深入理解Java中的Lambda表达式与函数式接口 大家好,我是微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿! 1. Lambda表达式的基础 Lambda表达式是Java 8引入的一个重要特性,它使得Java的函数式编程更…

vivado DIFF_TERM_ADV

DIFF_TERM_ADV 高级差分终止(DIFF_TERM_ADV)属性用于 UltraScale体系结构,用于启用或禁用内置的100Ω差分 用于输入或双向端口的端接。DIFF_TERM_ADV表示差 应在差分输入和双向端口缓冲器上使用终止方法,以及 Vivado Design Suite…

嵌入式C语言面试相关知识——CPU、进程和线程相关(相关问题很多,会经常过来更新)

嵌入式C语言面试相关知识——CPU、进程和线程相关 一、博客声明二、自问题目——CPU相关1、什么是中断?如何处理中断?2、解释上下文切换(Context Switch)?3、在嵌入式中如何优化CPU使用? 三、自问题目——进程相关1、什么是进程&a…

顶会FAST24最佳论文|阿里云块存储架构演进的得与失-1.引言

今年早些时候,2月份举办的全球计算机存储顶会USENIX FAST 2024,最佳论文来自阿里云,论文名称《What’s the Story in EBS Glory: Evolutions and Lessons in Building Cloud Block Store》 ,论文详尽地探讨了阿里云在过去十年中开…

EtherCAT主站IGH-- 10 -- IGH之ethernet.h/c文件解析

EtherCAT主站IGH-- 10 -- IGH之ethernet.h/c文件解析 0 预览一 该文件功能`eoe.c` 文件功能函数预览二 函数功能介绍1. `ec_eoe_init`2. `ec_eoe_clear`3. `ec_eoe_send`4. `ec_eoe_run`5. `ec_eoe_queue`6. `ec_eoe_is_open`7. `ec_eoe_is_idle`8. `ec_eoe_name`示例用法示例详…

HTML(28)——空间转换

空间:是从坐标轴角度定义的XYZ三条坐标轴构成了一个立体空间 Z轴位置与视线方向相同 空间转换 平移 属性: transform: translate3d(x,y,z);transform: translateX();transform: translateY();transform: translateZ(); 取值:像素单位数值…

国内教育科技公司自研大语言模型

好未来的数学大模型九章大模型(MathGPT) 2023年8月下旬,在好未来20周年直播活动中,好未来公司CTO田密宣布好未来自研的数学领域千亿级大模型MathGPT正式上线并开启公测。根据九章大模型的官网介绍,九章大模型&#xff…

python - 函数 / 字典 / 集合

一.函数 形参和实参: >>> def MyFirstFunction(name): 函数定义过程中的name是叫形参 ... print(传递进来的 name 叫做实参,因为Ta是具体的参数值!) print前面要加缩进tab,否则会出错。 >>> MyFirstFun…

强化学习(Reinforcement Learning,简称RL)

强化学习(Reinforcement Learning,简称RL)是一种机器学习范式,它允许智能体(agent)通过与环境互动来学习如何采取行动,以最大化某种累积奖励。在机器人控制中,强化学习可以用来解决各…

第6天: Web架构篇域名语言中间件数据库系统源码获取

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 操作系统层面简述两者区别以及识别的意义操作系统层面漏洞类型对应意义数据库层面第三方层面 操作系统层面 识别操作系统常见办法 通过网站或者通过扫描工具网站对…

强化学习编程实战-2马尔可夫决策过程

2.1 从多臂赌博机到马尔可夫决策过程 如图2-1,图中A为多臂赌博机,B为一堆鸳鸯,其中左上角为雄性鸳鸯,右上角为雌性鸳鸯,B展示的任务是雄性鸳鸯绕过障碍物找到词性鸳鸯。跟多臂赌博机不同的是,雄性鸳鸯经过一…

019-GeoGebra中级篇-GeoGebra的坐标系

GeoGebra作为一款强大的数学软件,支持多种坐标系的使用,包括但不限于:笛卡尔坐标系(Cartesian Coordinate System)、极坐标系(Polar Coordinate System)、参数坐标系(Parametric Coo…

虚拟机使用

1、安装 如何安装虚拟机?保姆级安装教程! - 知乎 (zhihu.com) 2、使用 2.1 快照 作用:保留当前系统信息为快照,随时可以恢复,以防未来系统被你玩坏,就好比游戏中的归档!每配置好一个就可以保…

Linux dig命令常见用法

Linux dig命令常见用法 一、dig安装二、dig用法 DIG命令(Domain Information Groper命令)是常用的域名查询工具,通过此命令,你可以实现域名查询和域名问题的定位,对于网络管理员和在域名系统(DNS)领域工作的小伙伴来说,它是一个非…

昇思MindSpore学习笔记6-01LLM原理和实践--FCN图像语义分割

摘要: 记录MindSpore AI框架使用FCN全卷积网络理解图像进行图像语议分割的过程、步骤和方法。包括环境准备、下载数据集、数据集加载和预处理、构建网络、训练准备、模型训练、模型评估、模型推理等。 一、概念 1.语义分割 图像语义分割 semantic segmentation …

【计算机毕业设计】018基于weixin小程序实习记录

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

Ubuntu下LXC安装、配置和调优

Yo,各位码农朋友们!今天我给大家带来一个火爆的技术博客,我们要在三丰云免费服务器上进行Ubuntu下LXC的安装、配置和调优。别小瞧这个免费云服务器,它可是有点意思的,配置还不错,1核CPU、1G内存、10G硬盘、…

亚马逊云(AWS)云服务器在国内仍有很多人在用?

在中国这个竞争激烈的云服务市场,亚马逊云(AWS)云服务器不仅站稳了脚跟,而且持续受到众多企业的青睐。究其原因,AWS凭借其无可比拟的全球影响力、技术创新力、以及对中国市场的深度理解,构建了一套难以抗拒…

react重新渲染以及避免不必要的渲染

触发react重新渲染 类组件触发重新渲染 1、setState 2、context 3、props 4、forceUpdate 函数式组件重新渲染 1、useState 2、props 避免不必要的渲染 类组件避免不必要的渲染 1、React.PureComponent/shouldComponentUpdate 函数式组件避免不必要的渲染 1、Reac…

【Java系列】深入解析 Lambda表达式

简化这个代码 这个就是Lambda表达式,可以简化匿名内部类的写法 package lambda;public class demo2 {public static void main(String[] args) {//第二个参数是一个接口,所以我们在调用方法的时候,需要传递这个接口的实现类对象--接口多态// 但是这个实现类,我只要用一次,所以我…