关于斯坦福TTT,大家难道没啥可唠的嘛~?

cb9517f1738241a88e7e452a6bbd9c0b.png

 

TTT与transformer也好或manba也好它们之间背后的本质思想,表面上来看是对上下文进行状态表征压缩,再细想来看,均是一种对输入自身结构的一种线性建模变换,不过三者间所采用线性建模方法和策略各有不同和优劣,而TTT在这一过程中加入了自监督梯度优化方法以保证在建模变换或者说压缩过程中具备的目标指向性,也就是论文所说的内循环,当然这种思想与模型任务目标训练学习过程中的外循环思想是等同的,当然这种内循环也可谓一种元学习~但即便是这样,本人也认为说取代或颠覆transformer也还为时过早,因为transformer结构中的这种自然的注意力机制本身或者manba中的天然rnn序列建模本身与TTT自监督建模方法对输入侧的上下文自身结构的捕获的全面性、完备性、刻画粒度等问题还需理论与实践的进一步验证。

6c565aae4c0642f2ad2ef9e3e74c3498.jpg

 

当然,TTT确实也为在对于in context leaning下的LLM更广袤应用和技术发展趋势下带来了非常有意义的一种视角和选择。而让我兴奋的是:TTT这么一闹,似乎进一步拉进或通过这种形式验证或提现了自己一年前对LLM碎片化思考回忆录系列中的某两篇有关SFT与ICL在模型训练与推理上的等效或等价性。感兴趣的大伙也可以参考我之前的那篇系列文章其中一篇子篇的笔记原文:系列② · ICL与SFT的羁绊"

这里截取部分内容:

“LLM在任务训练以及推理的模式是基于tokenize的,虽然可能两者的语义空间离散度是一样的,但对于模型的输入与输出侧的这种模式的不同,可能会衍生出ICL和SFT对于我们来讲的两种底层的数学变换模式;- 训练过程中的目标优化形式的不同,这里可能需要用一个「目标空间组合优化」这一新概念来尝试阐释。...”

“...ICL&SFT)模式的等价或等效性:

(1)数学变换上的等价→在纯数学维度上,一种是所谓的scale out,一种是scale up,一种是上下文作为变量的变换,一种是参数作为变量的变换,最终都是对数据分布的一种底层数学变换模式;

(2)不同任务类型及对应不同模型结构变换上的等价→(2)这里可能需要分别by任务和by模型结构来看,所谓两种范式的等效性来自于底层数学变换本质相同(随具象性有差异),即模型结构的数学变换本质相同...”

#人工智能 #AGI #LLM #斯坦福大学 #TTT #transformers #manba

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/45373.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C++ Primer Plus】学习笔记1

文章目录 前言一、预备知识二、基本语法1.main函数2.有返回值的函数C程序应当为程序中使用的每个函数提供原型3.自定义函数 总结 前言 一直没系统学过C,最近接触了一段时间Java发现还是不太喜欢,所以转向C开发了qaq。因为学过C语言不算零基础了&#xf…

软件杂志软件杂志社软件编辑部2024年第4期目录

基金项目论文 “互联网”环境下智慧教育支撑平台的架构研究 黄孔曜; 1-3 基于机器学习的Web网络爬虫算法优化研究 刘俊培;贾继洋;班岚;迟欢;孙沛叶; 4-7 基于Ant Design Pro的物流系统前端开发与用户体验优化研究 王菊雅; 8-10《软件》投稿:cnqikantg12…

【建议收藏】一万字图文并茂,终于有人把GPT的玩法整理全了

1. 学生常用 1.1 辅导作业、写作业 打数学建模和写期末作业~ Openai GPT-4o 模型从 2024 年 5 月发布以来,作为各项性能评测综合第一的 GPT。 对于法律类,语言类的作业,随意秒杀了!! 所以我决定让他做一道高等数学…

keepalived+nginx实现高可用

1. keepalived需要了解的知识 1.1 业务场景: 如果我们有个网站,最开始只有一台服务器对用户提供服务,业务架构图如下: 当业务量增大时,这台服务器支撑不了那么大的流量,随时会出现宕机的风险,…

Dr4g0nb4ll靶机

信息收集 使用arp-scan生成网络接口地址,查看ip 输入命令: arp-scan -lnmap扫描端口开放 TCP 输入命令: nmap --min-rate 10000 -p- 192.168.187.184 //以最低10000的发包速率扫描全部端口可以看到目标只开放http的22和80端口 UDP …

鸿蒙Harmony--文本组件Text属性详解

金樽清酒斗十千,玉盘珍羞直万钱。 停杯投箸不能食,拔剑四顾心茫然。 欲渡黄河冰塞川,将登太行雪满山。 闲来垂钓碧溪上,忽复乘舟梦日边。 行路难,行路难,多歧路,今安在? 长风破浪会有…

2024最新国际版抖音TikTok安装教程,免root免拔卡安卓+iOS,附全套安装工具!

我是阿星,今天给大家带来是2024年最新TikTok国际版抖音的下载和安装教程,而且还是免root免拔卡的那种,安卓和iOS都能用哦!由于某些原因,国内用户并不能使用TikTok。今天阿星就教一下大家怎么安装TikTok。 TikTok在全球…

张爱华:身残志坚谱写人间大爱 推己及人彰显巾帼风采

张爱华,女,1963年2月出生,响水县聚贤养老协会会长、响水县小尖镇爱华老年公寓院长。张爱华因患小儿麻痹症导致下肢重度残疾,但她身残志坚,通过创办服装厂慢慢走上致富之路。2011年,她先后筹资、贷款600多万…

UART串口通信实验

一.通信种类 1.1按照数据通信方式 1.1.1串行通信 优点:占用的引脚少,成本低 缺点:传输速度慢 适用场合:长距离、低速率的通信场合 1.1.2并行通信 优点:传输速率快 缺点:占用引脚多,成本…

【开源项目的机遇与挑战】探索、贡献与应对

💓 博客主页:倔强的石头的CSDN主页 📝Gitee主页:倔强的石头的gitee主页 ⏩ 文章专栏:《热点时事》 期待您的关注 目录 引言 一:开源项目的发展趋势 🍃开源项目的蓬勃发展现状 🍃开…

VSCode 远程反复输入密码不能链接问题解决

通过 vscode 远程连接服务器时出现了连接不上,而且一直要循环输入密码的问题,可能是因为上次异常退出导致。 主要解决思路是删除当前 vscode 远端服务后,重新建立连接。 解决方法一 在 vscode 端接口删除 vscode 服务。 View->Commond…

vue 使用腾讯地图 标点 自定义瓦片 折线配置

vue 使用腾讯地图 标点 自定义瓦片 折线配置 申请腾讯地图秘钥 key 腾讯地图开发者 https://lbs.qq.com/dev/console/application/mine 腾讯地图开发文档 https://lbs.qq.com/webApi/javascriptGL/glGuide/glOverview 添加 key 代码中引入 // 入口文件 index.html // 填…

【通信原理】其实QPSK就是一种特殊的QAM,即4-QAM

文章目录 幅度调制和相位调制QPSK(Quadrature Phase Shift Keying)QAM(Quadrature Amplitude Modulation)QPSK作为4-QAMQPSK(Quadrature Phase Shift Keying)和QAM(Quadrature Amplitude Modulation)都是数字调制技术,用于在无线信号中传输数据。要理解“QPSK其实就是…

新旧电脑数据转移方法

随着科技的发展和电脑性能的不断提升,许多用户在工作和生活中都需要更换新电脑。当我们购买了一台新电脑后,如何将旧电脑中的数据转移到新电脑上成许多用户关注的问题。本文将详细介绍几种有效的电脑数据转移方法,帮助大家顺利完成数据迁移。…

国产麒麟、uos在线编辑word文件并控制编辑区域(局部编辑)

windows系统也适用,该插件可同时支持windows和国产系统 在实际项目开发中,以下场景可能会用到Word局部编辑功能: 合同审批公文流转策划设计报告汇签单招投标(标书文件)其他,有模板且需要不同人员协作编辑…

06.TMS570LC43入门指南——中断操作

06.TMS570LC43入门指南——中断操作 文章目录 06.TMS570LC43入门指南——中断操作一、简介二、中断(VIM)介绍2.1 VIM架构2.2 CPU 中断处理2.3 VIM中断通道映射2.4 中断请求默认分配 三、项目实现3.1 硬件部分3.2 软件部分3.2.1 HALCoGen 配置3.2.2 CCS 配…

RK3588部署YOLOV8-seg的问题

在使用YOLOV8-seg训练出来的pt模型转为onnx的时候,利用以下仓库地址转。 git clone https://github.com/airockchip/ultralytics_yolov8.git 在修改ultralytics/cfg/default.yaml中的task,mode为model为自己需要的内容后, 执行以下语句 cd …

在Linux上搭建服务器之综合实验(web,dns,防火墙,SELinux)

其实验简图如下: 解读: 本实验需要完成4部分内容,web服务器的搭建,主从dns服务器的搭建,防火墙的开启,以及SELinux设置为强制模式。 首先dns主服务器上配置web服务(其中我本机的IP为192.168.5.…

thinkphp 生成邀请推广二维码,保存到服务器并接口返回给前端

根据每个人生成自己的二维码图片,接口返回二维码图片地址 生成在服务器的二维码图片 控制器 public function createUserQRcode(){$uid = input(uid);if

深度学习编码解码结构-以及kreas简单实现

图像分割中的编码解码结构(Encoder-Decoder Model)是一种广泛应用的网络架构,它有效地结合了特征提取(编码)和分割结果生成(解码)两个过程。以下是对图像分割中编码解码结构的详细解析&#xff…