关于斯坦福TTT,大家难道没啥可唠的嘛~?

cb9517f1738241a88e7e452a6bbd9c0b.png

 

TTT与transformer也好或manba也好它们之间背后的本质思想,表面上来看是对上下文进行状态表征压缩,再细想来看,均是一种对输入自身结构的一种线性建模变换,不过三者间所采用线性建模方法和策略各有不同和优劣,而TTT在这一过程中加入了自监督梯度优化方法以保证在建模变换或者说压缩过程中具备的目标指向性,也就是论文所说的内循环,当然这种思想与模型任务目标训练学习过程中的外循环思想是等同的,当然这种内循环也可谓一种元学习~但即便是这样,本人也认为说取代或颠覆transformer也还为时过早,因为transformer结构中的这种自然的注意力机制本身或者manba中的天然rnn序列建模本身与TTT自监督建模方法对输入侧的上下文自身结构的捕获的全面性、完备性、刻画粒度等问题还需理论与实践的进一步验证。

6c565aae4c0642f2ad2ef9e3e74c3498.jpg

 

当然,TTT确实也为在对于in context leaning下的LLM更广袤应用和技术发展趋势下带来了非常有意义的一种视角和选择。而让我兴奋的是:TTT这么一闹,似乎进一步拉进或通过这种形式验证或提现了自己一年前对LLM碎片化思考回忆录系列中的某两篇有关SFT与ICL在模型训练与推理上的等效或等价性。感兴趣的大伙也可以参考我之前的那篇系列文章其中一篇子篇的笔记原文:系列② · ICL与SFT的羁绊"

这里截取部分内容:

“LLM在任务训练以及推理的模式是基于tokenize的,虽然可能两者的语义空间离散度是一样的,但对于模型的输入与输出侧的这种模式的不同,可能会衍生出ICL和SFT对于我们来讲的两种底层的数学变换模式;- 训练过程中的目标优化形式的不同,这里可能需要用一个「目标空间组合优化」这一新概念来尝试阐释。...”

“...ICL&SFT)模式的等价或等效性:

(1)数学变换上的等价→在纯数学维度上,一种是所谓的scale out,一种是scale up,一种是上下文作为变量的变换,一种是参数作为变量的变换,最终都是对数据分布的一种底层数学变换模式;

(2)不同任务类型及对应不同模型结构变换上的等价→(2)这里可能需要分别by任务和by模型结构来看,所谓两种范式的等效性来自于底层数学变换本质相同(随具象性有差异),即模型结构的数学变换本质相同...”

#人工智能 #AGI #LLM #斯坦福大学 #TTT #transformers #manba

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/45373.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

加载预训练后的深度网络,使用pytorch框架

用 PyTorch 框架加载预训练模型并进行预测的过程包括以下几个步骤:加载模型、进行图像预处理、进行前向传播以及处理预测结果。以下是一个完整的示例,展示了如何使用预训练的 ResNet50 模型在一张图像上进行预测。 import torch from torchvision impor…

【C++ Primer Plus】学习笔记1

文章目录 前言一、预备知识二、基本语法1.main函数2.有返回值的函数C程序应当为程序中使用的每个函数提供原型3.自定义函数 总结 前言 一直没系统学过C,最近接触了一段时间Java发现还是不太喜欢,所以转向C开发了qaq。因为学过C语言不算零基础了&#xf…

软件杂志软件杂志社软件编辑部2024年第4期目录

基金项目论文 “互联网”环境下智慧教育支撑平台的架构研究 黄孔曜; 1-3 基于机器学习的Web网络爬虫算法优化研究 刘俊培;贾继洋;班岚;迟欢;孙沛叶; 4-7 基于Ant Design Pro的物流系统前端开发与用户体验优化研究 王菊雅; 8-10《软件》投稿:cnqikantg12…

JavaScript 数组常用方法详细教程

在 JavaScript 中,数组是一种非常重要的数据结构,用于存储多个值。JS 提供了许多内置方法来操作数组,使得数据处理变得更加简单和高效。本文将详细介绍一些常用的 JavaScript 数组方法,这些不但是平时开发常用的方法,也…

【建议收藏】一万字图文并茂,终于有人把GPT的玩法整理全了

1. 学生常用 1.1 辅导作业、写作业 打数学建模和写期末作业~ Openai GPT-4o 模型从 2024 年 5 月发布以来,作为各项性能评测综合第一的 GPT。 对于法律类,语言类的作业,随意秒杀了!! 所以我决定让他做一道高等数学…

抽象代数精解【1】

文章目录 群概述一、群的定义二、群的基本性质三、群的分类与例子四、群的应用 难点与例子 参考文献 群 概述 下面由文心一言生成 数学中的“群”(group)是一个重要的代数结构概念,它起源于对方程解析解的探索,由伽罗瓦&#xff…

keepalived+nginx实现高可用

1. keepalived需要了解的知识 1.1 业务场景: 如果我们有个网站,最开始只有一台服务器对用户提供服务,业务架构图如下: 当业务量增大时,这台服务器支撑不了那么大的流量,随时会出现宕机的风险,…

Dr4g0nb4ll靶机

信息收集 使用arp-scan生成网络接口地址,查看ip 输入命令: arp-scan -lnmap扫描端口开放 TCP 输入命令: nmap --min-rate 10000 -p- 192.168.187.184 //以最低10000的发包速率扫描全部端口可以看到目标只开放http的22和80端口 UDP …

嵌入式应用开发之代码整洁之道二

前言:本系列教程旨在如何将自己的代码写的整洁,同时本系列参考 正点原子 , C代码整洁之道,编写可读的代码艺术。 #函数的应用规范 #函数作用的功能 函数功能:函数应该只做一件事,做好这件事,只…

鸿蒙Harmony--文本组件Text属性详解

金樽清酒斗十千,玉盘珍羞直万钱。 停杯投箸不能食,拔剑四顾心茫然。 欲渡黄河冰塞川,将登太行雪满山。 闲来垂钓碧溪上,忽复乘舟梦日边。 行路难,行路难,多歧路,今安在? 长风破浪会有…

2024最新国际版抖音TikTok安装教程,免root免拔卡安卓+iOS,附全套安装工具!

我是阿星,今天给大家带来是2024年最新TikTok国际版抖音的下载和安装教程,而且还是免root免拔卡的那种,安卓和iOS都能用哦!由于某些原因,国内用户并不能使用TikTok。今天阿星就教一下大家怎么安装TikTok。 TikTok在全球…

张爱华:身残志坚谱写人间大爱 推己及人彰显巾帼风采

张爱华,女,1963年2月出生,响水县聚贤养老协会会长、响水县小尖镇爱华老年公寓院长。张爱华因患小儿麻痹症导致下肢重度残疾,但她身残志坚,通过创办服装厂慢慢走上致富之路。2011年,她先后筹资、贷款600多万…

vue 项目代码架构

Vue项目的代码架构通常遵循一定的组织结构和约定,以提高项目的可维护性、可扩展性和可读性。以下是对Vue项目代码架构的详细解析: 一、项目目录结构 Vue项目的目录结构通常包括以下几个关键部分: 根目录: package.json&#x…

Linux下解压.tar.gz文件

.tar.gz 是一种常用的压缩包格式,尤其在Unix、Linux以及macOS系统中非常普遍。这个格式结合了两种不同的功能: Tar (.tar): “Tar” 是“Tape Archive”的缩写,最初是为了将数据备份到磁带上而设计的。Tar命令可以将多个文件和目录打包成一个…

UART串口通信实验

一.通信种类 1.1按照数据通信方式 1.1.1串行通信 优点:占用的引脚少,成本低 缺点:传输速度慢 适用场合:长距离、低速率的通信场合 1.1.2并行通信 优点:传输速率快 缺点:占用引脚多,成本…

Java学习笔记整理: 关于设计模式:模板方法模式 2024/7/10;

模板方法模式 自理解:通过指定流程创建模板类并写入指定方法和抽象方法要求子类重写,然后创建类继承该模板类进行统一操作; 优点 1、封装不变部分,扩展可变部分。 2、提取公共代码,便于维护。 3、行为由父类控制,子类实现。 缺点 每一个不同的…

【开源项目的机遇与挑战】探索、贡献与应对

💓 博客主页:倔强的石头的CSDN主页 📝Gitee主页:倔强的石头的gitee主页 ⏩ 文章专栏:《热点时事》 期待您的关注 目录 引言 一:开源项目的发展趋势 🍃开源项目的蓬勃发展现状 🍃开…

VSCode 远程反复输入密码不能链接问题解决

通过 vscode 远程连接服务器时出现了连接不上,而且一直要循环输入密码的问题,可能是因为上次异常退出导致。 主要解决思路是删除当前 vscode 远端服务后,重新建立连接。 解决方法一 在 vscode 端接口删除 vscode 服务。 View->Commond…

“超级攻略:如何快速排查和优化慢SQL,提升系统速度!“

慢查询指的是数据库中执行时间超过指定阈值的 SQL 语句。不同业务场景下,这个阈值通常各不相同。在我们公司内部,这个阈值被设定为 1 秒钟。也就是说,任何执行时间超过 1 秒的 SQL 语句都会被视为慢查询。 对慢查询进行问题排查通常分为以下…

vue 使用腾讯地图 标点 自定义瓦片 折线配置

vue 使用腾讯地图 标点 自定义瓦片 折线配置 申请腾讯地图秘钥 key 腾讯地图开发者 https://lbs.qq.com/dev/console/application/mine 腾讯地图开发文档 https://lbs.qq.com/webApi/javascriptGL/glGuide/glOverview 添加 key 代码中引入 // 入口文件 index.html // 填…