TTT与transformer也好或manba也好它们之间背后的本质思想,表面上来看是对上下文进行状态表征压缩,再细想来看,均是一种对输入自身结构的一种线性建模变换,不过三者间所采用线性建模方法和策略各有不同和优劣,而TTT在这一过程中加入了自监督梯度优化方法以保证在建模变换或者说压缩过程中具备的目标指向性,也就是论文所说的内循环,当然这种思想与模型任务目标训练学习过程中的外循环思想是等同的,当然这种内循环也可谓一种元学习~但即便是这样,本人也认为说取代或颠覆transformer也还为时过早,因为transformer结构中的这种自然的注意力机制本身或者manba中的天然rnn序列建模本身与TTT自监督建模方法对输入侧的上下文自身结构的捕获的全面性、完备性、刻画粒度等问题还需理论与实践的进一步验证。
当然,TTT确实也为在对于in context leaning下的LLM更广袤应用和技术发展趋势下带来了非常有意义的一种视角和选择。而让我兴奋的是:TTT这么一闹,似乎进一步拉进或通过这种形式验证或提现了自己一年前对LLM碎片化思考回忆录系列中的某两篇有关SFT与ICL在模型训练与推理上的等效或等价性。感兴趣的大伙也可以参考我之前的那篇系列文章其中一篇子篇的笔记原文:系列② · ICL与SFT的羁绊"
这里截取部分内容:
“LLM在任务训练以及推理的模式是基于tokenize的,虽然可能两者的语义空间离散度是一样的,但对于模型的输入与输出侧的这种模式的不同,可能会衍生出ICL和SFT对于我们来讲的两种底层的数学变换模式;- 训练过程中的目标优化形式的不同,这里可能需要用一个「目标空间组合优化」这一新概念来尝试阐释。...”
“...ICL&SFT)模式的等价或等效性:
(1)数学变换上的等价→在纯数学维度上,一种是所谓的scale out,一种是scale up,一种是上下文作为变量的变换,一种是参数作为变量的变换,最终都是对数据分布的一种底层数学变换模式;
(2)不同任务类型及对应不同模型结构变换上的等价→(2)这里可能需要分别by任务和by模型结构来看,所谓两种范式的等效性来自于底层数学变换本质相同(随具象性有差异),即模型结构的数学变换本质相同...”
#人工智能 #AGI #LLM #斯坦福大学 #TTT #transformers #manba