一年前 LLM AGI 碎片化思考与回顾系列⑧

阅读提示：

本篇系列内容的是建立于自己过去一年在以LLM为代表的AIGC快速发展浪潮中结合学术界与产业界创新与进展的一些碎片化思考并记录最终沉淀完成，在内容上，与不久前刚刚完稿的那篇10万字文章 「融合RL与LLM思想，探寻世界模型以迈向AGI」间有着非常紧密的联系，可以说，这篇长篇文章中的很多内容也是基于这些碎片化的思考与沉淀，当然也正是这样的一个个碎片化的、看似玄幻大胆、step by step的探索过程，才促成我最终完成那篇看上去并不是特别易读的文章。
因此，这个系列文章将以笔记的形式，去重新回顾体会一下自己去年的这些碎片化思考与探索历程，并希望将这些碎片化的、step by step探索式的思考与历程分享给大伙。一方面去回顾、修正自己之前的思考和观点，一方面作为那篇长文阅读的补充参考，并在其中的内容中标注出与其相关的阅读指针与提示。
在内容记录形式上，因为一年前自己的思考历程按时间顺序记录呈现出一定的主题割裂与内容的碎片化，我将按照时间线顺序向大家呈现一年前自己的想法，内容上可能进行一些合并和整合但会尽量保持原文内容不变。
另外大伙需特别注意的是，因为保持了原始记录时内容的不变（仅修改笔记上的笔误与错字），一年前的想法跟当前的认知可能会有较大的差异和改变，也会存在一些不成熟观点，千万不要被我当时片面的观点所误导。主要是想给大家抛出一些过去技术进展当中存在的一些问题和关键点，当然坦率地说，自己确实也在回顾中针对某些想法有了新的思路！如果大家针对我过去或刚完稿的那篇文章有更有建设性的意见甚至批评指正那就更好了！
最后，为了不让这个系列笔记显得不那么单调，在每一篇内容中会附上一些过去自己经历的有趣的生活照片或的图片，有吃喝玩乐，有学术美图，也有搞笑娱乐。

「2023/06/18 · 穿越SystemⅡ未知之境」

背景提要 ↓

基于上一篇“在未知之境中徘徊”，对一些有关system2的本质问题继续通过慢思考的模式来尝试进行思维扩散，并尝试在其中过滤并把握住一些本质洞察。而对复杂的长链推理本身而言，对于我们当下的探索来说仍有许多未解之谜。同时，大家可以结合本次记录和思考的内容，可以去阅读那篇「融合RL与LLM思想，探寻世界模型以迈向AGI」文章的中篇第一小节「system2·慢思考本质阐释」，我想将会有一些不一样的体会吧，这也是这个系列分享目的之一。

记录正文 ↓

上接12号探索并尝试大胆猜想的模型网络结构中参数激活传递的多跳推理映射机制，有三点想法的反思与再理解：

① 本质上，当前system1范式下的LLM的单跳神经元激活映射与system2对比来看更多是某种程度的粗粒度特征匹配映射（Pattern映射），比如红色-火焰，蓝色-海洋..而system2的E2E长链推理是经历了更精细化、长程的类思维过程逻辑（如COT/TOT）的多步模式匹配或特征映射，本质上与system1上述特征映射通过底层的数学变换建立不同表征空间之间的pattern匹配相同，即均是映射，将位于两种不同模态空间中的形式化符号表达merge到一起。因此在模型训练过程中，为了精细化的学习到上述映射pattern，也许需要构建这种细粒度优化目标并匹配精细化token训练样本数据，以进一步学习掌握这种通用的可泛化的过程推理模式。同时，对于模型网络结构的构造上，亦需要进一步考虑在网络中信号激活传递过程中激活函数的选择以匹配熵增这种精细化推理链的扩散与泛化。

② 另外，上一次记录思考过程中，关于生成COT/TOT等显性的这些中间逻辑思维链是否作为从输入到输出的中间必要环节，对应的是否可以仅通过输入和最终结果的输出建立模型的E2E学习而不去考虑中间过程目标优化，使得COT/TOT等思维链在训练过程中自然的隐含在神经网络结构中信号激活传递过程中，对于这两种训练方法是否可以采用一种折中的方式来进行持续的探索和对比：

第一步：先准备精细化多步骤过程推理token映射的数据样本集，用做对通用思维链的抽象推理模式学习；

第二步：通过观察第一步模型训练与推理过程中的激活状态，固定模型中某些参数（这里的意义在于限定最基本、最抽象的通用思维模式），使用远多于第一步粗粒度仅输入→输出的训练样本进行FT采样训练，这样是否就可以在模型训练到推理中即实现了自然的隐性神经网络参数学习以表征多跳连续精细化思考路径过程，又能够继承某些通用思维链泛化模式，同时还具备了多样性任务的适配，并且降低了精细化数据标注成本？但是这种模式也仅仅停留在某种先验下的猜想，且看上去并不是一种完备的E2E范式，如在第一步中的通用推理链学习的完备性。（注：用当前的话来说即是一种强先验的精雕，原因是我们似乎不能很好的把握第一步过程中这种通用推理模式的完备性以及泛化能力，甚至是这种泛化本身的内涵，也许一种可行的思路是在第一步中充分考虑并论证了第二步的复杂推理范畴在数据分布、泛化能力上的匹配与囊括，从而实现简单暴力下的E2E scaling law扩展）

当前时间线内容插入补充说明：

在这里，让我们得时间线回到当前2024年6月，前不久-2024/6/20，昆仑万维携手新加坡南洋理工大学开发并发表了一篇名为Q*的算法，《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》
我们知道，自OpenAI的Q*项目曝光后，引发业内众多讨论。据现有信息汇总，Q*项目被视作OpenAI在探索人工通用智能（Artificial General Intelligence, AGI）道路上的一次重大尝试，有望在包括数学问题解决能力、自主学习和自我改进等多个层面对人工智能技术带来革新性突破。不过迄今为止OpenAI没有公开关于Q*算法的具体细节，其效果究竟如何我们并不得而知。
在上面这篇《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》论文中，研究人员首先将大语言模型的推理轨迹分解为若干个状态，对于每一个状态，参考DeepCubeA中的设计，通过将定义Path Cost的g(s_t)函数和定义Accumulated Reward的Q*(s_t, a_t)集成到同一个f(s_t)函数内，实现了对历史状态收益和未来期望收益的综合考虑。
最后利用A*搜索算法对状态进行最佳优先搜索，在降低了一定的空间探索复杂度下，基于过程推理数据集尝试实现对复杂推理任务的最优规划路径，从而提升开源模型在推理任务上的性能。

其中g(s_t)表示当前轨迹中的多个历史状态，既{s1,...,s_t}，的聚合收益。

具体g(s_t)的函数形式可以通过人为定义，例如判断当前代码是否符合语法规则等，或者通过构建Process Reward Model (PRM) 进行监督学习得到；g(s_t)中的聚合方式可以为求和，最大值，最小值等。
为了获得状态 - 动作对 (s_t, a_t) 的最优 Q 值以实现规划，研究人员在当前 LLM 策略生成的数据上通过监督学习的方式训练了一个代理 Q 值模型

。训练过程中的真实标签

可以由三种不同的方式得到，包括离线强化学习，蒙塔卡罗采样估计和利用更强大的语言模型补全。

通过这篇paper，结合回顾过去一年前自己关于这一子部分的思考，感觉除了进一步加深了对system2下复杂推理的理解外，更多印证了当初一些悬而未决不确定的想法：这篇论文感觉基于当前普遍而流形的雨露均沾型框架诸如RLHF-PPO,DPO,PRM,MDP,A*，不过感觉这里以A*为基的Q*在降低了一定的复杂空间探索成本下，对数据集中过程性推理数据与知识分布的完备性要求和依赖会很高，否则学习到的最佳优先搜索策略的Q*在推理泛化能力上可能还会存在很多局限而以致在解决深度复杂问题和提出创新性的推理路径上难以形成突破。

③ 进一步扩散猜想与假设：针对现在的基于prompt提示词的单跳信号激活（system1）推理模式，当调整了prompt输入，可以想象的假设会在模型网络中实现信号激活路径的范围性偏移，而这种转移是以prompt作为输入为提示导致发生偏移的，其中看似在模型神经网络中神经元间信号多跳传递这种推理链激活范式并没有起到主导作用，而可能只是实现了对训练数据样本中的大范围表象知识的一种学习与表达，虽然这种知识特征层级的多跳信号激活传递可能也是与复杂推理链在通过底层的数学变换以建立不同表征空间之间的pattern匹配本质相同。

「本篇配图」

这篇笔记与上一篇对比来看似乎问题不是很多，也许也侧面体现出我想要快速走出或逃离这个未知之境的这种焦虑心态吧，包括对核心问题进行了收敛与聚焦，并尝试冒进的提出了自己的猜想、假设甚至行动方案。但这些真的可行吗或者思考的足够完备吗？回到一年之后再来回顾，也许当初的观点是片面的甚至是错误的，但尽管如此，在回顾自己一年前的想法和观点后，仍在某种程度上被prompt到，激起了我对当初观点或想法的进一步深度思考。

因此，本篇笔记的配图放上一张在我有清晰记忆的30多年间，经常反复回味的几道美食，尽管这些美食在这一段时间历程中经历了一些加工、烹饪和口味上的变化，但更多当初儿时的滋味还在，每一次的再次尝试都会唤起我更多的美好回忆。