一年前 LLM AGI 碎片化思考与回顾系列⑧ · 穿越SystemⅡ未知之境

阅读提示:

本篇系列内容的是建立于自己过去一年在以LLM为代表的AIGC快速发展浪潮中结合学术界与产业界创新与进展的一些碎片化思考并记录最终沉淀完成,在内容上,与不久前刚刚完稿的那篇10万字文章 「融合RL与LLM思想,探寻世界模型以迈向AGI」间有着非常紧密的联系,可以说,这篇长篇文章中的很多内容也是基于这些碎片化的思考与沉淀,当然也正是这样的一个个碎片化的、看似玄幻大胆、step by step的探索过程,才促成我最终完成那篇看上去并不是特别易读的文章。
因此,这个系列文章将以笔记的形式,去重新回顾体会一下自己去年的这些碎片化思考与探索历程,并希望将这些碎片化的、step by step探索式的思考与历程分享给大伙。一方面去回顾、修正自己之前的思考和观点,一方面作为那篇长文阅读的补充参考,并在其中的内容中标注出与其相关的阅读指针与提示。
在内容记录形式上,因为一年前自己的思考历程按时间顺序记录呈现出一定的主题割裂与内容的碎片化,我将按照时间线顺序向大家呈现一年前自己的想法,内容上可能进行一些合并和整合但会尽量保持原文内容不变。
另外大伙需特别注意的是,因为保持了原始记录时内容的不变(仅修改笔记上的笔误与错字),一年前的想法跟当前的认知可能会有较大的差异和改变,也会存在一些不成熟观点,千万不要被我当时片面的观点所误导。主要是想给大家抛出一些过去技术进展当中存在的一些问题和关键点,当然坦率地说,自己确实也在回顾中针对某些想法有了新的思路!如果大家针对我过去或刚完稿的那篇文章有更有建设性的意见甚至批评指正那就更好了!
最后,为了不让这个系列笔记显得不那么单调,在每一篇内容中会附上一些过去自己经历的有趣的生活照片或的图片,有吃喝玩乐,有学术美图,也有搞笑娱乐。

「2023/06/18 · 穿越SystemⅡ未知之境」

背景提要 ↓

基于上一篇“在未知之境中徘徊”,对一些有关system2的本质问题继续通过慢思考的模式来尝试进行思维扩散,并尝试在其中过滤并把握住一些本质洞察。而对复杂的长链推理本身而言,对于我们当下的探索来说仍有许多未解之谜。同时,大家可以结合本次记录和思考的内容,可以去阅读那篇「融合RL与LLM思想,探寻世界模型以迈向AGI」文章的中篇第一小节「system2·慢思考本质阐释」,我想将会有一些不一样的体会吧,这也是这个系列分享目的之一。

记录正文 ↓

上接12号探索并尝试大胆猜想的模型网络结构中参数激活传递的多跳推理映射机制,有三点想法的反思与再理解:

① 本质上,当前system1范式下的LLM的单跳神经元激活映射与system2对比来看更多是某种程度的粗粒度特征匹配映射(Pattern映射),比如红色-火焰,蓝色-海洋..而system2的E2E长链推理是经历了更精细化、长程的类思维过程逻辑(如COT/TOT)的多步模式匹配或特征映射,本质上与system1上述特征映射通过底层的数学变换建立不同表征空间之间的pattern匹配相同,即均是映射,将位于两种不同模态空间中的形式化符号表达merge到一起。因此在模型训练过程中,为了精细化的学习到上述映射pattern,也许需要构建这种细粒度优化目标并匹配精细化token训练样本数据,以进一步学习掌握这种通用的可泛化的过程推理模式。同时,对于模型网络结构的构造上,亦需要进一步考虑在网络中信号激活传递过程中激活函数的选择以匹配熵增这种精细化推理链的扩散与泛化。

② 另外,上一次记录思考过程中,关于生成COT/TOT等显性的这些中间逻辑思维链是否作为从输入到输出的中间必要环节,对应的是否可以仅通过输入和最终结果的输出建立模型的E2E学习而不去考虑中间过程目标优化,使得COT/TOT等思维链在训练过程中自然的隐含在神经网络结构中信号激活传递过程中,对于这两种训练方法是否可以采用一种折中的方式来进行持续的探索和对比:

第一步:先准备精细化多步骤过程推理token映射的数据样本集,用做对通用思维链的抽象推理模式学习;

第二步:通过观察第一步模型训练与推理过程中的激活状态,固定模型中某些参数(这里的意义在于限定最基本、最抽象的通用思维模式),使用远多于第一步粗粒度仅输入→输出的训练样本进行FT采样训练,这样是否就可以在模型训练到推理中即实现了自然的隐性神经网络参数学习以表征多跳连续精细化思考路径过程,又能够继承某些通用思维链泛化模式,同时还具备了多样性任务的适配,并且降低了精细化数据标注成本?但是这种模式也仅仅停留在某种先验下的猜想,且看上去并不是一种完备的E2E范式,如在第一步中的通用推理链学习的完备性。(注:用当前的话来说即是一种强先验的精雕,原因是我们似乎不能很好的把握第一步过程中这种通用推理模式的完备性以及泛化能力,甚至是这种泛化本身的内涵,也许一种可行的思路是在第一步中充分考虑并论证了第二步的复杂推理范畴在数据分布、泛化能力上的匹配与囊括,从而实现简单暴力下的E2E scaling law扩展)

当前时间线内容插入补充说明:

在这里,让我们得时间线回到当前2024年6月,前不久-2024/6/20,昆仑万维携手新加坡南洋理工大学开发并发表了一篇名为Q*的算法,《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》
我们知道,自OpenAI的Q*项目曝光后,引发业内众多讨论。据现有信息汇总,Q*项目被视作OpenAI在探索人工通用智能(Artificial General Intelligence, AGI)道路上的一次重大尝试,有望在包括数学问题解决能力、自主学习和自我改进等多个层面对人工智能技术带来革新性突破。不过迄今为止OpenAI没有公开关于Q*算法的具体细节,其效果究竟如何我们并不得而知。
在上面这篇《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》论文中,研究人员首先将大语言模型的推理轨迹分解为若干个状态,对于每一个状态,参考DeepCubeA中的设计,通过将定义Path Cost的g(s_t)函数和定义Accumulated Reward的Q*(s_t, a_t)集成到同一个f(s_t)函数内,实现了对历史状态收益和未来期望收益的综合考虑。
最后利用A*搜索算法对状态进行最佳优先搜索,在降低了一定的空间探索复杂度下,基于过程推理数据集尝试实现对复杂推理任务的最优规划路径,从而提升开源模型在推理任务上的性能。


其中g(s_t)表示当前轨迹中的多个历史状态,既{s1,...,s_t},的聚合收益。


具体g(s_t)的函数形式可以通过人为定义,例如判断当前代码是否符合语法规则等,或者通过构建Process Reward Model (PRM) 进行监督学习得到;g(s_t)中的聚合方式可以为求和,最大值,最小值等。
为了获得状态 - 动作对 (s_t, a_t) 的最优 Q 值以实现规划,研究人员在当前 LLM 策略生成的数据上通过监督学习的方式训练了一个代理 Q 值模型

。训练过程中的真实标签

可以由三种不同的方式得到,包括离线强化学习,蒙塔卡罗采样估计和利用更强大的语言模型补全。
 



通过这篇paper,结合回顾过去一年前自己关于这一子部分的思考,感觉除了进一步加深了对system2下复杂推理的理解外,更多印证了当初一些悬而未决不确定的想法:这篇论文感觉基于当前普遍而流形的雨露均沾型框架诸如RLHF-PPO,DPO,PRM,MDP,A*,不过感觉这里以A*为基的Q*在降低了一定的复杂空间探索成本下,对数据集中过程性推理数据与知识分布的完备性要求和依赖会很高,否则学习到的最佳优先搜索策略的Q*在推理泛化能力上可能还会存在很多局限而以致在解决深度复杂问题和提出创新性的推理路径上难以形成突破。

③ 进一步扩散猜想与假设:针对现在的基于prompt提示词的单跳信号激活(system1)推理模式,当调整了prompt输入,可以想象的假设会在模型网络中实现信号激活路径的范围性偏移,而这种转移是以prompt作为输入为提示导致发生偏移的,其中看似在模型神经网络中神经元间信号多跳传递这种推理链激活范式并没有起到主导作用,而可能只是实现了对训练数据样本中的大范围表象知识的一种学习与表达,虽然这种知识特征层级的多跳信号激活传递可能也是与复杂推理链在通过底层的数学变换以建立不同表征空间之间的pattern匹配本质相同。


「本篇配图」

这篇笔记与上一篇对比来看似乎问题不是很多,也许也侧面体现出我想要快速走出或逃离这个未知之境的这种焦虑心态吧,包括对核心问题进行了收敛与聚焦,并尝试冒进的提出了自己的猜想、假设甚至行动方案。但这些真的可行吗或者思考的足够完备吗?回到一年之后再来回顾,也许当初的观点是片面的甚至是错误的,但尽管如此,在回顾自己一年前的想法和观点后,仍在某种程度上被prompt到,激起了我对当初观点或想法的进一步深度思考。

因此,本篇笔记的配图放上一张在我有清晰记忆的30多年间,经常反复回味的几道美食,尽管这些美食在这一段时间历程中经历了一些加工、烹饪和口味上的变化,但更多当初儿时的滋味还在,每一次的再次尝试都会唤起我更多的美好回忆。


「融合RL与LLM思想,探寻世界模型以迈向AGI」内容回顾与再版更新

融合RL与LLM思想,探寻世界模型以迈向AGI「上篇」

融合RL与LLM思想,探寻世界模型以迈向AGI「中/下篇」

融合RL与LLM思想,探寻世界模型以迈向AGI「下篇」

融合RL与LLM思想,探寻世界模型以迈向AGI「总结」

合集PDF版本v6.2已更新,大家可访问百度网盘地址自行下载:

https://pan.baidu.com/s/1dwuviZkL8J7afBhjEQqXqg?pwd=lm51

提取码: lm51

或扫码下载:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/37513.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智慧校园-教材管理系统总体概述

智慧校园教材管理系统,作为教育信息化进程的又一实践成果,正逐步改变着传统教材管理的模式。该系统通过集成先进的信息技术,对教材从采购、分配、使用到回收的全过程进行了全面的数字化改造,旨在构建一个高效、透明、节约的教材管…

一次可输入多张图像,还能多轮对话!最新开源数据集,让AI聊天更接近现实

大模型对话能更接近现实了! 不仅可以最多输入20张图像,还能支持多达27轮对话。可处理文本图像tokens最多18k。 这就是最新开源的超长多图多轮对话理解数据集MMDU(Multi-Turn Multi-Image Dialog Understanding)。 大型视觉语言模…

2025艺考时间线来啦!所有艺考生码住!

2025届艺考生们的征途即将启程。对于每一个即将参加艺考的考生和家长来说,梳理艺考时间节点是尤为重要的。 对于艺考生而言,更早的规划意味着更充分的准备时间,更扎实的专业能力。补齐艺考信息差,以下2025艺考时间线一定要看明白…

知识库在AI大模型中的使用流程

大模型知识库的使用流程通常包括以下关键步骤,大模型知识库的使用流程需要跨学科的知识和技能,包括自然语言处理、数据库管理、软件工程等。同时,也需要关注用户体验、性能优化、安全保护等方面,以提供高质量的知识服务。北京木奇…

CC7关于ConstantTransformer返回值不能和put一样的分析

CC7关于ConstantTransformer返回值不能和put一样的分析 前言 实验室的gaorenyusi也是学到cc7的时候问了我一个很好的问题,我当时学的时候没有在意,然后就去调试分析解决了一下 分析 首先是paylaod package CC7;import org.apache.commons.collectio…

三英战吕布 | 第5集 | 温酒斩华雄 | 竖子不足与谋 | 三国演义 | 逐鹿群雄

🙋大家好!我是毛毛张! 🌈个人首页: 神马都会亿点点的毛毛张 📌这篇博客分享的是《三国演义》文学剧本第Ⅰ部分《群雄逐鹿》的第5️⃣集《三英战吕布》的经典语句和文学剧本全集台词 文章目录 1.经典语句2.文学剧本台…

MySQL之如何定位慢查询

1、如何定位慢查询 1.1、使用开源工具 调试工具:Arthas 运维工具:Promethuss、Skywalking 1.2、MySQL自带慢日志 慢查询日志记录了所有执行时间超过指定参数(long_query_time,单位:秒,默认10秒&#x…

小白上手AIGC-基于PAI-DSW部署Stable Diffusion文生图Lora模型

小白上手AIGC-基于PAI-DSW部署Stable Diffusion文生图Lora模型 前言资源准备开启体验服务创建工作空间 部署服务创建DSW实例安装Diffusers启动WebUI 写在最后 前言 在上一篇博文小白上手AIGC-基于FC部署stable-diffusion 中,说到基于函数计算应用模板部署AIGC文生图…

python基础语法 004-1流程控制- 条件控制

1 条件控制 1.1 表达 条件表达式冒号缩进 1.1.1 单个条件:满足表达式 """ ############if的表示 if 条件表达式:(缩进)条件满足以后要运行的代码例子: #遇到冒号要缩进 #缩进:1个缩进用4个空格,整个篇幅缩进需要统一 #4个…

揭开统计分析的秘密:独立样本和配对样本T检验实战案例

一、独立样本T检验 1.收集20名学生的自信心值 见下表,试问该指标是否与性别有关?(非参数检验或参数检验) 数据值 性别 1,1,1,1,2,2,1,1&#…

国产操作系统上netstat命令详解 _ 统信 _ 麒麟 _ 中科方德

原文链接:国产操作系统上netstat命令详解 | 统信 | 麒麟 | 中科方德 Hello,大家好啊!今天给大家带来一篇在国产操作系统上使用netstat命令的详解文章。netstat是网络统计(network statistics)的缩写,它是一…

【股指期权投教】一手股指期权大概多少钱?

一手股指期权的权利金大概在几千人民币左右,如果是作为期权卖方还需要另外缴纳保证金的。国内的股指期权有三种,沪深300、上证50、中证1000股指期权,每点合约人民币100 元。 期权合约的价值计算可以通过此公式得出:权利金的支付或…

软件工程实验

实验环境和需求 用户可以对相片进行按类别管理,用户可以设定不同的类别,然后上传照片到相应的类别中,并能进行照片的删除,注释 运行 运行并访问 localhost 8090,图片在数据库中的信息是D:/upgrade 后面的内容 se…

windographer数据操作教程

目录 通道设置将4个windographer文件拼到一起映射关系通道设置 先把风速列选中,将Type改为 wind speed 无需额外操作,确认一下即可

QT4-QT5(6)-const char* QString 乱码转换

我简单粗暴的给出个结论: QString GBK编码正常,可以转UTF-8编码,但会有少量乱码。 const char* 编码就不要转编码,转哪个都是乱码。 UTF-8.cpp 下 1.QString GBK->UTF-8 2.const char * GBK->UTF-8 const char *…

数据可视化在智慧园区中的重要作用

在现代智慧园区的建设和管理中,数据的作用越来越重要。智慧园区利用物联网、云计算、大数据等技术,实现了园区各类信息的实时采集和处理。数据可视化作为数据处理和展示的重要工具,为智慧园区的各个方面提供了强有力的支持。 首先&#xff0c…

mybatis的高级映射

mybatis的高级映射(重点) 表与表之间的关系: 一对一关系: 栗子:一个人对应一个身份证号 一对多关系: 栗子:一个用户可以有多个订单 1. 分析需求&…

[深度学习] 自编码器Autoencoder

自编码器(Autoencoder)是一种无监督学习算法,主要用于数据的降维、特征提取和数据重建。自编码器由两个主要部分组成:编码器(Encoder)和解码器(Decoder)。其基本思想是将输入数据映射…

文心一言 VS 讯飞星火 VS chatgpt (290)-- 算法导论21.3 3题

三、给出一个包含 m 个 MAKE-SET 、UNION 和 FINDSET 操作的序列(其中有 n 个是 MAKE-SET 操作),当仅使用按秩合并时,需要 Ω(mlgn) 的时间。如果要写代码,请用go语言。 文心一言: 在并查集(Union-Find)数…

2024最出色的代理软件评估及推荐

随着网络技术的飞速发展,代理软件已成为许多网络活动不可或缺的工具,特别是在数据抓取、网络安全防护等方面。在众多代理软件中,哪些能真正满足用户需求,提供卓越的性能和服务呢?我们的测评团队经过深入研究和测试&…