论文阅读_解释大模型_语言模型表示空间和时间

英文名称: LANGUAGE MODELS REPRESENT SPACE AND TIME
中文名称: 语言模型表示空间和时间
链接: https://www.science.org/doi/full/10.1126/science.357.6358.1344
https://arxiv.org/abs/2310.02207
作者: Wes Gurnee & Max Tegmark
机构: 麻省理工学院
日期: 2023-10-03
引用次数: 81

1 读后感

作者想要研究的是:模型是只学习字面意思,还是能够学习到更深层次的知识。比如人名、地名以及与时间和空间相关的位置。为了实现这一目标,作者使用了 llama-2 模型,输入数据集中的名称,然后,对每一层的输出进行线性变换,以预测其所属的时间和空间类别。实验证明,在模型的低层就开始构建了关于时间和空间的表示。而在模型中间层达到饱和点时,参数已经学习到了实体相关的时空信息。

2 摘要

目标:分析模型是只学习字面意思,还是能够学习到更深层次的知识。

方法:通过分析 Llama-2 系列模型对三个空间数据集(世界、美国、纽约地点)和三个时间数据集(历史人物、艺术品、新闻头条)的学习表示来寻找的证据。

结论:分析表明,现代大型语言模型(LLMs)能够获取关于空间和时间等基本维度的结构化知识,这支持了它们不仅仅学习表面的统计数据,而是真正学习了世界模型的观点。

3 引言

一种假设是,LLMs 学习大量相关性。但在仅接受文本训练的情况下,它们缺乏对基础数据生成过程的“理解”。另一种假设是,LLMs 在压缩数据时,会学习训练数据基础的生成过程,并生成更紧凑、连贯和可解释的世界模型。

图 1:Llama-2-70b 的时空世界模型。每个点对应于投射到学习的线性探针方向上的位置或事件的最后一个 token 的第 50 层激活。所描述的所有点都来自测试集。

使用 Llama-2 模型训练线性回归探测器,以预测地点和事件名称的内部激活在真实世界中的位置或时间。实验结果表明,模型在早期层次中构建了空间和时间的表示,并在模型的一半左右达到饱和点。较大的模型始终表现优于较小的模型。此外,研究还展示了这些表示是线性的,因为非线性探测器并不能取得更好的效果。同时,这些表示对于提示变化非常稳健,并且在不同类型的实体(如城市和自然地标)之间是统一的。

4 实证概述

4.1 数据集

构建了六个名称数据集,分别包括人物、地点、事件等。这些数据集涵盖了跨越多个时空尺度的地点或事件名称,并提供相应的空间或时间坐标。其中包括全球范围内的地点、美国和纽约市,以及历史人物过去 3000 年的死亡年份、自 1950 年代以来艺术和娱乐作品的发布日期,以及 2010 年至 2020 年新闻头条的发布日期。

4.2 模型和方法

所有的实验都使用基础的 Llama-2 语言模型进行,该模型的参数范围从 70 亿到 700 亿。对于每个数据集,通过模型处理每个实体名称,可能在之前加上一个简短的提示,并保存最后一个实体标记在每个层上的隐藏状态激活。

在网络激活上拟合了一个简单的模型,用于预测与标记输入数据相关的目标标签。给定一个激活数据集和包含时间或二维纬度和经度坐标的目标 𝒀,拟合线性脊回归探针。

通过线性预测器𝒀=𝑨𝑾,观察到在样本外数据上表现出了高预测性。这表明基础模型的表示可以通过线性变换解码成时间和空间信息。在所有实验中,使用高效的留一法交叉验证方法对探针训练集进行调优。

4.3 评估

为了评估探针性能,使用标准回归指标如 R2 和斯皮尔曼等级相关性来报告测试数据结果(对于空间特征,经纬度的相关性取平均值)。另外,还计算了每个预测的接近误差,即比实际目标点更接近目标点的预测所占比例。

5 时空线性模型

5.1 存在

首先要研究模型是否能够表示时间和空间,以及在模型中的哪个部分进行表示。另外,需要考虑模型大小对质量的影响。对每个空间和时间数据集进行 Llama-2-{7B、13B、70B} 的探针训练。主要发现是,在不同数据集上有相似的模式。空间和时间特征都可以用线性探针恢复,随着模型规模增大,这些表示变得更加准确,并且在达到平稳状态之前,模型前半部分的表示质量会平滑提高。

图 2:在每个模型、数据集和层上训练的线性探针的样本 R2

5.2 线性表示

使用非线性探针对任何数据集或模型的改进都很小。这证明了空间和时间也是线性表示的(或者至少是线性可解码的)。

5.3 对提示的敏感度

另一个问题是,这些空间或时间特征是否对提示敏感?换句话说,上下文是否可以影响或抑制对这些事实的回忆?

为了研究这个问题,创建了新的激活数据集,在每个实体标记之前添加了不同的提示语。在所有情况下,实验都包括一个“empty”提示。然后,包括一个提示,要求模型回忆相关事实,例如“地点的纬度和经度是多少?”或者“作者/书名发布日期是什么?”最后,在新闻标题数据集中,尝试在标题末尾进行探测,并在标题后附加一个句号标记。

图 3:当实体名称包含在 Llama-2-70b 的不同提示中时 R2 。

在图 3 中,明确提示模型获取信息,或给出消除歧义的提示,不会影响性能。而随机分散注意力明显降低了性能。大写实体也会降低性能。对于提高性能来说,最显著的改进是句子末尾的句点标记。这表明句点可能包含了一些摘要信息,用于概括它们所在句子的内容。

6 稳健性检查

6.1 通过泛化进行验证

上述实验证明,可以利用模型中后层的输出通过线性变换探针计算出名称对应的时间和空间位置。然而,这种探针可能仅仅学习了模型简单特征的某种线性组合,并不一定是模型本身的能力。

为了进一步验证,作者提出了 held out 方法,即训练一系列探针,分别针对世界、美国、纽约市、历史人物、娱乐和头条新闻数据集建模。在这过程中,保留其中一个数据集不参与训练(例如,在世界范围内保留了日本的数据)。然后评估探针在保留部分数据上的表现,并将其与正常划分训练/测试数据进行比较。

图 -3 显示了 held-out 方法的平均接近误差与普通的 nominal 方法中该数据块的测试点误差进行比较,随机性能为 0.5。实验证明,尽管 held-out 方法的泛化性能受到影响,但它显然比随机更好,尤其是对于空间数据集。

图 -4 展示了实体子类别(例如书籍和电影)识别的效果,并对比了 nominal 和 held out 的平均接近误差。结果显示,这些探针能够在实体类型之间进行泛化,唯一的例外是娱乐数据集。这也间接证明了模型以统一的方式表示不同类型的实体。

6.2 降维

尽管探针是线性的,但它们有大量的可学习参数,使得它们能够记忆大量信息。通过减少参数并将数据投影到主成分上进行训练,发现 Spearman 相关性随参数数量的增加而快速增加,这表明模型能显式地表示空间和时间。另外,数据的前几个主成分能够将不同类型的实体聚集在一起,这解释了为什么需要更多的主成分。

7 时空神经元

搜索具有输入或输出权重的单个神经元,这些神经元与学习的探针方向具有高度的余弦相似性。也就是说,这些神经元的方向与探针学习的方向相似。

最终发现,模型中存在单个神经元,这些神经元本身就是可预测的特征探针。此外,这些神经元对数据集中的所有实体类型都很敏感。如果将监督训练的探针视为模型表示这些空间和时间特征的程度的近似上限,那么单个神经元的性能就是一个下限。从而表明该模型已经学习并利用了空间和时间特征。

8 参考

https://baijiahao.baidu.com/s?id=1778899666625948263&wfr=spider&for=pc

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/727883.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux设备模型(八) - sysfs

一,sysfs目录介绍 sysfs是一个基于内存的虚拟的文件系统,有kernel提供,挂载到/sys目录下,负责以设备树的形式向user space提供直观的设备和驱动信息。 sysfs以不同的视角展示当前系统接入的设备: /sys/block 历史遗…

滑动窗口算法

前言 滑动窗口作为一个考点较高的算法,广泛应用于子串问题中,本文将进行详细讲解。 一、滑动窗口是什么 滑动窗口是双指针算法的一种,基本思路为维护一个窗口,然后从前往后遍历元素进行运算。 二、滑动窗口算法和其他双指针算法…

Unity Samples和帧动画的问题

拖动序列帧图片和自己创建clip的帧率不同 我今天在创建帧动画的时候用了两种方式第一种是直接拖动序列帧图片到Hierachy,然后生成的第二种是这样我发现两者播放的动画速率不一样最后查了半天查不到原因。最后发现是Samples的原因,而且Unity把Samples这个…

分类预测 | Matlab基于GWO-RBF灰狼算法优化径向基神经网络的分类预测

分类预测 | Matlab基于GWO-RBF灰狼算法优化径向基神经网络的分类预测 目录 分类预测 | Matlab基于GWO-RBF灰狼算法优化径向基神经网络的分类预测分类效果基本介绍程序设计参考资料 分类效果 基本介绍 Matlab基于GWO-RBF灰狼算法优化径向基神经网络的分类预测。基于灰狼算法(GWO…

记一次Flink任务无限期INITIALIZING排查过程

1.前言 环境:Flink-1.16.1,部署模式:Flink On YARN,现象:Flink程序能正常提交到 YARN,Job状态是 RUNNING,而 Task状态一直处于 INITIALIZING,如下图: 通过界面可以看到…

小火星露谷模组管理页面简介

1. 已有详细介绍的功能 模组管理页面部分功能已经有较为详细的介绍: 添加模组:https://svmbbs.smallfire.cn/d/15-dian-nao-zhong-yi-jing-you-duo-ge-mo-zu-ya-suo-wen-jian-ru-he-pi-liang-an-zhuang一键更新模组:https://svmbbs.smallfi…

python基础——入门必备知识

📝前言: 本文为专栏python入门基础的第一篇,主要带大家先初步学习一下python中的一些基本知识,认识,了解一下python中的一些专有名词,为日后的学习打下良好的基础,。本文主要讲解以下的python中的基本语法&…

苹果发布iOS17.4正式版升级,罕见带来一大波新功能!苹果数据备份软件 iOS系统管理软件 苹果数据备份到icloud iOS系统数据处理

近日,苹果发布了iOS17.4正式版,没想到的是居然有一大波新功能,如果你也是用iPhone的话,尤其是iPhone15新系列的,那么推荐你一定要升级下。下面让我给大家详细讲讲: 「电池健康」升级 电池设置界面得到了优…

LightDB支持 no_expand hint【24.1】【oracle兼容】

LightDB 从 24.1 开始支持 oracle no_expand hint。 no_expand hint 用于取消OR-expansion优化,不进行OR-expansion优化。 OR-expansion 在 Oracle 中 优化器会基于cost 优化带析取的查询块(OR), 会拆分这个查询块为多个查询块,…

项目快速搭建脚手架

1.单体项目 5分钟搭建一个Spring Boot 前后端分离系统-Ballcat Ballcat 也会为每个版本的升级改动列出详细的更新日志,以及增量 SQL。 Github 地址 :https://github.com/ballcat-projects/ballcat Gitee 地址:https://gitee.com/ballcat-pro…

数字孪生10个技术栈:原型设计,界面从无到有雏形的第一步。

一、什么是原型设计 可视化界面的原型设计是指在设计过程中创建一个低保真或高保真的可视化模型,以展示和演示最终产品的外观、布局和交互。它是设计师和开发团队在实际开发之前用来验证和确认设计方案的一个重要步骤。 可视化界面的原型设计主要包括以下几个方面&…

【OpenCV】仿 IOS 锁屏时钟

OpenCV 是一个开源的计算机视觉(Computer Vision)与机器学习软件库,提供了多种图像处理算法与接口。在图像处理中,按位运算是一类重要的运算,可以用于提取图像的重要部分。本文主要记录如何使用 OpenCV-Python 绘制仿 …

Redis生产事故(Jedis)

现象 jedis(ClusterPipeline)在pipeline模式下发生读写错误并不会同步redis集群拓扑变化. 分析 jedis客户端本身不默认自动支持集群拓扑的刷新。Jedis是一个较为底层的客户端,它提供了与Redis服务器进行交互的基本功能,但对于集…

grid布局所有元素在同一行显示且等分列

目录 一、问题 二、实现方式 三、总结 tiips:如嫌繁琐,直接移步总结即可! 一、问题 1.grid布局可以通过 grid-template-columns来指定列的宽度。且可以通过repeat来指定重复的次数。但是现在的需求是:grid布局中元素的数量不确定&#…

一篇文章带你通关并查集(持续更新中)

这篇文章的所有题目均来自于自行整理,代码均来自于自行梳理调试(思路可能比较暴力)。初衷在于整理练习思路,且起到督促自己学习的作用 本文分成将三个模块 1.普及组 (洛谷黄题) 2.提高组 (洛…

sqlserver 默认端口号不通 1433 开启监听

1.打开SQL Server 2022 配置管理器 查看这3个东西是否启用,然后双击TCP/IP 把默认端口全部设置成1433 然后cmd netstat -an | find "1433" 查看端口是否打开监听

存储架构 NAS 与 SAN:有什么区别?

SAN(Storage Area Network)和NAS(Network Attached Storage)是两种存储架构,它们在数据存储和管理方面有着不同的设计理念和应用场景。SAN通常将存储设备连接到一个独立的高速网络,而NAS则通过普通的网络协…

Unity性能优化篇(九) 模型优化之LOD技术概述以及操作方法

LOD模型优化技术概述: 1.LOD技术可以根据摄像头远近来显示不同精度的模型(例如吃鸡游戏 随着跳伞高度 来显示下面树木以及建筑的模型精度) LOD模型优化技术操作方法: 可使用Unity自带的LOD Group组件,并根据项目的情况来调整该组件的属性。Untiy资源商店也有一些其…

信息安全概论 习题

用密钥information构造一个Playfair矩阵 Playfair密码是一种替换加密技术,它不像传统的单字母替换密码那样工作,而是将信息分成一对字母(双字母)进行加密。构造Playfair矩阵时,首先需要一个密钥词,然后根据…

如何选择VR全景设备,才能拍摄高质量的VR全景?

随着VR全景技术的不断成熟和发展,VR全景已经成为了摄影爱好者乐于尝试的新手段,VR全景也为广大用户提供了一个全新的视角来探索世界,如果想要拍摄出高质量的VR全景,选择合适的VR全景拍摄设备以及掌握正确的拍摄技巧才是关键。 VR全…