华为诺亚发布无限上下文大模型,超越SoTA 4.3%

你的大语言模型是不是也患上了"长文健忘症"?当使用大模型遇到长上下文时总是会出现词不达意?别担心,LLM界的"记忆大师"来啦!华为诺亚方舟实验室最新推出的EM-LLM模型,就像是给大模型装上了"超级记忆芯片",让它们轻松应对天文数字般的超长文本。这个创新模型巧妙地将人类认知科学中的事件分割和情景记忆原理融入到了LLM中,让大模型也能像人脑一样高效处理超长文本。

EM-LLM的核心秘诀在于它模仿了人类大脑处理信息的方式。它能够自动将长文本切分成有意义的"事件",并建立类似人类情景记忆的存储结构。这种设计不仅让模型能够更好地理解和记忆长文本的内容,还能在需要时快速检索相关信息。

在LongBench长文本基准测试中,EM-LLM的整体性能超越了此前的最佳模型,平均提升4.3%。特别是在段落检索任务上,EM-LLM表现依旧非常出色,性能提升高达33%,充分展示了其在长文本理解和信息检索方面的卓越能力。

图片

论文标题:
HUMAN-LIKE EPISODIC MEMORY FOR INFINITE CONTEXT LLMS

论文链接:
https://arxiv.org/pdf/2407.09450

LLM的"长上下文记忆"挑战

在人工智能快速发展的今天,大语言模型(LLM)已经成为了各行各业的得力助手。然而,这些AI"助手"却面临着一个棘手的问题:一旦遇到长文本,它们的表现就会大打折扣,仿佛患上了"长文健忘症"。这个问题严重制约了LLM在实际应用中的表现,特别是在需要处理长篇文档、复杂报告或大量上下文信息的场景中。

为什么会出现这个问题呢?主要是因为现有的LLM在处理长文本时面临着三大挑战:

  • 计算复杂度问题:Transformer架构中的自注意力机制的计算复杂度随文本长度呈平方增长。这意味着当处理长文本时,计算资源的消耗会急剧增加,导致处理效率大幅下降。

    图片

  • 位置编码的局限性:现有的位置编码方法(如RoPE)难以有效地扩展到超出训练长度的文本,这使得模型在处理超长文本时难以准确捕捉词语之间的位置关系。

    图片

  • 注意力分散问题:在长文本中,关键信息容易被大量不相关的内容"淹没"。模型难以在庞大的token序列中准确定位和提取重要信息。

面对这些挑战,研究人员提出了各种解决方案。其中,检索增强生成(RAG)和基于KV缓存的方法是两个主要方向。RAG方法通过外部知识库来增强模型的性能,而KV缓存方法则尝试在模型内部保存和检索历史信息。然而,这些方法仍然存在一些局限性,无法完全解决长文本处理的问题。

为解决这些问题,华为诺亚方舟实验室提出了创新的EM-LLM模型。EM-LLM的核心思想是模仿人类大脑的情景记忆机制,通过将长文本分割成离散的"事件"来组织和检索信息。

EM-LLM处理长文本可以分为三个步骤:

  1. 事件分割:模型首先识别文本中的"surprise"点,这些点可能是不同"事件"的分界。

  2. 记忆形成:识别出的事件被存储为离散的记忆单元,每个单元包含事件的关键信息。

  3. 记忆检索:当需要处理新输入时,模型会检索相关的历史事件。这个过程包括基于相似度的检索和考虑时间连续性的检索。

这种设计使EM-LLM能够有效处理超长文本,同时保持较低的计算复杂度。它不仅提高了LLM处理长文本的能力,同时还展示了将认知科学原理应用于人工智能的可行性。

给LLM装上"人脑芯片"

EM-LLM的核心思想是模仿人类大脑处理长期记忆的方式,主要包括三个关键步骤:基于惊奇度的事件分割、边界优化和两阶段记忆检索。让我们详细探讨每个步骤:

基于惊奇度的事件分割

EM-LLM首先对输入的长文本进行"事件分割"。这个过程通过计算每个词的"惊奇度"来判断是否应该在此处进行分割。具体来说,对于每个token ,模型计算其条件概率:

然后,通过计算负对数似然,得到惊奇度:

当惊奇度超过阈值  时,就认为在此处出现了一个事件边界:

其中,阈值  是动态计算的:

这里, 和  分别是前  个token的惊奇度均值和标准差, 是一个可调节的参数。

边界优化

初步的事件分割后,EM-LLM引入了边界优化步骤。这个过程使用图论中的概念,将token之间的相似度视为图的邻接矩阵。对于注意力头 ,邻接矩阵  定义为:

其中  和  是对应token的key向量,sim是相似度函数(这里使用点积相似度)。

优化过程使用两个指标:模块化(Modularity)和导电率(Conductance)。模块化  定义为:

其中  是图中总边权重, 是节点  所属的事件, 是克罗内克函数。

导电率  定义为:

其中  是图的一个子集, 是  内部的总边权重,其由以下的公式进行计算:

边界优化的目标是最大化模块化或最小化导电率,从而使事件内部的token更相关,事件之间更分离。

两阶段记忆检索

当模型需要处理新的输入时,它采用两阶段方法来检索相关的历史信息:

  1. 相似度检索:使用k近邻()搜索,找出与当前查询最相似的  个历史事件。这些事件形成"相似度缓冲区"。

  2. 连续性检索:为了模拟人类记忆的连续性特征,模型还会检索出上述事件在原文中的相邻事件,形成大小为  的"连续性缓冲区"。

最终,模型将  个事件添加到上下文窗口中。这种方法既考虑了信息的相关性,又保留了原始文本的时序特征。

下图直观地展示了这个过程:

图片

  1. 输入序列根据惊奇度进行初步分割。

  2. 形成离散的事件记忆,每个事件保留初始token和局部上下文。

  3. 通过  搜索选择相关事件。

  4. 最终的上下文窗口包括初始token、连续性缓冲区、相似度缓冲区和局部上下文。

这种设计使EM-LLM能够高效处理超长文本,同时保持了对重要信息的准确检索和利用。通过模仿人类记忆机制,EM-LLM在提高长文本处理能力的同时,也为我们理解人类认知过程提供了新的视角。

EM-LLM的"过目不忘"大考验

华为诺亚方舟实验室的研究人员设计了一系列全面的实验来测试EM-LLM的性能。这些实验不仅展示了EM-LLM在长文本处理方面的卓越表现,还深入探讨了其工作原理与人类认知的相似性。

LongBench测试

研究人员首先在LongBench长文本基准测试上对EM-LLM进行了评估。这个测试就像是AI界的"马拉松",考验模型的"长跑"能力。

下表展示了EM-LLM在LongBench上的表现,EM-LLM在15个任务中的14个上都超越了此前的最佳模型——InfLLM。

图片

特别需要注意的是:

  • 在PassageRetrieval(段落检索)任务上,EM-LLM实现了惊人的33.47%性能提升;

  • 在HotpotQA任务上,EM-LLM比InfLLM高出了9.38%;

  • 在2WikiMQA任务上,EM-LLM的表现比InfLLM好6.41%。

总体而言,EM-LLM在所有任务上的平均得分比InfLLM高出了4.3%,展现了其在各种长文本任务中的全面优势。

与人类事件感知的"心灵感应"

研究人员还比较了EM-LLM的事件分割结果与人类的事件感知。这个实验就像是测试LLM和人类之间的"心灵感应"能力。

下图展示了不同分割方法在LLaMA2注意力头的KV缓存中的表现。

图片

从上图中可以看出:

  • 人类感知的事件分割在三个指标(模块化、导电率和内部/外部相似度比)上都表现优异;

  • EM-LLM的基于惊奇度的分割方法(S)和加入边界优化的方法(SM, SC)与人类感知非常接近,甚至在某些方面表现得更好;

  • 相比之下,固定大小的分割方法(F, FM, FC)表现较差,特别是InfLLM使用的固定分割方法(F)甚至不如随机分割。

下图进一步比较了不同方法与人类报告的事件边界之间的距离。结果显示,EM-LLM的方法(S, SM, SC)与人类感知的一致性最高。

图片

不同分割方法的"擂台赛"

研究人员还在PG-19数据集上比较了不同的事件分割方法。下表展示了在不同LLM(Mistral-7B, LLaMA2-7B, LLaMA3-8B)上的实验结果。

图片

从实验结果中可以看出:

  • 基于惊奇度的分割方法(S)和加入边界优化的方法(SM, SC)在各项指标上都表现优异;

  • 边界优化(SM, SC)进一步提升了性能,特别是在模块度和内部/外部相似度比上;

  • 相比之下,固定大小的分割方法(F, FM, FC)表现较差,尤其是在没有优化的情况下(F)。

相似性、连续性与时序的"平衡艺术"

研究人员还探讨了不同组件权重对模型性能的影响。研究人员测试了不同参数设置下EM-LLM在LongBench各任务上的表现。

图片

图片

  • 结合相似性搜索和连续性检索的方法(SM+C)在大多数任务中表现最佳;

  • 连续性缓冲区的大小对性能有显著影响,最佳比例通常在30%到50%之间;

  • 不同任务对连续性和相似性的需求不同,如MultiNews任务在70%连续性比例时表现最佳。

EM-LLM不仅在各种长文本任务中表现出色,超越了现有最佳模型,其事件分割和记忆检索机制还展现出与人类认知相似的特征,在保持高效处理能力的同时,实现了更接近人类的文本理解和信息组织方式。

总结与展望

华为诺亚方舟实验室这次真给大模型界来了个大招!他们的EM-LLM模型不仅实现了"无限"上下文长度,还在LongBench测试中超越了此前的最佳成绩,平均提升4.3%。这就像给AI装上了记忆芯片。EM-LLM的成功展示了跨学科研究的威力,仿佛让LLM上了一个"人类大脑速成班"。

这一突破可能带来众多有趣应用,从能轻松解读《战争与和平》的大模型文学评论家,到记住你上月所有对话的超级客服,再到能处理繁琐合同的法律专家和分析全面病史的医疗助手。虽然距离真正的"通用人工智能"还有距离,但EM-LLM无疑是AI进化路上的重大进步,不仅突破了LLM在长文本理解上的瓶颈,还为大模型的应用领域带来了新的可能性。

图片

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/51505.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

典型二进制翻译系统---用户级翻译

目录 QEMU MDT HQEMU 补充 Valgrind 包括 CrossBit 补充 MTCrossBit Strata-ARM Box86 HQEMU SymQEMU QEMU 静态二进制翻译器 是一个开源的多平台的虚拟器,能够在软件中模拟一台机器 KVM(Kernel-based Virtual Machine)是 Linu…

内螺纹销主要应用优势及应用领域

内螺纹销是一种常见的机械连接件,它通常用于连接两个或多个零件,并通过其内螺纹结构来实现紧固和定位。这种零件的设计简单却非常实用,在各种工业领域中都能找到它的身影。下面我们就来了解一下内螺纹销的主要应用优势以及它们的应用领域。 应…

华测无人船为水库库容精准测量提供解决方案

水库作为融合防洪、供水、发电及生态维护等多重功能于一体的基础设施,其库容的精准测量对于水资源管理及防洪调度的科学决策具有举足轻重的地位。然而,随着水库使用年限的增加,泥沙淤积现象的加剧以及地理信息更新的滞后,库容复核已成为确保水库安全高效运行不可或缺的一环。 当…

自写ApiTools工具,功能参考Postman和ApiPost

近日在使用ApiPost的时候,发现新版本8和7不兼容,也就是说8不支持离线操作,而7可以。 我想说,我就是因为不想登录使用才从Postman换到ApiPost的。 众所周知,postman时国外软件,登录经常性抽风,…

Redis:管道

1. 面试题 如何优化频繁命令往返造成的性能瓶颈? 问题由来 edis是一种基于客户端-服务端模型以及请求/响应协议的TCP服务。一个请求会遵循以下步骤: 1 客户端向服务端发送命令分四步(发送命令→命令排队→命令执行→返回结果),并监听Socket…

You have an error in your SQL syntax; check the manual that corresponds to your

You have an error in your SQL syntax; check the manual that corresponds to your 目录 You have an error in your SQL syntax; check the manual that corresponds to your 【常见模块错误】 【解决方案】 欢迎来到我的主页,我是博主英杰,211科班…

python+vue3+onlyoffice在线文档系统实战20240725笔记,首页开发

解决遗留问题 内容区域的高度没有生效,会随着菜单的高度自动变化。 解决方案:给侧边加上一个最小高度。 首页设计 另一种设计: 进来以后,是所有的文件夹和最近的文件。 有一张表格,类似于Windows目录详情&…

每日一题,力扣leetcode Hot100之560.和为K的子数组

解法一: 暴力解法循环直接判断从每个index开始的切片是否满足 class Solution:def subarraySum(self, nums: List[int], k: int) -> int:# 要求的连续子数组count 0n len(nums)for i in range(n):for j in range(i, n):if sum(nums[i:j1]) k:count 1return…

科研绘图系列:R语言山脊图(Ridgeline Chart)

介绍 山脊图(Ridge Chart)是一种用于展示数据分布和比较不同类别或组之间差异的数据可视化技术。它通常用于展示多个维度或变量之间的关系,以及它们在不同组中的分布情况。山脊图的特点: 多变量展示:山脊图可以同时展示多个变量的分布情况,允许用户比较不同变量之间的关…

STM32CubeIDE代码字体大小

进入首选项设置 搜索editor,按照图中标号,进行设置 按图中标号进行设置,选择需要的字号 到此设置完成

C++STL详解(五)——list类的接口详解

一.list的介绍 list容器的底层是双向循环带头链表,在CPP中,我们对双向循环带头链表进行了一定程度的封装。 如果你不了解双向链表,那么可以浏览此片博文:双向链表 二.list的定义方式以及赋值 2.1list的构造方式 在这里我们要…

英特尔宣布针对对Llama 3.1进行优化 以提升所有产品的性能

日前Meta正式发布了Llama 3.1开源大模型,以其庞大的参数量和卓越性能,首次在多项基准测试中击败了GPT-4o等业界领先的闭源模型。允许开发者自由地进行微调、蒸馏,甚至在任何地方部署,这种开放性为AI技术的普及和创新提供了无限可能…

具备音视频指挥调度能力的指挥中心需要接入哪些设备呢?

近年来,具备音视频能力的指挥调度系统在各行各业中应用广泛,通过音视频的通信调度能力,为行业提供灵活的指挥调度功能,实现行业多种音视频应用场景的运用,满足企业更好地完成企业安全生产、应急协调等工作的需求。 华…

代码随想录训练营 Day13打卡 二叉树 part01 递归遍历 迭代遍历 层序遍历

代码随想录训练营 Day13打卡 二叉树 part01 一、 二叉树理论基础 二叉树是一种重要的数据结构,用于表示具有层次关系的数据。二叉树的每个节点最多有两个子节点,通常称为左子节点和右子节点。 种类 普通二叉树: 节点最多有两个子节点&…

Hadoop3:HDFS的客户端工具Big Data Tools(IDEA版本)

1、安装插件 在Plugins里搜索Big Data Tools 安装完成后,重启IDEA 2、配置Windows环境 主要是配置Hadoop环境,否则无法通过插件远程连接HDFS 1、解压hadoop安装包 2、进入hadoop的bin目录 放入图中标红的两个文件 3、配置hadoop环境变量 新建HAD…

这个暑假适合港澳游?免税额度提升、专属暑期活动、餐饮娱乐攻略

2024年7月1日免税额度的新政实施,在香港澳门消费的免税额度将达到15000元。这也让今年夏天的港澳旅游多了几分吸引力,如果有计划趁着这个暑假前往港澳旅游的话,这篇港澳游攻略一定能帮到你! 【民以食为天,旅游第一步—…

“多分辨率图网络”的模型:准确识别卵巢癌各种亚型

卵巢癌发病率居我国女性生殖系统恶性肿瘤第3位,死亡率居妇科恶性肿瘤之首,其特点是存在异质性的组织学亚型。最常见的五种亚型,占所有卵巢癌的90%,分别是高级别浆液性癌(HGSC)、低级别浆液性癌(…

项目实战--JUC之CompletableFuture温故

CompletableFuture温故 一、前言二、Future三、CompletableFuture3.1 CompletableFuture定义3.2 CompletableFuture使用场景3.3 CompletableFuture 常见操作3.3.1 创建CompletableFuture3.3.2 使用CompletableFuture3.3.3 异常处理3.3.4 注意事项 四、CompletableFuture处理工具…

阿里云创建的SpringBoot项目打包时找不到主清单属性

原因是因为maven配置文件中有一个打包属性配置 <configuration><mainClass>com.yang.ExamSystemApplication</mainClass><!-- 找到这个<skip>true</skip>标签关闭&#xff0c;或者属性改为false --><skip>true</skip> </c…

Hive环境搭建(Mysql数据库)

【实验目的】 1) 了解hive的作用 2) 熟练hive的配置过程&#xff08;Mysql数据库&#xff09; 【实验原理】 Hive工具中默认使用的是derby数据库&#xff0c;该数据库使用简单&#xff0c;操作灵活&#xff0c;但是存在一定的局限性&#xff0c;hive支持使用第三方数据库&…