具备实时数据更新能力的大语言模型——Larimar

ChatGPT、Claude.ai等大模型产品就像“图书馆”一样为我们生成各种各样的内容。但是想更新这个图书馆里的知识却不太方便,经常需要漫长、费时的预训练、蒸馏才能完成。

研究人员提出了一种具有情景记忆控制的大语言模型Larimar,这是一种类似人脑"海马体"的"情景记忆"能力

Larimar主要设计了一个外部记忆模块,专门储存独立的实时数据,并将这些记忆有效地注入到大语言模型中,使得Larimar无需重新预训练就能在内容生成过程中精准使用新的知识数据。

论文地址:https://arxiv.org/abs/2403.11901

图片

Larimar核心方法

研究人员主要受到了人脑“海马体”神经结构的启发。海马体在人类的多种认知过程中扮演着关键角色,尤其是在记忆形成、组织和检索,以及空间导航方面。

海马体对短期记忆转化为长期记忆至关重要,特别是在形成新的记忆和学习新信息的过程中,帮助将经验和信息从短期记忆库存转移到大脑的其他部分以形成长期记忆。

Larimar采用了互补学习系统理论的观点,其中海马体快速学习系统将样本记录为情景记忆,而新皮层慢速学习系统学习输入分布的摘要统计信息作为语义记忆。

图片

Larimar的目标是将情景记忆模块作为当前一组事实更新或编辑的全局存储,并将这个记忆作为大语言模型解码器的条件。为了高效且准确地更新这个记忆,研究人员利用了类似于Kanerva Machine的分层记忆结构,其中内存的写入和读取被解释为生成模型中的推理。

此外,这种灵活的模块化设计也使得Larimar具备遗忘数据、防泄密等多种特殊记忆控制功能。

Larimar多个核心模块

1)大语言模型编码器:Larimar使用了BERT模型作为基础编码器,其作用是将输入文本映射到潜在语义空间,得到对应的向量表示数据,并作为外部"情景记忆"模块的写入内容。

2)外部情景记忆模块:Larimar的核心模块,设计了一个固定大小(如512x768)的存储矩阵,用于存放编码器输出的潜在向量表示。该记忆模块借鉴了Kanerva的分层记忆架构思路。当有新的知识数据输入到Larimar时,就会被写入到情景记忆模块中,并且需要输出时会进行随机抽取。

图片

3)大语言模型解码器:解码器模块的作用是将情景记忆模块读取的向量进一步解码,生成最终的文本输出,Larimar使用了GPT系列模型作为解码器。解码器通过自注意力机制将记忆模块中的数据与其他信息整合对输出施加影响,使得生成的文本包含了新的数据知识。

图片

4)记忆范围检测器:有时候我们期望生成的输出不受新知识数据影响,执行原本的数据内容生成,就可以通过记忆范围检测器来实现。

这是一个小型序列二分类模型,根据输入判断是否需要利用记忆模块进行条件生成。如果检测器输出"无需记忆",则直接执行无条件解码;反之则会利用新知识数据进行生成。

研究人员表示,Larimar是一种创新技术架构,可以有效解决大语言模型数据更新不及时、消除数据中存在的非法、偏见、错误等数据,同时可以很好保护那些敏感的数据防止外漏。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/782070.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

love 2d win 下超简单安装方式,学习Lua 中文编程 刚需!!

一、下载love 2d 参考:【Love2d从青铜到王者】第一篇:Love2d入门以及安装教程 或直接下载: 64位,现在一般电脑都可以用。 64-bit zipped 32位,很复古的电脑都可以用。 32-bit zipped 二、解压 下载好了之后,解压到…

css3之动画animation

动画animation 一.优点二.定义和使用三.动画序列和解释四.常见属性及解释五.简写(名字和时间不能省略)(持续时间在何时开始的时间前)(简写中无animation-play-state)六.例子1.大数据热点图2.奔跑的熊大(一个…

vitess执行计划缓存 测试

打开执行计划器缓存: sysbench /usr/local/share/sysbench/oltp_write_only.lua --mysql-host127.0.0.1 --mysql-port15306 --mysql-userroot --mysql-password --mysql-dbcustomer --report-interval10 100s sysbench /usr/local/share/sysbench/oltp_read_only.l…

vlanif三层交换机实现不同网络通信

实验目的:通过三层交换机实现不同 网络通信,之前都是路由器进行不同网络转发 拓扑图 内容:左边vlan10,右边vlan20 lsw1接口通过所有vlan lsw2网路vlan10 lsw3网络vlan20 问题点:开始只是配置了最上面LSW1的交换机…

三台电机的顺启逆停

1,开启按钮输入信号是 电机一开始启动,5秒回电机2启动 ,在5秒电机三启动 关闭按钮输入时电机3关闭 ,5秒后电机2关闭 最后电机一关闭 2,思路开启按钮按下接通电机1 并且接通定时器T0 定时器T0 到时候接通电机2 并且开…

Predict the Next “X” ,第四范式发布先知AIOS 5.0

今天,第四范式发布了先知AIOS 5.0,一款全新的行业大模型平台。 大语言模型的原理是根据历史单词去不断预测下一个单词,换一句常见的话:Predict the Next “Word”。 当前对于行业大模型的普遍认知就是沿用这种逻辑,用大…

聊聊多版本并发控制(MVCC)

多版本并发控制(MVCC) MVCC一直是数据库部分的高频面试题,这篇文章来聊聊MVCC是什么,以及一些底层原理的实现。 当前读和快照读: 当前读:读取的是事务最新的版本,读取的过程中其他并发事务不…

适用于 Windows 的 6 个最佳视频转换器

视频转换器可以帮助您在设备上转换和播放不受支持的视频格式。它还可以方便地减小视频文件大小、以通用格式组织所有视频或与其他人共享文件以在不同设备上播放。 Windows 有大量视频转换器可供选择。虽然有些是免费的,但其他一些则提供迎合专业用户的高级功能。在…

【DETR系列目标检测算法代码精讲】01 DETR算法01 DETR算法框架和网络结构介绍

为什么要有DETR 总所周知,传统的目标检测算法非常依赖于anchor和nms等手工设计操作,非常费时费力,自然而然的就产生了取消这些操作的想法。但是我们首先需要思考的是,为什么我们需要anchor和nms? 因为我们是没有指定…

安卓玩机工具推荐----MTK芯片读写分区 备份分区 恢复分区 制作线刷包 从0开始 工具操作解析【三】

同类博文; 安卓玩机工具推荐----MTK芯片读写分区 备份分区 恢复分区 制作线刷包 工具操作解析 安卓玩机工具推荐----MTK芯片读写分区 备份分区 恢复分区 制作线刷包 工具操作解析【二】-CSDN博客 回顾以往 在以前的博文简单介绍了这款工具的rom制作全程。今天针对这款工具的…

【Java多线程】8——CompletableFuture

8 CompletableFuture ⭐⭐⭐⭐⭐⭐ Github主页👉https://github.com/A-BigTree 笔记仓库👉https://github.com/A-BigTree/tree-learning-notes 个人主页👉https://www.abigtree.top ⭐⭐⭐⭐⭐⭐ 如果可以,麻烦各位看官顺手点个s…

【UI框架】——保姆式使用教程

👨‍💻个人主页:开发者-曼亿点 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 曼亿点 原创 👨‍💻 收录于专栏&#xff1a…

win11 环境配置 之 Jmeter(JDK17版本)

一、安装 JDK 1. 安装 jdk 截至当前最新时间: 2024.3.27 jdk最新的版本 是 官网下载地址: https://www.oracle.com/java/technologies/downloads/ 建议下载 jdk17 另存为到该电脑的 D 盘下,新建jdk文件夹 开始安装到 jdk 文件夹下 2. 配…

Java23种常见设计模式汇总

七大原则网站地址:设计模式7大原则+类图关系-CSDN博客 创建型设计模式:创建型设计模式合集-CSDN博客 七大结构型设计模式:7大结构型设计模式-CSDN博客 11种行为型设计模式: 11种行为型模式(上&#xff0…

Oracle 19c 高可用部署实战系列之Data Guard理论与实战

课程介绍 Oracle Data Guard确保企业数据的高可用性、数据保护和灾难恢复。 Oracle Data Guard提供了一组全面的服务,用于创建、维护、管理和监视一个或多个备用数据库,使生产Oracle数据库能够在灾难和数据损坏中幸存下来。Oracle Data Guard将这些备用…

我于窗中窥月光,恰如仰头见“链表”(Java篇)

本篇会加入个人的所谓‘鱼式疯言’ ❤️❤️❤️鱼式疯言:❤️❤️❤️此疯言非彼疯言 而是理解过并总结出来通俗易懂的大白话, 小编会尽可能的在每个概念后插入鱼式疯言,帮助大家理解的. 🤭🤭🤭可能说的不是那么严谨.但小编初心是能让更多人…

java项目通用Dockerfile

创建Dockerfile文件,放到项目根目录下和pom.xml同级别 仅需修改为自己项目端口号即可,其他的无需改动 FROM openjdk:11.0.11-jre-slimCOPY target/*.jar .EXPOSE 8080ENTRYPOINT java -jar *.jar构建语句(注意末尾的点 . ) docker build -t container…

Android Studio Iguana | 2023.2.1 补丁 1

Android Studio Iguana | 2023.2.1 Canary 3 已修复的问题Android Gradle 插件 问题 295205663 将 AGP 从 8.0.2 更新到 8.1.0 后,任务“:app:mergeReleaseClasses”执行失败 问题 298008231 [Gradle 8.4][升级] 由于使用 kotlin gradle 插件中已废弃的功能&#…

C语言例1-3:设 int a; ,语句 for(a=0;a==0;a++); 和语句 for(a=0;a=0;a++); 执行的循环次数分别是

答案&#xff1a;1,0 代码如下&#xff1a; #include<stdio.h> int main(void) {int a;for(a0;a0;a){printf("1\n");} return 0; } 结果如下&#xff1a; 代码如下&#xff1a; #include<stdio.h> int main(void) {int a;for(a0;a0;a){printf("…

京东云8核16G服务器配置租用优惠价格1198元1年、4688元三年

京东云轻量云主机8核16G服务器租用优惠价格1198元1年、4688元三年&#xff0c;配置为8C16G-270G SSD系统盘-5M带宽-500G月流量&#xff0c;华北-北京地域。京东云8核16G服务器活动页面 yunfuwuqiba.com/go/jd 活动链接打开如下图&#xff1a; 京东云8核16G服务器优惠价格 京东云…