Editing Large Language Models: Problems, Methods, and Opportunities

本文是LLM相关的系列文章,针对《Editing Large Language Models: Problems, Methods, and Opportunities》的翻译。

编辑大语言模型:问题、方法和机遇

  • 摘要
  • 1 引言
  • 2 问题定义
  • 3 当前方法
    • 3.1 保留LLM参数的方法
    • 3.2 修改LLM参数的方法
  • 4 初步实验
    • 4.1 数据集和模型
    • 4.2 基本结果
  • 5 综合分析
    • 5.1 可移植性
    • 5.2 局部性
    • 5.3 效率
    • 5.4 批编辑分析
    • 5.5 序列编辑分析
  • 6 与相关工作的关系
    • 6.1 LLMs中的知识
    • 6.2 终身学习与遗忘
    • 6.2 LLMs的安全与隐私
  • 7 结论
  • 不足

摘要

深度学习的最新进展促成了大型语言模型(LLM)的出现,这些模型在理解和生成类似于人类语言的文本方面表现出了令人印象深刻的天赋。尽管有能力训练能力很强的LLM,但保持其相关性和纠正错误的方法仍然难以捉摸。为此,在过去几年中,LLM编辑技术激增,其目标是在不影响其他输入性能的情况下,改变特定领域内LLM的行为。本文对LLM模型编辑的相关问题、方法和机遇进行了深入探讨。特别是,我们对任务定义和与模型编辑相关的挑战进行了详尽的概述,并对我们目前掌握的最先进的方法进行了深入的实证分析。我们还构建了一个新的基准数据集,以促进更稳健的评估,并找出现有技术固有的持久问题。我们的目标是为每种模型编辑技术的有效性和可行性提供有价值的见解,从而帮助研究界在为特定任务或背景选择最合适的方法时做出明智的决定。

1 引言

2 问题定义

3 当前方法

3.1 保留LLM参数的方法

3.2 修改LLM参数的方法

4 初步实验

4.1 数据集和模型

4.2 基本结果

5 综合分析

5.1 可移植性

5.2 局部性

5.3 效率

5.4 批编辑分析

5.5 序列编辑分析

6 与相关工作的关系

6.1 LLMs中的知识

6.2 终身学习与遗忘

6.2 LLMs的安全与隐私

7 结论

不足

模型编辑还有几个方面没有在本文中介绍。

编辑范围值得注意的是,模型编辑的应用超出了单纯的事实背景,突显了其巨大的潜力。个性、情感、观点和信仰等元素也属于模型编辑的范围。虽然这些方面已经有所探索,但它们仍然是相对未知的领域,因此本文没有详细介绍。此外,多语言编辑(Xu et al.,2022)是一个值得未来关注和探索的重要研究方向。

编辑黑盒LLM与此同时,像ChatGPT和GPT-4这样的模型在一系列自然语言任务中表现出非凡的性能,但只能通过API访问。这就提出了一个重要的问题:我们如何编辑这些“黑盒”模型,这些模型在下游使用过程中也往往会产生不希望的输出?目前,有一些工作利用上下文学习(Onoe et al.,2023)和基于提示的方法(Murty et al.,2022)来修改这些模型。它们在每个示例之前都有一个指定自适应目标的文本提示,这显示了作为模型编辑技术的前景。

在上下文编辑中,给定精炼的知识上下文(指令)作为提示,模型可以生成与所提供的知识相对应的输出。然而,这种方法可能会遇到上下文中介失败的问题,因为语言模型可能无法一致地生成与提示对齐的文本。此外,这些方法不能修改模型的内在知识,因为每次编辑都需要在输入前准备文本。值得注意的是,先前的研究表明,指导LLM可以帮助回忆从预训练中已经学到的概念,在演示中进行内隐学习(例如,注意力层)(Dai et al.,2022b),或者将任务识别和任务学习区分开来(Pan等人,2023)。因此,直观地进行上下文编辑,将提示中的知识整合到参数空间中。因此,LLM可以回忆起他们失败的地方并修复错误,而无需再进行进一步的演示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/5142.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python实现拼多多商品详情接口API

最近工作需要用到拼多多的一些接口,官方竟然没有提供,python的sdk,于是就自己简单的写了一个商品SKU接口的api。 1、代码 #!/usr/bin/python3# -*- coding: utf-8 -*-# Time : 2020/3/29 0021 下午 19:40# Author : xiaozhi!…

201. 数字范围按位与 Python

文章目录 一、题目描述示例 1示例 2示例 3 二、代码三、解题思路 一、题目描述 给你两个整数 left 和 right ,表示区间 [left, right] ,返回此区间内所有数字 按位与 的结果(包含 left 、right 端点)。 示例 1 输入&#xff1a…

「深度学习之优化算法」(十六)万有引力算法

1. 万有引力算法简介 (以下描述,均不是学术用语,仅供大家快乐的阅读) 万有引力算法(Gravitational Search Algorithm)是受物体之间的万有引力启发而提出的算法。算法提出于2008(2009)年,时间不长,不过相关的文章和应用已经相对较多,也有不少的优化改进方案。   万…

apple pencil二代平替笔哪个好用?苹果平板平替笔排行

光是一款Apple Pencil,就卖到了接近一千多块,信息对于很多人来说都觉得太贵了。事实上,由于平替电容笔的性价比也非常高,因此它还是值得一试的。不管是学习,写作,还是绘画,这支平替电容笔&#…

自洽性改善语言模型中的思维链推理7.13、7.14

自洽性改善语言模型中的思维链推理 摘要介绍对多样化路径的自洽实验实验设置主要结果当CoT影响效率时候,SC会有所帮助与现有方法进行比较附加研究 相关工作总结 原文: 摘要 本篇论文提出了一种新的编码策略——自洽性,来替换思维链中使用的…

AI绘画 | 迷人武士美少女战士作品集

今天用Midjourney生成了质量极高的美少女武士后续会作为固定栏目来分享美图接下来请欣赏作品 提示词分享:1.an asian girl dressed in samurai style, in the style of anime aesthetic, trick of the eye paintings, dollcore, light red and black, resin, 8k, ex…

数据结构--图的基本操作

数据结构–图的基本操作 使用的存储模式&#xff1a; 图的基本操作&#xff1a; • Adjacent(G,x,y)&#xff1a;判断图G是否存在边<x, y>或(x, y)。 • Neighbors(G,x)&#xff1a;列出图G中与结点x邻接的边。 • InsertVertex(G,x)&#xff1a;在图G中插入顶点x。 • …

Apache HTTPD 多后缀解析漏洞

Apache HTTPD 多后缀解析漏洞 一、环境搭建二、漏洞原理三、漏洞复现 一、环境搭建 如下介绍kali搭建的教程 cd ~/vulhub/httpd/apache_parsing_vulnerability // 进入指定环境 docker-compose up -d // 启动环境docker-compose ps使用这条命令查看当前正在运行的环境 打开…

Java入门

目录 一、程序 什么是程序 二、计算机编程语言 1.计算机语言是什么 Java历史 特点 执行机制 计算机执行机制 Java的执行机制 三、JDK安装 名词解释 安装与校验 配置环境变量 四、第一个Java程序 编写代码 编译运行 规范 六、Java核心机制&#xff1a;JVM 1.…

【C语言】memcpy,memmove,memcmp,memset函数详解

memcpy,memmove,memcmp,memset函数详解 memcpy函数一、 memcpy函数的定义&#xff1a;二、memcpy函数的功能&#xff1a;三、memcpy函数模拟memcpy注意事项 memmove函数一、memmove函数简介二、memmove函数的模拟1.两种情况2模拟实现 memcmp函数memecmp函数介绍 memset函数mems…

数据结构(王道)——线性表的存储结构之双链表

双链表和单链表的对比 一、从无到有创建一个双链表及其基础操作 带头结点 的双链表 初始化 双链表的后插操作&#xff1a; 从后插可以拓展到按位序插入&#xff0c;和前插操作。 因为双链表的特性&#xff0c;如果按位序插入或者前插操作&#xff0c;只需要找到插入的位置的前…

基于SpringBoot + EasyExcel + Vue + Blob实现导出Excel文件的前后端完整过程

首先前端发起HTTP请求之后&#xff0c;后端返回一个Excel输出流&#xff0c;然后前端用Blob类型接收数据&#xff0c;并且解析响应头数据以及提取源文件名&#xff0c;最后用a标签完成下载。 一、后端代码 &#xff08;1&#xff09;导入阿里巴巴的EasyExcel依赖&#xff08;…

不依赖yacc如何实现表达式按优先级解析

总结 无意发现一个非常有意思的简单语法解析器&#xff0c;不依赖lex/yacc&#xff0c;本文对其中比较难理解的表达式解析&#xff08;带优先级&#xff09;部分做一些分析和记录。 &#xff08;理解本文需要调试后面的代码部分&#xff0c;have fun&#xff01;&#xff09;…

219. 存在重复元素 II

给你一个整数数组 nums 和一个整数 k &#xff0c;判断数组中是否存在两个 不同的索引 i 和 j &#xff0c;满足 nums[i] nums[j] 且 abs(i - j) < k 。如果存在&#xff0c;返回 true &#xff1b;否则&#xff0c;返回 false 。 示例 1&#xff1a; 输入&#xff1a;num…

React、Vue3中父组件如何调用子组件内部的方法

React 当父组件需要调用子组件的方法时&#xff0c;可以通过useImperativeHandle钩子函数实现。以下例子是ts实现方式。 在子组件中使用 useImperativeHandle 钩子&#xff0c;将指定的方法暴露给父组件&#xff0c;以便父组件可以通过子组件的引用来调用该方法。 在子组件中…

Type-C PD显示器方案简介

方案概述 LDR6020 Type-C PD显示器方案可以给显示器提供一个全功能C口&#xff0c;支持手机&#xff0c;电脑&#xff0c;游戏主机等一线投屏功能&#xff0c;同时支持PD快充输出。LDR6020内置了 USB Power Delivery 控制器和 PD BMC PHY 收发器&#xff0c;支持PD2.0/3.0等快充…

Low-Light Image Enhancement via Self-Reinforced Retinex Projection Model 论文阅读笔记

这是马龙博士2022年在TMM期刊发表的基于改进的retinex方法去做暗图增强&#xff08;非深度学习&#xff09;的一篇论文 文章用一张图展示了其动机&#xff0c;第一行是估计的亮度层&#xff0c;第二列是通常的retinex方法会对估计的亮度层进行RTV约束优化&#xff0c;从而产生…

ceph----应用

文章目录 一、创建 CephFS 文件系统 MDS 接口1.1 服务端操作1.2 客户端操作 二、创建 Ceph 块存储系统 RBD 接口三、OSD 故障模拟与恢复四、创建 Ceph 对象存储系统 RGW 接口 一、创建 CephFS 文件系统 MDS 接口 1.1 服务端操作 1&#xff09;在管理节点创建 mds 服务 cd /et…

Unity游戏源码分享-Third Person Controller - Shooter Template v1.3.1

Unity游戏源码分享-Third Person Controller - Shooter Template v1.3.1 功能非常齐全 AI格斗 2.5D 完整工程地址&#xff1a;https://download.csdn.net/download/Highning0007/88057824

node自主学习——fs文件操作模块

目录 读文件 读文件是否成功的判定 写文件 写文件是否成功的判定 备注&#xff1a;VsCode、node v18.17.0 读文件 fs.readFile(文件路径, 编码格式&#xff08;可选&#xff09;, 回调函数)// 回调函数可以打印失败和成功的结果 // 若成功&#xff0c;err的值为null // 若…