Re50:读论文 Large Language Models Struggle to Learn Long-Tail Knowledge

诸神缄默不语-个人CSDN博文目录
诸神缄默不语的论文阅读笔记和分类

论文名称:Large Language Models Struggle to Learn Long-Tail Knowledge

ArXiv网址:https://arxiv.org/abs/2211.08411

官方GitHub项目(代码和实体):https://github.com/nkandpa2/long_tail_knowledge

本文是2023年ICML论文,主要关注LLM无法记忆长尾知识的问题。
检测方式是让LLM基于事实回答问题(4-shot closed-book QA evaluations),看准确率与预训练语料中问题相关文档数的关系。文档中包含问题里的实体对,就算相关文档。
增大模型确实能缓解长尾问题,但是要求规模指数级提升才能匹配数据集出现频率的一点点提升。还是用检索增强的方式比较好。但是检索系统的方法本身也需要有相关文档才行。

预训练语料(用于链接实体和找相关文档):ROOTS, The Pile, C4, OpenWebText, and Wikipedia
(话说本文提到没有研究跨语言知识。我感觉这一点也挺值得研究的)

QA数据集:Natural Questions & TriviaQA

模型:
Transformer decoder-only LMs:
GPT-Neo
BLOOM-176B BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
GPT-3

文章目录

  • 1. 研究背景&核心观察结果
  • 2. 实验
    • 1. 实验设置
    • 2. 观察实验结果
    • 3. 解决方案

1. 研究背景&核心观察结果

LLM难以记忆长尾知识:
在这里插入图片描述

(相关文档数量指数分箱,取QA准确率平均值)

2. 实验

1. 实验设置

1. 找相关文档:
事实QA数据集→从预训练文档里找出相关文档(如果问答对中的两个实体都出现,就算相关文档)

在这里插入图片描述

实体链接工具:DBpedia Spotlight Entity Linker1

2. QA:
在这里插入图片描述
其他示例样本数得到的结果差别不大

解码方案:贪心解码

2. 观察实验结果

(TriviaQA在BLOOM上的结果图Figure 1我放在第一节了)
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

证明相关文档必须要同时含有问答中的实体的必要性:
用问题实体或回答实体,可以得到与同时使用中相似的结果;但是如果去掉问答都有的情况,就没有这样的表现了。说明其实模型学习靠的是问答都有的情况
在这里插入图片描述

人工结果和LM结果趋势相反

对LM预测结果出现原因的分析
对比实验,证明去掉相关文档重新训练LM后准确率会下降:
在这里插入图片描述

3. 解决方案

scale数据集
没啥用,各个数据集的支持信息都差不多:
在这里插入图片描述

scale模型
想法是好的,但是需要的增量太大了
在这里插入图片描述

在这里插入图片描述

调整训练目标
改为encourage memorization
增大训练epoch数……等等

检索增强
直接用相关文档,效果能得到大幅度提升:

在这里插入图片描述

用BM25算法实现检索:
果然表现好起来了
在这里插入图片描述

在这里插入图片描述


  1. (2011 I-Semantics) DBpedia spotlight: shedding light on the web of documents ↩︎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/152212.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

找不到msvcp110.dll怎么办,msvcp110.dll丢失的修复方法

您可能已经碰见过这样的情况,当您试图打开某个软件时,屏幕上突然跳出一个提示窗口,告诉您 “找不到msvcp110.dll”,“msvcp110.dll丢失”。遇到这种情况是不是让人很焦头烂额呀?别担心,接下来我就为您提供几…

【EI会议征稿】第三届能源利用与自动化国际学术会议(ICEUA 2024)

第三届能源利用与自动化国际学术会议(ICEUA 2024) 2024 3rd International Conference on Energy Utilization and Automation (ICEUA 2024) 2024年第三届能源利用与自动化国际学术会议(ICEUA 2024)将于2024年3月15-17日在中国武汉…

C++ 调用 Lua 函数

零、前言 Lua 作为一门脚本语言,可以作为 “配置文件”、“动态逻辑脚本” 等角色作用于宿主程序。 因为他是一门语言,所以他有以下的好处: 1. Lua 会处理语法细节,后续维护简单,并且可以有注释。 2. 可以编写逻辑&…

IDEA 快捷键汇总

目录 1、altinsert 2、ctrl/ 3、altenter 4、alt回车 5、ctrlD 6、ctrlaltL 7、ctrl点击 8、alt左键向下拉 9、ctrlaltv 10、ctrlaltwint 1、altinsert 快速创建代码,可以快速创建类中get set tostring等方法 2、ctrl/ 单行注释 3、altenter…

水库大坝安全监测系统守护水利工程安全的坚实后盾

WX-WY1 随着社会经济的发展和科技的进步,水利工程的安全问题越来越受到人们的关注。水库大坝作为水利工程的重要组成部分,其安全状况直接关系到周边地区人民的生命财产安全和生态环境。因此,建立一个高效、可靠的水库大坝安全监测系统至关重要…

update_engine-FilesystemVerifierAction和PostinstallRunnerAction

在介绍完了DownloadAction之后,还剩下FilesystemVerifierAction和PostinstallRunnerAction,下面开始对其进行分析。 FilesystemVerifierAction 在数据下载完成后,在DownloadAction中会切换到FilesystemVerifierAction void DownloadAction:…

特效!视频里的特效在哪制作——Adobe After Effects

今天,我们来谈谈一款在Adobe系列中推出的一款图形视频处理软件,适用于从事设计和视频特技的机构,包括电视台、动画制作公司、个人后期制作工作室以及多媒体工作室的属于层类型后期软件——Adobe After Effects。 Adobe After Effects&#xf…

PostgreSQL设置主键从1开始自增

和MySQL不同,在 PostgreSQL 中,设置主键从1开始自增并重新开始自增是通过序列(sequence)来实现的。以下是步骤: 步骤1:创建一个序列 CREATE SEQUENCE your_table_id_seqSTART 1INCREMENT 1MINVALUE 1MAXV…

qt槽函数的四种写法

槽函数的四种写法 一,Qt4写法 不推荐这种写法,如果SLGNAL写错了,或者信号名字,槽函数名字写错了.编译器检查不出来,导致程序无响应,引起不必要的误解 connect(ui.btnOpen,SLGNAL(clicked),this,SLOT(open()));二,Qt5写法 推荐使用这种写法,信号名字、槽函数名字…

Docker build报错总结,版本过新大避雷!

1.速度太慢报错,需要换源; 在DOCKERFILE中添加镜像; RUN echo "deb http://mirror.sjtu.edu.cn/debian bookworm main non-free contrib" > /etc/apt/sources.list, 2.即使在Dockerfile中换源,但在bul…

Java 中四种引用类型

Java 中有四种引用类型,分别是强引用、软引用、弱引用和虚引用。这四种引用类型在 Java 虚拟机中对对象的内存管理起着重要作用。以下是这四种引用类型的含义和区别: 强引用(Strong Reference): 强引用是 Java 中最常…

gitlab利用CI多工程持续构建

搭建CI的过程中有多个工程的时候,一个完美的构建过程往往是子工程上的更新(push 或者是merge)触发父工程的构建,这就需要如下建立一个downstream pipeline 子仓库1 .gitlab-ci.yml stages:- buildbuild_job:stage: buildtrigger:project: test_user/tes…

Flutter笔记:目录与文件存储以及在Flutter中的使用(下)

Flutter笔记 目录与文件存储以及在Flutter中的使用(下) 文件读写与Flutter中文件管理 作者:李俊才 (jcLee95):https://blog.csdn.net/qq_28550263 邮箱 :291148484163.com 本文地址:…

-bash: jps: command not found

背景 服务器的jdk通过yum 安装的,要用jps查询pid,提示找不到命令 yum install -y java-1.8.0-openjdk.x86_64 一、jps命令无法找到 [devhgh-tob-hsbc-dev-003 ~]$ jps -bash: jps: command not found 二、检查基础Java环境 [devhgh-tob-hsbc-dev-003 ~]…

计算机是如何工作的(简单介绍)

目录 一、冯诺依曼体系 二、CPU基本流程工作 逻辑⻔ 电⼦开关——机械继电器(Mechanical Relay) ⻔电路(Gate Circuit) 算术逻辑单元 ALU(Arithmetic & Logic Unit) 算术单元(ArithmeticUnit) 逻辑单元(Logic Unit) ALU 符号 寄存器(Regis…

KVM Cloud云平台

项目介绍 KVM Cloud 是一款基于Java实现的轻量级私有云平台,旨在帮助中小企业快速实现计算、存储、网络等资源的管理,让企业拥有自己的云平台,包括但不限于如下功能: 1、基于KVM的VM基础功能(创建、启动、停止、重装、webVNC等功能) 2、使用…

xftp连接wsl2

在WSL中默认是没有安装OpenSSH,需要自己安装。 安装 sudo apt update sudo apt install openssh-server检查是否安装成功 ssh -V配置ssh sudo vim /etc/ssh/ssh_config设置端口 Port 22启动ssh服务 sudo service ssh startxftp连接 主机地址:127.…

从零开始写一个APM监控程序(一)协议

APM(Application Performance Monitoring)是一种用于监控和管理应用程序性能的解决方案。它通过收集、分析和报告应用程序的性能数据,帮助开发人员和系统管理员更好地了解应用程序的运行状况,识别潜在的性能问题,并进行…

卷积神经网络(CNN)衣服图像分类的实现

文章目录 前期工作1. 设置GPU(如果使用的是CPU可以忽略这步)我的环境: 2. 导入数据3.归一化4.调整图片格式5. 可视化 二、构建CNN网络模型三、编译模型四、训练模型五、预测六、模型评估 前期工作 1. 设置GPU(如果使用的是CPU可以…

Office文件在线预览大全-Word文档在线预览的实现方法-OFD文档在线预览-WPS文件在线预览

Office文件在线预览大全-Word文档在线预览的实现方法-OFD文档在线预览-WPS文件在线预览 Office文件在线预览指的是文件在浏览器中可以直接预览查看,不需要安装任何插件就可以实现文档的在线预览功能、打印功能、文件转PDF功能、文件转OFD功能、文档内容提取功能、自…