[大语言模型-论文精读] ACL2024-长尾知识在检索增强型大型语言模型中的作用

ACL2024-长尾知识在检索增强型大型语言模型中的作用

在这里插入图片描述
On the Role of Long-tail Knowledge in Retrieval Augmented Large Language Models
Authors: Dongyang Li, Junbing Yan, Taolin Zhang, Chengyu Wang, Xiaofeng He, Longtao Huang, Hui Xue, Jun Huang

1.概览

在这里插入图片描述

问题解决:
这篇论文研究了在大型语言模型(LLMs)中,如何通过检索增强生成(RAG)技术来提升模型对长尾知识(long-tail knowledge)的处理能力。长尾知识指的是那些在大规模预训练中不常见,但在实际应用中又非常重要的知识。论文指出,尽管RAG技术能够通过检索相关文档来增强LLMs的回答质量,但它通常不加区分地增强所有查询,而忽略了LLMs真正需要的长尾知识。

研究成果:
研究者提出了一种基于生成预期校准误差(Generative Expected Calibration Error, GECE)的方法来检测长尾知识,并只在查询涉及长尾知识时才进行文档检索和知识融合。实验结果表明,与现有的RAG流程相比,该方法在平均推理时间上实现了超过4倍的加速,并且在下游任务中性能得到了一致性提升。

2. 研究背景

技术背景:
大型语言模型(LLMs)在自然语言处理(NLP)领域取得了显著的成就,但它们在处理长尾知识时仍然存在挑战。RAG技术通过检索补充知识并将其注入模型来增强LLMs的生成能力,但这种方法往往忽略了对长尾知识的特别关注。

发展历史:
RAG技术的发展可以追溯到早期的检索-生成模型,随着深度学习技术的进步,尤其是Transformer架构的出现,RAG技术得到了快速发展。近年来,研究者们开始关注如何更有效地利用RAG技术来提升LLMs在特定任务上的表现。

3. 技术挑战

困难:

  • 知识冗余: 在预训练阶段,LLMs已经学习了大量的通用知识,RAG技术在处理常见知识时可能会导致计算资源的浪费。
  • 长尾知识检测: 如何有效地检测和区分LLMs在处理查询时是否需要长尾知识是一个挑战。
  • 效率与性能的平衡: 在提升模型性能的同时,如何保持或提升推理效率是一个关键问题。

4. 破局方法

解决方法:

  • GECE指标: 论文提出了一种新的指标GECE,结合了统计学和语义学的方法来衡量知识的“长尾性”, 通过METEOR分数和LLMs生成文本的平均token概率来计算。
  • 长尾知识检测: 使用GECE值来检测输入查询是否涉及长尾知识。
  • 选择性增强: 改进的RAG流程, 只有当查询涉及长尾知识时,才进行文档检索和知识融合,从而提高了推理效率。

ECE:
ECE = ∑ i = 1 B n b i N ∣ a c c ( b i ) − c o n f ( b i ) ∣ \text{ECE} = \sum_{i=1}^{B}\frac{n_{b_i}}{N}|acc(b_i) - conf(b_i)| ECE=i=1BNnbiacc(bi)conf(bi)

GECE:
GECE = ∣ M ( p r e d , r e f ) − 1 n ∑ i = 1 n p ( t i ) ∣ α ⋅ [ E ( ▽ i n s ) ⋅ ▽ i n s ] \text{GECE} = \frac{|M(pred, ref) - \frac{1}{n}\sum_{i=1}^{n}p(t_i)|}{\alpha \cdot [E({\bigtriangledown_{ins}) \cdot {\bigtriangledown}_{ins}}]} GECE=α[E(ins)ins]M(pred,ref)n1i=1np(ti)
这里 ▽ i n s {\bigtriangledown_{ins}} ins是当前实例的梯度, E ( ▽ i n s ) E({\bigtriangledown_{ins}}) E(ins)是整个数据集的平均梯度。

5. 技术应用

实验设置:

  • 使用了NQ、TriviaQA和MMLU等数据集进行实验。
  • 与多个基线模型进行了比较,如Llama2-7B、IRCoT、SKR等。
  • 实验中考虑了不同数量的增强文档(10、15、20篇)对性能的影响。

**实验效果: **

  • NQ数据集:使用GECE后,Rouge-1和Bleu-4指标分别达到了42.9和43.7,平均推理速度提升了2.1倍。
  • TriviaQA数据集:使用GECE后,Rouge-1和Bleu-4指标分别达到了24.8和24.0,平均推理速度提升了2.2倍。
  • MMLU数据集:使用GECE后,准确率提升到了85.9%,推理速度提升了2.4倍。
    在这里插入图片描述
    在这里插入图片描述

结论
通过GECE过滤数据后,所有基线模型的处理速度都有所提升,特别是迭代方法(如ITER-RETGEN和IRCoT)显著加速。此外,通过引入较少的普通实例噪声,还提升了任务性能。

潜在应用:

  • 问答系统: 提升问答系统在处理长尾问题时的准确性和效率。
  • 知识检索: 在需要精确知识检索的场景下,如法律、医疗等领域,提高检索的准确性。
  • 教育辅助: 在教育领域,帮助学生快速准确地获取稀有或专业性知识。

6. 主要参考工作

  • ECE相关研究: 如Aimar等人在2023年的工作,提供了校准误差的新视角。
  • RAG技术: 如Borgeaud等人在2022年的研究,探讨了通过检索增强预训练语言模型的方法。
  • 长尾知识处理: 如Kandpal等人在2023年的研究,讨论了LLMs在长尾知识学习上的挑战。
  • METEOR评估: Banerjee和Lavie在2005年提出的评估机器翻译质量的方法,被用于GECE指标中。

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更及时地了解前沿技术的发展现状。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/880462.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第五部分:4---Linux闹钟机制

闹钟机制: Linux 的闹钟机制为用户提供了一种设置和管理闹钟的方式。用户通过系统调用设置闹钟,操作系统负责在指定时间后处理这些闹钟。 闹钟结构体和链表: 操作系统为每个闹钟创建一个结构体对象,这个对象包含有关闹钟的信息&…

pyhton语法 正则表达式

pyhton语法 正则表达式 1.正则表达式介绍1.1 正则表达式入门1.2 正则替换 2.正则效验2.1正则-校验单个字符2.2正则-校验多个字符2.3 正则-校验开头和结尾2.4 正则-校验分组2.5 正则校验邮箱2.6正则获取分组后的数据2.7 引用指定组的内容 总结 1.正则表达式介绍 1.1 正则表达式…

OpenHarmony(鸿蒙南向开发)——小型系统内核(LiteOS-A)【LMS调测】

往期知识点记录: 鸿蒙(HarmonyOS)应用层开发(北向)知识点汇总 鸿蒙(OpenHarmony)南向开发保姆级知识点汇总~ 持续更新中…… 基本概念 LMS全称为Lite Memory Sanitizer,是一种实时…

经验笔记:Python 脚本打包为可执行文件(.exe)

Python 脚本打包为可执行文件的经验笔记 概述 在开发完一个Python脚本后,你可能希望将其分享给没有Python环境的用户。这时,将Python脚本打包成独立的可执行文件(.exe)是一个很好的选择。本文档将介绍如何使用 PyInstaller 工具…

建立分支提交代码

git分支 git branch 产看当前分支 git branch -a 查看所有分支 git checkout 分支名 切换分支 git checkout -b 分支名 建立分支(仅仅是在本地建立了,并没有关联线上) git push --set-upstream origin 分支名 把本地分支推到先线上 gti add …

自定义认证过滤器和自定义授权过滤器

目录 通过数据库动态加载用户信息 具体实现步骤 一.创建数据库 二.编写secutity配置类 三.编写controller 四.编写服务类实现UserDetailsService接口类 五.debug springboot启动类 认证过滤器 SpringSecurity内置认证流程 自定义认证流程 第一步:自定义一个类继承Abstra…

口语笔记——时态

引言 英语的时态(Tense)是一种动词形式,不同时态用于表示不同时间,例如do, did分别表示现在和过去。 英语中共有16种时态,如下表所示: 现在过去将来过去将来一般一般现在时一般过去时一般将来时一般过去…

AI大模型横评-9月Update(O1,Grok2,Qwen,Step-2)

#0 本期看点1)各大模型纷纷推出大规模,排行榜剧烈变动2)OpenAI新模型O1似乎要杀死比赛3)阿里,腾讯翻身一跃#1 前情提要本评测是个人性质,结合自己需求和对大模型的理解,使用私有题库进行长期跟踪…

CTFshow-SSRF

web351&#xff1a; <?php // 开启PHP文件 error_reporting(0); // 这行代码将PHP的错误报告级别设置为0&#xff0c;意味着关闭所有错误和警告的显示。这通常用于生产环境&#xff0c;以避免暴露敏感信息或错误信息给用户。然而&#xff0c;在开发过程中&#xff0c…

信息技术网络安全政策制定

为什么要制定网络安全政策&#xff1f; 通常&#xff0c;公司并不认为需要制定网络安全政策。现有的政策是为了保护公司的资产&#xff0c;而数据也是一项资产。 网络安全政策的真正必要性很简单&#xff1a;网络安全并不像锁门或不偷公司笔那么简单。在许多情况下&#xff0…

git 如何基于某个分支rebase?

文章目录 0. 概要1. 切换到你想要 rebase 的分支2. 执行 rebase 命令3. 解决冲突&#xff08;如果有&#xff09;4. 强制推送分支&#xff08;如果已经推送过该分支&#xff09; 0. 概要 之前介绍过如下git文章 git merge的三种操作merge, squash merge, 和rebase merge 如何使…

锤炼核心技能以应对编程革命

一、引言  随着人工智能的快速发展&#xff0c;尤其是AIGC等大语言模型的涌现&#xff0c;AI辅助编程工具逐渐成为程序员的新伙伴。这一变革不仅引发了关于AI是否能取代部分编程工作的讨论&#xff0c;也促使程序员重新思考自己的职业发展和技能提升路径。在AI时代&#xff0…

linux网络编程9

24.9.26学习目录 一.Web编程1.Javascript3.CGI 一.Web编程 1.Javascript 是一种基于对象并具有安全性能的脚本语言&#xff0c;是由浏览器内解释器翻译成可执行格式后执行&#xff1b; 即是网页与用户完成各种交互动作&#xff1b; 特点&#xff1a;基于对象的语言、简单性、…

前海石公园的停车点探寻

前海石公园是真的很美&#xff0c;很多看海人&#xff0c;很多钓鱼佬&#xff0c;很多抓螃蟹的人&#xff0c;很多挖沙子的人&#xff0c;很多拍照的人&#xff0c;尤其是没有大太阳的时间段或每天傍晚或每个放假的时候人气超高&#xff0c;故前海石公园停车真的很紧张。由于前…

Unreal Engine 5 C++: 编辑器工具编写入门01(中文解释)

目录 准备工作 1.创建插件 2.修改插件设置 快速资产操作&#xff08;quick asset action) 自定义编辑器功能 0.创建编辑器button&#xff0c;测试debug message功能 大致流程 详细步骤 1.ctrlF5 launch editor 2.创建新的cpp class&#xff0c;derived from AssetAction…

2024.9.27

P2567 [SCOI2010] 幸运数字 P1641 [SCOI2010] 生成字符串 A Perfect Problem 学习了几道计数题 有一些性质比较常用&#xff0c;在很多题中都见到过&#xff0c;在计数题时可以考虑&#xff0c;比如格路计数 搜索的时候复杂度不准确&#xff0c;数据就不会太难&#xff0c;…

低代码革命:加速云原生时代的端到端产品创新

随着云计算技术的飞速发展&#xff0c;云原生成为了企业数字化转型的重要方向。云原生技术通过容器化、微服务、持续集成/持续部署&#xff08;CI/CD&#xff09;等实践&#xff0c;帮助企业构建和运行可扩展的应用程序。然而&#xff0c;云原生技术的复杂性也给开发团队带来了…

物联网助力智慧交通:优势与前景

智慧交通是当今城市发展的必然趋势&#xff0c;而物联网技术在交通运输领域的应用正是为实现智慧交通建设提供了前所未有的机遇和优势。物联网作为连接和控制物理世界的重要技术手段&#xff0c;在交通领域的应用极大地改善了交通系统的效率、安全性和环保性。 首先&#xff0c…

上海建站提升在线曝光率的关键

在当今数字化时代&#xff0c;企业在线曝光率的高低直接影响到其市场份额和品牌认知度。尤其是在上海这样的大都市&#xff0c;竞争尤为激烈。以下是提升在线曝光率的一些关键策略。 一、优化网站建设 首先&#xff0c;网站是企业在线形象的“门面”。一个设计美观、用户友好的…

STM32嵌入式编程学习到提高:【4】UART串口打印

------------------------------------------------------------------------------------------------------------------------- 工程文件&#xff1a;放在百度云盘里&#xff0c;需要的自行下载&#xff01;&#xff01;&#xff01; 链接: https://pan.baidu.com/s/14gRne…