day02论文学习:能够使大语言模型产生带有引用的文章

1.主题:Enabling Large Language Models to Generate Text with Citations(能够使大语言模型产生带有引用的文章)

引用出处: Gao, T., Yen, H., Yu, J., & Chen, D. (2023). Enabling Large Language Models to Generate Text with Citations. ArXiv, abs/2305.14627.

提示: 建议先看论文01,里面提到了 “生成带有引用的文本” 。

2. 摘要:

大型语言模型(LLMs)已经成为广泛使用的信息搜索工具,但它们生成的输出容易出现幻觉【1.前景】。在这项工作中,我们的目标是让LLMs生成带有引文的文本【2.目的】,提高其事实正确性和可验证性。现有的工作主要依赖商业搜索引擎和人工评估,这使得重新复制和比较不同的建模方法变得具有挑战性。我们提出了** ALCE【3.核心关键词,控制变量的关键】**,这是第一个用于自动LLMs引文评估的基准。ALCE收集了各种问题和检索语料库,并要求构建端到端系统来检索所支持的文档并生成带有引文的答案。【4.关键词作用】我们开发了沿着流畅性、正确性和引文质量三个维度的自动度量标准【5.评估方法】,并展示了它们与人类判断的强相关性。我们对最先进的LLMs和新颖的提示策略进行了实验,结果显示当前系统仍有很大改进空间——例如,在ELI5数据集上,即使是最好的模型也有50%的时间缺乏完整的引文支持。我们的分析进一步突显了有希望的未来方向,包括开发更好的检索器、推进长文本背景的LLMs,并改进从多个来源综合信息的能力。

总结: 该摘要提出了当今LLMs的优点与缺乏之处,虽能生成连贯的回答【流畅性足】,但这些回答有时会缺乏准确度和可信度。【正确性、引文质量不足】,故因此提出了ALCE这一概念,目的是利用ALCE的新基准测试,通过自动评估机制改进LLMs生成文本的正确性和可验证性,进而提升模型的输出质量。【摘要主要是讲述了ALCE的作用】

ALCE的作用: ALCE能够收集多样化的问题和检索语料库,需要构建从头到尾的系统来检索支持证据并生成带有引用的答案。能够自动评估LLMs生成的带有引用的文本。这个基准的主要目标是提高模型在生成文本时的事实正确性和可验证性。
评估方法: 开发了三个维度的自动度量方法—流畅性、正确性和引用质量,并证明了这些度量与人类评价的强相关性。
实验和发现: 通过对最先进的LLMs和新颖的提示策略进行实验,显示了当前系统在正确性和引用质量方面有很大的改进空间。例如,即使是最好的模型在ELI5数据集上也有50%的生成物缺乏完整的引用支持。【因此控制变量进行论证】

ALCE的任务设置:给定一个问题,系统在提供大型检索语料库中的引用段落的同时生成文本,每个陈述可能包含多个引用

3.Introduction(引言部分)

数据集

"大型语言模型(LLMs; Brown等,2020年;OpenAI, 2023年)已经越来越受到欢迎作为信息搜索工具。虽然它们生成引人入胜且连贯的回答,但它们的输出容易产生幻觉,通常包含事实上不正确的信息(Ji等,2023年)。这使得用户更难相信和验证没有支持证据的LLM生成的输出**【没有引文的坏处】。在这项工作中,我们研究了一种新一代的LLMs生成范式,其中我们要求LLMs"提供引文指向一个或数个文本段落以支撑其生成的任何陈述(见图1)。加入引文带来几项好处:(1)用户可以轻松通过提供的引文验证大型语言模型的声明;(2)大型语言模型可以生成忠实于引用段落的文本,这有望提高正确性并减轻幻觉【引文的好处】。多个商业系统已采用了这一模式:Bing Chat2和perplexity.ai3用自然语言回答用户问题,并附带网络页面的引用。中野等人(2021年);Menick等人(2022年)有相似的动机,但他们主要使用商业搜索引擎和闭源模型进行实验,使得难以评估他们的结果。引用增强的语言模型(Borgeaud等人,2022年;Izacard等人,2022年)在训练和推理过程中都包含检索到的段落,但不能保证对检索到的段落的忠实性,也未明确提供引文。此外,以往的研究大多依赖人类评价(中野等人,2021年;Menick等人,2022年;Liu等人,2023年),这既昂贵又难以复制。我们认为缺乏自动化评估阻碍了这类系统的进步【缺乏自动化评估】**。

我们提出ALCE,这是第一个可复现的基准,用于自动评估有引文支持的LLM生成物。ALCE假设出一个自然语言问题和一个检索语料库,并需要构建端到端系统来从语料库中检索相关段落,生成问题的响应,并引用相应的支持段落**【ALCE的作用】。我们编译了三个数据集,涵盖不同类型的问题和语料库——ASQA(Stelmakh等,2022),QAMPARI(Ru-bin等,2022)和ELI5(Fan等,2019)——如表1所示。与先前的基准(Lee等,2019;Bohnet等,2022)不同,ALCE评估长文本生成,侧重于自动评估引文质量,并允许为个别陈述引用多个段落。我们设计了三个维度的自动评估方法:流畅度、正确性和引文质量【评估表现】**。具体地,我们使用MAUVE(Pillutla等,2021)来衡量流畅度,为每个数据集提出量身定制的正确性指标,并采用自然语言推理(NLI)模型(Honovich等,2022)来衡量引文质量。我们展示了这三个维度如何共同促成稳健评估,防止系统利用捷径。此外,我们进行了人类评估,并展示了与我们自动评估指标的强相关性。

我们在多个具有最先进LLM和检索器的系统上进行实验,并提出了新颖的提示策略,将检索到的文本合成为文本生成物。尽管所有系统都能提供流畅和连贯的响应,但在正确性和引文质量方面仍有大幅改进的空间**【正确性和引文质量是本文的证明之处】**:例如,在ELI5数据集上,我们的ChatGPT和GPT-4基线约有50%的生成物并未得到完全支持。此外,我们发现(1)采用闭书模型(在不访问任何检索文档的情况下生成答案)并进行事后引用可以获得良好的正确性,但引文质量较差;(2)尽管交互式检索方法(Yao等,2023;Schick等,2023)在何时/检索什么方面提供了更多灵活性,但并不提高在这一具有挑战性的基准上的性能;(3)在更短的文本中总结检索到的段落可以提高正确性,但不能提高引文质量;(4)重新排列多个生成物可提高人类评估测量的引文质量;(5)在上下文中加入更多检索段落对ChatGPT没有帮助,但提高了GPT-4的性能

我们的深入分析突出了构建LLM以生成具有引文的文本面临的三个主要挑战:
(1)检索质量对最终性能至关重要,并有很大的改进空间;
(2)LLM的有限上下文窗口限制了它们可以整合的段落数量;
(3)当前的LLM在上下文中综合多个文档时很难避免被无关文档分散注意力,尽管更好的指导调整会带来显著改进。这些挑战为开发更好地整合检索和LLM的系统提供了有前途的研究方向。

** 总结:** 讲述了LLMs的普及和它存在的问题,以及新的LLMs生成范式。【进一步论述了当前LLMs所存在的问题,以及解决这个问题所采取新方法的必要性】

** LLMs的普及和问题:** 虽然LLMs能生成引人入胜和连贯的回答,但它们的输出倾向于包含不准确的信息,这使得用户难以信任和验证LLM生成的输出。
** 新的生成范式:** 研究一种新的LLMs生成范式,在这种范式中,要求LLMs为它们生成的任何声明提供一到几个文本段落的引用。引入引用带来了几个好处:用户可以轻易验证LLM的声明;LLMs可以生成忠实于引用段落的文本,这有望提高正确性并减轻幻觉。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/29769.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PostgreSQL源码分析——CREATE SERVER

我们分析一下外部数据包装器中创建外部服务器的CREATE SERVER命令的实现源码。前面已经分析过很多DDL的语法实现。这里简单描述一下大致过程。 主流程如下所示: exec_simple_query(query_string); --> pg_parse_query(query_string);--> raw_parser(query_s…

Java基础 - 练习(二)打印菱形

Java基础练习 打印菱形&#xff0c;先上代码&#xff1a; // 方法一&#xff1a;基础&#xff0c;好理解 public static void diamond() {//控制行数for (int i 1; i < 4; i) {//空格的个数for (int k 1; k < 4 - i; k) {System.out.print(" ");}//控制星星…

使用Python连接MySQL数据库

1.导入包 import pymysql2.设置连接信息 pymsql中connect方法可以设置连接的信息 conn pymysql.connect(hostmHost, # 主机号port3306, # 端口号usermUser, # 用户名passwordmPwd, # 密码databasemDatabase # 数据库名称 )3.创建表 cursor()方法可以执行sql语句&…

如何构建构建一个AI驱动的通用爬虫

我最近开始研究网络爬虫&#xff0c;并且考虑到AI领域的一切发展&#xff0c;我认为尝试构建一个可以迭代导航网络直到找到它所寻找的内容的“通用”爬虫会很有趣。这是一个正在进行中的工作&#xff0c;但我想分享一下我目前的进展。 规格 给定一个起始URL和一个高级目标&…

vcruntime140_1.dll文件【安装包】【压缩包】【文件】【下载】

安装程序时有时候出现 类似无法启动程序&#xff0c;缺少vcruntime140_1.dll的提示&#xff0c;我们找到该文件并放到对应目录就可以&#xff1b;获取方法有很多&#xff0c;下面介绍两种&#xff1a;&#xff08;方法二更简便&#xff0c;不过建议两种方法都试试&#xff09; …

Swift开发——索引器扩展

扩展用于向已存在的类型(例如,类、结构体、枚举和协议等)中添加新的功能,扩展甚至可以向系统类型(包括无法查阅代码的类型)中添加新的功能,但是扩展不能覆盖原类型中已有的方法,扩展也不能向类中添加新的存储属性。 01、索引器扩展 扩展可为类、结构体等类型添加索引器。程序段…

golan的雪花id

今天记录一下 golang的雪花id golang的雪花id 还是比较简单的&#xff0c;其包含的含义以及组成我这就不讲了&#xff0c;好多大佬都有文章写过&#xff0c;我直接上怎么用 先 引入包 go get "github.com/bwmarrin/snowflake" 代码块 func main() {// 设置一个时…

单介子方程二十四

XXFXXdXuXWXπXXWXeXyXeXbXπXpXXVXXpXπXbXeXyXeXWXXπXWXuXdXXFXXEXyXαXiXXαXiXrXkXtXyXXpXVXXdXuXWXπXXWXeXyXeXbXπXpXXVXXpXπXbXeXyXeXWXXπXWXuXdXXVXpXXyXtXkXrXiXαXXiXαXyXEXXFXXEXyXαXiXXαXiXrXkXtXyXXpXVXXdXuXWXπXXWXeXyXeXbXπXpXXVXXpXπXbXeXyXeXWXXπX…

基于S32K144驱动NSD8308

文章目录 1.前言2.芯片介绍2.1 芯片简介2.2 硬件特性2.3 软件资源2.4 芯片资料 3.测试环境4.软件驱动4.1 SPI4.2 寄存器4.3 SPI ON/OFF控制4.4 PWM控制 5.测试情况 1.前言 最近有些客户在前期调试NSD8308时&#xff0c;软件上遇到一些问题&#xff0c;正好笔者手上有一套NSD83…

Linux---系统的初步学习【 项目三 磁盘管理与文件系统】

项目三 磁盘管理与文件系统 3.1 项目知识准备 3.1.1 硬盘 ​ 如果从存储数据的介质上来区分&#xff0c;硬盘可分为机械硬盘&#xff08;Hard Disk Dirve&#xff0c;HHD&#xff09;和固态硬盘&#xff08;Solid State Disk&#xff0c;SSD&#xff09;&#xff0c;机械硬盘…

[保姆级教程]uniapp实现页面路由配置

文章目录 新建目录新建页面配置页面路由修改tabBar地址其他&#xff1a;在package.json中的pages配置详细 新建目录 先点击src–》新建–》目录 输入名称&#xff0c;并以此类推完成所有新建目录 新建页面 右击目录&#xff0c;点击新建–》vue文件 弹出弹框&#xff0c;…

电路笔记 : 嘉立创EDA 导入、查找、设计管理器(快速寻找网络标签)功能+DRC错误检查和处理

导入功能 查找功能 可查找多种类型&#xff0c;如原件名称、网络标签等 设计管理器 图层查看 DRC错误 规则设置 线距问题 大多数PCB制造商能够可靠地生产5 mil间距的走线和间隙。这是一个常见的标准&#xff0c;适合大多数消费级和工业级电子产品。在5 mil以上的间距&#xff…

嵌入式中间件_3.嵌入式中间件的一般架构

根据嵌入式中间件的不同类型和其应用对象的不同&#xff0c;其架构也有所不同&#xff0c;通常嵌入式中间件没有统一的架构&#xff0c;这里仅仅列举两种中间件架构。 1.消息中间件 1.1消息中间件原理架构 消息中间件是消息传输过程中保存消息的一种容器。它将消息从它的源中…

科技的成就(六十)

559、汉明码 1950 年 4 月&#xff0c;著名的纠错码汉明码诞生。理查德汉明发布论文“Error Detecting and Error Correcting Codes”&#xff0c;提出汉明码。汉明码是一种线性纠错码&#xff0c;用于检测转移数据时发生的错误并予以修正&#xff0c;最多可以检测到 2 位错误或…

VirtualStudio配置QT开发环境

环境 VirtualStudio2022Qt5.12.10 安装msvc工具链&#xff08;这一步不是必须的&#xff09; 打开virtual studio&#xff0c;打开Virtual Studio Installer界面选择要安装的msvc版本&#xff0c;点击安装 安装VirtualStudio扩展 在线安装 打开virtual Studio&#xff0c;…

玄机平台流量特征分析-常见攻击事

前言 熟悉常见的攻击流量特征&#xff0c;我们就可以通过主机的一个流量情况来判断主机遭受了何种攻击。这里来看看玄机平台的一道题目。 步骤1.1 这里需要我们找出恶意扫描者&#xff0c;也就是黑客的ip。下载好附件之后用wiresharke打开&#xff0c;直接筛选http协议的流量…

手写精简版TinyHttpd项目(一)

前言&#xff1a; 我们在之前的TinyHttpd的精读(可以在首页去查看)中已经是基本的了解了显示一个网页的基本过程&#xff0c;那么我们学习后可以通过手写一个精简版的进行巩固下。 0.新工程的建立 我们也可以顺带复习下如何通过cmake在ubuntu下新建一个工程(记得提前下载cmake…

【前端面经】数组算法题解

目录 题目一&#xff1a;两数之和题目二&#xff1a;最长无重复字符子串题目三&#xff1a;合并两个有序数组题目四&#xff1a;寻找数组中的峰值 题目一&#xff1a;两数之和 描述&#xff1a;给定一个整数数组 nums 和一个目标值 target&#xff0c;请你在该数组中找出和为目…

MyBatis逆向工程和MyBatisX插件的使用

文章目录 1.ORM思维2.逆向工程3.MyBatisX插件的使用 1.ORM思维 ORM&#xff08;Object-Relational Mapping&#xff0c;对象-关系映射&#xff09;是一种将数据库和面向对象编程语言中的对象之间进行转换的技术。它将对象和关系数据库的概念进行映射&#xff0c;最后我们就可以…

MySQL数据库与基本操作(增删改查)

一、数据库的基本概念 数据库要学习的四个基本概念&#xff0c;主要是&#xff1a;数据、数据库系统、数据库、数据管理系统。数据&#xff08;Date&#xff09;是描述事物的记录&#xff0c;数据库系统&#xff08;DBS&#xff09;&#xff0c;数据库管理系统&#xff08;DBMS…