【RAG】FoRAG:面向网络增强型长形式问答的事实性优化RAG

一、解决问题

在基于网络的长形式问答(Web-enhanced Long-form Question Answering, LFQA)任务中,现有RAG在生成答案时存在的问题:

  • 事实性不足:研究表明,现有系统生成的答案中只有大约一半的陈述能够完全得到检索到的参考资料的支持,这严重影响了这些系统的可信度。

  • 清晰逻辑的缺失:与短答案的传统问答任务不同,LFQA任务中理想的答案往往需要多方面组织和整合信息,但现有的开源方法在生成答案时往往缺乏清晰的逻辑结构。

二、提纲增强RAG

提出提纲增强RAG,以改善长形式问题回答 LFQA 中生成答案的结构和质量。

2.1 Outline-Enhanced Generator

现有的开源方法在生成答案时,通常是直接将检索到的内容与原始查询拼接,然后使用特定的提示模板(prompt template)输入到生成模型中。这种方法生成的答案往往较短,缺乏清晰的逻辑结构。为了提高答案的组织性,提出了 “Outline-Enhanced Generator”,它包含以下两个阶段:

  • Outline Stage(提纲阶段):

    在此阶段,生成器首先使用提纲模板,根据用户查询和上下文生成答案的提纲。提纲模板引导大型语言模型(LLM)考虑哪种组织模式最适合当前问题,例如“因果关系”或“比较对比”。然后,LLM根据选定的组织模式输出提纲,为后续的扩展阶段做准备。

  • Expansion Stage(扩展阶段):

    基于前一阶段生成的提纲,LLM扩展每个要点,构建最终答案。模型被要求在包含查询、上下文和提纲的输入下,生成对问题的答案。

注:提纲增强阶段的生成器有SFT训练得到。

2.2 Outline-Enhanced Long-Form QA Dataset

现有数据集和提纲增强答案的详细统计数据

为了支持 “Outline-Enhanced Generator” 的训练和评估,构建了两个大规模的提纲增强型LFQA数据集。这些数据集利用现有的WebCPM和WebGLM数据集的查询和相关段落,并通过GPT4模型应用提纲增强生成技术来收集提纲增强型答案。统计信息显示,使用提纲增强技术生成的答案比现有工作中的答案更长,其具有更强的逻辑结构。

对比(英文)

对比(中文)

2.3 提纲增强数据构建提示词

  • 英文提示词

  • 中文提示词

小结:通过引入提纲阶段来增强生成答案的逻辑结构,并通过扩展阶段来完善和详细化答案内容,从而提高了长形式问题回答的质量。

三、事实性优化RAG

传统的RLHF,优化事实性所面临困难如下:

  • 数据标注成本高:手动标注事实性标签通常成本很高,因为它涉及到比较长篇答案和对应长篇参考资料之间的事实细节。
  • 整体性奖励信号稀疏:标准RLHF使用整体性奖励,即只有在整个回答的最后一个token上才有非零奖励,这为生成模型的训练提供了稀疏的信号,在长篇回答中尤为明显。

因此,提出了一种新颖的事实性优化方法(Doubly Fine-grained RLHF),旨在解决网络增强型 LFQA 中的事实性问题。

3.1 Doubly Fine-grained RLHF

提出了一种新的事实性优化框架,通过在评估和奖励建模中采用细粒度的设计,有效地提高了长形式问题回答中生成答案的事实性,同时减少了对人工标注的依赖。

细粒度评估(Fine-grained Evaluation):
  • 整体性(Holistic):使用单一事实性评分评估整个答案。
  • 句子级别(Sentence-level):将答案分割成句子,并分别评估每个句子。
  • 子声明级别(Subclaim-level):进一步将每个句子分解为多个子声明,并对每个子声明单独评估事实性。
细粒度奖励建模(Fine-grained Reward Modeling):
  • Sequence-level:为每个序列学习单一的奖励,反映相应序列的事实性。
  • Token-level:为序列中的每个token学习奖励,通过聚合所有token级别的奖励来计算序列的奖励。
实现方法

不同粒度级别的自动评估和奖励建模的每种组合的训练损失

  • 奖励模型训练:使用Logloss或MSE损失函数来训练奖励模型,具体取决于评估过程中得到的是二元标签还是连续值奖励。

  • PPO优化:采用近端策略优化(Proximal Policy Optimization, PPO)来优化生成模型,通过最大化细粒度的奖励信号来改善模型性能。

四、实验结果

RAG和FoRAG对比

参考文献

paper:FoRAG: Factuality-optimized Retrieval Augmented Generation for Web-enhanced Long-form Question Answering,https://arxiv.org/abs/2406.13779

huggingface:https://huggingface.co/forag

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/37533.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Qt开发笔记:Qt3D三维开发笔记(一):Qt3D三维开发基础概念介绍

若该文为原创文章,转载请注明原文出处 本文章博客地址:https://blog.csdn.net/qq21497936/article/details/140059315 长沙红胖子Qt(长沙创微智科)博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、O…

来自Claude官方的提示词库,支持中文!建议收藏!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普,AI工具测评,AI效率提升,AI行业洞察。关注我,AI之…

多元时间序列分析——VAR(向量自回归模型)

VAR模型主要是考察多个变量之间的动态互动关系,从而解释各种经济冲击对经济变量形成的动态影响。这种动态关系可通过格兰杰因果关系、脉冲响应以及方差分解来进一步明确和可视化。VAR模型主要研究内生变量之间的关系,内生变量就是参与模型并由模型体系内…

通天星CMSV6车载监控平台CompanyList信息泄露漏洞

1 漏洞描述 通天星CMSV6车载视频监控平台是东莞市通天星软件科技有限公司研发的监控平台,通天星CMSV6产品覆盖车载录像机、单兵录像机、网络监控摄像机、行驶记录仪等产品的视频综合平台。通天星科技应用于公交车车载、校车车载、大巴车车载、物流车载、油品运输车载、警车车…

推荐一款程序员的搞钱神器

你是不是经常为开发环境的搭建而头疼?有没有遇到过因为接口开发而焦头烂额的情况?作为一名程序员,特别是独立开发者,这些问题是不是常常让你觉得心力交瘁?别担心,现在有一个神器,能让你摆脱这些…

2024HVV最新POC/EXP,目前有8000+个POC/EXP

点击"仙网攻城狮”关注我们哦~ 不当想研发的渗透人不是好运维 让我们每天进步一点点 简介 都是网上收集的POC和EXP,最新收集时间是2024年五月,需要的自取。 表里没有的可以翻翻之前的文章,资源比较零散没有整合起来。 文件链接&#xff…

阿里云智能编程助手的安装使用

https://help.aliyun.com/document_detail/2590613.html 通义灵码,是阿里云出品的一款基于通义大模型的智能编码辅助工具,提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成、代码解释、研发智能问答、异常报错排查等能力&a…

洞察数据资产的奥秘:深入剖析数据资产在企业运营中的核心作用,提出一套全面、系统的数据资产解决方案,帮助企业实现数据资产的最大化利用和增值

一、引言 在数字化浪潮汹涌的今天,数据已成为企业最宝贵的资产之一。数据资产不仅记录了企业的历史运营轨迹,更蕴含着指导未来决策的智慧。然而,如何有效管理、利用这些数据资产,使其转化为企业的竞争优势和利润增长点&#xff0…

python--基础篇--正则表达式--py脚本--题目解答

文章目录 验证输入用户名和QQ号是否有效并给出对应的提示信息从一段文字中提取出国内手机号码替换字符串中的不良内容拆分长字符串 验证输入用户名和QQ号是否有效并给出对应的提示信息 """ 验证输入用户名和QQ号是否有效并给出对应的提示信息要求:用…

扎克伯格抨击闭源人工智能竞争对手试图“创造上帝”

Meta 首席执行官马克-扎克伯格(Mark Zuckerberg)在周四发表的一篇访谈中谈到了他对人工智能未来的看法,他深信"不会只有一种人工智能"。扎克伯格强调了开源的价值,即把人工智能工具交到许多人手中,他还不忘贬…

抖音微短剧小程序源码搭建:实现巨量广告数据高效回传

在数字化营销日益盛行的今天,抖音微短剧小程序已成为品牌与观众互动的新渠道。这些短小精悍的剧目不仅能迅速抓住用户的注意力,还能有效提升品牌的知名度和用户黏性。然而,想要充分利用这一营销工具,关键在于如何高效地追踪广告数…

springboot中使用springboot cache

前言&#xff1a;SpringBoot中使用Cache缓存可以提高对缓存的开发效率 此图片是SpringBootCache常用注解 Springboot Cache中常用注解 第一步&#xff1a;引入依赖 <!--缓存--><dependency><groupId>org.springframework.boot</groupId><artifactId…

STM32第十一课:ADC采集光照

文章目录 需求一、ADC概要二、实现流程1.开时钟&#xff0c;分频&#xff0c;配IO2.配置ADC工作模式3.配置通道4.复位校准5.数值的获取 三、需求的实现总结 需求 通过ADC转换实现光照亮度的数字化测量&#xff0c;最后将实时测量的结果打印在串口上。 一、ADC概要 ADC全称是A…

手机数据恢复篇:如何在Android手机上查找和恢复已删除的文件

移动设备中的回收站已成为 Android 用户的一项基本功能&#xff0c;它提供了防止意外删除的安全网。与计算机一样&#xff0c;移动回收站会临时存储已删除的文件&#xff0c;允许用户在需要时检索它们。此功能在当今的数字时代特别有用&#xff0c;因为只需轻轻一按&#xff0c…

SEO与AI的结合:如何用ChatGPT生成符合搜索引擎优化的内容

在当今数字时代&#xff0c;搜索引擎优化&#xff08;SEO&#xff09;已成为每个网站和内容创作者都必须掌握的一项技能。SEO的主要目标是通过优化内容&#xff0c;使其在搜索引擎结果页面&#xff08;SERP&#xff09;中排名更高&#xff0c;从而吸引更多的流量。然而&#xf…

硬件实用技巧:刚挠板pcb是什么

若该文为原创文章&#xff0c;转载请注明原文出处 本文章博客地址&#xff1a;https://hpzwl.blog.csdn.net/article/details/140060334 长沙红胖子Qt&#xff08;长沙创微智科&#xff09;博文大全&#xff1a;开发技术集合&#xff08;包含Qt实用技术、树莓派、三维、OpenCV…

elasticsearch导出和导入数据

这里我使用的是离线操作的方式&#xff0c; 前提&#xff1a;安装了node, 安装elasticdump命令&#xff1a; npm install elasticdump -g 安装成功后进入elasticdump所在的目录&#xff1a; cd /usr/local/nodejs/lib/node_modules/elasticdump/bin 导出目标索引的映射结构…

深入浅出:npm 常用命令详解与实践

在现代的前端开发流程中&#xff0c;npm&#xff08;Node Package Manager&#xff09;已经成为了不可或缺的一部分。它不仅帮助我们有效地管理项目中的依赖包&#xff0c;还提供了一系列强大的命令来优化开发体验。在这篇博客中&#xff0c;我们将深入探讨 npm 的常用命令&…

高频面试题基本总结回顾1(含笔试高频算法整理)

干货分享&#xff0c;感谢您的阅读&#xff01; &#xff08;暂存篇---后续会删除&#xff0c;完整版和持续更新见高频面试题基本总结回顾&#xff08;含笔试高频算法整理&#xff09;&#xff09; 备注&#xff1a;引用请标注出处&#xff0c;同时存在的问题请在相关博客留言…

【FFmpeg】avformat_write_header函数

FFmpeg相关记录&#xff1a; 示例工程&#xff1a; 【FFmpeg】调用ffmpeg库实现264软编 【FFmpeg】调用ffmpeg库实现264软解 【FFmpeg】调用ffmpeg库进行RTMP推流和拉流 【FFmpeg】调用ffmpeg库进行SDL2解码后渲染 流程分析&#xff1a; 【FFmpeg】编码链路上主要函数的简单分…