论文 | PRCA: 通过可插拔奖励驱动的上下文适配器拟合用于检索问答的黑盒大语言模型

        论文全称:PRCA: Fitting Black-Box Large Language Models for Retrieval Question
Answering via Pluggable Reward-Driven Contextual Adapter

        核心问题:如何在检索增强式问答(ReQA)任务中,利用大型语言模型(LLMs)作为生成器,同时避免对其进行耗时的微调。

        解决方案:提出了一种可训练的插件式奖励驱动上下文适配器(PRCA),它位于检索器和生成器之间,以黑盒方式工作。

PRCA优势:

  1. 黑盒 LLMs 集成: PRCA 允许将 LLMs 作为黑盒集成到 ReQA 框架中,无需微调,也适用于闭源模型。
  2. 鲁棒性: PRCA 兼容各种检索器和生成器,因为它保持了检索器和生成器的冻结状态。
  3. 效率: PRCA 通过减少输入生成器的文本长度来提高框架的效率,并可以适应不同的检索语料库。

将LLM作为黑盒模型:

                将 LLM 作为黑盒模型,意味着我们将其视为一个不可见的、无法直接修改的组件,只关注其输入和输出。在这种情况下,我们无法了解 LLM 内部的结构和参数,也无法对其进行直接修改或优化。

原因:

  1. LLM 参数规模庞大:例如 GPT-3 拥有 1750 亿参数,进行微调需要大量的计算资源和时间。
  2. LLM 开源情况:部分 LLM 是闭源的,无法获取其内部结构和参数。
  3. LLM 部署复杂性: 将 LLM 部署到生产环境中可能面临各种挑战,例如资源分配、模型更新等。

例子:

  1. API 调用: 通过 API 调用 LLM,只关注输入和输出,无需了解其内部结构。
  2. 模型集成:将 LLM 集成到其他模型中,只使用其预测功能,无需修改其参数。

利与弊:

        利:降低训练成本、适用闭源模型、简化部署过程、提高模型泛化能力、提高开发效率。

        弊:无法理解 LLM 的决策过程、难以进行模型优化、难以解释模型的预测结果

PRCA工作原理:

1.上下文提取阶段(相当于是精炼上下文)

  • PRCA 从检索器获取查询和 Top-K 相关文档,然后通过监督学习训练,学习如何从这些文档中提取信息丰富的上下文。
  • 目标是最小化提取的上下文与真实上下文之间的差异。

2.奖励驱动阶段

  • 将生成器视为奖励模型,根据生成答案与真实答案之间的 ROUGE-L 分数计算奖励信号。
  • 通过强化学习优化 PRCA 的参数,目标是最大化生成器的奖励,并保持与原始参数的相似性。
  • 为了解决黑盒生成器带来的挑战,PRCA 使用了一种策略来估计每个时间步的奖励 Rt,从而避免频繁调用生成器 API。
  • PRCA 使用近端策略优化(PPO)算法进行参数更新。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/40260.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java面试题:sql优化

表的设计的优化 参考阿里开发手册(嵩山版) 设置合适数值类型(tinyint,int,bigint) 设置合适的字符串类型(char,varchar) 索引优化 SQL语句优化 需要指明字段名称,避免直接使用select*,导致回表查询 避免造成索引失效的写法 尽量用union all代替union,union会多一次过滤…

【C语言入门】初识C语言:掌握编程的基石

📝个人主页🌹:Eternity._ ⏩收录专栏⏪:C语言 “ 登神长阶 ” 🤡往期回顾🤡:C语言入门 🌹🌹期待您的关注 🌹🌹 ❀C语言入门 📒1. 选择…

Mac OS M3 安装 Docker 并解决芯片不支持问题

有点儿无语,好不容易从Docker官网下载 Apple Chip版本,安装挺快,一试废了。docker --version命令执行挺好,但一下载镜像常用的alpine不能运行。 经查询资料尝试选择了替代品 OrbStack目前感觉挺好用。官网:https://or…

在Linux系统中使用阿里云镜像源安装和配置Docker的详细教程

很多国内小伙伴在Linux上安装Docker经常会遇到网络不可达的问题。那么我们可以使用阿里云镜像来完成Docker的安装,这里是如何在 CentOS 上使用阿里云的 Docker 镜像源的步骤: 1. 删除已有的 Docker 仓库 如果之前添加了任何 Docker 仓库,先…

有哪些AI绘画软件?

以下是一些比较知名的AI绘画软件: 1、DeepArt:基于深度学习技术,可以将照片转换成各种艺术风格的绘画。 2、Artbreeder:通过生成对抗网络(GAN),允许用户混合和匹配图像以创建新的艺术作品。 …

单片机关键任务优先级的实现学习

与总体产品联调时,需要各个单机系统严格按照总体要求,进行数据输出,时间的偏差将出现系统异常,控制失败等不稳定情况产生,甚至影响到产品安全。 因此必须确保某些关键任务的优先执行。单片机任务优先级一般有两种方式…

[小试牛刀-习题练]《计算机组成原理》之指令系统

一、选择题 0.【指令-课本习题】某计算机按字节编址,指令字长固定且只有两种指令格式,其中三地址指令29条,二地址指令107条,每个地址字段为6位,则指令字长至少应该是(A) A.24位 B. 26位 C. 28位…

ctfshow web sql注入 web242--web249

web242 into outfile 的使用 SELECT ... INTO OUTFILE file_name[CHARACTER SET charset_name][export_options]export_options:[{FIELDS | COLUMNS}[TERMINATED BY string]//分隔符[[OPTIONALLY] ENCLOSED BY char][ESCAPED BY char]][LINES[STARTING BY string][TERMINATED…

记一次:poi填充Word模板

前言:笔者在实际工作中需要生成一些报告,但报告的模板是固定的,指定位置需要替换数据或图片,因此总结一下 正题:话不多说,直接贴上工具类吧 package com.lhkj.iot.controller.poi;import java.io.File; i…

Unity丧尸围城Demo总结

1.BasePanel和UIManager 子类面板继承BasePanel,UIManager实现动态创建面板,展示面板,隐藏面板,得到面板 (1)单例类 (2)canvas设置为预制体,将新创建的面板设置为该子类 …

【面试题】网络IO多路复用模型之异步事件

目录 异步事件模型的概念 工作流程: WSAEventSelect模型的优势和不足 代码: 异步事件模型的概念 WSAEventSelect模型是WindowsSockets提供的另外一个有用的异步I/O模型。该模型允许一个或多个套接字上接收以事件为基础的网络事件通知。Windows Sock…

面试专区|【40道移动端测试高频题整理(附答案背诵版)】

iOS应用和Android应用测试有什么侧重点? iOS应用和Android应用测试的侧重点略有不同,主要表现在以下几个方面: 分辨率和屏幕尺寸:Android设备的分辨率和屏幕尺寸多种多样,因此,需要测试更多的分辨率和屏幕…

2.Mybatics_映射器与参数

文章目录 映射器与参数一.XML映射器1.创建工具类2.SQL语句操作:3.模糊查询4.返回多个聚合函数的结果5.返回分组后的结果 二.不同个数参数的处理1.单个参数2.对象参数3.多个参数4.传入一个map类型的参数5.添加注册方法引出service层概念 映射器与参数 一.XML映射器 1.创建工具…

Android系统层屏蔽弹出停止运行对话框

项目场景: 车载项目,ATC8257-Android9.0系统平台,福田汽车P3系列项目 项目使用高德公版地图前提是无法获得任何高德定制服务,每次刷完机去切换语言系统会弹出"高德地图已停止运行"弹窗,严重影响用户使用体…

【第三版 系统集成项目管理工程师】第6章 数据工程

持续更新。。。。。。。。。。。。。。。 【第三版】第六章 数据工程 6.1数据采集和预处理6.1.1 数据采集 P2346.1.2 数据预处理6.1.3 数据预处理方法1.缺失数据的预处理-P2352.异常数据的预处理-P2363.不一致数据的预处理-P2364.重复数据的预处理-P2365.格式不符数据的预处理…

面经总结dd

java基础: 为什么重写hashcode和equals? hash码由对象的内存地址或者对象的属性计算而出,可以作为键值对的键例如hashmap中的key通过hashcode高低位异或计算比如在hashmap中,hashcode是确定桶的位置,然后通过equals()方法找到正确的对象,即认为不同的对象有着相同的桶(…

Perl 循环

Perl 循环 Perl 是一种功能强大的编程语言,广泛用于文本处理、系统管理、网络编程等领域。在 Perl 中,循环是控制程序流程的关键组成部分,它允许我们重复执行代码块,直到满足特定的条件。本文将详细介绍 Perl 中的各种循环结构,包括 for 循环、while 循环、until 循环、f…

uniApp 封装VUEX

Vuex Store (index.js) import Vue from vue; import Vuex from vuex; import Cookies from js-cookie;Vue.use(Vuex);const saveStateKeys [vuex_user, vuex_token, vuex_demo];const initialState {vuex_user: { name: 用户信息 },vuex_token: Cookies.get(token) || ,vue…

UE5 03-物体碰撞检测

在你需要碰撞的物体上添加一个碰撞检测组件 碰撞预设 设置为NoCollision,这样移动过程中就不会有物理碰撞阻挡效果,只负责检测是否碰撞,比较难解释,如果学过Unity的话,可以把它理解成 Collision 为 Trigger

My sql 安装,环境搭建

以下以MySQL 8.0.36为例。 一、下载软件 1.下载地址官网:https://www.mysql.com 2. 打开官网,点击DOWNLOADS 然后,点击 MySQL Community(GPL) Downloads 3. 点击 MySQL Community Server 4.点击Archives选择合适版本 5.选择后下载第二个…