论文略读:Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

202406 arxiv

1 intro

  • 传统上,复杂的AI任务需要多个专门系统协作完成。
    • 这类系统通常需要独立的模块来进行信息检索、问答和数据库查询等任务
  • 大模型时代,尤其是上下文语言模型(LCLM)时代,上述问题可以“一体化”完成
    • LCLM可以直接接收包含文本、图像、音频等多模态信息的整个语料库作为输入。
    • 通过"语料库中的上下文"(CiC)提示方法,模型能够在统一的框架内执行各种任务,包括检索、推理和答案生成
    • ——>大大简化了流程
    • ——>避免了多个独立系统可能带来的错误累积问题

  • 然而,评估这些模型的性能并不容易。现有的方法往往局限于特定任务,难以全面测试长上下文模型的能力
    • ——>论文提出了LOFT(Long-Context Frontiers)基准测试
      • 包含6种任务类型,涵盖35个数据集,横跨文本、视觉和音频多个模态
        • 文本检索:从大量文档中找出相关内容

        • 视觉检索:根据文本描述找出相关图像或视频

        • 音频检索:匹配文本与相应音频

        • RAG:基于检索信息生成答案

        • SQL:理解自然语言查询并从数据库中提取信息

        • 多示例上下文学习:从大量示例中学习并完成任务

      • LOFT的一个关键特性是其可扩展性

        • 支持从32k到128k,再到1M个标记的上下文长度

        • ——>能够系统地评估模型性能随上下文长度增加的变化

2 Corpus-in-Context prompt

  • 为了充分发挥长上下文模型的潜力,研究团队提出了"上下文中的语料库"(Corpus-in-Context,CiC)提示方法
    • 这种方法允许模型直接在给定的大规模语料库中进行检索和推理

3 实验结果

3.1 评估的模型

  • 评估了三个最先进的长上下文模型:
    • Google的Gemini 1.5 Pro
    • OpenAI的GPT-4o
    • Anthropic的Claude 3 Opus

3.2文本检索任务

  • 在文本检索任务中,Gemini 1.5 Pro的表现尤为出色。
  • 在128k上下文长度的测试中,Gemini 1.5 Pro在多个数据集上达到了与专门训练的检索系统Gecko相当的性能。
    • 例如,在NQ数据集上,Gemini 1.5 Pro和Gecko都达到了0.99的Recall@1分数,而Gemini 1.5 Pro并没有经过专门的检索训练。

  • 然而,随着上下文长度增加到1M标记,模型性能出现了一定程度的下降。这表明在处理超长上下文时,模型仍面临着挑战。

3.3 视觉检索 &音频检索

  • 在视觉检索任务中,Gemini 1.5 Pro同样表现出优异的性能表现。
    • 其在多个数据集上超越了专门的视觉-文本检索模型CLIP。
    • 例如,在OVEN数据集上,Gemini 1.5 Pro达到了0.93的分数,而CLIP只有0.79。
  • 在音频检索任务上,Gemini 1.5 Pro在所有五种语言的FLEURS数据集上都达到了完美或接近完美的表现,超过了专门的音频检索模型。

3.4 RAG

  • 在RAG任务中,长上下文模型展现出了强大的推理能力。
    • 在需要多跳推理的数据集(如HotpotQA和MusiQue)上,Gemini 1.5 Pro的表现超过了传统的RAG pipeline。
    • 例如,在HotpotQA上,Gemini 1.5 Pro得分为0.75,而专业的RAG系统得分为0.70。

3.5 SQL任务

  • 在SQL类任务中,长上下文模型的表现相对较弱。
  • 在Spider和SparC数据集上,专门的SQL系统的性能显著优于长上下文模型。
    • 这表明在处理需要复杂结构化推理的任务时,这些模型还有很大的改进空间。

3.6多示例上下文学习

  • 在多示例上下文学习任务中,长上下文模型展现出了良好的表现。
    • 在某些任务中(如LIB-dialog),模型的性能随着示例数量的增加而稳步提升。 
    • 然而,在一些推理密集型任务中(如BBH-tracking7),增加示例数量并未带来显著改善,这表明模型在复杂推理任务上仍有局限性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/42458.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《python程序语言设计》2018版第5章第53题利用turtle绘制sin和cos函数 sin蓝色,cos红色和52题类似

直接上题和代码 5.53 (Turtle:绘制sin和cos函数)编写程序绘制蓝色的sin函数和红色的cos函数。 代码和结果 turtle.speed(10) turtle.penup() # sin 用蓝色 turtle.color("blue") #这道题和上道题一样,先把turtle放到起始…

从0到1制作单只鳌虾运动轨迹追踪软件

前言 需要准备windows10操作系统,python3.11.9,cuDNN8.9.2.26,CUDA11.8,paddleDetection2.7 流程: 准备数据集-澳洲鳌虾VOC数据集 基于RT-DETR目标检测模型训练导出onnx模型进行python部署平滑滤波处理视频帧保留的…

简介时间复杂度

好了,今天我们来了解一下,我们在做练习题中常出现的一个名词。时间复杂度。我相信大家如果有在练习过题目的话。对这个名词应该都不陌生吧。但是可能很少的去思考它是干什么的代表的什么意思。反正我以前练习的时候就是这样。我只知道有这么一个名词在题…

【全面讲解下iPhone新机官网验机流程】

🎥博主:程序员不想YY啊 💫CSDN优质创作者,CSDN实力新星,CSDN博客专家 🤗点赞🎈收藏⭐再看💫养成习惯 ✨希望本文对您有所裨益,如有不足之处,欢迎在评论区提出…

MybatisPlus实现插入/修改数据自动设置时间

引言 插入数据时自动设置当前时间,更新数据时自动修改日期为修改时的日期。 使用MybatisPlus的扩展接口MetaObjectHandler 步骤 实现接口 实体类加注解 实现接口 package com.example.vueelementson.common;import com.baomidou.mybatisplus.core.handlers.M…

C++ 模版进阶

目录 前言 1. 非类型模版参数 1.1 概念与讲解 1.2 array容器 2. 模版的特化 2.1 概念 2.2 函数模版特化 2.3 类模版特化 2.3.1 全特化 2.3.2 偏特化 3.模版的编译分离 3.1 什么是分离编译 3.2 模版的分离编译 3.3 解决方法 4. 模版总结 总结 前言 本篇文章主要…

包/final/权限修饰符/代码块

包package 1、包的作用 包用来管理不同的类。 2、包名 包名要全部小写,一般是域名反写,如com.liu。在Java中,java解释器会将package中的.解释为目录分隔符/,也就是说该文件的目录结构为:...com/liu/... 3、全类名…

1.pwn的汇编基础(提及第一个溢出:整数溢出)

汇编掌握程度 能看懂就行,绝大多数情况不需要真正的编程(shellcode题除外) 其实有时候也不需要读汇编,ida F5 通常都是分析gadget,知道怎么用, 调试程序也不需要分析每一条汇编指令,单步执行然后查看寄存器状态即可 但…

实现多数相加,但是传的参不固定

一、情景 一般实现的加法和减法等简单的相加减函数的话。一般都是写好固定传的参数。比如: function add(a,b) {return a b;} 这是固定的传入俩个,如果是三个呢,有人说当然好办! 这样写不就行了! function add(a…

vue中自定义设置多语言(包括使用vue-i18n),并且运行js脚本自动生成多语言文件

在项目中需要进行多个国家语言的切换时,可以用到下面方法其中一个 一、自定义设置多语言 方法一: 可以自己编写一个设置多语言文件 在项目新建js文件,命名为:language.js,代码如下 // language.js 文档 let languagePage {CN…

聊一下Maven打包的问题(jar要发布)

文章目录 一、问题和现象二、解决方法(1)方法一、maven-jar-pluginmaven-dependency-plugin(2)方法二、maven-assembly-plugin 一、问题和现象 现在的开发一直都是用spring boot,突然有一天,要自己开发一个…

Django之项目开发(二)

目录 一、安装和使用uWSGI 1.1、安装 1.2、配置文件 1.3、启动与停止uwsgi 二、安装nginx 三、Nginx 配置uWSGI 四、Nginx配置静态文件 五、Nginx配置负载均衡 一、安装和使用uWSGI uWSGI 是一个 Web 服务器,可以用来部署 Python Web 应用。它是一个高性能的通用的 We…

味蕾与理解:应对自闭症儿童挑食的策略与理解

在星贝育园自闭症康复学校,我们深知饮食习惯对孩子们的成长至关重要,而自闭症儿童的挑食问题往往比同龄儿童更为突出,给家长和照顾者带来了额外的挑战。今天,作为这里的老师,我想与大家分享一些应对自闭症儿童挑食的策…

(南京观海微电子)——电阻应用及选取

什么是电阻? 电阻是描述导体导电性能的物理量,用R表示。 电阻由导体两端的电压U与通过导体的电流I的比值来定义,即: 所以,当导体两端的电压一定时,电阻愈大,通过的电流就愈小;反之&…

鸿蒙应用实践:利用扣子API开发起床文案生成器

前言 扣子是一个新一代 AI 应用开发平台,无需编程基础即可快速搭建基于大模型的 Bot,并发布到各个渠道。平台优势包括无限拓展的能力集(内置和自定义插件)、丰富的数据源(支持多种数据格式和上传方式)、持…

[Unity入门01] Unity基本操作

参考的傅老师的教程学了一下Unity的基础操作: [傅老師/Unity教學] Unity3D基礎入門 [華梵大學] 遊戲引擎應用基礎(Unity版本) Class#01 移动:鼠标中键旋转:鼠标右键放大:鼠标滚轮飞行模式:右键WASDQEFocus模式&…

算法设计与分析 实验5 并查集法求图论桥问题

目录 一、实验目的 二、问题描述 三、实验要求 四、实验内容 (一)基准算法 (二)高效算法 五、实验结论 一、实验目的 1. 掌握图的连通性。 2. 掌握并查集的基本原理和应用。 二、问题描述 在图论中,一条边被称…

基于Android Studio订餐管理项目

目录 项目介绍 图片展示 运行环境 获取方式 项目介绍 能够实现登录,注册、首页、订餐、购物车,我的。 用户注册后,登陆客户端即可完成订餐、浏览菜谱等功能,点餐,加入购物车,结算,以及删减…

【学习笔记】操作系统--万字长文

计算机操作系统 文章目录 计算机操作系统引言 操作系统基本概念第一章 引论目标和作用操作系统发展历程单道批处理系统多道批处理系统分时系统实时系统 基本特征并发共享虚拟异步性(不确定性) 操作系统主要功能处理机管理内存管理设备管理文件管理 第二章…

工程化:Commitlint / 规范化Git提交消息格式

一、理解Commitlint Commitlint是一个用于规范化Git提交消息格式的工具。它基于Node.js,通过一系列的规则来检查Git提交信息的格式,确保它们遵循预定义的标准。 1.1、Commitlint的核心功能 代码规则检查:Commitlint基于代码规则进行检查&a…