中科院发布大模型想象增强法IAG,无需外部资源,想想就能变强

在人工智能领域,尤其是自然语言处理(NLP)的子领域——问答系统(QA)中,知识的获取和利用一直是推动技术进步的核心问题。近年来,大语言模型(LLMs)在各种任务中展现出了惊人的能力,但它们在处理知识密集型任务时仍然存在局限性。为了解决这一问题,研究者们提出了多种知识增强方法,如检索增强生成(Retrieval-Augmented-Generation, RAG)和生成增强生成(Generation-Augmented-Generation, GAG)。然而,这些方法不仅依赖外部资源,而且需要将显式文档整合到上下文中,导致更长的上下文和更多的资源消耗。

最新的研究表明,LLMs内部已经建模了丰富的知识,只是这些知识没有被有效地触发或激活。受此启发,研究者提出了一种新的知识增强框架——想象增强生成(Imagination-Augmented-Generation, IAG),它模拟人类在回答问题时,仅通过想象来弥补知识缺陷的能力,而不依赖外部资源。在IAG的指导下,研究者提出了一种问答方法——想象丰富上下文的方法(IMcQA),通过两个模块获得更丰富的上下文:通过生成短虚拟文档的显式想象和通过HyperNetwork生成适配器权重的隐式想象。实验结果表明,IMcQA在开放域和闭卷设置中,以及在分布内性能和分布外泛化中都展现出显著优势。

分享几个网站

GPT-3.5研究测试:
https://hujiaoai.cn

GPT-4研究测试:
https://higpt4.cn

Claude-3研究测试(全面吊打GPT-4):
https://hiclaude3.com

论文标题:
Imagination Augmented Generation: Learning to Imagine Richer Context for Question Answering over Large Language Models

论文链接:
https://arxiv.org/pdf/2403.15268.pdf

知识增强方法的发展回顾

1. RAG与GAG方法简介

Retrieval-Augmented-Generation (RAG) 和 Generation-Augmented-Generation (GAG) 是两种旨在增强大语言模型(LLMs)在问答任务中所需知识的方法。

RAG 方法通过检索外部资源(如辅助工具和领域文档)中的相关文档,并将这些文档与问题一起输入到 LLMs 中。例如,FiD 方法就是一种典型的 RAG 方法,它需要处理大量的检索文档,随着文档数量的增加,计算资源和推理时间也随之增长。

相比之下,GAG 方法则利用像 InstructGPT 这样的 LLMs 生成相关文档,避免了对外部资源的依赖,但仍需要额外的财务成本(如 API 调用)并且同样需要大量的计算资源和时间。

图片

2. 现有方法的局限性

尽管 RAG 和 GAG 方法在多个任务上展示了强大的性能,但它们都存在一些局限性。

  • 首先,RAG 方法不仅需要预设的外部资源,而且还需要更多的计算资源和更长的处理时间。

  • 此外,RAG 和 GAG 方法都使用了更多的显式外部资源(象征性文档),而获取的内容质量显著影响下游任务。例如,文档中的噪声会对性能产生负面影响。

因此,迫切需要探索新的知识增强方法。

提出IAG框架的动机与概念

1. IAG框架的定义与目标

Imagination-Augmented-Generation (IAG) 是一种新的知识增强框架,旨在模拟人类在问答任务中仅通过想象来弥补知识缺陷的能力,而不依赖外部资源。IAG 框架的目标是充分利用 LLMs 内在的知识,通过两个主要模块——显式想象和隐式想象——来激活 LLMs 中的各种潜在知识建模,并获取更丰富的上下文。

2. 与RAG和GAG的对比

与 RAG 和 GAG 相比,IAG 框架不依赖外部资源,而是完全利用 LLMs 的内在知识。IAG 通过显式想象模块生成一个简短的虚拟文档,并通过隐式想象模块使用 HyperNetwork 生成适配器权重,从而激活 LLMs 的任务处理能力。这种方法不仅避免了对外部资源的依赖,而且在提取和激活内部知识方面更为高效。实验结果表明,IAG 在开放域和闭卷设置中都展现出显著优势,无论是在分布内性能还是分布外泛化方面。

IMcQA方法详解

1. 显式想象与长文本压缩

IMcQA方法的显式想象模块首先使用符号蒸馏来获取压缩的上下文,然后指导大语言模型(LLMs)生成一个简短且有用的虚拟文档。这个过程使得LLMs能够构想与问题知识需求紧密相连的压缩知识。在这个模块中,通过预训练Imagine Model来激活LLMs的长文本建模能力,使得处理短文本的QA模型也能像处理长文本的QA模型一样具有丰富的上下文理解能力。

图片

2. 隐式想象与HyperNetwork的应用

隐式想象模块利用提出的HyperNetwork来生成LoRA权重,以激活LLMs的任务处理能力。与LoRA存储任务知识和能力的模块不同,HyperNetwork学习为每个问题想象隐藏的知识。HyperNetwork的架构详细描述在Figure 3中,它接受连接的特征向量和位置嵌入作为输入,并生成LoRA适配器的权重。这类似于在提示中重复问题,并加入特定的主题线索来刺激模型回忆相关问题,但我们生成的是模型参数。

图片

3. 训练过程中的长文本蒸馏

在知识蒸馏的框架下,考虑长文本蒸馏(LCD) 作为主要指导学生模型的上下文化知识。具体来说,教师模型FiD利用较长的上下文输入并理论上包含更多信息(更丰富的上下文),将激活更具体的内部知识并作为监督模型。教师模型帮助学生模型T5(具有与教师相同大小的模型)利用短文本输入,以激活更丰富的特征表示和知识。学生模型在每个小批量zr = (xr, yr)上的优化目标是最小化教师和学生模型之间隐藏状态的余弦距离和注意力矩阵的均方误差。

实验设置与评估指标

1. 数据集介绍

研究者们在三个公开的问答数据集上评估提出的方法:NaturalQuestions (NQ)、WebQuestions (WQ) 和 TriviaQA (TQA)。为了评估模型性能,研究者们使用精确匹配(EM)分数来评估预测答案。

2. 基线方法与对比

研究者考虑了中等大小的语言模型(< 1B)和大语言模型(LLM)(≥ 3B)。选择T5作为中等大小语言模型的骨干。研究者将提出的IMcQA与几种知识增强方法进行比较,包括RAG模型如DPR、RAG和FiD,以及GAG模型GENREAD和参数高效微调方法LoRA。

对于LLMs的零样本设置(≥ 3B),研究者使用Llama2-7B和Llama2-13B作为基础模型。在四种不同的设置下进行评估:无检索、有检索、使用LoRA和使用提出的IMcQA。

图片

在预训练阶段,使用T5-large初始化的Imagine Model使用生成的问题压缩对。在第二阶段,教师模型使用不同大小的FiD阅读器在目标数据集的训练分割上进行微调。学生模型冻结了骨干网络,仅更新HyperNetwork、前馈神经网络(FFN)和归一化层。

图片

主要实验结果与分析

1. IMcQA的性能表现

IMcQA方法在三个开放域问答数据集上的实验结果表明,该方法能够有效地激活LLMs内部的相关知识,从而在开放域和闭卷设置下都展现出显著的优势。具体来说,在闭卷设置中,IMcQA相比基线方法平均提高了2%的准确率,这表明IMcQA能够通过想象来更有效地利用内部知识。在开放域设置中,尽管IMcQA只处理一个短的虚构文档,但其性能仍然与处理10个文档的RAG和GAG方法相当或更好,这进一步证明了IMcQA通过想象压缩文本来平衡效率和开销。

2. 开放域与闭卷设置下的表现

开放域和闭卷设置下,IMcQA展现出了卓越的性能。在闭卷设置中,IMcQA通过激活LLMs内部的知识,达到了优于传统闭卷模型的性能。在开放域设置中,IMcQA利用单个想象的文档就能达到或超过处理多个文档的传统方法,这一结果凸显了IMcQA在提高问答性能方面的有效性。

3. 超出分布(OOD)性能分析

IMcQA在超出分布(OOD)的泛化能力上也展现出了优异的性能。通过在NQ数据集上训练并在其他两个数据集上测试,IMcQA在使用单个想象文档时与使用10个检索文档的FiD方法性能相近,且在使用10个检索文档时,IMcQA的性能普遍优于FiD方法。这表明IMcQA通过HyperNetwork生成的LoRA适配器权重,能够根据问题激活和访问内部知识,从而在OOD场景下展现出更好的性能。

图片

零样本设置下的实验结果

1. Llama2模型的性能提升

在零样本设置下,Llama2模型通过自主想象知识,展现出了性能的显著提升。尽管通过显式想象的上下文能够使平均准确率提高1%,但这种提升不如通过检索10个文档所实现的显著。IMcQA通过两种主要的想象过程,分别在NQ、TQA和WQ数据集上将EM提高了+15.33%、+11.97%和+16.38%。这表明即使在零样本设置下,IMcQA方法仍能为LLMs带来实质性的性能提升

图片

2. 显式与隐式想象的作用分析

通过对IMcQA中显式想象(EI)和隐式想象(II)的分析,发现这两种想象过程对于激活LLMs内部知识至关重要。长文本蒸馏(LCD)和EI在HyperNetwork中的应用对总体结果有边际贡献,这验证了更广泛的上下文倾向于优化性能,尽管收益有限。

训练成本与推理速度分析

在评估IMcQA方法的有效性的同时,训练成本和推理速度也是重要的考量因素。根据实验结果,IMcQA在训练和推理阶段都展现出了一定的优势。

具体来说,IMcQA通过共享的HyperNetwork生成LoRA适配器权重,从而减少了参数更新的需求。尽管由于知识蒸馏的限制,训练过程中并没有显著的速度优势,但在推理阶段,IMcQA的设计极为轻量级,显著降低了处理令牌的数量,同时在性能上要么超过了其他方法,要么与之相差无几。这表明IMcQA在效率和计算需求之间取得了良好的平衡

此外,与GAG方法相比,IMcQA不需要额外的财务成本(例如API调用),并且由于模型尺寸的减小,生成速度更快。在NQ数据集上,使用T5-Base作为基础模型,在单个RTX 3090 GPU上进行的实验表明,标准批量大小为8的训练和批量大小为1的推理,IMcQA在5000步训练时间和GPU时间上的推理速度都有所提升。

图片

总的来说,IMcQA方法在训练成本和推理速度上都显示出了其优势,尤其是在推理阶段的轻量级设计,使其在保持竞争力的性能的同时,大幅减少了资源消耗。

总结与未来工作方向

IAG与IMcQA方法的贡献

本研究提出了一种新颖的知识增强框架——想象增强生成(IAG),以及一个基于此框架的问题回答方法——IMcQA。IAG框架模拟人类在回答问题时补偿知识缺陷的能力,仅通过想象而不依赖外部资源。

IMcQA方法通过显式想象和隐式想象两个主要模块,有效激活并利用LLMs内在的知识,获得更丰富的上下文。实验结果表明,IMcQA在开放域和闭卷设置中都显示出显著优势,无论是在分布内性能还是在分布外泛化方面。

面临的挑战与未来研究方向

尽管IMcQA在问题回答任务中取得了显著成就,但仍存在一些限制和挑战。

  • 首先,目前的方法专门针对QA任务,其在其他知识密集型任务(如事实核查或对话系统)中的有效性尚未得到验证。

  • 其次,本研究仅考虑了想象文本和隐藏表示,未来工作需要探索包括想象图像在内的多模态信息对性能的影响。

  • 此外,目前的方法依赖于LLMs在预训练阶段学到的知识,这可能限制了模型快速适应新信息的能力。IAG中的内部知识激活可能导致模型决策过程不够透明,使得生成答案的逻辑难以解释。

因此,未来需要继续探索适应性知识增强方法,以进一步优化结果。

综上所述,未来的研究方向将包括将IAG应用于更多NLP任务,探索多模态知识增强生成,并改进方法以适应新信息,同时提高模型决策过程的透明度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/802586.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

风电场智能化转型基于ARM工控机的HDMI数据实时监控显示

全球能源结构不断调整的大背景下&#xff0c;智能电网、太阳能发电、风能发电等清洁能源领域正经历着一场由技术创新引领的深刻变革。在这场变革中&#xff0c;ARM架构的工控机凭借其出色的性能、低功耗及高度可定制化的特点&#xff0c;正在成为能源管理系统的核心组件&#x…

轴向磁通电机应用场景不断扩展 未来市场存在较大开发空间

轴向磁通电机应用场景不断扩展 未来市场存在较大开发空间 根据磁通方向不同&#xff0c;磁通电机分为轴向磁通电机、径向磁通电机两大类&#xff0c;其中轴向磁通电机的磁通方向为轴向&#xff0c;载流导体系径向放置。轴向磁通电机特点在于结构上旋转转子位于定子的侧面&#…

【算法统治世界】动态规划 个人笔记总结

&#x1f389;&#x1f389;欢迎光临&#x1f389;&#x1f389; &#x1f3c5;我是苏泽&#xff0c;一位对技术充满热情的探索者和分享者。&#x1f680;&#x1f680; &#x1f31f;特别推荐给大家我的最新专栏《数据结构与算法&#xff1a;初学者入门指南》&#x1f4d8;&am…

面试字节被挂了

分享一个面试字节的经历。 1、面试过程 一面&#xff1a;上来就直接"做个题吧"&#xff0c;做完之后&#xff0c;对着简历上一个项目聊&#xff0c;一直聊到最后&#xff0c;还算比较正常。 二面&#xff1a;做自我介绍&#xff0c;花几分钟聊了一个项目&#xff…

数据库入门-----SQL基础知识

目录 &#x1f4d6;前言&#xff1a; &#x1f4d1;SQL概述&&通用语法&#xff1a; &#x1f433;DDL&#xff1a; &#x1f43b;操作数据库&#xff1a; &#x1f41e;数据类型&#xff1a; &#x1f989;操作表&#xff1a; &#x1f9a6;DML: 语法规则&#x…

浅析安全传输协议HTTPS之“S”

当前互联网&#xff0c;在各大浏览器厂商和CA厂商的推动下&#xff0c;掀起了一股HTTPS应用浪潮。为了让大家更好的了解HTTPS&#xff0c;本文给大家介绍关于HTTPS 中的S一个整体的认识。从其产生的历史背景、设计目标说起&#xff0c;到分析其协议设计结构、交互流程是如何实现…

R语言数据操纵:常用函数

目录 处理循环的函数 lapply函数 apply函数 mapply函数 tapply函数 split函数 排序的函数 sort函数与order函数 总结数据信息的函数 head函数与tail函数 summary函数 str函数 table函数 any函数 all函数 xtab函数 object.size函数 这篇文章主要介绍R语言中处理…

HarmonyOS 开发-一镜到底“页面转场”动画

介绍 本方案做的是页面点击卡片跳转到详情预览的转场动画效果 效果图预览 使用说明 点击首页卡片跳转到详情页&#xff0c;再点击进入路由页面按钮&#xff0c;进入新的路由页面 实现思路 首页使用了一种视觉上看起来像是组件的转场动画&#xff0c;这种转场动画通常是通过…

swiftui macOS实现加载本地html文件

import SwiftUI import WebKitstruct ContentView: View {var body: some View {VStack {Text("测试")HTMLView(htmlFileName: "localfile") // 假设你的本地 HTML 文件名为 index.html.frame(minWidth: 100, minHeight: 100) // 设置 HTMLView 的最小尺寸…

RabbitMQ-延迟队列的使用

目录 一、使用场景 二、第一种方式&#xff1a;创建具有超时功能且绑定死信交换机的消息队列 三、第二种方式&#xff1a;创建通用延时消息 四、第三种方式&#xff1a;使用rabbitmq的延时队列插件&#xff0c;实现同一个队列中有多个不同超时时间的消息&#xff0c;并按时间…

春秋之境28512

题目说该CMS的/single.php路径下&#xff0c;id参数存在一个SQL注入漏洞。访问看一下随便点一个图片。 发现了注入点?id 那么开始查看闭合符一个 就报错了 You have an error in your SQL syntax; check the manual that corresponds to your MariaDB server version for th…

一起学习python——基础篇(10)

前言&#xff0c;Python 是一种面向对象的编程语言。以前大学读书的时候经常开玩笑说的一句话“如果没有对象&#xff0c;就new一个”。起因就是编程老师上课时经常说一句“首先&#xff0c;我们new一个对象”。 今天讲一下python的类和对象。 类是什么&#xff1f;它是一种用…

【linux】基础IO(三)

上一节基础IO我们着重理解了重定向与缓冲区&#xff0c;这节我们需要重点理解文件再磁盘中是怎样存储。以及上一节我们没有涉及到的知识。 stderr到时有什么用&#xff1f; 目录 fd-> 0 1 2&#xff1a;初步理解2怎样将错误与正确输出都打印在一个文件&#xff1f; 文件在硬…

Redis基础操作与持久化

目录 引言 一、Reids工具与数据类型 &#xff08;一&#xff09;Reids工具 &#xff08;二&#xff09;Redis数据类型 1.String&#xff08;字符串&#xff09; 2.Hash&#xff08;哈希&#xff09; 3.List&#xff08;列表&#xff09; 4.Set&#xff08;集合&#xff…

实践笔记-linux内核版本升级(centos7)

linux内核版本升级 1.查看当前内核版本信息2.采用yum方式进行版本升级2.1导入仓库源2.2选择 ML 或 LT 版本安装2.3设置内核启动 3.删除旧版本内核 1.查看当前内核版本信息 #查看操作系统版本 cat /etc/redhat-release #查看系统内核 uname -r2.采用yum方式进行版本升级 2.1导…

白色磨砂质感html5页源码

白色磨砂质感html5页源码&#xff0c;简约的基础上加上了团队成员&#xff0c;自动打字特效音乐播放器存活时间 源码下载 https://www.qqmu.com/2980.html

vscode的源码插件GitHub Repositories

打铁还需自身硬&#xff0c;需要不断提升自我&#xff0c;提升自我的一种方式就是看源码&#xff0c;站在更高的维度去理解底层原理&#xff0c;以便以后更好的开发和解决问题&#xff0c;由于源码一个动不动就是几个G甚至十几个G&#xff0c;如果一个个源码下载下来&#xff0…

数字图像处理项目——基于BCNN和迁移学习的鸟类图像细粒度分类(论文/代码)

完整的论文代码见文章末尾 以下为核心内容 摘要 本文采用了ResNet50、VGG19、InceptionV3和Xception等四种不同的深度神经网络模型&#xff0c;并应用于鸟类图像的细粒度分类问题中&#xff0c;以探究其在该任务上的性能表现。 其中&#xff0c;本文使用了BCNN&#xff08;B…

查分约束学习

问题模型&#xff1a; 有n个变量&#xff1a;&#xff0c;有m个约束条件 令差分数组&#xff0c;可以知道如果x1x2<q&#xff0c;那么与j和i-1有关联 由画图可知&#xff0c;如果有在i-1至j建立的有向图中跑最短路&#xff0c;那么dis[n]即为最小的约束变量 另外&#x…

Chrome浏览器如何跟踪新开标签的网络请求?

在测试一个东西的时候&#xff0c;它虽然是a链接&#xff0c;但是&#xff0c;是由前端在js里写跳转的。我又必须要知道它的跳转链接&#xff0c;只能用截屏的方式来捕捉浏览器的地址栏链接 打开浏览器控制台(F12)点击红色箭头打钩为弹出式窗口自动打开DevTools 英文版调试参…