【深度学习】检索增强生成 RAG

RAG (Retrieval-Augmented Generation) 是由 Facebook AI Research (FAIR) 提出的。具体来说,RAG 是在 2020 年的论文 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 中首次被提出的。

为什么提出 RAG?

在 NLP 中,有很多知识密集型任务(Knowledge-Intensive Tasks),如开放领域问答、知识生成等,这些任务依赖于模型掌握大量的外部知识。然而,传统的预训练生成模型(如 GPT-3、BERT)存在以下问题:

  1. 知识静态性:模型只能使用训练过程中学到的知识,更新知识需要重新训练。
  2. 参数限制:模型大小有限,不可能记住所有知识。
  3. 生成质量的限制:没有外部支持的生成模型可能会生成不准确或不相关的内容。

RAG 的目标 是解决这些问题,通过引入一个外部知识库来增强生成模型的知识能力,同时使得模型更灵活和可扩展。

RAG 的创新

  1. 检索增强生成:
    • 通过引入检索机制,模型在生成答案时可以动态查询外部知识库(如维基百科)。
  2. 端到端训练:
    • 检索模块和生成模块可以端到端地联合训练,从而优化检索和生成的整体性能。
  3. 结合生成和检索的优点:
    • 保留生成模型的语言生成能力,同时利用检索模块动态补充知识,提升生成的准确性和相关性。

RAG 的核心思想

传统生成模型(如 GPT、BERT)在回答问题时依赖于预训练数据的记忆,而 RAG 提供了一种动态查询外部知识库的能力。具体而言:

  1. 检索(Retrieval):
    • 通过检索模型,从外部知识库(如维基百科、企业文档)中找到与输入问题最相关的文档。
  2. 生成(Generation):
    • 将检索到的文档作为上下文输入生成模型,由生成模型(如 BART、GPT)生成答案。

这种设计使 RAG 能够动态获取外部知识,解决生成模型对训练数据依赖的问题。

RAG 的工作流程

  1. 输入问题
    用户提供一个查询(Query),例如“Who won the Nobel Prize in Physics in 2023?”

  2. 检索阶段(Retrieval)

    • 使用基于嵌入的检索模型(如 SentenceTransformer、BM25、Dense Retriever)从知识库中挑选最相关的文档。
    • 知识库的内容通常被预处理为嵌入向量,存储在向量数据库(如 FAISS)中。
    • 输出是检索到的文档集合(例如 5 个文档)。
  3. 生成阶段(Generation)

    • 将检索到的文档与查询合并,作为上下文输入到生成模型中(如 BART、GPT)。
    • 模型基于上下文生成答案。
  4. 输出答案
    最终生成的答案由生成模型直接输出。

RAG 的优点

  1. 动态知识访问
    • 不依赖模型的固定训练数据,可以随时更新知识库,回答实时问题。
  2. 增强生成能力
    • 将生成任务与知识检索结合,可以显著提高答案的准确性和相关性。
  3. 可扩展性
    • 检索和生成阶段可以分别优化和扩展,比如替换更强的检索模型或生成模型。

RAG 的实现框架

RAG 通常由以下组件实现:

1. 检索模型
  • 用于从知识库中找到相关文档。
  • 常用技术:
    • BM25: 基于关键词的传统检索算法。
    • Dense Retriever: 使用嵌入模型(如 SentenceTransformer)生成文档和查询的向量,通过余弦相似度进行匹配。
    • 向量数据库: FAISS、Weaviate、Milvus。
2. 生成模型
  • 用于基于检索到的文档生成答案。
  • 常用模型:
    • BART: 一种强大的序列到序列生成模型。
    • T5 (Text-to-Text Transfer Transformer): 用于多任务生成。
    • GPT 系列: 强大的生成能力,适合处理长文档。
3. 知识库
  • RAG 的核心存储,包含外部知识源的嵌入或索引。
  • 数据来源:
    • 维基百科。
    • 领域特定文档。
    • 实时爬取的网页。
4. 上下文生成
  • 将检索结果与原始查询拼接,构建生成模型的输入。

RAG 的主要应用

  • 开放领域问答(Open-Domain QA)
  • 知识生成(Knowledge Generation)
  • 零样本学习(Zero-shot Learning)

RAG 的代码实现简要示例

以下是一个简单的 RAG 示例,结合检索和生成模型完成问答任务:

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
from sentence_transformers import SentenceTransformer
import numpy as np
import torch
from sklearn.metrics.pairwise import cosine_similarity# 加载生成模型(如 BART)
generator_model = AutoModelForSeq2SeqLM.from_pretrained("facebook/bart-large")
generator_tokenizer = AutoTokenizer.from_pretrained("facebook/bart-large")# 加载检索模型(如 SentenceTransformer)
retriever_model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")# 知识库(文档集合)
knowledge_base = ["Albert Einstein was awarded the Nobel Prize in 1921.","The Nobel Prize in Physics in 2023 was awarded for quantum technologies.","Quantum computing uses the principles of quantum mechanics.",
]# 创建知识库嵌入
knowledge_embeddings = retriever_model.encode(knowledge_base)# 用户问题
query = "Who won the Nobel Prize in Physics in 2023?"
query_embedding = retriever_model.encode([query])# 检索阶段:计算余弦相似度
similarities = cosine_similarity(query_embedding, knowledge_embeddings)
top_k_idx = np.argsort(similarities[0])[-3:][::-1]  # 选取前 3 个文档
retrieved_docs = [knowledge_base[i] for i in top_k_idx]# 生成阶段:将检索结果与查询拼接
context = " ".join(retrieved_docs)
input_text = f"Question: {query} Context: {context}"
inputs = generator_tokenizer.encode(input_text, return_tensors="pt")# 生成答案
outputs = generator_model.generate(inputs, max_length=50, num_beams=5)
answer = generator_tokenizer.decode(outputs[0], skip_special_tokens=True)print("Generated Answer:", answer)

示例运行结果

假设知识库中包含:

  • “Albert Einstein was awarded the Nobel Prize in 1921.”
  • “The Nobel Prize in Physics in 2023 was awarded for quantum technologies.”

输入问题:

Who won the Nobel Prize in Physics in 2023?

可能的生成答案:

The Nobel Prize in Physics in 2023 was awarded for quantum technologies.

总结

RAG 是一个强大的框架,将检索(准确找到相关信息)和生成(生成连贯的答案)相结合,解决了生成式模型知识过时和回答准确性的问题,是现代问答和知识生成任务的重要方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/888789.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在 LS-DYNA 中将应力转换为用户定义的坐标系

介绍 通常,使用 LS-DYNA 或 Ansys Mechanical 等仿真工具解决工程问题需要将张量结果与解析解进行比较。一个这样的例子是加压圆柱体,其中圆周应力或环状应力是感兴趣的主要应力度量。例如,如果对具有复杂端部处理的几何结构进行此类仿真&am…

树莓集团是如何链接政、产、企、校四个板块的?

树莓集团作为数字影像行业的积极探索者与推动者,我们通过多维度、深层次的战略举措,将政、产、企、校四个关键板块紧密链接在一起,实现了资源的高效整合与协同发展,共同为数字影像产业的繁荣贡献力量。 与政府的深度合作政府在产业…

工业异常检测-CVPR2024-新的3D异常数据合成办法和自监督网络IMRNet

论文:https://arxiv.org/pdf/2311.14897v3.pdf 项目:https://github.com/chopper-233/anomaly-shapenet 这篇论文主要关注的是3D异常检测和定位,这是一个在工业质量检查中至关重要的任务。作者们提出了一种新的方法来合成3D异常数据&#x…

debian ubuntu armbian部署asp.net core 项目 开机自启动

我本地的环境是 rk3399机器,安装armbian系统。 1.安装.net core 组件 sudo apt-get update && \sudo apt-get install -y dotnet-sdk-8.0或者安装运行库,但无法生成编译项目 sudo apt-get update && \sudo apt-get install -y aspnet…

qt QNetworkAccessManager详解

1、概述 QNetworkAccessManager是QtNetwork模块中的一个核心类,它允许应用程序发送网络请求并接收响应。该类是网络通信的基石,提供了一种方便的方式来处理常见的网络协议,如HTTP、HTTPS等。QNetworkAccessManager对象持有其发送的请求的通用…

21、结构体成员分布

结构体中的成员并不是紧挨着分布的,内存分布遵循字节对齐的原则。 按照成员定义的顺序,遵循字节对齐的原则存储。 字节对齐的原则: 找成员中占据字节数最大的成员,以它为单位进行空间空配 --- 遇到数组看元素的类型 每一个成员距离…

前端基础——CSS

美化文档 HTML内部添加样式 本节我们来学习如何在标签中引入CSS样式。 1 在标签中添加声明 声明的关键字是style后接等号&#xff08;&#xff09;再接引号&#xff08;""&#xff09;&#xff0c;即style"" 具体声明如下&#xff1a; <input typ…

WPS解决Word文件引入excel对象文件无法打开提示“不能启动此对象...”的问题

一、问题现象 接收到了一份 Word文件&#xff0c;里面引入了一个Excel对象文件&#xff0c;双击时候&#xff0c;wps出现卡顿&#xff0c;过一会之后弹出错误提示&#xff1a;不能启动此对象... 二、解决方法 1.点击WPS左上角图标&#xff0c;并打开右上角设置&#xff0c;萱蕚…

spring下的beanutils.copyProperties实现深拷贝

spring下的beanutils.copyProperties方法是深拷贝还是浅拷贝&#xff1f;可以实现深拷贝吗&#xff1f; 答案&#xff1a;浅拷贝。 一、浅拷贝深拷贝的理解 简单说拷贝就是将一个类中的属性拷贝到另一个中&#xff0c;对于BeanUtils.copyProperties来说&#xff0c;你必须保…

3GPP R18 LTM(L1/L2 Triggered Mobility)是什么鬼?(三) RACH-less LTM cell switch

这篇看下RACH-less LTM cell switch。 相比于RACH-based LTM,RACH-less LTM在进行LTM cell switch之前就要先知道target cell的TA信息,进而才能进行RACH-less过程,这里一般可以通过UE自行测量或者通过RA过程获取,而这里的RA一般是通过PDCCH order过程触发。根据38.300中的描…

Ansible 运维工具

安装 apt install ansible /etc/ansible/hosts , 指定密码或密钥访问分组机器 [k8s_masters] master0.c0.k8s.sb[k8s_nodes] node0.c0.k8s.sb node1.c0.k8s.sb[k8s:children] k8s_masters k8s_nodes[k8s_masters:vars] ansible_ssh_usersbadmin ansible_ssh_pass"***&q…

三菱JET伺服CC-Link IE现场网络Basic链接软元件(RYn/RXn)(RWwn/RWrn)

链接软元件(RYn/RXn) 要点 在循环通信中对主站发送给伺服放大器的请求(RYn及RWwn)设定了范围外的值时&#xff0c;将无法反映设定内容。 循环通信的请求报文与响应报文的收发数据被换读为伺服放大器的对象数据(RYn、RXn)。 响应报文的设定值可进行变更。变更初始设定值时&…

WPF中的VisualState(视觉状态)

以前在设置控件样式或自定义控件时&#xff0c;都是使用触发器来进行样式更改。触发器可以在属性值发生更改时启动操作。 像这样&#xff1a; <Style TargetType"ListBoxItem"><Setter Property"Opacity" Value"0.5" /><Setter …

ARINC 标准全解析:航空电子领域多系列标准的核心内容、应用与重要意义

ARINC标准概述 ARINC标准是航空电子领域一系列重要的标准规范&#xff0c;由航空电子工程委员会&#xff08;AEEC&#xff09;编制&#xff0c;众多航空公司等参与支持。这些标准涵盖了从飞机设备安装、数据传输到航空电子设备功能等众多方面&#xff0c;确保航空电子系统的兼…

用golang简单做一个内网穿透小工具!

一个个人需求&#xff0c;需要简单的穿透一下 家里的电脑&#xff0c;也不需要多稳定&#xff0c;也没有并发。然后 通过http可以访问到内网的 一个网站&#xff0c; 因为服务端 是linux 系统 &#xff0c;内网是 windows10服务器 所以 就采用 用golang这个语言来实现&#xff…

微服务监控prometheus+Grafana

目录 Prometheus 概述 核心组件 特点 使用场景 Grafana 概述 功能特点 使用场景 PrometheusGrafana组合 部署和配置 一、准备工作 二、部署Prometheus 三、部署Grafana 四、创建监控仪表盘 五、验证和调优 总结 微服务监控是确保微服务架构稳定运行的关键环节…

(vue)el-cascader多选级联选择器,值取最后一级的数据

(vue)el-cascader多选级联选择器&#xff0c;取值取最后一级的数据 获取到&#xff1a;[“养殖区”,“鸡棚”,“E5001”] 期望&#xff1a;[“E5001”] 问题: 解决方法 增加change事件方法&#xff0c;处理选中的value值 1.单选 <el-cascaderv-model"tags2":o…

Git常用的命令【提交与回退】

git分布式版本控制系统 &#xff08;SVN集中式版本控制系统&#xff09;之间的对比 git有本地仓库和远程仓库&#xff0c;不同的开发人员可以分别提交自己的本地仓库并维护代码的版本控制。 然后多个人员在本地仓库协作的代码&#xff0c;可以提交到远程仓库中做整合。 git本…

AUTOSAR AP和CP的安全要求规范(Safety Req)详细解读

一、规范的编制的背景原因 编制该规范的原因 确保系统安全性和可靠性 随着汽车电子系统日益复杂&#xff0c;功能不断增加&#xff0c;对安全性和可靠性的要求也越来越高。该规范为AUTOSAR平台在安全执行、配置、更新、信息交换、数据处理等多方面制定了明确要求&#xff0c;…