网站建设方案报价单/seo网站设计工具

网站建设方案报价单,seo网站设计工具,哪个公司可以做网站,10个优秀的网页设计欣赏编者按: 你是否曾经遇到过这样的困扰:在开发基于 RAG 的应用时,实时检索的延迟让用户体验大打折扣?或者在处理复杂查询时,检索结果的不准确导致回答质量不尽如人意? 在当前大语言模型应用大规模落地的背景下…

编者按: 你是否曾经遇到过这样的困扰:在开发基于 RAG 的应用时,实时检索的延迟让用户体验大打折扣?或者在处理复杂查询时,检索结果的不准确导致回答质量不尽如人意?

在当前大语言模型应用大规模落地的背景下,这些挑战正成为制约产品竞争力的关键瓶颈。传统 RAG 方案中的检索延迟、准确性波动以及系统复杂度,都在考验着开发者的耐心和智慧。

缓存增强生成(CAG)技术巧妙地利用了新一代大语言模型处理长上下文的能力,通过预加载文档和预计算 KV 缓存,消除了实时检索的需求。实验结果表明,在可管理的知识库场景下,这种方案不仅能将推理时间缩短数倍,还能提供更连贯、更准确的响应。

作者 | Vishal Rajput

编译 | 岳扬

检索增强生成(RAG)作为一种通过整合外部知识源来增强语言模型的强大方法而备受瞩目。不过,这种方法也带来了一些挑战,比如检索过程的延迟、文档挑选时可能出现的误差,以及系统复杂度的增加。

随着能够处理更长上下文的大语言模型(LLMs)的兴起,缓存增强生成(CAG)技术应运而生,它避免了实时的信息检索。这项技术通过将所有必要资源预先加载到模型的扩展上下文中,并在缓存其相关运行时(runtime)参数,尤其在处理数量有限且易于管理的文档或知识时更为有效。

话不多说,让我们来深入探讨这一新颖的技术。

本文将讨论以下主题:

  • RAG 如何扩展上下文的处理能力?
  • 无限扩展的上下文窗口
  • CAG 技术有何优势?
  • 其他方面的改进
  • CAG 框架的运作原理
  • 总结

01 RAG 如何扩展上下文的处理能力?

RAG 是一种半参数化系统,其中参数化部分由大语言模型构成,而非参数化部分则包括其他元素。将这两部分结合,便形成了半参数化系统。在 LLMs 中,所有信息都以编码形式存储在模型的权重或参数中,而系统的其他部分则没有用参数来定义这些知识。

那么,这种设计是如何解决问题的呢?

  • 通过在 LLMs 中灵活地替换索引(即特定的信息),能够实现信息的个性化定制,这意味着我们不会因为信息过时而受限,同时也能够更新索引的内容。
  • 将 LLMs 与这些索引相结合,可以减少错误信息的产生,并且我们能够通过指向信息原始来源来进行引用和归属描述。

因此,从理论上讲,RAG 提升了我们为 LLMs 创建更佳上下文的能力,使其表现更加出色。

但这个过程真的这么简单吗?答案是否定的。

现有的 RAG 系统并不够智能,它们相对简单,无法应对那些需要大量自定义上下文的复杂任务。

因此,简而言之,正是由于上下文窗口对 LLMs 的限制,RAG 才得以发展起来。

02 无限扩展的上下文窗口

相关论文在此:《Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention》。

这篇论文提出了一种高效的方法,可以在有限的内存和计算资源约束下,将基于 Transformer 的大语言模型(LLMs)扩展到处理无限长的输入。该方法中的一个关键创新是一种名为 Infini-attention 的全新注意力机制。

Infini-attention 的核心思想是将局部注意力和全局注意力相结合。具体来说,首先将整篇文章分割成多个片段,在其中一个片段上应用标准的注意力机制,而为了获取前一个片段的上下文,我们采用了一种线性注意力机制。以下是对这篇论文的简要概述:

  • 混合注意力机制:局部注意力集中于单词周围的即时上下文,而长距离注意力则通过参考迄今为止所见的整个序列的压缩摘要来保持全局视野。
  • 压缩记忆:利用线性注意力来记忆之前的文本片段。
  • 高效更新:为了避免冗余和节省计算量,Infini-attention 不会直接将新信息添加到记忆中。相反,它会首先检查已知信息,然后只更新记忆中的新信息或不同信息,这与 ResNet 中的跳跃连接(skip connections)类似。
  • 权衡控制:通过一个超参数来调节局部信息和压缩记忆的混合比例。

03 CAG 技术有何优势?

无检索长上下文范式:提出了一种创新方法,通过利用预加载文档和预计算 KV 缓存的长上下文 LLMs,消除了检索延迟、错误和系统复杂性。

性能比较:实验表明,长上下文 LLMs 的性能优于传统的 RAG 系统,特别是在可管理的知识库中。

实用见解:提出可操作的优化策略以提升知识密集型工作流效率,通过实证验证无检索方法在特定应用场景下的可行性。

CAG 相较于传统 RAG 系统具有以下显著优势:

  • 缩短推理时间:由于无需实时检索,推理过程变得更快、更高效,能够更快地响应用户查询。
  • 统一上下文:将整个知识集合预加载到 LLM 中,可提供对文档的整体和连贯理解,从而在各种任务中提高响应质量和响应一致性。
  • 简化架构:通过移除整合检索器和生成器的需求,系统变得更加简洁,降低了系统复杂性,提高了可维护性,并减少了开发成本。

04 其他方面的改进

对于知识密集型任务而言,增加的计算资源通常被用来融入更多的外部知识。然而,如果没有有效地利用这些知识,单纯地扩展上下文并不总是能提升性能。

两种推理扩展策略:上下文学习(In-context learning)和迭代式提示技术(iterative prompting)。

这些策略为扩展测试时计算(test-time computation)提供了额外的灵活性(例如,通过增加检索的文档数量或生成步骤),从而增强 LLMs 获取和利用上下文信息的能力。

我们需要回答两个关键问题:

(1) 在进行最优配置时,RAG 性能如何通过推理计算规模的扩展获得提升?

(2) 能否通过建模 RAG 性能与推理参数之间的量化关系,预测给定预算约束下的最优测试时计算资源分配?

在最优推理参数配置下,RAG性能随着测试时计算量级的提升呈现近似线性增长。基于实验观测,我们推导出RAG的推理扩展规律及其配套计算资源分配模型,该模型可预测不同超参数配置下的系统性能表现。

欲了解更多信息请阅读此论文:https://arxiv.org/pdf/2410.04343

另一项工作则更多地从硬件(优化)设计的角度出发:

研究团队开发了智能知识存储系统(Intelligent Knowledge Store, IKS),这是一种基于 CXL 2.0 协议的设备,采用横向扩展的近内存加速架构,通过在主机 CPU 与近内存加速器之间构建新型缓存一致性接口实现性能突破。

在 512GB 向量数据库上,IKS 执行精确最近邻搜索的速度相比 Intel Sapphire Rapids CPU 提升 13.4-27.9 倍。这种搜索性能优势使典型 RAG 应用的端到端推理时间缩短 1.7-26.3 倍。作为内存扩展器,IKS 的内部 DRAM 可解耦供服务器其他应用使用,有效避免当今服务器中最昂贵的 DRAM 资源闲置浪费。

欲了解更多信息,请阅读这里:https://arxiv.org/pdf/2412.15246

另一篇论文系统性地研究了长上下文对 20 种主流开源和商业大语言模型(LLM)的检索增强生成(RAG)性能影响。研究团队通过在三个专有领域数据集上改变总上下文长度(从 2,000 到 128,000 tokens,并在可能情况下扩展至 200 万 tokens)运行 RAG 工作流,揭示了长上下文在 RAG 应用中的优势与局限性。

他们的研究发现,虽然检索更多文档可以提高性能,但只有少数最新一代的最先进 LLMs 能够在超过 64k tokens 的长上下文中保持稳定的准确性。 他们还确定了长上下文场景中的不同故障模式,为未来的研究提出了方向。

欲了解更多信息,请阅读此论文:https://arxiv.org/pdf/2411.03538

05 CAG 框架的运作原理

CAG 框架利用长上下文 LLMs 的扩展上下文能力,消除了实时检索的需求。通过预加载外部知识源(例如,文档集合 D={d1,d2,…} )并预计算键值(KV)缓存(C_KV),它克服了传统 RAG 系统的效率低下问题。该框架主要分三个阶段运行:

1. 外部知识预加载

  • 对精选的文档集合 D 进行预处理,使其适配模型的扩展上下文窗口。
  • LLM 处理这些文档,将它们转换为预计算的键值(KV)缓存,该缓存封装了 LLM 的推理状态。LLM(M)将文档集合 D 编码成预计算的 KV 缓存:

  • 该预计算缓存被存储以供复用,确保无论后续执行多少次查询,处理文档集合D的计算成本仅需支付一次。

2. 推理阶段

  • 在推理阶段,KV 缓存(C_KV)与用户查询 Q 一起加载。
  • LLM 利用这个缓存中的上下文来生成响应,从而消除了检索延迟,并减少了由于动态检索引起的错误或遗漏的风险。LLM 通过利用缓存中的上下文来生成响应:

这种方法消除了检索延迟,将检索错误的风险降至最低。组合提示词 P=Concat(D,Q) 确保了对外部知识和查询的统一理解。

3. 缓存重置

  • 为维持性能,需对 KV 缓存进行高效重置。在推理过程中,随着新 token(t1,t2,…,tk)被添加至上下文窗口,重置过程会截断这些 tokens:

  • 随着新 token 的连续添加,KV 缓存逐渐增长,重置时仅需截断这些新增 token,即可实现快速重新初始化,无需从磁盘重新加载整个缓存。这种设计避免了全量缓存加载的 I/O 瓶颈,确保了系统响应速度的持续稳定。

06 Conclusion

缓存增强生成(CAG)在实时检索不可行或需要极低延迟响应的场景中优势显著。通过将海量外部知识嵌入模型的上下文窗口,CAG 能够生成信息丰富且上下文相关的回答,避免了传统检索增强生成(RAG)系统的检索延迟。

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

About the author

Vishal Rajput

3x🏆Top writer in AI |

AI Book 📓: https://rb.gy/xc8m46 |

LinkedIn +: https://www.linkedin.com/in/vishal-rajput-999164122/

END

本期互动内容 🍻

❓你认为随着大模型上下文窗口持续扩大,RAG和CAG的技术路线会如何演进?哪些场景仍然更适合使用RAG?

原文链接:

https://medium.com/aiguys/dont-do-rag-it-s-time-for-cag-fb24ff87932b

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/71035.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于django图书信息管理系统的搭建(增删改查)

✍django项目搭建教程 ☞ ----------------- 教程 本文主要讲解django如何连接数据库MySQL并且可视化展示,实现增删改查功能 目录 一. 创建django应用 二. 数据库配置 三. 查看数据库 四. 编写代码 4.1视图函数 4.2 配置URL 4.3创建模板文件 4.…

鸿蒙NEXT开发-元服务和服务卡片的开发

注意:博主有个鸿蒙专栏,里面从上到下有关于鸿蒙next的教学文档,大家感兴趣可以学习下 如果大家觉得博主文章写的好的话,可以点下关注,博主会一直更新鸿蒙next相关知识 目录 1. 元服务基本概念 1.1 基本介绍 1.2 元…

HBuilder X中,uni-app、js的延时操作及定时器

完整源码下载 https://download.csdn.net/download/luckyext/90430165 在HBuilder X中,uni-app、js的延时操作及定时器可以用setTimeout和setInterval这两个函数来实现。 1.setTimeout函数用于在指定的毫秒数后执行一次函数。 例如, 2秒后弹出一个提…

IP属地是通过卫星定位的吗?如何保护用户隐私

在数字时代,网络空间成为了人们日常生活不可或缺的一部分。随着社交媒体、在线服务等平台的兴起,用户IP属地信息的重要性日益凸显。然而,关于IP属地是如何确定的,尤其是是否通过卫星定位这一问题,却常常引发公众的疑问…

华为云之使用鲲鹏弹性云服务器部署Node.js环境【玩转华为云】

华为云之使用鲲鹏弹性云服务器部署Node.js环境【玩转华为云】 一、本次实践介绍1.1 实践环境简介1.3 本次实践完成目标 二、 相关服务介绍2.1 华为云ECS云服务器介绍2.2 Node.js介绍 三、环境准备工作3.1 预置实验环境3.2 查看预置环境信息 四、登录华为云4.1 登录华为云4.2 查…

PyCharm中通过命令行执行`pip`命令下载到哪里了:虚拟环境目录下

PyCharm中通过命令行执行pip命令下载到哪里了:虚拟环境目录下 在PyCharm中通过命令行执行pip命令安装工具包,包的下载位置取决于多种因素 虚拟环境 如果项目使用了虚拟环境(通常是推荐的做法): Windows:虚拟环境通常位于项目目录下的.venv文件夹(默认情况)或你指定…

flink系列之:使用flink cdc3从mysql数据库同步数据到doris和starrocks

flink系列之:使用flink cdc3从mysql数据库同步数据到doris和starrocks 一、下载部署flink二、下载部署flink cdc3三、下载mysql-connector-java到flink和flink cdc的lib目录四、flink设置checkpoint支持增量同步数据五、mysql到doris和starrocks的yaml配置文件六、启…

java后端开发day23--面向对象进阶(四)--抽象类、接口、内部类

(以下内容全部来自上述课程) 1.抽象类 父类定义抽象方法后,子类的方法就必须重写,抽象方法在的类就是抽象类。 1.定义 抽象方法 将共性的行为(方法)抽取到父类之后。由于每一个子类执行的内容是不一样…

第48天:Web开发-JavaEE应用依赖项Log4j日志Shiro验证FastJson数据XStream格式

#知识点 1、安全开发-JavaEE-第三方依赖开发安全 2、安全开发-JavaEE-数据转换&FastJson&XStream 3、安全开发-JavaEE-Shiro身份验证&Log4j日志处理 一、Log4j 一个基于Java的日志记录工具,当前被广泛应用于业务系统开发,开发者可以利用该工…

JavaScript——前端基础3

目录 JavaScript简介 优点 可做的事情 运行 第一个JavaScript程序 搭建开发环境 安装的软件 操作 在浏览器中使用JavaScript文件 分离JS 使用node运行JS文件 语法 变量与常量 原生数据类型 模板字符串 字符串的内置方法 数组 对象 对象数组和JSON if条件语…

坐标变换及视图变换和透视变换(相机透视模型)

文章目录 2D transformationScaleReflectionShear(切变)Rotation around originTranslationReverse变换顺序复杂变换的分解 齐次坐标(Homogenous Coordinates)3D transformationScale&TranslationRotation Viewing / Camera t…

DBGPT安装部署使用

简介 DB-GPT是一个开源的AI原生数据应用开发框架(AI Native Data App Development framework with AWEL(Agentic Workflow Expression Language) and Agents)。 目的是构建大模型领域的基础设施,通过开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Mul…

【windows driver】 开发环境简明安装教程

一、下载路径 https://learn.microsoft.com/en-us/windows-hardware/drivers/other-wdk-downloads 二、安装步骤: 1、安装Visual Studio IDE 笔者建议安装最新版本,可以向下兼容。发文截止到目前,VS2022是首选,当前笔者由于项…

回文重新排序

回文串就两种情况&#xff0c;一种是有一个奇数个的字母&#xff0c;另一种是没有的。所以我们需要统计出题目给出的字母是否为奇数个&#xff0c;且奇数个只能有一个&#xff0c;如果超过一个就不能构成回文串了。 #include<iostream> #include<string> #include…

如何在docker上部署java服务

目录结构 首先 Dockerfile FROM bladex/alpine-java:openjdk17_cn_slimMAINTAINER admin@rsz.comENV TZ=Asia/ShanghaiRUN ln -sf /usr/share/zoneinfo/$TZ /etc/localtime && echo $TZ > /etc/timezoneRUN mkdir -p /xhWORKDIR /xhEXPOSE 8106ADD ./blade-system.…

FinRobot:一个使用大型语言模型进行金融分析的开源AI代理平台

文章目录 前言一、生态系统1. 金融AI代理&#xff08;Financial AI Agents&#xff09;2. 金融大型语言模型&#xff08;Financial LLMs&#xff09;3. LLMOps4. 数据操作&#xff08;DataOps&#xff09;5. 多源LLM基础模型&#xff08;Multi-Source LLM Foundation Models&am…

《SegFace: Face Segmentation of Long-Tail Classes》论文分享(侵删)

author{Kartik Narayan and Vibashan VS and Vishal M. Patel} 原文链接&#xff1a;[2412.08647] SegFace: Face Segmentation of Long-Tail Classes 摘要 人脸解析是指将人脸语义分割为眼睛、鼻子、头发等关键面部区域。它是各种高级应用程序的先决条件&#xff0c;包括人脸…

基于POI的Excel下拉框自动搜索,包括数据验证的单列删除

目录 目标 例子 1.搜索下拉框页 2.数据源页 3.效果 代码以及注意事项 1.代码 2.注意事项 1.基于Excel的话&#xff0c;相当于加入了一个【数据验证】 2.代码中的一些方法说明 目标 期望在Excel利用代码创建具备自动搜索功能的下拉框 例子 1.搜索下拉框页 2.数据源…

UWB人员定位:精准、高效、安全的智能管理解决方案

在现代企业管理、工业生产、安全监测等领域&#xff0c;UWB&#xff08;超宽带&#xff09;人员定位系统正逐步成为高精度定位技术的首选。相较于传统的GPS、Wi-Fi、蓝牙等定位方式&#xff0c;UWB具备厘米级高精度、低延迟、高安全性、抗干扰强等突出优势&#xff0c;能够实现…

如何在Apple不再支持的MacOS上安装Homebrew

手头有一台2012年产的Macbook Pro&#xff0c;系统版本停留在了10.15.7&#xff08;2020年9月24日发布的&#xff09;。MacOS 11及后续的版本都无法安装到这台老旧的电脑上。想通过pkg安装Homebrew&#xff0c;发现Homebrew releases里最新的pkg安装包不支持MacOS 10.15.7&…