生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

RAG(检索增强生成)系统的新评估似乎每天都在发布,其中许多都集中在有关框架的检索阶段。然而,生成方面——模型如何合成和表达这些检索到的信息,在实践中可能具有同等甚至更大的意义。许多实际应用中的案例证明,系统不仅仅要求从上下文中返回事实数据,还需要将这些事实合成一个更复杂的响应。

针对GPT-4、Claude 2.1和Claude 3 Opus(https://www.anthropic.com/news/claude-3-family)三种模型的生成能力进行了评估和比较。本文将详细介绍研究方法、研究结果以及在此过程中遇到的这些模型的细微差别,并说明为什么这些内容对使用生成式人工智能进行构建的人来说非常重要。

有兴趣的读者如果想重现上述实验的结果,那么实验中所需的一切都可以从GitHub存储库(https://github.com/Arize-ai/LLMTest_NeedleInAHaystack)中找到。

补充说明

  • 尽管最初的发现表明Claude的性能优于GPT-4,但随后的测试表明,随着战略提示工程技术的出现,GPT-4在更广泛的评估中表现出了卓越的性能。总之,RAG系统中固有的模型行为和提示工程当中还存在很多的问题。
  • 只需在提示模板中简单地添加一句“请解释自己,然后回答问题”,即可显著提高(超过两倍)GPT-4的性能。很明显,当LLM说出答案时,这似乎有助于进一步展开有关想法。通过解释,模型有可能在嵌入/注意力空间中重新执行正确的答案。

RAG阶段与生成的重要性

图1:作者创建的图表

虽然在一个检索增强生成系统中检索部分负责识别和检索最相关的信息,但正是生成阶段获取这些原始数据,并将其转换为连贯、有意义和符合上下文的响应。生成步骤的任务是合成检索到的信息,填补空白信息,并以易于理解和与用户查询相关的方式呈现。

在许多现实世界的应用中,RAG系统的价值不仅在于它们定位特定事实或信息的能力,还在于它们在更广泛的框架内集成和情境化信息的能力。生成阶段使RAG系统能够超越简单的事实检索,并提供真正智能和自适应的响应。

测试#1:日期映射

我们运行的初始测试包括从两个随机检索的数字中生成一个日期字符串:一个表示月份,另一个表示日期。模型的任务是:

  • 检索随机数#1
  • 隔离最后一位并递增1
  • 根据结果为我们的日期字符串生成一个月
  • 检索随机数#2
  • 从随机数2生成日期字符串的日期

例如,随机数4827143和17表示4月17日。

这些数字被放置在不同深度的不同长度的上下文中。模型最初在完成这项任务时经历了相当困难的时期。

图2:初始测试结果

虽然这两个模型都表现不佳,但在我们的初步测试中,Claude 2.1的表现明显优于GPT-4,成功率几乎翻了四倍。正是在这里,Claude模型的冗长本性——提供详细、解释性的回答——似乎给了它一个明显的优势,与GPT-4最初简洁的回答相比,结果更准确。

在这些意想不到的实验结果的推动下,我们在实验中引入了一个新的变量。我们指示GPT-4“解释自己,然后回答问题”,这一提示鼓励了类似于Claude模型自然输出的更详细的响应。因此,这一微小调整的影响还是深远的。

图3:有针对性提示结果的初始测试

GPT-4模型的性能显著提高,在随后的测试中取得了完美的结果。Claude模型的成绩也有所改善。

这个实验不仅突出了语言模型处理生成任务的方式的差异,还展示了提示工程对其性能的潜在影响。Claude的优势似乎是冗长,事实证明这是GPT-4的一种可复制策略,这表明模型处理和呈现推理的方式会显著影响其在生成任务中的准确性。总的来说,在我们的所有实验中,包括看似微小的“解释自己”这句话,都在提高模型的性能方面发挥了作用。

进一步的测试和结果

图4:用于评估生成的四个进一步测试

我们又进行了四次测试,以评估主流模型将检索到的信息合成并转换为各种格式的能力:

  • 字符串连接:将文本片段组合成连贯的字符串,测试模型的基本文本操作技能。
  • 货币格式:将数字格式化为货币,四舍五入,并计算百分比变化,以评估模型的精度和处理数字数据的能力。
  • 日期映射:将数字表示转换为月份名称和日期,需要混合检索和上下文理解。
  • 模运算:执行复数运算以测试模型的数学生成能力。

不出所料,每个模型在字符串连接方面都表现出了强大的性能,这也重申了以前的理解,即文本操作是语言模型的基本优势。

图5:货币格式化测试结果

至于货币格式化测试,Claude 3和GPT-4的表现几乎完美无瑕。Claude 2.1的表现总体上较差。准确度在标记长度上变化不大,但当指针更接近上下文窗口的开头时,准确度通常会更低。

图6:正式的来自Haystack网站的测试结果

尽管在一代测试中取得了出色的结果,但Claude 3的准确性在一个仅用于检索的实验中有所下降。从理论上讲,简单地检索数字也应该比操纵数字更容易——这使得性能的下降令人惊讶,也是我们计划进一步测试的领域。如果有什么不同的话,这种违反直觉的下降只会进一步证实这样一种观点,即在使用RAG开发时,检索和生成都应该进行测试。

结论

通过测试各种生成任务,我们观察到,虽然Claude和GPT-4这两个模型都擅长字符串操作等琐碎任务,但在更复杂的场景中,它们的优势和劣势变得显而易见(https://arize.com/blog-course/research-techniques-for-better-retrieved-generation-rag/)。LLM在数学方面仍然不太好!另一个关键结果是,“自我解释”提示的引入显著提高了GPT-4的性能,强调了如何提示模型以及如何阐明其推理对实现准确结果的重要性。

这些发现对LLM的评估具有更广泛的意义。当比较像详细的Claude和最初不那么详细的GPT-4这样的模型时,很明显,RAG评估(https://arize.com/blog-course/rag-evaluation/)标准必须超越以前仅重视正确性这一点。模型响应的冗长引入了一个变量,该变量可以显著影响他们的感知性能。这种细微差别可能表明,未来的模型评估应将平均答复长度视为一个值得注意的因素,从而更好地了解模型的能力,并确保更公平的比较。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/17903.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Leecode热题100---二分查找---搜索插入位置

题目: 给定一个排序数组和一个目标值,在数组中找到目标值,并返回其索引。如果目标值不存在于数组中,返回它将会被按顺序插入的位置。 nums 为 无重复元素 的 升序 排列数组 常规思路: class Solution { public:int f…

管理node——NVM安装及使用

NVM安装及使用 前言正文下载安装及配置一、卸载原有的node版本(很重要!!!)- 卸载node- 清除npm相关文件 二、安装nvm,添加镜像1.nvm自定义安装位置2.nodejs版本存放位置- 未解决,无限踩坑- 已解…

crossover玩游戏缺少文件怎么办 为什么游戏打开说缺失文件 crossover支持的游戏列表 CrossOver 提示 X 11 缺失怎么办?

CrossOver是一款类虚拟机软件,可以实现在Mac电脑上运行exe程序。不少Mac用户为了玩游戏,选择使用CrossOver这款软件玩Windows平台的游戏。 一、CrossOver支持的软件多吗 CrossOver是一款基于Wine的兼容工具,它可以让你在Mac或Linux上运行许多…

大数据开发面试题【Flink篇】

148、flink架构 flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算 特点: 高吞吐和低延迟:每秒数百万个事件,毫秒级延迟 结果的准确性:提供了事件时间和处理时间语义,提供结果的一致…

解读makefile中的.PHONY

在 Makefile 中,.PHONY 是一个特殊的目标,用于声明伪目标(phony target)。伪目标是指并不代表实际构建结果的目标,而是用来触发特定动作或命令的标识。通常情况下,.PHONY 会被用来声明一组需要执行的动作&a…

某有赞滑块验证码

⚠️前言⚠️ 本文仅用于学术交流。 学习探讨逆向知识,欢迎私信共享学习心得。 如有侵权,联系博主删除。 请勿商用,否则后果自负。 网址 aHR0cHM6Ly9wYXNzcG9ydC55b3V6YW4uY29tL2xvZ2luL3Bhc3N3b3Jk 1. 首先来分析一下参数 1_1. get-beh…

@ConfigurationProperties结合Nacos配置动态刷新之底层原理分析

Hello,我是大都督周瑜,本文给大家分析一下ConfigurationProperties结合Nacos配置动态刷新的底层原理,记得点赞、关注、分享哦! 公众号:IT周瑜 应用背景 假如在Nacos中有Data ID为common.yml的配置项: m…

上海一儿童写真馆摄影师大量售卖女童照片!当你的肖像权或隐私权被侵犯时应如何写起诉状?

上海一儿童写真馆摄影师大量售卖女童照片!当你的肖像权或隐私权被侵犯时应如何写起诉状? 近日,上海市一儿童写真馆摄影师被指大量售卖女童的照片和特写花絮。对此, 上海市公安局徐汇分局发布了警情通报(见下图&#x…

VLDB ’25 最后 6 天截稿,58 个顶会信息纵览;ISPRS 城市分割数据集上线

「顶会」板块上线 hyper.ai 官网啦!该板块为大家提供最新最全的 CCF A 类计算机顶会信息,包含会议简介、截稿倒计时、投稿链接等。 你是不是已经注册了顶会,但对截稿时间较为模糊,老是在临近 ddl 时才匆忙提交;又或者…

K8s 部署prometheus

文章目录 K8s 部署prometheuskube-prometheus 部署部署流程安装卸载补充 K8s 部署prometheus kube-prometheus 部署 kube-prometheus 是 github 上开源的整合了 prometheus alertmanager granfana 等监控工具的项目,github地址 如果github 访问不了的也可以选择 g…

day20二叉树part06| 654.最大二叉树 617.合并二叉树 700.二叉搜索树中的搜索 98.验证二叉搜索树

**654.最大二叉树 ** 构造树一般采用的是前序遍历&#xff0c;因为先构造中间节点&#xff0c;然后递归构造左子树和右子树。 这题在找最大值和最大值下标的时候用了两个库函数 class Solution { public:TreeNode* constructMaximumBinaryTree(vector<int>& nums)…

Dropzone 4 for Mac:一拖即达,文件处理更高效!

在繁忙的工作中&#xff0c;你是否曾因频繁切换应用程序和文件夹而烦恼&#xff1f;Dropzone 4 for Mac&#xff0c;这款强大的文件拖拽操作工具&#xff0c;将彻底改变你的工作方式&#xff01; 只需简单地将文件、文本或图片拖放到Dropzone图标上&#xff0c;即可快速执行各种…

独孤思维:你做副业一定比我牛比

01 做副业&#xff0c;尤其是做ip&#xff0c;千万不要害羞。 要有不要脸的精神。 时时刻刻&#xff0c;都要想着如何展示自己&#xff0c;曝光自己。 不停地在各个平台上去输出内容&#xff0c;不停地直播&#xff0c;不停地发短视频。 就像独孤一直发文章&#xff0c;一…

6. CSS动画技巧

在前端开发中&#xff0c;动画可以极大地提升用户体验&#xff0c;使网页更加生动和互动。本章将探讨CSS3中高级动画技巧&#xff0c;包括复杂动画的实现、动画的延迟与序列控制、多步骤动画与状态切换以及动画性能优化。 6.1 复杂动画的实现 复杂动画通常涉及多个属性的变化…

Java NIO.2(New I/O) API的关键类和功能[简单示例]

Java NIO.2&#xff08;New I/O&#xff09;是Java SE 7引入的一组用于处理I/O操作的新API。它在Java标准库中提供了更灵活、高效的文件和文件系统操作方式&#xff0c;相对于传统的Java I/O&#xff08;java.io&#xff09;包&#xff0c;Java NIO.2提供了更多的功能和更好的性…

mysql实战——Mysql8.0高可用之双主+keepalived

一、介绍 利用keepalived实现Mysql数据库的高可用&#xff0c;KeepalivedMysql双主来实现MYSQL-HA&#xff0c;两台Mysql数据库的数据保持完全一致&#xff0c;实现方法是两台Mysql互为主从关系&#xff0c;通过keepalived配置VIP&#xff0c;实现当其中的一台Mysql数据库宕机…

NB55 牛的生长情况

描述 在一个牧场中&#xff0c;有n头牛&#xff0c;每头牛的体重都在增长。给定一个整数数组weights&#xff0c;表示每天的牛的平均体重&#xff0c;返回一个数组growth&#xff0c;其中growth[i]是指对于第i天&#xff0c;下一个平均体重更高的是在几天后。如果在这之后平均…

AI大模型的推理显存占用分析

了解Transformer架构的AI大模型显存占用是非常重要的&#xff0c;特别是在训练和推理过程中。以下是详细解释和分析这些组成部分及其影响的专业描述&#xff1a; 1 显存占用 1.1 模型本身参数 模型的参数包括所有的权重和偏置项&#xff0c;这些参数需要存储在显存中&#x…

四川景源畅信:新人做抖店的成本很高吗?

随着社交媒体的兴起&#xff0c;抖音成为了一个新兴的电商平台——抖店。不少创业者和商家看中了其庞大的用户基础&#xff0c;想要通过开设抖店来拓展销路。然而&#xff0c;对于刚入行的新手来说&#xff0c;成本问题总是让人犹豫不决。究竟新人做抖店的成本高不高?本文将围…

ML307R OpenCPU TCP使用

一、TCP通信流程 二、示例 三、TCP通信代码 一、TCP通信流程 ML307R TCP 是使用LWIP的标准的socket通信,具体TCP流程可以自行百度 二、示例 实验目的:实现把接收的数据再发送到服务端 测试网址:TCP电脑端测试网址 因为是4G,所以必须用外网的 /* 测试前请先补充如下…