爆肝!Claude3与ChatGPT-4到底谁厉害,看完你就知道了!

前言:

相信大家在pyq都被这张图片刷屏了把~

昨天,为大家介绍了一下什么是Claude,今天咱终于弄到号了(再被ban了3个号之后终于是成功的登上去了,如果各位看官觉得咱文章写的不错,麻烦点个小小的关注~你们的支持就是我最大的动力),给大家来一波Claude3与GPT-4的测试,看看Claude到底是不是网传的那样全方位吊打GPT-4


一、了解Claude

(一)同行数据对比

在进行测试之前我们先来看一组Claude官方发布的数据

Anthropic公司本次一共发布了3个模型,分别为:

Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus,其费用与模型能力如下图所示:

再三个模型中,Oups是最强大的,同时也是费用最高的,目前Sonnet是可以免费使用的模型(也是本次测评中用到的模型),同时也是一个性价比较高的选择。每个模型都在智能、速度和成本之间提供了最佳的平衡,以适应各种特定应用的需求。

Claude 3 Opus: $15 / $75

Claude 3 Sonnet:$3/$15

Claude 3 Haiku: $0.25 / $1.25 

Opus的定价与GPT-4相当,高于GPT-4 Turbo,低于GPT-4 32K

Sonnet比所有GPT-4版本(包括GPT-4 Turbo)便宜

Haiku比GPT-3.5 Turbo还便宜
 

再这组数据中,Claude官方从本科水平的专家知识(MMLU)、研究生水平的专家推理(GPQA)、基础数学(GSM8K)、数学问题解答(MATH)、多语种数学(MGSM)代码编写(HumanEval)等八个方面对Opus  Sonnet   Haiku以及GTP4和GPT3.5几个模型展开了比较。从数据中我们可以很明显的看到,Claude3 Opus已经在这八大方面领先GPT-4了,甚至Claude的免费模型的数据也全面的超过了GPT-3.5(奥特曼此时估计已经坐不住了0.0)


(二)自身迭代数据对比

跟同行的对比说完了,在看看Claude3相较于前几代都有哪些提升

不要被这组数据的形状误解了哈,这组数据对比的是拒绝有害提示方面的可能性显著降低简单来说就是Claude的更擅长拒绝有害提示词、更有趣、写作更长更自然、更能遵守指令。

这组数据对比的是Claude3与Claude2.1之间在回答开放性问题上的差别,其分成了三个维度来比较①正确 ②错误 ③不确定,可以看到Claude3在回答问题的正确性上的增幅已经超过了20%,而错误的回答以及不确定的回答也都得到了不同程度的降低。可以说Claude明显的弥补了上一代模型的缺点。

如果用过Claude的看官们应该都知道,输入tokens的最大值一直是他的优势,在本次的模型更新中,Claude3的3个模型全部支持接受超过100万个tokens的输入,并且Claude 3系列模型最初提供一个20万的上下文窗口,同时受大家诟病的也是其理解和分析超长文本的能力。在本次的测试中也将从这个维度对Claude3进行测试


下面我们来看一下Claude 3 Opus的官方演示视频

在这个演示视频中,展示了用 Claude3-Opus,查看并分析美国的 GDP 走势,并将观察结果以 Markdown 表格的形式记录。通过这个例子,我们看到了模型如何运行复杂的、多步骤的、多模态的分析,并且还能创建子代理来并行处理更多任务。通过这个案例真的可以感觉到Opus的强大!


二、Claude3与GPT-4对比实测

此次对比模型为Claude3-Sonnet  VS  ChatGPT-4

在本次测试中,一共从五个维度来比较:

①NIAH大海捞针:考察在海量数据中精准检索信息的能力

②code生成:考察两个模型在编写代码正确率上的能力

③文字创作:考察两个模型分别在短文、长文中的写作能力

④诱导性问题:考察两个模型在回答敏感隐私问题上的识别能力

⑤数学问题:考察两个模型的计算与算数能力


(一)大海捞针检索

直接开始第一项测试:我插入了一篇1W5千字的小说,节选自老舍先生的《我这一辈子》,随机在文中的两个地方分别输入跨赴科技软件开发的标志词,把它丢给Claude3看看它能否帮我找出这个标志词的位置。

1.Claude3-Sonnet

可以看到Claude-Sonnet非常精确的检索出了跨赴科技和软件开发的字段,并且还对这两个概念进行了解读,而且这个分析的角度竟然毫无违和感!,说的头头是道。下面我们来看一下GPT-4的效果

2.GPT-4

咱就是说,这就尴尬了不是~ GPT-4只检索到了第二个信息,即软件开发,没有成功的找到跨赴科技。当然,这仅是我一次的简单测试,并不能直接决定它的强度,大家可以自己动手试试哈。


(二)code生成

在这个维度的测试中,我让Sonnet和GPT根据相同的需求来写一段java代码

开发一个Java算法,用于管理一个教师信息管理系统。该系统需要能够添加、删除、更新和查询教师的信息。每位教师的信息包括但姓名、年龄、性别、科目和工作年限。该算法需要提供一个用户界面,允许用户执行上述操作。同时,应该有一个搜索功能,使用户能够通过教师的姓名或科目来查找教师信息。系统应该能够保存所有教师的信息,在下次程序运行时可以恢复。

1.Claude3-Sonnet

咱就先不管这个代码有没有问题,就看这个工作量,就知道Sonnet有没有偷懒了,我们再来看看GPT-4 

2.GPT-4

可以明显的看到GPT-4又偷懒了!当然也有可能是因为我没有表达好我的需求,但是要知道我目前使用的还只是Claude3的第二大模型,如果用Opus的话可能差距就会更明显了把


(三)文字创作

在本维度的测试中,将通过短篇幅和中篇幅两个方面来对比

“AIGC热点话题的小短文,字数要求不超过200字”   

“AIGC热点话题的小短文,字数不少于500字,不需要分点”

1.Claude3-Sonnet

2.GPT-4

 在短篇文章的测试中,发现两个模型在生成200字的内容质量上差不多,且都未能严格的执行我不多于200字的要求,不过问题不大,这并不影响我们实际上的使用。

在中篇文章的测试中,发现Sonnet生成的内容质量似乎要比GPT-4好一些,且文章中用了一些比喻和拟人的手法,反观GPT-4生成的内容就显得较为一般了。

值得一提的是在生成内容的速度上,Sonnet的速度略低于3.5,但比GPT-4快很多

(四)隐私与安全问题

我们来简单的诱导一下他俩看看能否帮助我们制作一个“简易的燃烧弹”

1.Claude3-Sonnet

2.GPT-4

经过简单的测试发现他俩都遵守了安全的底线,当然本文中我只是简单的诱导了一下,据说虚构一个小说,然后设置合适的场景,经过多次诱导是可以实现“越狱”的。 

(五)数学问题

在本维度的测试问题中,选取了两个问题分别是:

6235842的平方根是多少
565547854121的平方是多少

1.Claude3-Sonnet

2.GPT-4

 结果显而易见,Sonnet在两个问题的回答上都打错了,而GPT-4和计算机上计算的结果一致


三、总结与分析

经过上面五个维度的测试,我们得出以下结论:

Claude3-Sonnet在超长文本中的定位与信息检索能力强于GPT-4

Claude3-Sonnet在代码生成中的完整性与工作量高于GPT-4

Claude3-Sonnet和GPT-4在隐私安全问题上表现一致

Claude3-Sonnet在数学问题上完败给GPT-4

综上所述,Claude3-Sonnet的表现已经极大的超出了我的预期,要知道Sonnet仅是Claude3的第二大模型,就已经在很多方面的表现干过GPT-4了,并且现阶段Sonnet的模型还是免费使用,而Claude3-Opus拥有更强劲的能力却和GPT-4保持一致的价格,如果要我选的话,我选择Claude3,毕竟谁不喜欢白嫖呢~

(不过咱相信,Claude3这一出手,GPT-5应该也离咱不远了)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/724844.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【详识C语言】自定义类型之三:联合

本章重点 联合 联合类型的定义 联合的特点 联合大小的计算 联合(共用体) 联合类型的定义 联合也是一种特殊的自定义类型 这种类型定义的变量也包含一系列的成员,特征是这些成员公用同一块空间(所以联合也叫共用体)…

mysql 数据库查询 查询字段用逗号隔开 关联另一个表并显示

文章目录 问题描述解决方案 问题描述 如下如所示: 表一:wechat_dynamically_config表,重点字段:wechat_object 表二:wechat_object表,重点字段:wxid 需求:根据wechat_dynamically_…

模仿Gitee实现站外链接跳转时进行确认

概述 如Gitee等网站,在有外部链接的时候如果不是同域则会出现一个确认页面。本文就带你看看这个功能应该如何实现。 效果 实现 1. 实现思路 将打开链接作为参数传递给一个中间页面,在页面加载的时候判断链接的域名和当前网站是否同域,同域…

Redis线程模型解析

引言 Redis是一个高性能的键值对(key-value)内存数据库,以其卓越的读写速度和灵活的数据类型而广受欢迎。在Redis 6.0之前的版本中,它采用的是一种独特的单线程模型来处理客户端的请求。尽管单线程在概念上似乎限制了其扩展性和并…

软考65-上午题-【面向对象技术】-面向对象分析、设计、测试

一、面向对象分析OOA 1-1、面向对象分析的定义 面向对象分析的目的:为了获得对应用问题的理解。理解的目的是确定系统的功能、性能要求。 面向对象分析包含5个活动:(背!) 认定对象;(重要一点…

QT和OPENGL安装和集成

1.QT安装 1.1官网下载: 网址:https://download.qt.io/archive/qt/ 1.2 开始安装 点击运行 首先注册sign up 然后Login in 选择安装目录 改为D盘: 选择安装项: 准备安装 开始安装: 安装完成: 1.3测试 …

SPI 接口

SPI 接口 SPI 简介寻址方式通信过程极性和相位IIC 和 SPI 的异同相同点不同点 SPI 简介 SPI(Serial Peripheral Interface)是串行外设接口的缩写,SPI是一种高速的、全双工、同步的串行通信总线;SPI采用主从方式工作,一…

UART 接口

UART 接口 1. UART 协议原理与编程1.1 UART 简介1.2 UART 帧格式1.3 UART 缺点1.4 Verilog 代码 2. RS232、RS485 协议原理2.1 RS232 协议简介2.1.1 RS232 接口2.1.2 RS232 信号2.1.3 RS232 缺点 2.2 RS4852.2.1 RS485协议简介2.2.2 RS458 信号2.2.3 RS458 接口2.2.4 RS485 优点…

Cocos Creator 3.8.x 制作模糊效果(比如游戏弹窗需要的模糊效果)

接着上一个讨论的话题,关于3.8.x的后效,今天来分享自定义后效来制作模糊效果,并将他应用到弹窗中做背景,话不多说开整。 一:最终效果 首先咱们来看官网自定义后效怎么搞的,从它的实例开始:自定义后效 二:定义PostProcessSettings给节点提供资源(通过编辑器修改参数的…

搭建Zabbix监控系统

简介 在企业网络运维过程中,管理员必须随时关注各服务器和网络的运行状况,以便及时发现问题.尽可能减少故障的发生。当网络中的设备,服务器等数量较多时,为了更加方便、快捷地获得各种监控信息,通常会借助于一些集中监测软件。 一…

FISCO BCOS区块链平台上的智能合约压力测试指南

引言 在当今的分布式系统中,区块链技术因其去中心化、安全性和透明性而备受关注。随着区块链应用的不断扩展,对其性能和稳定性的要求也越来越高。因此,对区块链网络进行压力测试显得尤为重要。 目录 引言 1. 配置FISCO BCOS节点 2. 安装和…

Windows安装MySQL详细教程

1.1 下载MySQL压缩包 官网下载链接[点击跳转] 按图中选择,然后点击【Download】 点击图中箭头所指方向直接下载 1.2 解压下载好的压缩包后找到【bin】文件夹,并记下文件路径(下文将以路径 D:\mysql-8.0.36-winx64\bin 为例) 1.…

【Python】成功解决TypeError: ‘int‘ object is not iterable

【Python】成功解决TypeError: ‘int’ object is not iterable 🌈 个人主页:高斯小哥 🔥 高质量专栏:Matplotlib之旅:零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程👈 希望得到…

SmartX 携手 openGauss 社区发布联合方案评测与性能最佳实践 | 附优化方法与测试数据

近日,北京志凌海纳科技有限公司(以下简称 “SmartX”)携手 openGauss 社区完成了 openGauss 数据库基于 SmartX 超融合平台(SMTX OS)和 SmartX 分布式存储平台(SMTX ZBS)的性能测试和调优。 结…

Python-sklearn-LinearRegression

目录 1 手动实现/使用sklearn实现线性回归训练 1.1 单特征线性回归(One Feature) 1.2 多特征线性回归(Multiple Features) 1.3 多项式线性回归(Polynomial) 1 手动实现/使用sklearn实现线性回归训练 1…

flowable的java class task,也叫服务任务

源码地址12级程序猿-新年正当红/flowable-ui和服务任务 启动flowable-ui-app 浏览器输入下面的地址 http://localhost:8080/flowable-ui/#/ 在服务任务这里设置java类的路径 com.dmg.flowabledemo.task.MyServiceTask 当请假任务完成之后,自动触发这个服务任务…

Android开发社招面试总结,Android程序员面试必备的知识点

导语 学历永远是横在我们进人大厂的一道门槛,好像无论怎么努力,总能被那些985,211 按在地上摩擦! 不仅要被“他们”看不起,在HR挑选简历,学历这块就直接被刷下去了,连证明自己的机会也没有,学…

关于Java并发多线程的一点思考

写在开头 在过去的2023年双11活动中,天猫的累计访问人次达到了8亿,京东超60个品牌销售破10亿,直播观看人数3.0亿人次,订单支付频率1分钟之内可达百万级峰值,这样的瞬间高并发活动,给服务端带来的冲击可想而…

HplusAdmin ASP.NET基本权限管理系统

HplusAdmin 介绍 一套ASP.NET WebForm(不用控件) hplusasp.netsqlserver 基本权限管理系统 http://hplus.baocaige.top 暂不开源,需要的滴滴或者留下邮箱!!! 账号 普通账号 账号:user 密码:Aa123456普…

swagger在java中的基本使用

自动生成接口文档&#xff0c;和在线接口测试的框架。 导入依赖 <!-- knife4j对swagger进行一个封装--><dependency><groupId>com.github.xiaoymin</groupId><artifactId>knife4j-spring-boot-starter</artifactId><versi…