[ 云计算 | AWS ] ChatGPT 竞争对手 Claude 3 上线亚马逊云,实测表现超预期

在这里插入图片描述

文章目录

    • 一、前言
    • 二、Claude 3 介绍以及相关测试细节
    • 三、在亚马逊云科技上体验 Claude 3
      • 3.1 在 Amazon Bedrock 服务中配置 Claude 3
      • 3.2 为聊天配置使用 Claude 3 模型
      • 3.3 Caude 3 Sonet 聊天体验
    • 四、文末总结
    • 五、参考文献

一、前言

3月4号,Anthropic 发布了号称现阶段宇宙最强大模型 Claude 3,到底强到什么程度,直接看这张图即可。

发文时间点 Claude 3 Sonnet 模型现已在亚马逊云科技的 Amazon Bedrock 正式可用本文第三节会介绍如何在亚马逊云科技上使用 Claude3 模型。

二、Claude 3 介绍以及相关测试细节

这次发布包括了三个版本:Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus,它们的能力从低到高。

首先是Haiku,它是市场上速度最快、成本效益最高的选择,对于大部分的纯文本任务表现出色,同时也支持多模态能力。

Sonnet 则比之前的 Claude 2 和 Claude 2.1 快两倍,并且智能水平更高。它擅长处理需要快速响应的智能任务,比如知识检索或者销售自动化。它在智能和速度之间达到了完美平衡,这对企业应用来说尤为重要。

Opus 是最顶级、最强大的基础模型,具备深度推理、高级数学和编码能力,在高度复杂的任务上表现出色。它能够流畅地处理各种开放式提示和新颖场景,包括任务自动化、假设生成以及图表、图形和预测的分析。适用于需要高度智能和复杂任务处理的场景,比如企业自动化、复杂金融预测、研究和开发等。

Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus的能力可以参考下面的图示:

在这里插入图片描述

在相关测评中,Opus表现出色,多项基准测试中的得分都超过了GPT-4和Gemini 1.0 Ultra,在数学、编程、多语言理解、视觉等多个维度上树立了新的行业标准。特别是在特定测试场景下,如研究生水平考试Q题解A和数学Q题解决上,Claude 3的表现优于GPT-4。比如,在zero-shot学习环境下,Claude 3的准确率达到了60%,超过了GPT-4的52%。

在 Babel.cloud 开源评估项目的 LLMRGB 项目中,Claude3 在单次测试中获得了高达97.6的高分,大大超过了GPT-4,成为当前大型模型能力的领先者。

在这里插入图片描述

(测试结果图片以及仓库见文末参考文献)

要特别注意的是,在 LLM-RGB 评估中,015_simple_mahjong 是个超级难题。简单地说,大型模型被教了一些简单的麻将规则,还给了一些例子,然后要求在一个具体情境下做出选择。这个问题在以前的测试中很少有人能正确解答。不过,Claude 3 Opus20%的几率给出最佳解答,还有80%的几率给出次优解。这意味着它的多轮推理能力远远超过其他模型,能够快速学习并应用有限的知识。这使得 Claude 3 的应用领域不仅限于简单的客服和文本生成,它在工程过程更长的领域也能表现出色。

三、在亚马逊云科技上体验 Claude 3

3.1 在 Amazon Bedrock 服务中配置 Claude 3

目前,Anthropic 的 Claude 3 Sonnet 模型现已在亚马逊云科技的 Amazon Bedrock 正式可用。目前可以完全免费试用

Amazon 上的体验服务入口:https://portal.cloudassist-beta.sign-up.china.aws.a2z.com/demo/qrcode?trk=KOCKOL

进入后无需注册账号,仅需要扫码进入 CloudAssist,然后点击限时试用即可,如下图

下一代 Claude (Claude 3) 的三个模型 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku 将陆续登陆 Amazon Bedrock。Amazon Bedrock 是目前第一个也是唯一一个提供 Claude 3 Sonnet 的托管服务。

在这里插入图片描述

在 Amazon Bedrock 服务中,点击下面的入门按钮

在这里插入图片描述

进入到 Amazon Bedrock 后,首先需要管理模型的访问权限,这后面需要申请所需的模型,在这个步骤直接点击 [管理模型访问权限] 按钮即可。

在这里插入图片描述

进入到模型列表页面后,可以看到 Amazon Bedrock 中内嵌了很多模型,不过这些模型默认没有配置访问,这需要你做访问请求,也就是继续点击配置模型访问权限操作。

在这里插入图片描述

进入到模型请求访问权限页面后,可以看到 Anthropic 公司的模型,在做请求之前,需要先提交应用场景。如下图

在这里插入图片描述

下面的信息是必填信息,需要填写后,按钮才会高亮,允许继续点击

在这里插入图片描述

在上一步点击提交按钮后,勾选所需的模型,这里直接全选了所有模型做请求。

在这里插入图片描述

最后请求过程中可能需要等待几分钟。等待请求完成即可。

在这里插入图片描述

3.2 为聊天配置使用 Claude 3 模型

在上述步骤配置好后,在 Amazon Bedrock 页面,选择聊天菜单,之后点击【选择模型】按钮,选择 Claude 3 模型。

在这里插入图片描述

进入到模型选择页面,选择 Anthropic 公司中的 Claude 3,点击应用即可。

在这里插入图片描述

3.3 Caude 3 Sonet 聊天体验

第一个问题我是直接问他使用pyhon写一个3次的循环,可以看出 Caude 3 不局限一种方式书写,并且将多个实现写出,后面并且给出的测试打印结果。可以说你后面想问的或者拓展的很好。

在这里插入图片描述

接下来我使用 Claude 3 进行了一个图片识别,并且让 Claude 3 进行了分析总结, 传给 Claude 3 的图片是一张中国地图,并且带有一些描述信息。

可以看到最后 Claude 3 给的分析总结非常精准,精准到我有点吃惊。

在这里插入图片描述

对图片进行识别的测试,我上传了一只猫,可以看到 Claude 3 不仅分析了动物是什么,还直接描述了这个图片中猫的场景动作。

在这里插入图片描述

另外一个让我吃惊的是,我上传了一张车的图片,让他识别出来车的型号,Claude 3 可以几乎精准识别。问题以及 Claude 3 的回答可以看下图。

在这里插入图片描述

四、文末总结

个人觉得,Claude 3 的超预期成功并不意味着 Anthropic 的能力已经完全超越了OpenAI。现在看 Claude 3 显然比 GPT4 更强大,但也许GPT-5 已经在 OpenAI 手中了。

然而,Claude 3 的出现表明大型模型领域不再由单一实体主导,也没有只有 OpenAI 才能创造的“核心魔法”。更多地涉及领先于工程能力和资源投入。大型基础模型之间的竞争为上层应用开发人员提供了更多选择,并将不可避免地带来更低的价格。从这个角度来看,无论 Claude 3 的成功被高估了多少,都带来了重要的行业价值和社会影响。

五、参考文献

  • https://github.com/babelcloud/LLM-RGB
  • https://llm-rgb.babel.run/view/testId/a581e4a9-ce1e-4b2f-8f45-980889913b58
  • https://mp.weixin.qq.com/s?__biz=MzA4ODMwMDcxMQ==&mid=2651122739&idx=1&sn=667fcc30565cb1ba6510307747fbf78e

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/796983.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第十四届蓝桥杯C/C++大学B组题解(一)

1、日期统计 #include <bits/stdc.h> using namespace std; int main() {int array[100] {5, 6, 8, 6, 9, 1, 6, 1, 2, 4, 9, 1, 9, 8, 2, 3, 6, 4, 7, 7,5, 9, 5, 0, 3, 8, 7, 5, 8, 1, 5, 8, 6, 1, 8, 3, 0, 3, 7, 9,2, 7, 0, 5, 8, 8, 5, 7, 0, 9, 9, 1, 9, 4, 4, 6,…

鸿蒙Lottie动画-实现控制动画的播放、暂停、倍速播放、播放顺序

介绍 本示例展示了lottie对动画的操作功能。引入Lottie模块&#xff0c;实现控制动画的播放、暂停、倍速播放、播放顺序、播放到指定帧停止或从指定帧开始播放、侦听事件等功能&#xff0c;动画资源路径必须是json格式。 效果预览 使用说明&#xff1a; 进入页面默认开始201…

Python人工智能应用---中文分词词频统计

目录 1.中文分词 2.循环分别处理列表 &#xff08;1&#xff09;分析 &#xff08;2&#xff09;代码解决 3.词袋模型的构建 &#xff08;1&#xff09;分析需求 &#xff08;2&#xff09;处理分析 1.先实现字符串的连接 2.字符串放到新的列表里面 4.提取高频词语 &…

一些好玩的东西

这里写目录标题 递归1.递归打印数组和链表?代码实现原理讲解二叉树的 前 中 后 序位置 参考文章 递归 1.递归打印数组和链表? 平常我们打印数组和链表都是 迭代 就好了今天学到一个新思路–>不仅可以轻松正着打印数组和链表 , 还能轻松倒着打印(用的是二叉树的前中后序遍…

Linux基础篇:Linux第三方软件仓库——可以让Linux变得有趣的软件仓库

Linux第三方软件仓库——可以让Linux变得有趣的软件仓库 一、epel源介绍 EPEL&#xff08;Extra Packages for Enterprise Linux&#xff09;源是一个由Fedora项目组维护的第三方软件仓库&#xff0c;为企业级Linux发行版&#xff08;如Red Hat Enterprise Linux&#xff08;…

清明作业 c++

1.封装一个类&#xff0c;实现对一个数求累和阶乘质数 #include <iostream>using namespace std; int mproduct(int a){if(a>1){return a*mproduct((a-1));}else{return 1;} } class number{int a; public:number():a(5){};number(int a):a(a){}void set(int a){thi…

ChatGLM-6B实战微调(P-tuning-v2、LORA)

硬件准备 GPU: NVIDIA Tesla A30 24GB python 3.10 pytorch 1.11 transformers 4.27.1 实验环境 Change your pip source pip config set global.extra-index-url https://pypi.tuna.tsinghua.edu.cn/simple # Writing to /opt/conda/pip.conf pip config set global.inde…

浏览器工作原理与实践--DOM树:JavaScript是如何影响DOM树构建的

在上一篇文章中&#xff0c;我们通过开发者工具中的网络面板&#xff0c;介绍了网络请求过程的几种性能指标以及对页面加载的影响。 而在渲染流水线中&#xff0c;后面的步骤都直接或者间接地依赖于DOM结构&#xff0c;所以本文我们就继续沿着网络数据流路径来介绍DOM树是怎么生…

MATLAB实现数值求解高阶常微分方程组

一、高阶常微分方程组 高阶常微分方程是指包含多个高阶常微分方程的系统。这些方程通常涉及多个未知函数及其高阶导数。解决高阶常微分方程组通常比解决单个高阶常微分方程更为复杂&#xff0c;因为需要同时考虑多个方程和多个未知函数之间的关系。 一般来说&#xff0c;解决…

【PyQt5篇】使用QtDesigner添加控件和槽

文章目录 &#x1f354;使用QtDesigner进行设计&#x1f6f8;在代码中添加信号和槽 &#x1f354;使用QtDesigner进行设计 我们首先使用QtDesigner设计界面 得到代码login.ui <?xml version"1.0" encoding"UTF-8"?> <ui version"4.0&q…

金融中的数学模型

平稳时间序列 时间序列的基本统计特性&#xff0c;如均值、方差和自相关等&#xff0c;在时间上不随时间的推移而发生显著的变化。 平稳时间序列通常具有以下特征&#xff1a; 均值不随时间变化&#xff1a;序列的均值在时间上保持恒定。方差不随时间变化&#xff1a;序列的…

CSS属性计算逻辑

CSS 属性计算逻辑 首先&#xff0c;假设在 HTML 中有这么一段代码&#xff0c;在 body 中有一个 h1 标题&#xff1a; <body><h1>这是一个h1标题</h1> </body>目前我们没有设置该 h1 的任何样式&#xff0c;但是却能看到该 h1 有一定的默认样式&…

2024 年最新使用 Python 部署腾讯云服务器搭建企业微信机器人应用详细教程

企业微信机器人是一种可以在企业微信工作群中执行特定任务的自动化工具。它具备丰富的功能&#xff0c;可以帮助企业提高团队协作效率&#xff0c;简化工作流程&#xff0c;并为员工提供更好的工作体验。 获取企业 ID 信息 企业信息页面链接地址&#xff1a;https://work.wei…

Xshell Mobaxterm等终端工具连接不上服务器,显示 SSH服务器拒绝密码。请再试一次。解决办法

问题解决办法&#xff1a; &#xff08;1&#xff09;需要查看配置SSH密钥时&#xff0c;输入的password密码和当前users_name cd /home/: 查看当前系统下的用户名 注意上图中的登录名是服务器端linux下自己设置的user_name用户名&#xff1a; 所以需要将fl改为&#xff1a…

CCIE-10-IPv6-TS

目录 实验条件网络拓朴 环境配置开始Troubleshooting问题1. R25和R22邻居关系没有建立问题2. 去往R25网络的下一跳地址不存在、不可用问题3. 去往目标网络的下一跳地址不存在、不可用 实验条件 网络拓朴 环境配置 在我的资源里可以下载&#xff08;就在这篇文章的开头也可以下…

《Java面试自救指南》(专题三)数据库

文章目录 一条sql语句的查询流程有哪些数据库存储引擎&#xff0c;各自的区别数据库的三大范式事务的四大特性&#xff08;含隔离级别&#xff09;MySQL四种隔离机制的底层实现&#xff08;如何解决幻读 &#xff09;MySQL有哪几种锁&#xff0c;分别怎么实现数据库中有哪些索引…

Kubernetes学习笔记8

Kubernetes集群客户端工具kubectl 我们已经能够部署Kubernetes了&#xff0c;那么我们如何使用Kubernetes集群运行企业的应用程序呢&#xff1f;那么&#xff0c;我们就需要使用命令行工具kubectl。 学习目标&#xff1a; 了解kubectl 命令帮助方法 了解kubectl子命令使用分…

传统海外仓的管理模式有什么缺点?使用位像素海外仓系统的海外仓有什么优势?

传统的海外仓管理模式主要需要大量的人工操作和相对简单的信息化手段进行仓库的日常运营。因此&#xff0c;传统海外仓的运作比较依赖仓库员工的手工记录、核对和处理各种仓储和物流信息。 然而&#xff0c;传统海外仓管理模式通常存在一些缺点&#xff1a; 效率低下 因为需…

算法之美:缓存数据淘汰算法分析及分解实现

在设计一个系统的时候&#xff0c;由于数据库的读取速度远小于内存的读取速度&#xff0c;那么为加快读取速度&#xff0c;需先将一部分数据加入到内存中&#xff08;该动作称为缓存&#xff09;&#xff0c;但是内存容量又是有限的&#xff0c;当缓存的数据大于内存容量时&…

《乡土中国》中国基层传统社会里的一种体系,支配着社会生活的各方面 - 三余书屋 3ysw.net

乡土中国 大家好&#xff0c;今天我们要解读的是费孝通先生的经典著作《乡土中国》。这本书的中文版大约有10万字&#xff0c;我将用30分钟左右的时间为你解读书中的精髓。为什么说中国的根基在于乡土社会&#xff1f;我们应该从哪些方面来理解乡土社会的特征及其重要性&#…