LLM(十一)| Claude 3:Anthropic发布最新超越GPT-4大模型

        2024年3月4日,Anthropic发布最新多模态大模型:Claude 3系列,共有Haiku、Sonnet和Opus三个版本。

        Opus在研究生水平专家推理、基础数学、本科水平专家知识、代码等10个维度,超过OpenAI的GPT-4。

        Haiku模型更注重效率,能以3秒时间阅读一份10,000 tokens的论文;Sonnet比之前的Claude 2/2.1版本更智能,适用于知识检索等任务。

       这三个模型目前都支持20万上下文窗口。Anthropic表示,它们也支持100万上下文,需要消耗巨大AI算力,只提供给特定用户。

       用户可免费使用Claude 3 Sonnet模型(https://claude.ai/chats);如果想使用最强大的Opus 版本需要开通会员;Haiku 模型即将推出。

下面是对官网文章[1]的翻译:

       今天,我们宣布推出Claude 3模型系列,并为一系列认知任务设定了新的行业基准。该系列包括三个最先进的模型,按能力升序排列:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。每一个连续的模型都提供了越来越强大的性能,允许用户为其特定应用程序选择智能、速度和成本[2]的最佳平衡。

       Opus和Sonnet现在可以在claude.ai和Claude API中使用,后者现在在159个国家[3]普遍可用,Haiku将很快推出。

一、Claude 3 模型家族

二、智能新标准

        Opus是我们最智能的模型,在人工智能系统的大多数常见评估基准上都优于同行,包括本科生级专家知识(MMLU)、研究生级专家推理(GPQA)、基础数学(GSM8K)等。它在复杂任务上表现出接近人类水平的理解力和流利性,引领了一般智力的前沿。

       所有Claude 3[4]模型在分析和预测、细致入微的内容创建、代码生成以及西班牙语、日语和法语等非英语语言的对话方面都显示出更强的能力。

       以下是Claude 3模型与我们的同行在多个能力基准[1]上的比较:

三、近乎即时的结果

       Claude 3模型可以支持实时客户聊天、自动补全和数据提取任务,这些任务的响应必须是即时的。

       Haiku是市场上同类智能模型重速度最快、性价比最高的。它可以在不到三秒的时间内阅读一篇包含图表和图形的arXiv(约10k tokens)研究论文。我们预计在推出后性能将进一步提高。

       对于绝大多数工作负载,Sonnet比Claude 2和Claude 2.1快2倍,智能水平更高。它擅长需要快速响应的任务,如知识检索或销售自动化。Opus与Claude 2和2.1的速度相似,但智能水平更高。

四、强大的视觉能力

       Claude 3模型拥有与其他领先模型想媲美的先进视觉能力。他们可以处理各种视觉格式,包括照片、图表、图表和技术图表。我们特别高兴能为我们的企业客户提供这种新的模式,其中一些客户的知识库有高达50%的信息以PDF、流程图或演示幻灯片等各种格式编码。

五、更少的拒绝

       以前的Claude模型经常做出不必要的拒绝,这表明缺乏上下文理解。我们在这一领域取得了有意义的进展:与前几代模型相比,Opus、Sonnet和Haiku拒绝回答接近系统安全边界的提示的可能性要小得多。如下所示,Claude 3模型显示出对请求的更细致理解,识别出真正的危害,并更少地拒绝无害的提示。

六、准确性提高

       各种规模的企业都依赖我们的模型为客户服务,因此我们的模型输出必须在规模上保持高精度。为了评估这一点,我们使用了一大组复杂的事实问题,这些问题针对当前模型中的已知弱点。我们将反应分为正确答案、错误答案(或幻觉)和承认不确定性,其中模型说它不知道答案,而不是提供不正确的信息。与Claude 2.1相比,Opus在这些具有挑战性的开放式问题上的准确性(或正确答案)提高了两倍,同时错误答案的水平也有所降低。

       除了产生更值得信赖的回答外,我们很快将在Claude 3模型中启用引用,以便他们就可以在参考材料中指向精确的句子来验证他们的答案。

七、长语境和近乎完美的回忆

       Claude 3系列模型最初将在发布时提供200K上下文窗口。然而,这三种模型都能够接受超过100万个tokens的输入,我们可以将其提供给需要增强处理能力的精选客户。

       为了有效地处理长上下文提示,模型需要强大的回忆能力。“大海捞针”(NIAH)评估衡量了模型从大量数据中准确回忆信息的能力。我们通过每个提示使用30个随机针/问题对中的一个,并在不同的众包文档语料库上进行测试,增强了该基准的稳健性。Claude 3 Opus不仅实现了近乎完美的回忆,准确率超过99%,而且在某些情况下,它甚至可以识别出评估本身的局限性,即“针”句子似乎是由人类人工插入到原始文本中的。

八、负责任的设计

       我们开发了Claude 3系列模型,使其尽可能值得信赖。我们有几个专门的团队来跟踪和减轻广泛的风险,从错误信息和CSAM到生物滥用、选举干预和自主复制技能。我们继续开发宪法AI[5]等方法,以提高我们模型的安全性和透明度,并对我们的模型进行了调整,以缓解新模式可能引发的隐私问题。

       解决日益复杂的模型中的偏见是一项持续的努力,我们在这个新版本中取得了进展。如模型卡所示,根据问答偏差基准(BBQ)[6],Claude 3比我们以前的模型显示出更少的偏见。我们仍然致力于推进减少偏见的技术,并在我们的模型中促进更大的中立性,确保它们不会偏向任何特定的党派立场。

       尽管与以前的模型相比,Claude 3模型家族在生物知识、网络相关知识和自主性的关键指标上有所进步,但根据我们的负责任扩展政策[7],它仍处于人工智能安全级别2(ASL-2)。我们的红团队评估[8](根据我们的白宫承诺和2023年美国行政命令进行)得出的结论是,这些模型目前存在的灾难性风险可能性可以忽略不计。我们将继续仔细监测未来的模型,以评估其接近ASL-3阈值的程度。更多的安全细节可在Claude 3模型卡[4]中获得。

九、更易于使用

       Claude 3模型更善于遵循复杂的、多步骤指令。他们特别善于遵守品牌声音和响应准则,并开发用户可以信任的客户体验。此外,Claude 3模型更擅长以JSON等格式生成流行的结构化输出,这使得在自然语言分类和情感分析等用例中指导Claude变得更简单。

十、模型详细信息

       Claude 3 Opus是我们最智能的模型,在高度复杂的任务中具有市场上最好的性能。它可以以非凡的流畅度和类人般的理解力浏览开放式提示和看不见的场景。Opus向我们展示了生成人工智能的外部极限。

       Claude 3 Sonnet在智能和速度之间取得了理想的平衡,尤其是对于企业工作负载。与同类模型相比,它以更低的成本提供了强大的性能,并在大规模人工智能部署中实现了高耐久性。

       Claude 3 Haiku是我们速度最快、最紧凑的车型,具有近乎即时的响应能力。它以无与伦比的速度回答简单的查询和请求。用户将能够构建模仿人类互动的无缝人工智能体验。

十一、模型可用性

       Opus和Sonnet现在可以在我们的API中使用,该API现在普遍可用,使开发人员能够立即注册并开始使用这些模型,Haiku很快就会推出。Sonnet正在claude.ai上提供免费体验,claude Pro用户可以使用Opus。

       Sonnet今天也可以通过Amazon Bedrock和谷歌云的Vertex AI Model Garden进行私人预览,Opus和Haiku很快就会同时推出。

十二、更智能、更快、更安全

       我们不认为模型智能已经接近极限,我们计划在未来几个月内频繁发布Claude 3模型系列的更新。我们还很高兴能够发布一系列功能来增强我们模型的功能,特别是针对企业用例和大规模部署。这些新功能将包括工具使用(也称为函数调用)、交互式编码(也称为REPL)和更高级的代理功能。

       当我们突破人工智能能力的极限时,我们同样致力于确保我们的安全防护措施与这些性能的飞跃保持同步。我们的假设是,处于人工智能发展的前沿是引导其走向积极社会成果的最有效方法。

       我们很高兴看到你用Claude 3创造了什么,希望你能给我们反馈,让Claude成为一个更有用的助手和创造性的伙伴。要开始与Claude合作,请访问anthropic.com/Claude。

参考文献:

[1] https://www.anthropic.com/news/claude-3-family

[2] https://www.anthropic.com/api#pricing

[3] https://www.anthropic.com/supported-countries

[4] https://www.anthropic.com/claude-3-model-card

[5] https://www.anthropic.com/news/constitutional-ai-harmlessness-from-ai-feedback

[6] https://aclanthology.org/2022.findings-acl.165/

[7] https://www.anthropic.com/news/anthropics-responsible-scaling-policy

[8] https://www.anthropic.com/news/red-teaming-language-models-to-reduce-harms-methods-scaling-behaviors-and-lessons-learned

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/722066.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

稀碎从零算法笔记Day7-LeetCode:罗马数字转整数

题型:字符串转化、找规律 链接:13. 罗马数字转整数 - 力扣(LeetCode) 来源:LeetCode 题目描述 给定一个数组 prices ,它的第 i 个元素 prices[i] 表示一支给定股票第 i 天的价格。 你只能选择 某一天 …

关于我使用numpy.random.choice()遇到坑这件事

做仿真时经常使用到随机数,下面是一个场景:使用np.random.choice([0,1],p[0.5,0.5],size1)去进行随机的二选一,假设需要随机选择1000次,为了保证结果的稳健性,对前述过程重复50次,为了保证可复现性&#xf…

collection及迭代遍历

Collection是单列集合的祖宗接口,它的功能是全部单列集合都可以继承使用的。 package myCollection;import java.util.ArrayList; import java.util.Collection;public class A01CollectionDemo1 {public static void main(String[] args) {//collection是一个接口…

《PyTorch深度学习实践》第十一讲卷积神经网络进阶

一、 1、卷积核超参数选择困难,自动找到卷积的最佳组合。 2、1x1卷积核,不同通道的信息融合。使用1x1卷积核虽然参数量增加了,但是能够显著的降低计算量(operations) 3、Inception Moudel由4个分支组成,要分清哪些是在Init里定义…

基于springboot+vue的精简博客系统

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战,欢迎高校老师\讲师\同行交流合作 ​主要内容:毕业设计(Javaweb项目|小程序|Pyt…

Nginx配置文件的整体结构

一、Nginx配置文件的整体结构 从图中可以看出主要包含以下几大部分内容: 1. 全局块 该部分配置主要影响Nginx全局,通常包括下面几个部分: 配置运行Nginx服务器用户(组) worker process数 Nginx进程PID存放路径 错误…

Linux 防火墙 操作命令【实用】

防火墙操作: 描述命令查看防火墙状态systemctl status firewalld、firewall-cmd --state暂时关闭防火墙systemctl stop firewalld永久关闭防火墙systemctl disable firewalld开启防火墙systemctl start firewalld开放指定端口firewall-cmd --zonepublic --add-port…

080|为什么阿里的价值观值得你关注?

在阿里巴巴20周年年会现场,万众瞩目之下,马云和张勇完成了阿里巴巴董事长职务的交接。 不过你也知道,这次接棒在一年前就已经公布了,在年会上只是一个仪式。在20周年年会过后,我找到了互联网圈的资深媒体人阳淼&#…

爬虫逆向网站案例

一、相关网页 东方财富人气排行榜 二、查找url 三、寻找curl并复制 四、打开Convert curl commands to code (curlconverter.com) 五、修改并执行代码 import requestscookies {st_si: 73974981954644,st_pvi: 39724919122964,st_sp: 2024-03-05%2018%3A27%3A22,st_inirUrl:…

8个优秀的CSS实践,开发web应用

HTML面试题部分 1.H5的新特性有哪些 2.Label的作用是什么?是怎么用的? 3.HTML5的form如何关闭自动完成功能 4.dom如何实现浏览器内多个标签页之间的通信? 5.实现不使用 border 画出1px高的线,在不同浏览器的标准模式与怪异模式下都 能保持一…

【go语言开发】redis简单使用

本文主要介绍redis安装和使用。首先安装redis依赖库,这里是v8版本;然后连接redis,完成基本配置;最后测试封装的工具类 文章目录 安装redis依赖库连接redis和配置工具类封装代码测试 欢迎大家访问个人博客网址:https://…

Linux进程详细介绍

文章目录 Linux进程1、计算机体系结构和操作系统管理1.1、计算机体系结构 -- 硬件1.2、操作系统(Operator System) -- 软件 2、进程2.1、进程基本概念2.2、进程标识符2.2.1、获取当前进程标识符和当前进程的父进程标识符2.2.2、通过系统调用创建进程 -- …

基于SpringBoot+MYSQL的网上订餐系统

目录 1、 前言介绍 2、主要技术 3、系统功能分析 3.1、用户功能分析 3.2、管理员功能分析 4、系统结构分析 4.1、逻辑结构 4.2、物理结构 5、数据库设计 5.1、数据库E-R图设计 5.2、数据库表设计 6、运行截图(部分) 6.1、用户功能模块的实现 6.2、管理员功能模块的…

Echarts+D3气泡图

EchartsD3气泡图&#xff08;相邻效果&#xff0c;气泡之间不叠加&#xff09; <template><div ref"chart" style"width: 500px; height: 500px"></div> </template><script setup> import * as echarts from echarts/core …

不同用户同时编辑商品资料导致的db并发覆盖

背景 这个问题的背景来源于有用户反馈&#xff0c;他在商品系统中对商品打的标签不见了&#xff0c;影响到了前端页面上商品的资料显示 不同用户编辑同一商品导致的数据覆盖问题分析 查询操作日志发现用户B确实编辑过商品资料&#xff0c;并且日志显示确实打上了标签&#x…

前端从普通登录到单点登录(SSO)

随着前端登录场景的日益复杂化和技术思想的不断演进&#xff0c;前端在登录方面的知识结构变得越来越复杂。对于前端开发者来说&#xff0c;在日常工作中根据不同的登录场景提供合适的解决方案是我们的职责所在&#xff0c;本文将梳理前端登录的演变过程。 1、无状态的HTTP H…

【面试题】webpack的五大核心、构建流程、性能优化

【面试题】webpack的五大核心、webpack的构建流程、webpack的性能优化 webpack是什么?webpack的五大核心webpack的构建流程webpack性能优化 webpack是什么? js静态模块打包工具。 功能 将多个文件打包成更小的文件&#xff0c;(压缩)翻译 babal-loader es6进行降级兼容。 …

合泰HT66F2390----定时器中断学习笔记

前言 无需多言 直接开始定时器中断 的学习 通过上次的PWM学习&#xff0c;上次用的是周期型TM定时器模块 这次使用标准型TM定时器模块&#xff08;STM&#xff09; 代码 #include <HT66F2390.h>void Timer0_Init(void){_stm0c0 0b00001000;_stm0c1 0b11000001;_stm…

基于巨控GRM561/562/563Y西门子1200PLC发邮件

巨控GRM560,GRM600系列同比之前的GRM530&#xff0c;除短信&#xff0c;微信&#xff0c;电话语音播报增加了邮件发送功能&#xff0c;简单介绍一下PLC发邮件。 1在博途中建立好DB块 2.打开GRMDEV6&#xff0c;新建工程&#xff0c;做好数据采集&#xff0c;这里以DB4.D0&#…

三大数学软件之Maple

相信钻研数学的小伙伴们对MATLAB、SPSS这样的重量级软件并不陌生&#xff0c;这些大型软件能求解复杂的运算&#xff0c;解决各领域的数学问题。今天博主为大家带来了一款名不见经传的软件——Maple&#xff0c;作为三大数学软件之一&#xff0c;Maple同样拥有不菲的计算能力&a…