⎣模型⎤Claude3——给奥特曼一点点压力!

微信公众号|人工智能技术派

作 者|hws

        Claude系列模型是由美国创业公司Anthropic基于transformer架构研发,该公司是一群在2021年OpenAI离职员工(包括前首席科学家Ilya Sutskever和Dario Amodei)创建的。Anthropic先前已发布Claude1和Claude2,效果相当不错模,紧追OpenAI。过去短短半年,Claude3效果已优于GPT-4,从跟随者变为引领者。下面将简要介绍一下本次发布的Claude3特点。

推理效果优于GPT-4

        本次发布的Claude3 包含3个版本模型:Haiku、Sonnet和Opus。从下图可以看出Opus版模型在多个常用评估集子(包括:包括本科级别专业知识-MMLU、研究生级别专家推理-GPQA、基础数学-GSM8K等)上效果全面超过GPT-4。特别是一些任务上,zero-shot效果甚至比GPT-4 few-shot效果好,总体结果是比较惊艳的(国内已有人体验过效果,详见参考文献)。

误拒大幅减少

        为了尽量模型推理结果合法性(如涉及种族歧视), 大模型通常会主动拒绝回答一些问题,但会时常会因为理解不到位误拒一些合理的问题,Claude2这方面问题比较突出,Claude3有了较大改善。

推理速度快

        Claude3推理速度上也有明显提升,Claude3-Sonnet要比Claude2快2倍,且效果明显优于Claude2(如下图)

丰富产品矩阵

        作为一家创业公司,Anthropic本着坚定通用大模型路线,并将高性能模型作为其吸引融资的主要标杆,辅以小模型布局边缘市场。下图是官方提供的三个模型智能化和成本关系图,可以看出三个模型智能化和使用成本有较大差异,用户可以根据需求选择最合适模型。当前,Opus、Sonnet已经开放API接口,Haiku也会于近期开放。

支持多语言

        Claude3作为面向全球发布的大语言模型,当前支持在159个国家使用,也就是支持了世界上大部分国家的官方语言,下图给出一些主要语种的识别率。

支持多模态输入

        Claude3支持多模态输入,包括图像(包括表格、图表、照片等)、文本等,并且推理效果也非常不错。

支持超长上下文

        Claude3可以支持长达200K的上下文窗口,在"大海捞针"测试(一项针对大语言模型上下文记忆检索的特殊能力测试)中,Claude3 Opus准确率已经接近99%。

闭源

        官方并没有透露模型具体信息,只大概描述训练数据来源包含三个部分:网上开源的数据、第三方供应的标注数据、内部生产数据。Anthropic尝试了多种数据清洗和筛选方案,如去重和分类。训练过程也只是做个大概描述:首先基于以上数据进行预训练生成pretrain-model,用pretrain-model进行推理,并且人工对推理结果进行校验,如大模型输出5个结果,人工校验发现第3个结果更符合要求,那么将第3个标注为正确结果,基于标注结果重新训练生成最终模型。另外就是强调,Anthropic特别强调安全的一家公司,所以会人工标注来避免模型输出涉及性别歧视、种族歧视、触发法律等相关的结果。

后话......

        综合评估当前主要AI企业,OpenAI一直是独一档的存在,此次Anthropic发布的模型应该会给OpenAI带来不小的冲击,同时像Mistral(法国创业公司,成立于2023年由前DeepMind和Meta人员组建)这样的初创企业进步也非常迅速,这种情况下OpenAI应该会迅速开放GPT-5。但作为最早提出Transformer结构的Google,已经被慢慢拉开距离,按说在计算资源、数据资源、人力资源更丰富的大厂应该更容易出效果,目前这种局面不免让人唏嘘不已。同时,也可以看到国内AI厂商,文心一言、千问等仍有不小差距,特别是在Nvidia GPU被限制出口情况下,这种差距有可能会进一步扩大,也希望国内可以弯道超车吧。

[参考文献]

  • 官网介绍
    • https://www.anthropic.com/news/claude-2
    • https://www.anthropic.com/news/claude-3-family
    • https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
  • 实践效果
    • https://mp.weixin.qq.com/s/EqH-Qr2DsT3pHsKxb8XI1w

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/732854.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数据分享】2000-2022年全国1km分辨率的逐日PM10栅格数据

空气质量数据是在我们日常研究中经常使用的数据!之前我们给大家分享了2000-2022年全国范围逐日的PM2.5栅格数据和2013-2022年全国范围逐日SO2栅格数据(可查看之前的文章获悉详情)。 本次我们给大家带来的是2000-2022年全国范围的逐日的PM10栅…

【论文阅读】关于智能合约的漏洞检测

两篇论文,都是关于智能合约漏洞检测的综述文章 [1]崔展齐,杨慧文,陈翔等.智能合约安全漏洞检测研究进展[J/OL].软件学报:1-33[2024-03-05].https://doi.org/10.13328/j.cnki.jos.007046. [2]王丹,黄松,王兴亚.以太坊智能合约测试研究综述[J].信息技术与信息化,2023(…

算法设计与分析(超详解!) 第一节 算法概述

1.算法的定义 算法的非形式化定义:算法是规则的有限集合,是为解决特定问题而规定的一系列操作。 可以理解为:算法(algorithm)是指在解决问题时,按照某种机械的步骤一定可以得到问题的结果(有的…

【黑马程序员】STL实战--演讲比赛管理系统

文章目录 演讲比赛管理系统需求说明比赛规则程序功能 创建管理类功能描述创建演讲比赛管理类 菜单功能添加菜单成员函数声明菜单成员函数实现菜单功能测试 退出功能添加退出功能声明退出成员函数实现退出功能测试 演讲比赛功能功能分析创建选手类比赛成员属性添加初始化属性创建…

数据分析-Pandas最简单的方法画矩阵散点图

数据分析-Pandas直接画矩阵散点图 数据分析和处理中,难免会遇到各种数据,那么数据呈现怎样的规律呢?不管金融数据,风控数据,营销数据等等,莫不如此。如何通过图示展示数据的规律? 数据表&…

有点炫酷有点diao的免费wordpress模板主题

这是一款经典的免费wordpress主题,被广泛应用于多个行业的网站。 https://www.wpniu.com/themes/189.html

vulhub中Weblogic < 10.3.6 ‘wls-wsat‘ XMLDecoder 反序列化漏洞(CVE-2017-10271)复现

Weblogic的WLS Security组件对外提供webservice服务,其中使用了XMLDecoder来解析用户传入的XML数据,在解析的过程中出现反序列化漏洞,导致可执行任意命令。 访问http://your-ip:7001/即可看到一个404页面,说明weblogic已成功启动 …

Kubernetes 安全秘籍:5 个你必须知道的知识点

Kubernetes 安全和身份验证是确保集群和应用安全的关键。今天将深入探讨 Service Account、身份验证和RBAC的关键概念和实践,帮助您构建安全可靠的应用。今天本文将着重于安全相关的内容,并提供更详细的示例和配置说明,帮助兄弟们更深入地理解…

机器人期刊:Science Robotics and IEEE Transactions

文章目录 1. Science Robotics (出版商 AAAS)2. IEEE Transactions on RoboticsReference1. Science Robotics (出版商 AAAS) https://www.science.org/journal/scirobotics 2. IEEE Transactions on Robotics

10kV/35kV并网分布式光伏系统-实现错峰有序用电

根据国家电网 Q/GDW1480-2015 《分布式电源接入电网技术规定》:分布式电源并网电压等级可根据各 并网点装机容量进行初步选择,推荐如下: • 8kW 及以下可接入 220V ; • 8kW~400kW 可接入 380V ; • 400kW~60…

【Appium问题】每次启动appium都会安装一次uiautomator

问题 每次启动appium,都需要安装一次uiautomator2比较麻烦 解决 在配置文件capabilities 中增加参数skipServerInstallationTrue

【C++专栏】C++入门 | 函数重载、引用、内联函数

博客主页:Duck Bro 博客主页系列专栏:C专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ C入门 | 函数重载、引用、内联函数 文章编号:C入门 / 02 文…

ORACLE RAC反应卡顿时enq: SV - contention和latch: row cache objects的分析

某客户数据库系统使用ORACLE RAC 11G版本,两个节点。在上午8点钟之后,业务开始大量进行时,出现严重的卡顿问题;在工程师分析后,发现当时出现了很多异常等待数据,如典型的enq: SV - contention 、enq: TX - …

基于单片机的老人防丢系统设计

目 录 摘 要 I Abstract II 引 言 3 1 系统总体架构 6 1.1方案设计与选择 6 1.2 系统架构设计 6 1.3 系统器件选择 7 2 系统硬件设计 9 2.1 单片机外围电路设计 9 2.2 LCD1602液晶显示电路设计 12 2.3 短信模块电路设计 14 2.4 GPS模块电路设计 14 2.5 电源与按键控制电路设计…

Mybaties-Plus saveBatch()、自定义批量插入、多线程批量插入性能测试和对比

一.背景 最近在做一个项目的时候,由于涉及到需要将一个系统的基础数据全量同步到另外一个系统中去,结果一看,基础数据有十几万条,作为小白的我,使用单元测试,写了一段代码,直接采用了MP(Mybati…

element---tree树形结构(返回的数据与官方的不一样)

项目中要用到属性结构数据&#xff0c;后端返回的数据不是官方默认的数据结构&#xff1a; <el-tree:data"treeData":filter-node-method"filterNode":props"defaultProps"node-click"handleNodeClick"></el-tree>这是文档…

SpringCloudGateway全局过滤器

文章目录 全局过滤器的作用自定义全局过滤器过滤器执行的顺序 上一篇 Gateway理论与实践 介绍的过滤器&#xff0c;网关提供了31种&#xff0c;但每一种过滤器的作用都是固定的。如果我们希望拦截请求&#xff0c;做自己的业务逻辑则没办法实现。 全局过滤器的作用 全局过滤器的…

高级语言讲义2010计专(仅高级语言部分)

1.编写一程序&#xff0c;对输入的正整数&#xff0c;求他的约数和。 如&#xff1a;18的约数和为1236939 #include <stdio.h>int getsum(int n){int i,sum0;for(i1;i<n;i)if(n%i0)sumi;return sum; } int main(){int sum getsum(18);printf("%d",sum); …

JS直接量及其相关对象

什么是直接量 直接量是指不需要创建对象就可以直接使用的变量。ES中的直接量主要有三种类型&#xff1a;表示字符串的string类型、表示数字的number类型和表示true/false的boolean类型。当我们直接将值赋给变量后&#xff0c;ES就会自动判断其类型&#xff0c;而且当参数发生变…

Android14之编译输出system/product/vendor/odm分区(一百九十一)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 优质专栏&#xff1a;多媒…