2024年5月LLM最新排名:GPT-4o出道即巅峰!国内3个大模型榜上有名!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

大语言模型Large Language Model,简称LLM)是当下生成式AI应用的核心,可以理解为一辆汽车的“引擎”,一个应用程序的“大脑”。LLM模型的通用基础能力是AI工具性能表现的基础。今天是2024年5月25日,我们来聊一聊当前LLM模型的最新排名情况。

全球LLM模型综合排名

本排名的数据来源为LMSYS Chatbot Arena Leaderboard。LMSYS全称为LMSYS Organization,由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立,是一个专注于LLM模型研究和评估的组织。他们开发了Chatbot Arena,这是一个开放的LLM模型测评平台,旨在通过收集用户反馈来评估和比较不同LLMs的性能。Chatbot Arena的核心功能包括模型对战(Arena Battle),实时聊天(Direct Chat),排行榜(Leaderboard)。

LMSYS采用了类似于国际象棋等竞技游戏中广泛使用的Elo评分系统,通过众包方式进行匿名、随机对抗测评。在Chatbot Arena中,系统会随机选择两个不同的大型语言模型进行比较,用户在与这些模型的互动中进行评估,并在匿名的情况下选择哪款模型的表现更佳。这种评测方式旨在提供一个公正、透明的评估环境,帮助研究者和开发者了解和改进他们的模型。

截至目前,LMSYS共有99个大语言模型参与测评,总投票数已超百万。

排名模型综合得分投票数组织知识截止日期
🥇 1GPT-4o-2024-05-13128720156OpenAI2023/10
🥈 2GPT-4-Turbo-2024-04-09125262203OpenAI2023/12
🥉 3GPT-4-1106-preview125082286OpenAI2023/4
4Gemini 1.5 Pro API-0409-Preview124862929Google2023/11
5Claude 3 Opus1246121218Anthropic2023/8
6GPT-4-0125-preview124476435OpenAI2023/12
7Yi-Large-preview12361567101 AI未知
8Llama-3-70b-Instruct1203129016Meta2023/12
9Claude 3 Sonnet119997268Anthropic2023/8
10Bard (Gemini Pro)120812387Google在线
11Reka-Core-20240501119537076Reka AI未知
12GPT-4-0314118855378OpenAI2021/9
13Command R+118862689Cohere2024/3
14Qwen-Max-0428118623568Alibaba未知
15Claude 3 Haiku118186889Anthropic2023/8
16GLM-4-011611756167Zhipu AI未知

GPT-4系列模型

几乎是毫无疑问地,GPT-4系列模型夺得前三甲,尤其是5月13日刚推出的GPT-4o模型,更是在刚发布就直接登顶,可谓是“出道即巅峰”,而排在第二和第三的分别是GPT-4-Turbo-2024-04-09GPT-4-1106-preview。值得一提的是,本次排名的依据是LLM竞技场的综合得分,从上面的得分可以看到,GPT-4o和后面的模型在得分上差距还是非常明显的,领先第二名35分之多。

谷歌Gemini系列模型

在这个最新的排行榜里,谷歌的Gemini 1.5 Pro以微弱的优势打败了Claude 3 Opus,位居第四。在之前我也写了不少的文章来介绍Gemini 1.5 Pro模型,首先是它的上下文长度,达到了惊人的100万(确切的说是104万tokens),而5月份的谷歌I/O开发者大会上,更是宣布Gemini 1.5 Pro的上下文长度已经达到了200万,但这个长度需要提交申请排waitlist才能体验。其次是它的多模态能力。最重磅的是它支持视频输入,直接就能够分析视频内容。

根据谷歌最新的通知邮件,Gemini 1.5 ProAPI将于5月30日开始正式收费,但在Google AI Studio中使用该模型仍然免费。想体验的小伙伴可以看我这篇介绍文章:谷歌Gemini 1.5 Pro向所有人开放,无需waitlist!阿里通义千问升级1000万字长文档处理功能!。

Claude 3系列模型

Claude 3系列模型共有3档:Claude 3 OpusClaude 3 SonnetClaude 3 Haiku。这三挡模型的能力依次降低,响应速度依次提高,价格依次降低。这其实也很好理解,推理能力越强的模型需要更多的时间来理解、推断,所以响应速度也就相对较慢。值得一提的是,Claude 3 Opus曾经超越GPT-4,登顶这个排行榜,后来又被反超。

目前Claude 3 Opus排在第5名,Claude 3 Sonnet第9,而Claude 3 Haiku则位列第15名。

国产模型:Yi-Large-preview

第7名,这是目前国产LLM模型在LMSYS榜单中的最高排名,来自零一万物的Yi-Large-preview。不得不说,这是国内AI领域的荣耀时刻。在此之前,仅有阿里的通义大模型跻身进入过前10名。

零一万物公司由创新工场创始人兼CEO李开复领导,成立于2023年,短短几个月内就发布了首款中英双语大模型Yi系列。Yi-Large模型是Yi系列模型的最新力作,是一款拥有千亿参数的闭源大模型。除了本文提到的LMSYS排行榜,在斯坦福大学最新的AlpacaEval 2.0评估中,Yi-Large在全球大模型的胜率排名第三,仅次于GPT-4oGPT-4-Turbo,在中文SuperCLUE评估中则位于国产大模型的榜首​。

国产模型:Qwen-Max-0428

来自阿里的通义系列模型之一的Qwen-Max-0428,当前排名为第14名。不得不说,最为去年才开始爆发的新兴领域,AI大模型真是卷的厉害。通义千问的这个模型前几天还是排名第10,过了几天就被打到了第14名。当然,卷意味着技术的进步,对我们用户来说是件好事。

注意,这里的Qwen-Max-0428是通义系列模型中的一个闭源的商用模型,而不是开源模型。

国产模型:GLM-4-0116

GLM-4-0116模型来自智谱AI,就是开发智谱清言这款AI工具的主体公司。目前GLM-4-0116排名第16名。智谱AI这家公司源自清华大学计算机系的技术成果转化,致力于打造新一代认知智能通用模型。根据公开资料,GLM-4-0116是智谱AI最新发布的第四代基座大模型,其性能逼近GPT-4,具备强大的多模态能力、长文本处理能力和智能体定制能力。该模型支持128K的上下文窗口长度,可以在一次提示词中处理高达300页的文本。在长文本处理能力测试中,GLM-4在128K文本长度内的精度召回率几乎达到100%。


精选推荐

  1. 使用GPT-4o模型的5种方法,总有一种适合你!

  2. 关于最新模型GPT-4o的14条总结,都在这里!

  3. 免费的GPT4终于要来了!OpenAI直播发布会详细解读!

  4. 春日暖阳,何不来看一场OpenAI的发布会


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/841237.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

上位机图像处理和嵌入式模块部署(f103 mcu的最小软件系统)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 我们都知道mcu电路有最小系统。一个最小硬件系统里面包含了mcu、晶振、复位、输入和输出。其实不光硬件如此,软件也有一个最小系统。而…

颜色值进制转换

颜色值进制转换 专业的和非专业程序员在编程时都碰到过颜色值的表达式。特别是在编制网页和设计界面时,都要选择颜色。各语言的颜色值表达式就两种,十六进制的颜色值hex$和十进制的RGB格式。现成的调色板颜色表也是这两种格式。写代码时会遇到写颜色值码…

打造有情感的AI智能体-情感问答

目录 文心智能体平台简介 情感问答智能体介绍 优势1主动提问深入分析你的困扰,合理建议 优势2多次主动提问,引导用户补全信息。 优势3整合多种强大工具 最近发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默&#xff0c…

04.爬虫---Session和Cookie

04.Session和Cookie 1.Session2.Cookie3.详细对比4.Cookie属性结构5.一些误区 Session和Cookie是Web开发中用于用户状态管理的两种常见技术。理解它们的区别对于开发安全的Web应用至关重要。 1.Session Session代表服务器与客户端的一次会话过程。服务器端存储了Session对象&…

重生奇迹MU格斗家上手最轻松的职业

重生奇迹MU格斗家玩法攻略,有一个比较奇葩的职业,那就是格斗家。格斗家拥有其他职业没有的优势,就是加体力和敏捷都可以提升攻击力百分比。格斗家玩法攻略 目前格斗家最多的就是敏格玩法,配合智力MM加成后的幽冥光速拳可以说是第…

v-rep---script-function

作用,实现,参数讲解。 script-function标签 作用 问题:如何在插件的接口中调用lua脚本中定义的函数? 用于声明一个函数,这个函数的作用是通过v-rep提供的接口sim::callScriptFunctionEx()调用脚本的函数&#xff0…

专业的力量:在自己的领域成为专家

专业的力量:在自己的领域成为专家 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 现在稀缺的已不再是信息资源,而是运用信息的能力。过去的海…

深入了解Nodejs模块机制

深入了解Nodejs模块机制 我们都知道Nodejs遵循的是CommonJS规范,当我们require(moduleA)时,模块是怎么通过名字或者路径获取到模块的呢?首先要聊一下模块引用、模块定义、模块标识三个概念。 1 CommonJS规范 1.1 模块引用 模块上下文提供…

安装部署统信UOS服务器操作系统1070e

原文链接:安装部署统信UOS服务器操作系统1070e Hello,大家好啊!今天给大家带来一篇关于安装部署统信UOS服务器操作系统1070e的文章。统信UOS是一款基于Linux的国产操作系统,以其安全性和稳定性受到广泛关注。本文将详细介绍如何安…

58同城如何降低 80%的机器成本 | OceanBase案例

本文作者:58同城架构师刘春雷 一、背景介绍 58同城作为中国互联网生活服务领域的领军者,其平台规模居国内之首,涵盖了包括车辆交易、房产服务、人才招聘、本地生活服务以及金融等多元化的业务场景。 因其业务的广泛性和多样性,我…

Java开发大厂面试第26讲:生产环境如何排查问题和优化 JVM?

通过前面几个课时的学习,相信你对 JVM 的理论及实践等相关知识有了一个大体的印象。而本课时将重点讲解 JVM 的排查与优化,这样就会对 JVM 的知识点有一个完整的认识,从而可以更好地应用于实际工作或者面试了。 我们本课时的面试题是&#x…

本地连接github仓库

【1】新建github仓库 【2】本地克隆并提交 $ git clone https://github.com/TomJourney/soil.git Cloning into soil... warning: You appear to have cloned an empty repository.pacosonDESKTOP-E4IASRJ MINGW64 /d/github/TomJourney/soil (master) $ git add readme.txtpa…

HTML静态网页成品作业(HTML+CSS+JS)——心理健康教育介绍网页(4个页面)

🎉不定期分享源码,关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码 五、源码获取 一、作品介绍 🏷️本套采用HTMLCSS,使用Javacsript代码使用下拉菜单的实现以及首页图片的轮播&#xff0c…

windows7的ie11降级到ie8

重点是要在程序管理窗口中“查看已安装的更新”打开当前系统中已安装更新列表,找到两个IE11的更新(见下图“卸载文件“)并卸载掉,这样windows功能中的ie11才会变成ie8. 打开控制面板 进入面板,点击程序,进…

【设计模式】JAVA Design Patterns——Static Content Hosting(静态内容托管模式)

🔍目的 将静态内容部署到基于云的存储服务,该服务可以将它们直接交付给客户端。 这可以减少对昂贵计算实例的需求。 🔍解释 真实世界例子 全球性的营销网站(静态内容)需要快速的部署以开始吸引潜在的客户。为了将托管…

一个机器学习问题的重新定义

任何事物都有两面性。 一些机器学习问题也是如此。并非每个回归问题(你认为的)都需要回归。仔细考虑和审视问题的业务不仅可以帮助开发更好的模型,还可以找到有效的解决方案。 重构或重新定义(reframing)是一种改变机…

如何用ai打一场酣畅淋漓的数学建模比赛? 给考研加加分!

文章目录 数学建模比赛1. 数学建模是什么?2. 数学建模分工合作2.1 第一:组队和分工合作2.2 第二:充分的准备2.3 第三:比赛中写论文过程 3. 数学建模基本过程4. 2023全年数学建模竞赛时间轴5. 数学建模-资料大全6. 数学建模实战 数…

【feature selection】特征选择学习笔记

文章目录 1. 什么是特征选择2. 特征选择与特征提取的区别3. 特征选择的方法3.1 Filtering过滤法3.2 Wrapper包装法3.3 Embedding嵌入法 4. 特征选择示例4.1 方差选择法示例4.2 递归特征消除法示例 1. 什么是特征选择 特征选择是特征工程的内容, 其目标是寻找最优特征子集。剔除…

MTK下载AP

只升级选Firemare Upgrade ,点下载后,关机下插入USB