大语言模型通用能力排行榜(2024年11月8日更新)

数据来源SuperCLUE

榜单数据为通用能力排行榜

排名

模型名称

机构

总分

理科

文科

Hard

使用方式

发布日期

-

o1-preview

OpenAI

75.85

86.07

76.6

64.89

API

2024年11月8日

-

Claude 3.5 Sonnet(20241022)

Anthropic

70.88

82.48

76.56

53.6

POE

2024年11月8日

-

ChatGPT-4o-latest

OpenAI

70.85

84.65

77.1

50.8

API

2024年11月8日

🏅

GLM-4-Plus

智谱AI

69.64

81.41

76.44

51.08

API

2024年11月8日

🏅

SenseChat 5.5

商汤

69

81.17

76.67

49.16

API

2024年11月8日

🏅

AndesGPT-2.0

OPPO

68.91

81.46

76.61

48.64

API

2024年11月8日

🏅

Qwen2.5-72B-Instruct

阿里巴巴

68.9

83.12

76.96

46.64

API

2024年11月8日

-

Claude 3.5 Sonnet(20240620)

Anthropic

68.23

81.68

76.54

46.48

poe

2024年11月8日

-

Gemini-1.5-Pro-002

Google

68.19

80.42

76.32

47.82

API

2024年11月8日

-

Qwen-max-0919

阿里巴巴

68

83.03

76.5

44.48

API

2024年11月8日

-

GPT-4-Turbo-2024-04-09

OpenAI

67.48

80.78

74.85

46.82

API

2024年11月8日

🥈

Hunyuan-Turbo

腾讯

67.35

81.47

76.84

43.74

API

2024年11月8日

🥈

360gpt2-pro

360

67.19

82.95

74.94

43.68

API

2024年11月8日

🥈

Step-2-16k

阶跃星辰

67.02

80.52

76.65

43.91

API

2024年11月8日

🥈

DeepSeek-V2.5

深度求索

66.87

81.69

75.42

43.5

API

2024年11月8日

🥈

Doubao-pro-0828

字节跳动

66.43

79.98

75.1

44.22

API

2024年11月8日

🥉

Baichuan4

百川智能

66.28

81.81

75.94

41.1

API

2024年11月8日

🥉

山海大模型4.0

云知声

66.26

80.05

75.38

43.34

API

2024年11月8日

🥉

TeleChat2-Large

TeleAI

66.23

78.85

75.54

44.28

API

2024年11月8日

-

Llama-3.1-405B-Instruct

Meta

65.84

80.54

71.53

45.46

API

2024年11月8日

4

Ernie-4.0-turbo-8k-preview

百度

64.93

78.69

74.4

41.7

API

2024年11月8日

-

GPT-4o-mini

OpenAI

64.85

79.84

73.24

41.46

API

2024年11月8日

4

Moonshot(kimi)

月之暗面

63.93

74.37

75.08

42.34

网页

2024年11月8日

5

Sky-Chat-3.0

昆仑万维

62.64

74.32

75.46

38.12

API

2024年11月8日

5

TeleChat2-35B

TeleAI

62.46

74.07

74.05

39.26

模型

2024年11月8日

-

Llama-3.1-70B-Instruct

Meta

61.62

77.52

69.64

37.7

API

2024年11月8日

6

Qwen2.5-7B-Instruct

阿里巴巴

60.61

74.62

73.28

33.92

API

2024年11月8日

-

Llama-3.2-90B-Instruct

Meta

60.58

75.89

69

36.84

API

2024年11月8日

7

讯飞星火V4.0

科大讯飞

59.4

72.49

71.55

34.16

API

2024年11月8日

8

GLM-4-9B-Chat

智谱AI

56.83

69.22

71.94

29.32

模型

2024年11月8日

-

Gemma-2-9b-it

Google

55.48

67.78

69.62

29.02

模型

2024年11月8日

9

MiniCPM3-4B

面壁智能

53.16

63.04

69.87

26.56

模型

2024年11月8日

-

Llama-3.1-8B-Instruct

Meta

51.42

63.27

65.3

25.69

API

2024年11月8日

10

Yi-1.5-9B-Chat-16K

零一万物

51.37

59.2

67.86

27.06

模型

2024年11月8日

-

Llama-3.2-11B-Instruct

Meta

50.61

63.1

64.02

24.72

API

2024年11月8日

11

Yi-1.5-6B-Chat

零一万物

48.69

57.03

63.89

25.16

模型

2024年11月8日

12

Qwen2.5-1.5B-Instruct

阿里巴巴

43.92

46.14

64.54

21.1

API

2024年11月8日

-

Gemma-2-2b-it

Google

42.25

43.36

63.72

19.67

模型

2024年11月8日

-

Phi-3-Mini-4K-Instruct

微软

39.98

52.28

44.75

22.9

模型

2024年11月8日

-

Mistral-7B-Instruct-v0.3

Mistral AI

37.11

41.06

51.21

19.05

模型

2024年11月8日

13

Baichuan2-7B-Chat

百川智能

33.59

28.46

58.09

14.22

模型

2024年11月8日

13

Qwen2.5-0.5B-Instruct

阿里巴巴

32.85

30.53

54.13

13.9

API

2024年11月8日

13

RWKV-6-World-7B

RWKV

32.76

27.46

58.05

12.76

模型

2024年11月8日

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/61012.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Unity基础】对比OnCollisionEnter与OnTriggerEnter

在Unity中,OnCollisionEnter 和 OnTriggerEnter 是两种用于处理碰撞的回调函数,但它们的工作方式和使用场景有所不同: 1. OnCollisionEnter 触发条件:当一个带有 Collider 组件并且**未勾选“Is Trigger”**的物体,与…

利用OpenAI进行测试需求分析——从电商网站需求到测试用例的生成

在软件测试工程师的日常工作中,需求分析是测试工作中的关键步骤。需求文档决定了测试覆盖的范围和测试策略,而测试用例的编写往往依赖于需求的准确理解。传统手工分析需求耗时长,尤其在面对大量需求和复杂逻辑时容易遗漏细节。本文将以电商网…

vue之axios根据某个接口创建实例,并设置headers和超时时间,捕捉异常

import axiosNew from axios;//给axios起个别名//创建常量实例 const instanceNew axiosNew.create({//axios中请求配置有baseURL选项,表示请求URL的公共部分,url baseUrl requestUrlbaseURL: baseURL,//设置超时时间为20秒timeout: 20000,headers: {…

【数学二】线性代数-二次型

考试要求 1、了解二次型的概念, 会用矩阵形式表示二次型,了解合同变换与合同矩阵的概念. 2、了解二次型的秩的概念,了解二次型的标准形、规范形等概念,了解惯性定理,会用正交变换和配方法化二次型为标准形。 3、理解正定二次型、正定矩阵的概念,并掌握其判别法. 二次型…

Qt 5.6.3 手动配置 mingw 环境

- 安装 qt 5.6.3 mingw 版 - 打开 qt creator - 找到选项 工具 - 选项- 构建和运行 - 找到 “编译器” 选项卡 ,点击 "添加" “编译器路径” 设置为 qt 安装目录下, tool 文件夹内的 g.exe 设置完成后,点击 "apply" ,使选项生…

pytorch tensor在CPU和GPU之间转换,numpy之间的转换

# input input.cpu().numpy() input input.cpu().detach().numpy() # 有gradCPU tensor转GPU tensor: cpu_imgs.cuda()GPU tensor 转CPU tensor: gpu_imgs.cpu()numpy转为CPU tensor: torch.from_numpy( imgs )4.CPU tensor转为numpy数…

k8s上部署redis高可用集群

介绍: Redis Cluster通过分片(sharding)来实现数据的分布式存储,每个master节点都负责一部分数据槽(slot)。 当一个master节点出现故障时,Redis Cluster能够自动将故障节点的数据槽转移到其他健…

抖音热门素材去哪找?优质抖音视频素材网站推荐!

是不是和我一样,刷抖音刷到停不下来?越来越多的朋友希望在抖音上创作出爆款视频,但苦于没有好素材。今天就来推荐几个超级实用的抖音视频素材网站,让你的视频内容立刻变得高大上!这篇满是干货,直接上重点&a…

PHP 语法基础

PHP 语法基础 PHP(Hypertext Preprocessor)是一种广泛使用的开源服务器端脚本语言,特别适用于网页开发,并且可以嵌入HTML中使用。PHP的语法混合了C、Java、Perl以及PHP自创的语法,易于学习和使用。本文将详细介绍PHP的…

Dify 通过导入 DSL 文件创建 Workflow 过程及实现

本文使用 Dify v0.9.2 版本,主要介绍 Dify 通过导入 DSL(或 URL)文件创建(或导出)Workflow 的操作过程及源码分析实现过程。Dify通过导入DSL文件创建Workflow过程及实现:https://z0yrmerhgi8.feishu.cn/wik…

代码随想录第46期 单调栈

这道题主要是单调栈的简单应用 class Solution { public:vector<int> dailyTemperatures(vector<int>& T) {vector<int> result(T.size(),0);stack<int> st;st.push(0);for(int i1;i<T.size();i){if(T[i]<T[st.top()]){st.push(i);}else{wh…

自制C++游戏头文件:C++自己的游戏头文件!!!(后续会更新)

引言 在这个数字时代&#xff0c;计算机游戏已经成为人们生活中不可或缺的一部分。它们不仅为我们带来了无尽的乐趣&#xff0c;还激发了我们的创造力和解决问题的能力。今天&#xff0c;我们将深入探讨一个特别的头文件——CPPgame.h&#xff0c;它包含了多个结构体和函数&am…

【项目开发】理解SSL延迟:为何HTTPS比HTTP慢?

未经许可,不得转载。 文章目录 前言HTTP与HTTPS的耗时差异TCP握手HTTPS的额外步骤:SSL握手使用curl测量SSL延迟性能与安全的权衡前言 在互联网发展的早期阶段,Netscape公司设计了SSL(Secure Sockets Layer)协议,为网络通信提供加密和安全性。有人曾提出一个大胆的设想:…

3步实现贪吃蛇

方法很简单&#xff0c;打开页面&#xff0c;复制&#xff0c;粘贴 一.整体思维架构 我们根据游戏的开始&#xff0c;运行&#xff0c;结束&#xff0c;将整个游戏划分成三个部分。在每个部分下面又划分出多个功能&#xff0c;接下来我们就根据模块一一实现功能。 二.Gamesta…

【linux012】文件操作命令篇 - more 命令

文章目录 more 命令1、基本用法2、常见选项3、交互式键盘命令4、举例5、注意事项 more 命令 more 是 Linux 中的一个分页查看命令&#xff0c;用于逐屏显示文件内容。它特别适合用于查看较长的文件&#xff0c;与 cat 不同&#xff0c;more 不会一次性输出所有内容&#xff0c…

机器学习笔记2 - 机器学习的一般流程

image.png 1、数据基本处理 数据集的划分 根据用途可将获取到的数据划分为训练集和测试集&#xff0c;有时还会有验证集。一般而言训练集用于训练模型&#xff0c;测试集用于测试模型的效果&#xff08;泛化误差&#xff09;。严格来讲&#xff0c;测试集的数据不能直接或间接&…

《C陷阱与缺陷》

文章目录 1、【词法陷阱】1.1 符号与组成符号间的关系1.1 与 1.3 y x/*p 与 y x/(*p)&#xff0c;a-1 与 a - 1 与 a -1, 老版本编译器的处理是不同的&#xff0c;严格的ANSI C则会报错1.4 十进制的 076&#xff0c;会被处理为八进制&#xff0c;ANSI C禁止这种用法&#x…

小白快速上手 labelme:新手图像标注详解教程

前言 本教程主要面向初次使用 labelme 的新手&#xff0c;详细介绍了如何在 Windows 上通过 Anaconda 创建和配置环境&#xff0c;并使用 labelme 进行图像标注。 1. 准备工作 在开始本教程之前&#xff0c;确保已经安装了 Anaconda。可以参考我之前的教程了解 Anaconda 的下…

Redisson 中开启看门狗(watchdog)机制

在分布式系统中&#xff0c;分布式锁是一种常用的技术手段&#xff0c;用于确保在多个节点同时访问共享资源时的一致性和正确性。Redisson 是一个强大的 Java 分布式框架&#xff0c;它提供了丰富的分布式数据结构和服务&#xff0c;其中开启看门狗&#xff08;watchdog&#x…

@ComponentScan:Spring Boot中的自动装配大师

文章目录 1. 什么是ComponentScan注解&#xff1f;2. 为什么需要ComponentScan注解&#xff1f;3. 如何使用ComponentScan注解&#xff1f;4. ComponentScan注解的高级用法5. 注意事项6. 结语推荐阅读文章 在Spring Boot的世界里&#xff0c;自动装配&#xff08;Auto-wiring&a…