AI大模型横评-9月Update(O1,Grok2,Qwen,Step-2)

#0 本期看点
1)各大模型纷纷推出大规模,排行榜剧烈变动
2)OpenAI新模型O1似乎要杀死比赛
3)阿里,腾讯翻身一跃


#1 前情提要
本评测是个人性质,结合自己需求和对大模型的理解,使用私有题库进行长期跟踪评测。不够权威,不够全面。但可以从一个侧面观察各个大模型的长期进化趋势。
任何评测都无法给出无死角的权威排行榜,笔者写这个系列也是分享一种评测思路,以及个人见解。每个人应该根据自己所需,对大模型进行考察。


对于V3题库 的说明,此处不赘述,新读者请参见:zhuanlan.zhihu.com/p/69
但请允许笔者再次表述一次V3题库的局限,新题库聚焦最能反映硬逻辑能力的题型,尽可能逼近模型能力极限,因此不再能反映用户实际体验。可以把V3题库看作高考用来拉开区分度的大题(极限能力),但能做对大题也不代表前面简单题就全对(用户体验)。读者需要意识到,你所体验到的大模型能力,是综合了各种工程优化之后的结果,不单是逻辑能力。


#2 参赛选手
本次新增模型:
O1 Preview
O1 mini preview
Grok2 0813
Qwen-max-0919
Qwen2.5-72b
阶跃星辰 Step-2
阶跃星辰 Step-1.5V
DeepSeek V2.5
腾讯hunyuan turbo
字节豆包 240828


#3 题目和打分
本次删除2道题目,新增2题,原始分数总分为260分。
此处列出所有题目大纲和核心考点
1、长文本理解和角色扮演:长文本理解,指令遵守
2、程序改错:代码理解
3、基于多重规则判断单据合法性:规则理解,复杂约束,日期计算
4、旅游路径规划:长文本理解,工具调用能力
5、【Medium】公元纪年推算天干纪年 :计算能力,规则理解
6、【Medium】阅读代码输出结果:代码理解,代码推导
7、【Medium】计算有时间重叠下最少会议室数量:计算能力
8、【Medium】从代码中推测json结构:代码理解,短期记忆,数据结构理解
9、【Medium】提供上下文的代码补全:代码理解,指令遵守
10、【Medium】密文解码:模拟计算
11、【Medium】棋盘上的图形:图形想象,二维记忆能力
12、【Medium】不提供规则,阅读某中文编程代码,并推导输出:符号理解,迁移学习能力
13、【Medium】扑克牌按规则洗牌求顺序:规则遵循,一维记忆
14、【Medium】正则匹配 :推理推演正则匹配结果
15、【Medium】4x4 数独题:多步推理,短期记忆,规则遵循
16、【Medium】岛屿面积计算:DFS非编程推算
17、【Medium】信息提取:指令遵守,文本迷惑性,输出格式要求
18、【Medium】第2题进阶版,增加输出要求,增加题目细节
19、【Medium】第7题变体,增加会议室数量,会议人数条件约束
20、【Medium】故事推理,故事包含复杂物品交换规则,求最终物品和主人对应关系【New】
21、【Hard】按规则拧魔方后求魔方颜色:三维记忆能力
22、【Hard】符号重定义后求表达式:规则理解,逻辑陷阱
23、【Hard】压缩算法 模拟:规则理解,文本计算
24、【Hard】按提示猜单词:利用规则推导,排除干扰
25、【Hard】给定热量的沙拉搭配:数学计算,数学规则
26、【Hard】二维字符迷宫,求入口到出口路径【New】


其中【Hard】是指目前正确率偏低的题目。【Medium】指回答正确率接近半数的题目。
打分规则
1、每道题有至少1个得分点,回答每正确一点即得1分。最终得分是得分除以得分点总数,再乘以10。(即每道题满分10分)
2、要求推导过程必须正确,猜对的答案不得分。
3、要求回答必须完全符合题目要求,如果明确要求不写解释,而回答包含了解释部分,即使正确,也记0分。

link

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/880454.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

信息技术网络安全政策制定

为什么要制定网络安全政策? 通常,公司并不认为需要制定网络安全政策。现有的政策是为了保护公司的资产,而数据也是一项资产。 网络安全政策的真正必要性很简单:网络安全并不像锁门或不偷公司笔那么简单。在许多情况下&#xff0…

前海石公园的停车点探寻

前海石公园是真的很美,很多看海人,很多钓鱼佬,很多抓螃蟹的人,很多挖沙子的人,很多拍照的人,尤其是没有大太阳的时间段或每天傍晚或每个放假的时候人气超高,故前海石公园停车真的很紧张。由于前…

Unreal Engine 5 C++: 编辑器工具编写入门01(中文解释)

目录 准备工作 1.创建插件 2.修改插件设置 快速资产操作(quick asset action) 自定义编辑器功能 0.创建编辑器button,测试debug message功能 大致流程 详细步骤 1.ctrlF5 launch editor 2.创建新的cpp class,derived from AssetAction…

物联网助力智慧交通:优势与前景

智慧交通是当今城市发展的必然趋势,而物联网技术在交通运输领域的应用正是为实现智慧交通建设提供了前所未有的机遇和优势。物联网作为连接和控制物理世界的重要技术手段,在交通领域的应用极大地改善了交通系统的效率、安全性和环保性。 首先&#xff0c…

上海建站提升在线曝光率的关键

在当今数字化时代,企业在线曝光率的高低直接影响到其市场份额和品牌认知度。尤其是在上海这样的大都市,竞争尤为激烈。以下是提升在线曝光率的一些关键策略。 一、优化网站建设 首先,网站是企业在线形象的“门面”。一个设计美观、用户友好的…

STM32嵌入式编程学习到提高:【4】UART串口打印

------------------------------------------------------------------------------------------------------------------------- 工程文件:放在百度云盘里,需要的自行下载!!! 链接: https://pan.baidu.com/s/14gRne…

专业网站建设必备

专业网站建设不仅仅是简单的页面搭建,更是一项综合性的工程,需要结合行业特性、用户体验和技术创新,打造一个符合企业需求、独具特色的线上空间。 第一印象至关重要 一个企业网站就如同公司的数字名片,第一印象往往决定了用户是否…

【LeetCode】每日一题 2024_9_26 数组元素和与数字和的绝对差(模拟)

前言 每天和你一起刷 LeetCode 每日一题~ LeetCode 启动! 题目:数组元素和与数字和的绝对差 代码与解题思路 func differenceOfSum(nums []int) int {sum1, sum2 : 0, 0for _, v : range nums {sum1 vfor v > 0 {sum2 v%10v / 10}}return sum1-s…

零基础学Servlet

零基础学Servlet 一。介绍: servlet是一种比较古老的编写网站的方式,在2010年之前比较流行,在此之后,有一堆大佬创造了Spring(一种框架),Spring是针对Servlet进行进一步封装,从而让…

CANopen开源库canfestival的移植

本文记录将CANopen开源库CANfestival移植到GD32F470单片机的过程。CANopen协议理解请参考博客:CANopen协议的理解-CSDN博客 CANfestival开源库下载链接 CSDN链接: https://download.csdn.net/download/heqiunong/89774627 官网链接:https:/…

黑芝麻A1000-Ubuntu20.04(九)yolov5从训练到板端运行过程详解

宿主机:台式电脑 Ubuntu20.04 开发板:A1000(烧录版本SDK v2.3.1.2) 模型转换容器:bsnn-tools-container-stk-4.2.0 编译容器:a1000b-sdk-fad-2.3.1.2 yolov5使用工程:黑芝麻根据https://github.…

高性能分布式搜索引擎Elasticsearch详解

♥️作者:小宋1021 🤵‍♂️个人主页:小宋1021主页 ♥️坚持分析平时学习到的项目以及学习到的软件开发知识,和大家一起努力呀!!! 🎈🎈加油! 加油&#xff01…

[vulnhub] Jarbas-Jenkins

靶机链接 https://www.vulnhub.com/entry/jarbas-1,232/ 主机发现端口扫描 扫描网段存活主机,因为主机是我最后添加的,所以靶机地址是135的 nmap -sP 192.168.75.0/24 // Starting Nmap 7.93 ( https://nmap.org ) at 2024-09-21 14:03 CST Nmap scan…

【Linux】Linux基本命令

目录 文件和目录操作: ls cd pwd cp mv rm mkdir rmdir touch clear history which/whereis 文件查看和编辑: cat less head tail vi 或 vim sz/rz echo 系统信息和管理: su uname hostname df free top ps ki…

2025台球展,2025河南台球及配套设施展览会3月举办

阳春三月,年度招商季,壹肆柒中国国际台球产业博览会助力全国台球企业拓市场; 2025中国(郑州)国际台球产业博览会(壹肆柒台球展) The 2025 China (Zhengzhou) International Billiards Industry…

C++:采用模板封装顺序表,栈,队列

1.顺序表&#xff1a; list.hpp #ifndef LIST_HPP #define LIST_HPP #include <iostream>using namespace std;template <class L>class Seqlist { private:L *ptr;L size;L len0;public:void init(L n){//堆区申请空间&#xff08;大小为n&#xff09;this->…

博主回归!数据结构篇启动

目录 1>>闲话 2>>数据结构前言 3>>复杂度的概念 4>>时间复杂度 5>>大O渐进表示法 6>>总结 1>>闲话 家人们好久不见&#xff0c;小编军训终于是结束了&#xff0c;大一事情太多了&#xff0c;这几天没时间健身&#xff0c;没时间…

2024.9.26 作业 +思维导图

一、作业 1、什么是虚函数&#xff1f;什么是纯虚函数 虚函数&#xff1a;函数前加关键字virtual&#xff0c;就定义为虚函数&#xff0c;虚函数能够被子类中相同函数名的函数重写 纯虚函数&#xff1a;把虚函数的函数体去掉然后加0&#xff1b;就能定义出一个纯虚函数。 2、基…

el-table+el-form实现表单校验和解决不垂直居中导致的问题

el-tableel-form实现表单校验 1.实现el-table的表单校验 关键点123 2.解决不垂直居中导致的问题 问题效果图 解决方案 .item-align-center {display: inline-flex; }

数据定义语言CREATE的应用

新书速览|SQL Server 2022从入门到精通&#xff1a;视频教学超值版_sql server 2022 出版社-CSDN博客 《SQL Server 2022从入门到精通&#xff08;视频教学超值版&#xff09;&#xff08;数据库技术丛书&#xff09;》(王英英)【摘要 书评 试读】- 京东图书 (jd.com) SQL Se…