AI大模型横评-9月Update(O1,Grok2,Qwen,Step-2)

#0 本期看点
1)各大模型纷纷推出大规模,排行榜剧烈变动
2)OpenAI新模型O1似乎要杀死比赛
3)阿里,腾讯翻身一跃


#1 前情提要
本评测是个人性质,结合自己需求和对大模型的理解,使用私有题库进行长期跟踪评测。不够权威,不够全面。但可以从一个侧面观察各个大模型的长期进化趋势。
任何评测都无法给出无死角的权威排行榜,笔者写这个系列也是分享一种评测思路,以及个人见解。每个人应该根据自己所需,对大模型进行考察。


对于V3题库 的说明,此处不赘述,新读者请参见:zhuanlan.zhihu.com/p/69
但请允许笔者再次表述一次V3题库的局限,新题库聚焦最能反映硬逻辑能力的题型,尽可能逼近模型能力极限,因此不再能反映用户实际体验。可以把V3题库看作高考用来拉开区分度的大题(极限能力),但能做对大题也不代表前面简单题就全对(用户体验)。读者需要意识到,你所体验到的大模型能力,是综合了各种工程优化之后的结果,不单是逻辑能力。


#2 参赛选手
本次新增模型:
O1 Preview
O1 mini preview
Grok2 0813
Qwen-max-0919
Qwen2.5-72b
阶跃星辰 Step-2
阶跃星辰 Step-1.5V
DeepSeek V2.5
腾讯hunyuan turbo
字节豆包 240828


#3 题目和打分
本次删除2道题目,新增2题,原始分数总分为260分。
此处列出所有题目大纲和核心考点
1、长文本理解和角色扮演:长文本理解,指令遵守
2、程序改错:代码理解
3、基于多重规则判断单据合法性:规则理解,复杂约束,日期计算
4、旅游路径规划:长文本理解,工具调用能力
5、【Medium】公元纪年推算天干纪年 :计算能力,规则理解
6、【Medium】阅读代码输出结果:代码理解,代码推导
7、【Medium】计算有时间重叠下最少会议室数量:计算能力
8、【Medium】从代码中推测json结构:代码理解,短期记忆,数据结构理解
9、【Medium】提供上下文的代码补全:代码理解,指令遵守
10、【Medium】密文解码:模拟计算
11、【Medium】棋盘上的图形:图形想象,二维记忆能力
12、【Medium】不提供规则,阅读某中文编程代码,并推导输出:符号理解,迁移学习能力
13、【Medium】扑克牌按规则洗牌求顺序:规则遵循,一维记忆
14、【Medium】正则匹配 :推理推演正则匹配结果
15、【Medium】4x4 数独题:多步推理,短期记忆,规则遵循
16、【Medium】岛屿面积计算:DFS非编程推算
17、【Medium】信息提取:指令遵守,文本迷惑性,输出格式要求
18、【Medium】第2题进阶版,增加输出要求,增加题目细节
19、【Medium】第7题变体,增加会议室数量,会议人数条件约束
20、【Medium】故事推理,故事包含复杂物品交换规则,求最终物品和主人对应关系【New】
21、【Hard】按规则拧魔方后求魔方颜色:三维记忆能力
22、【Hard】符号重定义后求表达式:规则理解,逻辑陷阱
23、【Hard】压缩算法 模拟:规则理解,文本计算
24、【Hard】按提示猜单词:利用规则推导,排除干扰
25、【Hard】给定热量的沙拉搭配:数学计算,数学规则
26、【Hard】二维字符迷宫,求入口到出口路径【New】


其中【Hard】是指目前正确率偏低的题目。【Medium】指回答正确率接近半数的题目。
打分规则
1、每道题有至少1个得分点,回答每正确一点即得1分。最终得分是得分除以得分点总数,再乘以10。(即每道题满分10分)
2、要求推导过程必须正确,猜对的答案不得分。
3、要求回答必须完全符合题目要求,如果明确要求不写解释,而回答包含了解释部分,即使正确,也记0分。

link

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/880454.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CTFshow-SSRF

web351&#xff1a; <?php // 开启PHP文件 error_reporting(0); // 这行代码将PHP的错误报告级别设置为0&#xff0c;意味着关闭所有错误和警告的显示。这通常用于生产环境&#xff0c;以避免暴露敏感信息或错误信息给用户。然而&#xff0c;在开发过程中&#xff0c…

信息技术网络安全政策制定

为什么要制定网络安全政策&#xff1f; 通常&#xff0c;公司并不认为需要制定网络安全政策。现有的政策是为了保护公司的资产&#xff0c;而数据也是一项资产。 网络安全政策的真正必要性很简单&#xff1a;网络安全并不像锁门或不偷公司笔那么简单。在许多情况下&#xff0…

git 如何基于某个分支rebase?

文章目录 0. 概要1. 切换到你想要 rebase 的分支2. 执行 rebase 命令3. 解决冲突&#xff08;如果有&#xff09;4. 强制推送分支&#xff08;如果已经推送过该分支&#xff09; 0. 概要 之前介绍过如下git文章 git merge的三种操作merge, squash merge, 和rebase merge 如何使…

锤炼核心技能以应对编程革命

一、引言  随着人工智能的快速发展&#xff0c;尤其是AIGC等大语言模型的涌现&#xff0c;AI辅助编程工具逐渐成为程序员的新伙伴。这一变革不仅引发了关于AI是否能取代部分编程工作的讨论&#xff0c;也促使程序员重新思考自己的职业发展和技能提升路径。在AI时代&#xff0…

linux网络编程9

24.9.26学习目录 一.Web编程1.Javascript3.CGI 一.Web编程 1.Javascript 是一种基于对象并具有安全性能的脚本语言&#xff0c;是由浏览器内解释器翻译成可执行格式后执行&#xff1b; 即是网页与用户完成各种交互动作&#xff1b; 特点&#xff1a;基于对象的语言、简单性、…

前海石公园的停车点探寻

前海石公园是真的很美&#xff0c;很多看海人&#xff0c;很多钓鱼佬&#xff0c;很多抓螃蟹的人&#xff0c;很多挖沙子的人&#xff0c;很多拍照的人&#xff0c;尤其是没有大太阳的时间段或每天傍晚或每个放假的时候人气超高&#xff0c;故前海石公园停车真的很紧张。由于前…

Unreal Engine 5 C++: 编辑器工具编写入门01(中文解释)

目录 准备工作 1.创建插件 2.修改插件设置 快速资产操作&#xff08;quick asset action) 自定义编辑器功能 0.创建编辑器button&#xff0c;测试debug message功能 大致流程 详细步骤 1.ctrlF5 launch editor 2.创建新的cpp class&#xff0c;derived from AssetAction…

2024.9.27

P2567 [SCOI2010] 幸运数字 P1641 [SCOI2010] 生成字符串 A Perfect Problem 学习了几道计数题 有一些性质比较常用&#xff0c;在很多题中都见到过&#xff0c;在计数题时可以考虑&#xff0c;比如格路计数 搜索的时候复杂度不准确&#xff0c;数据就不会太难&#xff0c;…

低代码革命:加速云原生时代的端到端产品创新

随着云计算技术的飞速发展&#xff0c;云原生成为了企业数字化转型的重要方向。云原生技术通过容器化、微服务、持续集成/持续部署&#xff08;CI/CD&#xff09;等实践&#xff0c;帮助企业构建和运行可扩展的应用程序。然而&#xff0c;云原生技术的复杂性也给开发团队带来了…

物联网助力智慧交通:优势与前景

智慧交通是当今城市发展的必然趋势&#xff0c;而物联网技术在交通运输领域的应用正是为实现智慧交通建设提供了前所未有的机遇和优势。物联网作为连接和控制物理世界的重要技术手段&#xff0c;在交通领域的应用极大地改善了交通系统的效率、安全性和环保性。 首先&#xff0c…

上海建站提升在线曝光率的关键

在当今数字化时代&#xff0c;企业在线曝光率的高低直接影响到其市场份额和品牌认知度。尤其是在上海这样的大都市&#xff0c;竞争尤为激烈。以下是提升在线曝光率的一些关键策略。 一、优化网站建设 首先&#xff0c;网站是企业在线形象的“门面”。一个设计美观、用户友好的…

STM32嵌入式编程学习到提高:【4】UART串口打印

------------------------------------------------------------------------------------------------------------------------- 工程文件&#xff1a;放在百度云盘里&#xff0c;需要的自行下载&#xff01;&#xff01;&#xff01; 链接: https://pan.baidu.com/s/14gRne…

专业网站建设必备

专业网站建设不仅仅是简单的页面搭建&#xff0c;更是一项综合性的工程&#xff0c;需要结合行业特性、用户体验和技术创新&#xff0c;打造一个符合企业需求、独具特色的线上空间。 第一印象至关重要 一个企业网站就如同公司的数字名片&#xff0c;第一印象往往决定了用户是否…

【LeetCode】每日一题 2024_9_26 数组元素和与数字和的绝对差(模拟)

前言 每天和你一起刷 LeetCode 每日一题~ LeetCode 启动&#xff01; 题目&#xff1a;数组元素和与数字和的绝对差 代码与解题思路 func differenceOfSum(nums []int) int {sum1, sum2 : 0, 0for _, v : range nums {sum1 vfor v > 0 {sum2 v%10v / 10}}return sum1-s…

零基础学Servlet

零基础学Servlet 一。介绍&#xff1a; servlet是一种比较古老的编写网站的方式&#xff0c;在2010年之前比较流行&#xff0c;在此之后&#xff0c;有一堆大佬创造了Spring&#xff08;一种框架&#xff09;&#xff0c;Spring是针对Servlet进行进一步封装&#xff0c;从而让…

CANopen开源库canfestival的移植

本文记录将CANopen开源库CANfestival移植到GD32F470单片机的过程。CANopen协议理解请参考博客&#xff1a;CANopen协议的理解-CSDN博客 CANfestival开源库下载链接 CSDN链接&#xff1a; https://download.csdn.net/download/heqiunong/89774627 官网链接&#xff1a;https:/…

字符串处理的艺术:深入探索charAt(), indexOf(), nextLine(), 和 next() 的应用与组合

摘要 本文旨在深入探讨Java中字符串处理的核心方法——charAt(), indexOf(), nextLine(), 和 next()&#xff0c;通过实例展示这些方法如何协同工作以解决复杂的字符串处理任务。我们将从基础概念出发&#xff0c;逐步构建到高级应用&#xff0c;包括字符串的遍历、搜索、读取…

ftdi_sio驱动学习笔记 5 - 读写操作

目录 1. ftdi_prepare_write_buffer 2. ftdi_process_read_urb 读写相关操作对应的函数&#xff1a; .process_read_urb ftdi_process_read_urb, .prepare_write_buffer ftdi_prepare_write_buffer, 实际读写并不是ftdi_sio操作的&#xff0c;是通过内核标准的usb serial…

黑芝麻A1000-Ubuntu20.04(九)yolov5从训练到板端运行过程详解

宿主机&#xff1a;台式电脑 Ubuntu20.04 开发板&#xff1a;A1000&#xff08;烧录版本SDK v2.3.1.2&#xff09; 模型转换容器&#xff1a;bsnn-tools-container-stk-4.2.0 编译容器&#xff1a;a1000b-sdk-fad-2.3.1.2 yolov5使用工程&#xff1a;黑芝麻根据https://github.…

高性能分布式搜索引擎Elasticsearch详解

♥️作者&#xff1a;小宋1021 &#x1f935;‍♂️个人主页&#xff1a;小宋1021主页 ♥️坚持分析平时学习到的项目以及学习到的软件开发知识&#xff0c;和大家一起努力呀&#xff01;&#xff01;&#xff01; &#x1f388;&#x1f388;加油&#xff01; 加油&#xff01…