大模型的高考数学成绩单:及格已经非常好了

让考生头皮发麻的高考数学,可难倒了顶尖 AI 大模型。

一年一度的高考即将落幕,衷心希望各位考生都超常发挥,考出满意的好成绩!!

和往年一样,除了让 AI 大模型写写高考作文,我们也选取了六家国内头部大模型公司的产品与考生们一同参与一场客观且公平(让众多考生头皮发麻)的高考数学考试(新课标 Ⅰ 卷),其中包括 GPT-4o、GLM-4、文心一言 4.0、豆包、百小应(百川 4)以及通义千问 2.5。

先来瞧一瞧这份「大模型成绩单」:

图片

令人惊讶的是,在这次模拟考试中,大模型(产品)的表现并未达到预期,甚至出现了几乎全部不及格的情况,只有智谱最新发布的 GLM-4-0520 模型超过了及格线。

对大模型产品来说,高考语文作文可以直接测试它们的创造性写作技巧,包括构思、组织和表达观点的能力。

而在数学考试测试中,除了基本的计算能力、对数学知识的掌握,更能体现大模型在逻辑推理、抽象思维和问题解决方面的高级能力。大模型必须理解并运用数学概念、公式和定理,这要求它具备深厚的数学知识基础。同时,逻辑推理能力是解答数学题目的关键,大模型需要通过严密的逻辑推导来解决问题。

具体测试环节:

我们将评测的重点放在了高考数学的前 14 个客观题上,这些题目覆盖了基础的数学知识和计算能力,满分为 73 分。在测试时,我们将题目直接输入产品,不做 System Prompt 引导,直接输出结果;同时也没有触发搜索,没有来自外界的干扰。

分数计算方法依照高考真实判分原则:

  • 单选题 8 道,每道 5 分,选项正确计分,错误不得分;
  • 多选题 3 道,每道 6 分,全对计 6 分,漏选按正确答案数量计分,如答案为 ABCD,漏选其一扣 1.5 分,错选不得分;
  • 填空题,3 道,每道 5 分,填空正确计分,错误不得分。

图片

图|8 个模型对 14 道数学题的回答结果,绿色为正确、红色为错误、黄色为部分正确

具体而言,在满分 73 分、及格线为 43.8 分(60%)的情况下,六家大模型产品的分数结果分别为:GLM-4-0520 (63 分) > 智谱清言 (43 分) > GPT-4o (41 分) > 豆包 (40 分) > 文心 4 (30 分) = 百川 4 (30 分) > 通义千问 2.5 (29 分)

多说一句,每年的第 8 道单选题往往是高考数学卷中最难的一道题,被测试的大模型都 “全军覆灭” 了

完整测试结果如下:

单选题一

(6个模型回答正确,1个回答错误)

GPT-4o:正确

图片

通义千问 2.5:正确

图片

GLM-4-0520:正确

图片

智谱清言:正确

图片

豆包:正确

图片

文心 4:错误

图片

百川 4:正确

在这里插入图片描述

单选题二

(3个模型回答正确,4个回答错误)

GPT-4o:错误

图片

通义千问 2.5:正确

图片

GLM-4-0520:正确

图片

智谱清言:正确

图片

豆包:错误

图片

文心 4:错误

图片

百川 4:错误

图片

单选题三

(全部回答正确)

GPT-4o:正确

图片

通义千问 2.5:正确

图片

GLM-4-0520:正确

图片

智谱清言:正确

在这里插入图片描述

豆包:正确

图片

文心 4:正确

图片

百川 4:正确

图片

单选题四

(全部回答正确)

GPT-4o:正确

图片

通义千问 2.5:正确

图片

GLM-4-0520:正确

图片

智谱清言:正确

图片

豆包:正确

在这里插入图片描述

文心 4:正确

图片

百川 4:正确

图片

单选题五

(6个模型回答正确,一个无响应)

GPT-4o:正确

图片

通义千问 2.5:无响应,最终提示系统超时

图片

GLM-4-0520:正确

图片

智谱清言:正确

图片

豆包:正确

图片

文心 4:正确

图片

百川 4:正确

图片

单选题六

(6个模型回答正确,一个回答错误)

GPT-4o:错误

图片

通义千问:正确

图片

GLM-4-0520:正确

图片

智谱清言:正确

图片

豆包:正确

图片

文心 4:正确

图片

百川 4:正确

图片

单选题七

(6个模型回答正确,一个回答错误)

GPT-4o:正确

图片

通义千问 2.5:错误

图片

GLM-4-0520:正确

图片

智谱清言:正确

图片

豆包:正确

在这里插入图片描述

文心 4:正确

在这里插入图片描述

百川 4:正确

图片

单选题八

(7个模型无一得出正确答案)

GPT-4o:错误

图片

通义千问2.5:错误

图片

GLM-4-0520:错误

图片

智谱清言:错误

图片

豆包:错误

在这里插入图片描述

文心 4:错误

图片

百川 4:错误

图片

多选题一

(3个回答正确,2个部分正确,2个错误)

GPT-4o:正确

图片

通义千问 2.5:错误

图片

GLM-4-0520:正确

图片

智谱清言:部分正确

图片

豆包:正确

图片

文心 4:部分正确

在这里插入图片描述

百川 4:错误

在这里插入图片描述

多选题二

(*2个模型回答部分正确,5个回答错误*

GPT-4o:错误

图片

通义千问 2.5:错误

图片

GLM-4-0520:部分正确

在这里插入图片描述

智谱清言:部分正确

图片

豆包:错误

在这里插入图片描述

文心 4:错误

图片

百川 4:错误

图片

多选题三

5个模型回答部分正确,2个回答错误

GPT-4o:错误

在这里插入图片描述

通义千问 2.5:部分正确

在这里插入图片描述

GLM-4-0520:部分正确

图片

智谱清言:部分正确

图片

豆包:部分正确

图片

文心 4:部分正确

图片

百川 4:错误

图片

填空题一

(*2个模型回答正确,5个回答错误*

GPT-4o:正确

图片

通义千问 2.5:错误

图片

GLM-4-0520:正确

图片

智谱清言:错误

在这里插入图片描述

豆包:错误

图片

文心 4:错误

图片

百川 4:错误

在这里插入图片描述

填空题二

1个模型回答正确,6个回答错误

GPT-4o:错误

在这里插入图片描述

通义千问 2.5:错误

图片

GLM-4-0520:正确

图片

智谱清言:错误

图片

豆包:错误

图片

文心 4:错误

在这里插入图片描述

百川 4:错误

图片

填空题三

(*2个模型回答正确,5个回答错误*

GPT-4o:正确

图片

通义千问 2.5:错误

图片

GLM-4-0520:正确

图片

智谱清言:错误

图片

豆包:错误

图片

文心 4:错误

图片

百川 4:错误

图片

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/26205.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

打工人和学生党的福利,NewspaceGpt使用新体验

使用地址:https://newspace.ai0.cn/ 个人名片 🎓作者简介:java领域优质创作者 🌐个人主页:码农阿豪 📞工作室:新空间代码工作室(提供各种软件服务) 💌个人邮…

小型气象站:现代气象监测的便携化解决方案

TH-QC12在气象监测领域,技术的不断创新和进步推动了监测设备的多样化和便携化。小型气象站作为这一趋势下的产物,以其体积小、功能全、操作简便等特点,受到了广泛的关注和应用。 小型气象站的技术特点 小型气象站集成了多种气象传感器&…

提升易用性,OceanBase生态管控产品的“从小到大”

2022年,OceanBase发布4.0版本“小鱼”,并首次公开提出了单机分布式一体化这一理念,旨在适应大小不同规模的工作负载,全面满足用户数据库“从小到大”全生命周期的需求。当时,我们所说的“从小到大”主要聚焦于数据库的…

【Qt 学习笔记】Qt窗口 | 对话框 | 模态与非模态对话框的创建

博客主页:Duck Bro 博客主页系列专栏:Qt 专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ Qt窗口 | 对话框 | 创建模态及非模态对话框 文章编号:Qt 学…

准橙人工翻译微信小程序,100+专业领域的译者在线帮你翻译!藏语、维吾尔语、哈萨克语、壮语、彝文、蒙古语统统支持人工翻译!

亲爱的朋友们,我们深知每一种语言都承载着独特的文化和历史,为了传承和弘扬这些宝贵的文化遗产,我们诚挚地邀请具备翻译经验并熟练掌握以下任意一门语言的您加入我们的团队! 中国少数民族语言:藏语、维吾尔语、哈萨克…

懵了!伦敦银是现货白银吗?

近期,伦敦银价格出现了比较强势的上涨,很多朋友想入场炒银。不过当他们接触伦敦银交易市场的时候就懵了,这个交易品种好像有很多名称,一会儿说伦敦银,一会儿说现货白银,搞得自己都混乱了。到底伦敦银是现货…

日志写入异常,数据库“Rms”的事务日志已满,原因为“LOG_BACKUP”(三)

当遇到“数据库‘dhtrms’的事务日志已满,原因为‘LOG_BACKUP’”错误时,这意味着事务日志已达到最大大小,并且需要备份才能释放空间。这通常发生在使用完整恢复模式的数据库中,因为日志不会自动截断。以下是解决此问题的步骤&…

CVE-2023-37569(未授权任意文件上传+弱口令爆破)

靶场简介 Online Piggery Management System v1.0 - 存在未授权的文件上传漏洞,登陆界面弱口令爆破 进入靶场 猜测弱口令admin/admin,错误,进行账号密码爆破 得到账号密码 admin/password 登陆进入,找到一处文件上传位置 上传…

【学习总结】SpringBoot中使用单例模式+ScheduledExecutorService实现异步多线程任务(若依源码学习)

最近在学习若依这个开源项目,发现他记录登录日志的时候使用了异步线程去记录日志,觉得这个方案也挺不错的,在此学习记录下来,以后在工作中也能提供一种思路,其他小伙伴如果有觉得不错的方案也可以在评论区里留言&#…

WordPress 开发知识

以下是一篇详细的 WordPress 入门到精通指南,旨在帮助新手从零开始,逐步理解和掌握 WordPress 的使用和开发。 目录 简介初步设置 购买域名和托管安装 WordPress基本操作 登录和仪表盘简介创建和管理内容主题和外观 选择和安装主题自定义主题插件 安装…

千问Qwen7B chat:本地部署及网页端使用

基于前面的安装经验,千问大模型的本地部署并不算难,主要时间用在大模型文件的下载上。同时系统运行对硬件也有较高的要求,本机的硬件配置为N卡3060,显存12G。 使用conda创建虚拟环境,主要版本如下: Pyth…

Web前端简历模板:深度解析与实用指南

Web前端简历模板:深度解析与实用指南 在竞争激烈的求职市场中,一份精心设计的Web前端简历模板,无疑能够让你在众多求职者中脱颖而出。本文将从四个方面、五个方面、六个方面和七个方面,为你深入解析如何构建一份优秀的Web前端简历…

mysql数据聚合实例

假设我们有如下的 sales 表数据: idproductsales_amountsales_date1Product A10002023-01-012Product A12002023-01-153Product A8002023-02-014Product B15002023-01-055Product B18002023-02-106Product B20002023-03-017Product C9002023-01-208Product C11002023-02-159Pr…

生成式人工智能 - stable diffusion web-ui安装教程

一、Stable Diffusion WEB UI 屌丝劲发作了,所以本地调试了Stable Diffusion之后,就去看了一下Stable Diffusion WEB UI,网络上各种打包套件什么的好像很火。国内的也就这个层次了,老外搞创新,国内跟着屁股后面搞搞应用层,就叫大神了。 不扯闲篇了,我们这里从git源码直接…

Vue18-列表渲染

一、v-for渲染列表 1-1、遍历数组&#xff08;用的多&#xff09; 1-2、key属性 让每一个<li>都有一个唯一的标识&#xff01; 1、写法一 只有用了遍历的方式(v-for)来生成多个同样结构的数据&#xff0c;必须给每个结构取一个唯一的标识。 2、写法二 或者&#xff1a;…

【全开源】生产管理系统源码(FastAdmin+ThinkPHP+Layui+uniapp)

&#x1f525;揭秘高效生产管理系统&#xff0c;让你的企业腾飞&#xff01;&#x1f680; 一款基于FastAdminThinkPHPLayuiuniapp开发的生产管理系统&#xff0c;帮助企业数字化转型&#xff0c;打造智能工厂&#xff0c;专业为生产企业量身开发的一套完整的生产管理系统。主…

【乐吾乐2D可视化组态编辑器】管道绘制,水流动画

用乐吾乐2D可视化连线丰富的外观和动画效果&#xff0c;快速绘制各种风格的管道和水流动画。 乐吾乐2D可视化组态编辑器地址&#xff1a;https://2d.le5le.com/ 方式一&#xff1a;线条渐变 特点&#xff1a;呈现管道的金属光泽和管道剖面 外观&#xff1a;线条渐变--线性渐…

Jenkins 和 GitLab CI/CD比较

近十年来&#xff0c;持续集成&#xff08;Continuous Integration&#xff0c;CI&#xff09;和持续交付&#xff08;Continuous Delivery&#xff0c;CD&#xff09;领域都取得了很大的进步。DevOps 测试的兴起导致了对 CI/CD 工具的快速需求。现有的解决方案总是随着时间的推…

LlamaIndex 四 数据连接器

前言 我们通过各项配置&#xff0c;理解了LlamaIndex在构建知识库和基于知识库的推荐两个阶段&#xff0c;怎么和业务相结合。本文&#xff0c;我们将开始深入理解LlamaIndex的各个模块。首先&#xff0c;LlamaIndex强大的Data Connector 数据连接器上场。 LlamaIndex擅长和各…

聆思CSK6大模型开发板英语评测类开源SDK详解

离线英文评测算法SDK 能力简介 CSK6 大模型开发套件可以对用户通过语音输入的英文单词进行精准识别&#xff0c;并对单词的发音、错读、漏读、多读等方面进行评估&#xff0c;进行音素级的识别&#xff0c;根据用户的发音给出相应的建议和纠正&#xff0c;帮助用户更好地掌握单…