AI高考大战,揭秘五大热门模型谁能问鼎数学之巅?

在高考前,我就有想法了,这一次让AI来做做高考题。就用国内的大模型,看哪家的大模型解题最厉害。

第一天考完,就拿到了2024高考数学2卷的电子版,这也是重庆市采用的高考试卷

这次选了5个AI工具,分别是天工,通义,kimi, 智谱清言,腾讯元宝。这5个AI工具也是当前比较火,而且使用最多的几个工具。说下规则:直接上传pdf试卷,然后让AI识别解析后提供解体步骤以及答案。

下面来开始实战:

第一个出战的是天工

很不幸,我找了半天也没找到可以上传文档并解析的功能,智能体中也没有对应的工具可以用。天工直接出局

图片

第二个出战的是通义

在工作中经常使用通义灵码辅助写代码,检查代码。效果用起来不错。但这次通义千问让我失望了。上传文档后直接解析失败。比天工好不到哪里去

图片

第三个出战的是智谱清言

智谱的智能体我是比较喜欢用的,简单方便。这次我选择了两个智能体来解体,一个是瑞解高考数学,一个是高等数学AI解题助手

图片

图片

但2个都让我失望了,提示题目内容不完整,无法提供解答。

第四个出战的是kimi

从kimi的表现来看,也不如人意,虽然能解析文档了,但是每一道题也只是给了一个思路。没有解题过程和答案。并且有些图片和表格还解析不出来。这个结果也是不合格的

图片

图片

图片

第五个出战的是腾讯元宝

其实到这个时候我已经不想尝试了,前面4个表现都不堪入目。我对国内大模型感到了一丝失望。但是最后选择尝试下。没想到惊喜竟然是最后一个

元宝对试卷的答题如下图片,前面的选择题和填空题部分除了第四题和第11题因为识别图片的原因,一些数据没别识别出来,所以没有给答案

图片

但是最后17-19题没有给出答案。有可能是超出一次对话的能力了,所以继续开启一次对话,让元宝回答17-19题。

第17题的第二个问题回答得不充分,根据题目是可以求出角度来证明垂直的。但是元宝没有计算出来。只给了一个答案18,19题。

我看了解题思路没发现什么问题,很久没做几何题了,双曲线的一些公式已经不记得了。只是从逻辑上看元宝的解析,没发现问题。

图片

总结:

这一次测试AI做题,没有用语文试卷,是因为文本类的看不太出来大模型的计算差距,而只有用数学试卷才能验证大模型的综合处理能力,比如文档解析,图片提取和解析还有就是问题处理。

目前貌似也没有高考答案出来,元宝给的答案到底是不是都是对的,也没法考证。但是从测试结果输出来看元宝胜出。其他4家都不合格。借助腾讯生态圈和腾讯的研发能力,我看好元宝!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/24633.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

帕友饮食改善的小建议!

一、增加膳食纤维的摄入 帕金森病患者应增加膳食纤维的摄入量,以帮助调节肠道功能,预防便秘。膳食纤维丰富的食物包括蔬菜、水果、全谷类食物等。患者应确保每天摄入足够的膳食纤维,以保持肠道通畅,缓解帕金森病可能带来的消化不…

[AIGC] Springboot 自动配置的作用及理由

在详细解释SpringBoot的自动配置之前,先介绍以下背景知识。在创建现代复杂的应用程序时,一个困难的部分是正确地设置您的开发环境。这个问题尤其在Java世界中尤为突出,因为您必须管理和配置许多独立的标准和技术。 当我们谈论Spring Boot的自…

代码随想录算法训练营第五十二天|188.买卖股票的最佳时机Ⅳ

188.买卖股票的最佳时机IV 代码随想录 . - 力扣(LeetCode) 这道题目与之前题目不同的是:限制了k笔交易 设计一个算法来计算你所能获取的最大利润。你最多可以完成 k 笔交易。 确定dp数组以及下标的含义 每多交易一次就会多两个状态&#x…

【Unity】官方文档学习-光照系统

目录 1 前言 2 光照介绍 2.1 直接光与间接光 2.2 实时光照与烘焙光照 2.3 全局光照 3 光源 3.1 Directional Light 3.1.1 Color 3.1.2 Mode 3.1.3 Intensity 3.1.4 Indirect Multiplier 3.1.5 Shadow Type 3.1.6 Baked Shadow Angle 3.1.7 Realtime Shadows 3.1…

数据挖掘--分类

数据挖掘--引论 数据挖掘--认识数据 数据挖掘--数据预处理 数据挖掘--数据仓库与联机分析处理 数据挖掘--挖掘频繁模式、关联和相关性:基本概念和方法 数据挖掘--分类 数据挖掘--聚类分析:基本概念和方法 基本概念 决策树归纳 决策树:决策树是一…

C#面:请解释web.config⽂件中的重要节点

在C#中&#xff0c;web.config文件是一个XML格式的配置文件&#xff0c;用于配置ASP.NET应用程序的各种设置。web.config文件中包含了许多重要的节点&#xff0c;下面是一些常见的重要节点及其作用&#xff1a; <configuration>节点&#xff1a;web.config文件的根节点&…

如何提高网站访问量?

提高网站访问量通常需要一个多方面的策略&#xff0c;涉及SEO、内容营销、社交媒体和其他网络营销手段&#xff0c;而我们仅从seo入手来说说 关键词优化是SEO的核心&#xff0c;它确保网站能够针对潜在用户的搜索查询进行优化。这不仅涉及在网站内容中使用正确的关键词 还需要…

Python量化交易学习——Part6:多因子选股策略实战(2)

本节主要是针对上节讲解的进行回测: 策略: 首先根据上节所选的因子进行选股,各个因子的权重都设置为1,之后对加权后的因子进行排序,选择因子权重值大的5只股票,进行买入,每个月执行一次上述策略,看最终收益率情况如何。 首先先编写函数代码,新建一个py文件,我们这里…

问题:前肢的前方称() #微信#经验分享#微信

问题&#xff1a;前肢的前方称&#xff08;&#xff09; A . 掌侧 B . 跖侧 C . 背侧 D . 胫侧 E . 桡侧 参考答案如图所示

TOGAF数字化转型的关键(文尾附在线TOGAF免费测试)

业务架构驱动数据架构和应用架构的设计&#xff0c;而应用架构又依赖于数据架构和技术架构的支持。技术架构则为整个架构提供了稳定的基础设施。 在数字化转型中&#xff0c;协调和整合这四种架构是至关重要的。通过确保它们之间的一致性和协同工作&#xff0c;可以实现企业业务…

【CSS】clip-path 属性详解

目录 基本语法值几何形状SVG 引用URL 引用 示例结合动画 clip-path 属性用于在 SVG 和 HTML 中创建复杂的裁剪区域&#xff08;即剪切路径&#xff09;&#xff0c;从而只显示元素的一部分。 基本语法 selector {clip-path: value; }值 clip-path 属性接受以下类型的值&#…

【工具】Redis的安装使用

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、Redis简介二、Redis的安装使用三、本文总结 前言 提示&#xff1a;这里可以添加本文要记录的大概内容&#xff1a; 随着开发语言及人工智能工具的普及&am…

Unity学习要点

前言 学习Unity作为游戏开发的强大工具&#xff0c;对于初学者来说&#xff0c;掌握一些基础而实用的技巧是非常重要的。这不仅能帮助你更快地上手&#xff0c;还能在项目开发过程中提高效率。以下是一些Unity初学者的使用技巧&#xff0c;希望能为你的学习之旅提供帮助。 ##…

极简主义在UI设计中的应用及解析

极简主义&#xff0c;即“少就是多”。在设计中&#xff0c;极简主义是许多艺术概念之一&#xff0c;它描述了一种内容形式&#xff0c;可以在许多方面使用。现在移动UI界面和网页设计中的极简主义设计越来越多。即时设计认为&#xff0c;极简主义UI界面不仅美观&#xff0c;而…

HTTP/HTTPS Testing Magic Tool GO-VCR

目录 What is go-vcr ?Why Use go-vcr?How Does go-vcr Work?How Integrate into your TestingConclusion When developing applications that rely on external APIs, testing can become a challenge. You want your tests to be reliable, fast, and not dependent on th…

[经验] 昆山教育网(昆山教育网中小学报名) #媒体#职场发展#微信

昆山教育网&#xff08;昆山教育网中小学报名&#xff09; 昆山教育局网站 网站&#xff1a;昆山市教育局 昆山市教育局全面贯彻执行党和国家的教育方针、政策&#xff0c;落实有关教育工作的法律、法规&#xff1b;负责制定本市教育工作的实施意见和措施&#xff0c;并监督…

TriForce: 突破长序列生成瓶颈的分层投机解码技术

在人工智能领域&#xff0c;大型语言模型&#xff08;LLMs&#xff09;的长序列生成能力一直是研究的热点。然而&#xff0c;随着模型规模的增长&#xff0c;推理过程中的内存和计算瓶颈成为了限制其应用的主要障碍。为了解决这一问题&#xff0c;Carnegie Mellon University和…

1867java银证转账系统系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 java银证转账系统系统是一套完善的web设计系统&#xff0c;对理解JSP java编程开发语言有帮助采用了java设计&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统采用web模式&#xff0c;系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myeclipse8.5开发&a…

骑砍2霸主MOD开发(11)-瓦兰迪亚火骑兵

一.火焰灼烧Timer public class FlameCavalryTimer_1 : PLCommonBasicMissionTimer{private Mission _mission;public FlameCavalryTimer_1(Mission mission, float triggerInterval, bool isTriggerOnce) : base(triggerInterval, isTriggerOnce){_mission mission;}public o…

go语言后端开发学习(一)——JWT的介绍以及基于JWT实现登录验证

什么是JWT JWT,全名为JSON Web Token&#xff0c;是当下主流的一种服务端通信认证方式&#xff0c;具有轻量,无状态的特点&#xff0c;它实现了让我们在用户与服务器之间传递安全可靠的Json文本信息&#xff0c;它的使用过程主要是这样的&#xff1a; 当用户注册的时候&#x…