在高考前,我就有想法了,这一次让AI来做做高考题。就用国内的大模型,看哪家的大模型解题最厉害。
第一天考完,就拿到了2024高考数学2卷的电子版,这也是重庆市采用的高考试卷
这次选了5个AI工具,分别是天工,通义,kimi, 智谱清言,腾讯元宝。这5个AI工具也是当前比较火,而且使用最多的几个工具。说下规则:直接上传pdf试卷,然后让AI识别解析后提供解体步骤以及答案。
下面来开始实战:
第一个出战的是天工
很不幸,我找了半天也没找到可以上传文档并解析的功能,智能体中也没有对应的工具可以用。天工直接出局
第二个出战的是通义
在工作中经常使用通义灵码辅助写代码,检查代码。效果用起来不错。但这次通义千问让我失望了。上传文档后直接解析失败。比天工好不到哪里去
第三个出战的是智谱清言
智谱的智能体我是比较喜欢用的,简单方便。这次我选择了两个智能体来解体,一个是瑞解高考数学,一个是高等数学AI解题助手
但2个都让我失望了,提示题目内容不完整,无法提供解答。
第四个出战的是kimi
从kimi的表现来看,也不如人意,虽然能解析文档了,但是每一道题也只是给了一个思路。没有解题过程和答案。并且有些图片和表格还解析不出来。这个结果也是不合格的
第五个出战的是腾讯元宝
其实到这个时候我已经不想尝试了,前面4个表现都不堪入目。我对国内大模型感到了一丝失望。但是最后选择尝试下。没想到惊喜竟然是最后一个
元宝对试卷的答题如下图片,前面的选择题和填空题部分除了第四题和第11题因为识别图片的原因,一些数据没别识别出来,所以没有给答案
但是最后17-19题没有给出答案。有可能是超出一次对话的能力了,所以继续开启一次对话,让元宝回答17-19题。
第17题的第二个问题回答得不充分,根据题目是可以求出角度来证明垂直的。但是元宝没有计算出来。只给了一个答案18,19题。
我看了解题思路没发现什么问题,很久没做几何题了,双曲线的一些公式已经不记得了。只是从逻辑上看元宝的解析,没发现问题。
总结:
这一次测试AI做题,没有用语文试卷,是因为文本类的看不太出来大模型的计算差距,而只有用数学试卷才能验证大模型的综合处理能力,比如文档解析,图片提取和解析还有就是问题处理。
目前貌似也没有高考答案出来,元宝给的答案到底是不是都是对的,也没法考证。但是从测试结果输出来看元宝胜出。其他4家都不合格。借助腾讯生态圈和腾讯的研发能力,我看好元宝!