7款主流大模型实测:简单的数感测试全翻车

实测strawberry中有2个字母“r”?不会比大小的大模型也几乎数不对数,数理能力差到惊人!

@科技新知 原创

谁能想到,号称“超级大脑”的大模型,竟然在几道简单的数学题上败给了小学生。

近日,国内火热的音乐节目《歌手》中,孙楠与外国歌手的微小分数差异,引发了网友关于13.8%和13.11%谁大谁小的争论。

艾伦研究机构成员林禹臣将此问题抛给了ChatGPT-4o,但结果令人吃惊,最强大模型竟然在回答中给到了13.11比13.8更大的错误答案。

随后Scale AI的提示工程师莱利·古德赛德基于此灵感变换了问法,拷问了可能是目前最强的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大?然而几家头部大模型的错误回答,也让该话题传播开来。

而面对如此简单的问题,国产大模型表现如何呢?为此,我们也对国内7款主流AIGC产品文心一言、通义千问、腾讯元宝、字节豆包、讯飞星火、智谱、Kimi进行了比小学数学更简单的“单词字母数识别”测试,结果令我们大吃一惊。

**Part.**1

7家大模型,几乎全翻车

首先我们向7款大模型产品询问同一个问题,“strawberry中有几个字母r”?

大模型新星Kimi,斩钉截铁且不加解释的表示有1个字母r,不过当我们再次询问时,Kimi竟打翻了自己第一次的错误答案,给到了第二个错误答案。再三追问后仍是没能给到正确答案。

来源:科技新知(Kimi)

智谱AI旗下的智谱清言ChatCLM给到的也是错误答案。

来源:科技新知(智谱清言)

科大讯飞的讯飞星火对话在回答这个问题的时候开启了联网搜索,给到一个错误答案后,还一本正经的告诉我们这2个r的位置。但可惜的是,星火对话给到的位置有一个也是错误的。

来源:科技新知(讯飞星火)

不过也有表现不错的,百度的文心大模型将strawberry每个字母都进行了拆分,然后进行统计,给到了正确结果。

来源:科技新知(文心大模型)

阿里旗下的通义千问在第一次回答中给到了一个错误答案,并且阐述的位置也是错误的,第二次虽然再次给出了错误答案,但其回答中识别到了3个字母r,只是一句“注意虽然 “rr” 是连续的,但它们仍然被计算为两个单独的字母。”让人摸不到头脑。

来源:科技新知(通义千问)

于是我们追问了“为什么rr被计算为两个单独的字母”,通义千问竟然又否认了刚才的回答,称“在 “strawberry” 中,两个 “r” 字母可以影响周围音节的发音,但它们仍然是两个独立的字母。”

来源:科技新知(通义千问)

腾讯元宝在回答这个问题时采用的是假设法,假设了字母“r”的数量为未知数x,然后通过查看单词“strawberry”并计数字母“r”得到x的值,最后给到的答案是正确的。

来源:科技新知(腾讯元宝)

表现良好的还有字节豆包,直截了当的给出了正确答案,并且还举了两个例子来证明这个简单的问题难不倒它。但是,也是豆包的这两个例子出卖了它在识数能力上的问题。豆包称“car”这个单词只有1个“r”,“mirror”则有2个“r”,而“strawberry”比它们都多,有3个。

问题显而易见,“mirror”中有其实是有3个“r”,并非2个。于是我们又追问了一下“mirror中有几个字母r”,豆包给到的答案仍然是2个,并且又举了两个错误的例子,称“father”这个单词有2个“r”,而“orange”里面则一个“r”都没有。这多少让人认为豆包的正确回答有“蒙”的嫌疑。

来源:科技新知(豆包)

通过这个简单的测试我们可以看到,7家大模型中有5家都有“不识数”的嫌疑,于是我们又将这个单词进行拆分成2个更简单的字母,测试这些大模型能否给到正确答案。

**Part.**2

拆分测试,揭露大模型逻辑短板

为了引导大模型,尽量使大模型给到正确答案,我们这部分将分为两个问题,一个是“str中含有几个字母r,berry中含有几个字母r,他们一共含有几个r?”,另一个是“那str和berry合在一起是strawberry,所以strawberry中含有几个字母r?”

不过,被寄予厚望的Kimi还是让我们失望了。将strawberry拆分成两个简单的单词后,Kimi仍没给到正确答案。

来源:科技新知(Kimi)

同样,智谱清言在这一轮也没能给到正确答案。并且其给出的解释也与Kimi一致,都认为berry中有1个字母r,所以才导致strawberry中少了1个r。

来源:科技新知(智谱清言)

有趣的是讯飞星火,当我们将单词分开提问时,星火对话能够给到正确的回答,并且识别到了berry中有2个字母r,不过看星火对话给的解释是将这两个字母当作字符串,用编程的方式来查找所得。但不管怎样,答案确实是正确的。

来源:科技新知(讯飞星火)

而当我们认为讯飞星火又行了的时候,再次询问“那str和berry合在一起是strawberry,所以strawberry中含有几个字母r?”,但讯飞星火仍然给到的是错误答案。

来源:科技新知(讯飞星火)

上一轮表现出色的文心大模型这次并没有给到正确答案,它与Kimi和智谱清言都认为“berry” 中有1个“r”,而追问两个单词合在一起有几个r后,文心也是给出了2个的错误答案。

来源:科技新知(文心大模型)

通义千问这次的表现让人吃惊,不但准确的给出了答案,而且还给了代码级别的计算过程。

来源:科技新知(通义千问)

当我们再次问strawberry中含有几个字母r时,通义千问也非常有逻辑的地告诉我们可以直接在 “strawberry” 中查找 “r” 的出现次数,而不必依赖于之前的组合。

来源:科技新知(通义千问)

腾讯元宝的表现也足够稳定,简单迅速的给到了正确答案。

来源:科技新知(腾讯元宝)

豆包在这一轮也给到的正确答案,但喜欢举例的豆包,再次举了一个错误案例。所以其数数字的水平和逻辑到底怎样,仍是未知。

来源:科技新知(豆包)

两轮简单的小测试下来,7家国产大模型只有1家表现稳定,其他6家均出现了不同程度的错误,这到底是怎么回事呢?

**Part.**3

数学不好,本质是能力问题

这类大模型说胡话的现象,在业界被称为大模型出现幻觉。

此前,哈尔滨工业大学和华为的研究团队发表的综述论文认为,模型产生幻觉的三大来源:数据源、训练过程和推理。大模型可能会过度依赖训练数据中的一些模式,如位置接近性、共现统计数据和相关文档计数,从而导致幻觉。此外,大模型还可能会出现长尾知识回忆不足、难以应对复杂推理的情况。

一位算法工程师认为,生成式的语言模型更像文科生而不是理科生。实际上语言模型在这样的数据训练过程中学到的是相关性,使得AI在文字创作上达到人类平均水平,而数学推理更需要的是因果性,数学是高度抽象和逻辑驱动的,与语言模型处理的语言数据在本质上有所不同。这意味着大模型要学好数学,除了学习世界知识外,还应该有思维的训练,从而具备推理演绎能力。

不过中国社科院新闻与传播研究所所长胡正荣也指出,大模型虽然是语言模型,但这个语言不是人们通常理解的字面意思,音频、解题等都是大模型可以做的。从理论上看,数学大模型这个技术方向是可行的,但最终结果如何,取决于两个因素,一是算法是不是足够好,二是是否有足够量的数据做支撑。“如果大模型的算法不够聪明,不是真正的数学思维,也会影响到答题的正确率。”

其实对于大模型来说,对自然语言的理解是基础。很多数理化的专业知识并不是大模型的强项,并且很多大模型是利用搜索把之前已有的解题的经验和知识的推理相结合,可以理解为在搜索内容上进行理解,如果搜索内容本就是错误的,那么大模型给到的结果必然错误。

值得一提的是,大模型的复杂推理能力尤为重要,这关乎可靠性和准确性,是大模型在金融、工业等场景落地需要的关键能力。现在很多大模型的应用场景是客服、聊天等等,在聊天场景一本正经胡说八道影响不太大,但它很难在非常严肃的商业场合去落地。

着技术的进步和算法的优化,我们期待大模型能够在更多领域发挥其潜力,为人类社会带来更多实际价值。但通过这次对国内主流大模型的简单测试,也警示我们,在依赖大模型进行决策时,必须保持谨慎,充分认识到其局限性,并在关键领域加强人工审核和干预,确保结果的准确性和可靠性。毕竟,技术的最终目的是服务于人,而不是取代人的思考和判断。

/ THE END /

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/874286.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue.js 2 项目实战(三):综合案例-小黑记事本

前言 Vue.js 是一个用于构建用户界面的渐进式 JavaScript 框架。它的设计目标是通过采用易于上手的结构和强大的功能,使前端开发变得更加简便和高效。以下是 Vue.js 的一些关键特性和优点: 核心特性 声明式渲染 Vue.js 使用声明式语法来描述用户界面&a…

HR怎么看待PMP证书呢?

不是HR,但 HR 的招人标准也是根据市场跟岗位需求来的吧。据我了解,PMP 证书目前还是有市场的,大家可以根据自己的行业跟公司,去判断下 PMP 的含金量,看自己是否需要去考。一定要结合自己的需求分析,盲目跟风…

【QT】定时器事件 - QTimerEvent QTimer

qt 系统 - 定时器 定时器1. QTimerEvent2. QTimer3. 获取系统日期及时间 定时器 Qt 中在进行窗口程序的处理过程中,经常要周期性的执⾏某些操作,或者制作⼀些动画效果,使用定时器就可以实现。所谓定时器就是在间隔⼀定时间后,去执…

EXO项目解析:pynvml怎么实现监控的,包括什么参数

目录 pynvml怎么实现监控的,包括什么参数 pynvml实现监控的方式 pynvml包括的主要参数 GPU功耗的组成 举例说明 注意事项 EXO项目解析:https://github.com/exo-explore/exo?tab=readme-ov-file 这段代码是一个使用setuptools库编写的Python包安装脚本,主要用于定义和…

GIT命令学习 一

📑打牌 : da pai ge的个人主页 🌤️个人专栏 : da pai ge的博客专栏 ☁️宝剑锋从磨砺出,梅花香自苦寒来 ☁️运维工程师的职责:监…

【Git】(基础篇六)—— 发现好项目

发现github上的好项目 在开源社区中,发现好的项目,不论是对于自己的学习,还是在前人的基础上继续改进,都十分重要,本文为你介绍如何在github上面找到好的项目(gitee同理) 关注活跃大牛 GitHu…

ARM架构(二)—— arm v7-a/v8/v9寄存器介绍

1、ARM v7-A寄存器 1.1 通用寄存器 V7 V8开始 FIQ个IRQ优先级一样, 通用寄存器:31个 1.2 程序状态寄存器 CPSR是程序状态毒存器,保存条件标志位,中断禁止位,当前处理器模式等控制和状态位。每种异常模式下还存在SPS…

实现接口幂等性的8种解决方案

古语云:“一而再,再而三,其效不二” 俗语讲:被虐千百遍,依然如初恋 数学符号:f(f(f(x))) f(x) 即无论操作执行一次还是多次,其效果始终如一,不会有差异。这就是幂等性。 文章导读 什…

FPGA-PLL IP核的使用

1.前言 IP核是使用FPGA进行快速开发的一大法宝,FPGA有几个常用的IP核,如今天要写的PLL,即锁相环,还有FIFO,ROM等。熟练使用这些IP核,在一一些大型的项目中会省很多的精力,今天就通过一个实例来…

55 、mysql的存储引擎、备份恢复以及日志备份、恢复

一、数据库的存储引擎: 1.1、存储引擎的概念 概念:存储引擎,就是一种数据库存储数据的机制,索引的机制,索引的技巧,锁定水平。 存储的方式和存储的格式。 存储引擎也属于mysql当中的组件,实…

Linux挂载磁盘目录

一、背景 由于安装oracle数据库,磁盘空间不足,已经加了存储,但是没有挂载,需要将/dev/sdb全部挂载到/oracle目录下 [rootdatabase-001 ~]# lsblk NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT sda 8:0 0 50G 0 disk …

HTTPServer改进思路2(mudou库核心思想融入)

mudou网络库思想理解 Reactor与多线程 服务器构建过程中,不仅仅使用一个Reactor,而是使用多个Reactor,每个Reactor执行自己专属的任务,从而提高响应效率。 首先Reactor是一种事件驱动处理模式,其主要通过IO多路复用…

Linux实用操作三

文章目录 Linux实用操作三网络传输ping命令介绍:示例: wget命令介绍:示例: curl命令介绍:示例: 端口介绍:端口的划分:查看端口占用: 进程管理进程介绍:查看进…

基于WebGoat平台的SQL注入攻击

目录 引言 一、安装好JAVA 二、下载并运行WebGoat 三、注册并登录WebGoat 四、模拟攻击 1. 第九题 2. 第十题 3. 第十一题 4. 第十二题 5. 第十三题 五、思考体会 1. 举例说明SQL 注入攻击发生的原因。 2. 从信息的CIA 三要素(机密性、完整性、可用性&…

【MySQL-17】存储过程-[变量篇]详解-(系统变量&用户定义变量&局部变量)

前言 大家好吖,欢迎来到 YY 滴MySQL系列 ,热烈欢迎! 本章主要内容面向接触过C的老铁 主要内容含: 欢迎订阅 YY滴C专栏!更多干货持续更新!以下是传送门! YY的《C》专栏YY的《C11》专栏YY的《Lin…

SpringBoot常用功能实现

1. 配置文件多环境配置 1.1 创建不同环境配置文件 文件名前缀和后缀为标准固定格式&#xff0c;不可以改变。 1.2 pom中加入文件配置 可以使用<activation>标签设置默认环境。 <profiles><profile><id>dev</id><activation><active…

内置华为视频终端API接口的中央控制系统

内置华为视频终端API接口的中控系统是一种高度集成化的智能控制系统&#xff0c;它通过将华为视频终端的控制功能集成到中控系统中&#xff0c;实现了对华为视频终端的远程控制和集中管理。以下是对该系统的详细介绍&#xff1a; 一、系统概述 该系统通过调用华为视频终端提供…

数据结构(队列及其实现)

概念与结构 概念&#xff1a;只允许在⼀端进⾏插⼊数据操作&#xff0c;在另⼀端进⾏删除数据操作的特殊线性表&#xff0c; 队列具有先进先出FIFO(First In First Out)原则。 ⼊队列&#xff1a;进⾏插⼊操作的⼀端称为队尾 出队列&#xff1a;进⾏删除操作的⼀端称为队头…

Python | Leetcode Python题解之第268题丢失的数字

题目&#xff1a; 题解&#xff1a; class Solution:def missingNumber(self, nums: List[int]) -> int:n len(nums)total n * (n 1) // 2arrSum sum(nums)return total - arrSum

texify - 识别数学/图像 PDF

文章目录 一、关于 texify例子训练 二、安装手动安装 三、使用1、使用技巧2、用于交互转换的应用程序3、转换图像4、Python 中导入并运行 四、限制五、基准测试运行自己的基准测试 六、其它商业用途感谢 一、关于 texify Texify是一种OCR模型&#xff0c;它将包含数学的图像或…