大模型不会比大小和单词字母计数?日期计算也是一片混乱

9.9和9.11哪个大?13.8%和13.11%谁大谁小?这两个比大小的问题,前段时间难倒众多大模型,在网上掀起热议。

除此之外,向大模型提问“草莓(strawberry)这个单词有几个r时”,多家主流大模型回答错误,即使是百度的文心一言、阿里的通义千问、字节的豆包也都集体出现错误答案。

针对这些问题的出现,月之暗面回应称:其实我们人类对大模型的能力探索——无论是大模型能做到什么,还是大模型做不到什么——都还处于非常早期的阶段。“要彻底解决问题,又不能仅仅依赖于逐一修复每个案例,原因在于这些情况就像自动驾驶会遇到的场景一样是很难穷尽的,我们更加要做的是不断增强底层基础模型的智能水平,让大模型变得更加强大和全面,能够在各种复杂和极端情况下依然表现出色。”

时隔10天,再次向主流大模型提问,仍有部分大模型给出的是错误答案。

另外,在测试过程中,还发现多家大模型对于日期计算无法给出正确答案,如去年11月11日至今有多少天,有的无法确定去年是哪一年、今天是几月几日,而有的即便是确认了,也会出现计算错误。

比大小

一场在大模型领域开展的数学能力小测试——比大小,最初由综艺节目《歌手2024》排名引发。不少网友和媒体向大模型助手提问:9.9和9.11哪个大?13.8%和13.11%谁大谁小?

彼时,“BAT”三家的文心一言、通义千问和元宝,都给出了正确答案,但是部分大模型给出了错误答案,有的是全错,有的则是一个对一个错。

7月29日,再此向主流的大模型提问时,“BAT”三家依旧都给出正确答案。针对“9.9与9.11谁大”这一问题,智谱AI的智谱清言、百川智能的百小应都回答正确,而月之暗面的Kimi、字节的豆包仍回答错误。

在回答时,有部分大模型会呈现推理过程,比如豆包认为9.11大于9.9。是因为9.9表示9+0.9=9.9,9.11表示9+0.11=9.11,0.9大于0.11,所以9.9小于9.11。

将问题改成13.8%和13.11%谁大谁小时,百小应、智谱清言、Kimi、万知AI都给出了正确答案。

单词字母计数

在比大小的问题引起热议的同时,单词字母计数的问题也浮现出来。

向主流大模型提问:strawberry这个单词有几个r时,“BAT”里只有腾讯元宝回答是正确的,百度文心一言、阿里通义千问都给出了错误答案:2。

(腾讯元宝)

而在反问文心一言后,其再次分析得出的答案仍是2。

通义千问同样肯定自己的答案是正确的,还再次进行了解释:“strawberry”这个单词确实只有两个 “r”。让我再次确认一下拼写:s-t-r-a-w-b-e-r-r-y。

- 第一个“r”在第三个位置,

- 第二个“r”在第七个位置。

所以 “strawberry” 中确实只有两个 “r”。

豆包和通义千问如出一辙,反问后仍确认自己的答案:“strawberry”这个单词中“r”分别出现在“straw”和“berry”部分,一共2个。

百川智能的百小应、智谱AI的智谱清言、零一万物的万知AI、月之暗面的Kimi等都出现回答错误,其中万知AI的答案为1个“r”。

日期计算

在不断向大模型提问时发现,除了比大小、单词字母计数有误外,日期计算也难倒了诸多大模型。

当向百度大模型文心一言提问:去年11月11日至今有多少天时,文心一言回答:这是一个日期计算问题,要求确定从去年11月11日至今经过了多少天。解题关键在于确定起始和结束日期,并考虑期间的闰年情况,从而准确计算出两个日期之间的天数差。经过计算,从去年11月11日至今有261天。

这个答案实际上是正确的,但是为了核实它是凑巧答对还是有逻辑地计算正确,追问了一下计算过程,其假设了“去年”是2022年,而“至今”是2023年的某一天,比如2023年8月1日。

由于其用的是假设,则再追问能否确定去年是哪一年和今天是几号,文心一言根据公历日历明确去年是2023年,今天是7月29日。在此基础上,要求它重新计算去年(2023年)11月11日至今(2024年7月29日)有多少天时,它分月份给出的天数均是正确的,但是在计算过程中依然给我出了错误答案。要求其核对后,它坚定认为自己的答案是正确的。

同样的场景在腾讯元宝上也再次上演,元宝首先给出的答案也是正确的,但是当要求展开计算过程时候,发现其将起始日期定为2022年11月11日—2023年8月15日。因为展开计算过程与初次给的261天的结果不相同,元宝还修改了一下截止日期。

让元宝确认好去年是2023年、今天的日期是2024年7月29日后,元宝给出了更为出奇的答案:36天。

让它再次确认时,它给的计算过程又是2022年11月11日至2023年8月15日,算出的天数为277天,与此前计算的268天又不一致。‍‍‍

“BAT”里阿里的通义千问是最直接确定去年11月11日和今天的日期为2023年11月11日至2024年7月29日的,但是在相加的过程中,少计算了一个月份,最终答案还是错误。提示其少加了一个月,其依然给出的是错误答案。

“BAT”的大模型纷纷出现各种错误时,有独角兽企业也出现了错误,比如百川智能的百小应,在计算11月11日至月底天数时,计为30日,导致最终结果错误;零一万物的万知AI则把去年定为2021年,最后得出了999天的结果。

但是也有部分独角兽企业给出了惊喜。针对这一问题,月之暗面的Kimi、智谱AI的智谱清言给出了正确答案,且给出的推理过程也是正确的。比如Kimi先是确定去年11月11日和今天的具体日期,再根据自然月、闰年等信息,确定每月的天数,最后进行相加。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/51748.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

三目操作符

双目操作符有、-、*、/、% 单目操作符有--、、、- 三目操作符有表达式1&#xff1f;表达式2&#xff1a;表达式3 如果表达式1为真则表达式2计算否则表达式3计算&#xff0c;计算结果为整个表达式的结果 #include<stdio.h> int main() {int a 0;int b 0;scanf(&quo…

Doris-计算特性

1 全新优化器 1.1 如何开启1.2 统计信息 1.2.1 使用ANALYZE语句手动收集1.2.1 自动收集1.2.3 作业管理1.3 会话变量及配置项调优参数2 Join相关 2.1 支持的Join算子2.2 支持的shuffle方式 2.2.1 Broadcast Join2.2.2 Shuffle Join2.2.3 Bucket Shuffle Join 2.2.3.1 原理2.2.3.…

Linux笔记 --- 控制流

二路分支 逻辑&#xff1a; 程序中某一段代码需要满足一定的条件才会被执行 语法&#xff1a; if 语句&#xff1a; 表达一种 &#xff0c; 如果条件满足 则 执行某个代码块 if-else 语句&#xff1a; 表达一种 &#xff0c;如果 条将满足则执行某个代码块 否则执行 注意&…

浅学爬虫-HTML和CSS结构

HTML结构 HTML&#xff08;HyperText Markup Language&#xff09;是构建网页的基础语言。它通过标签&#xff08;Tags&#xff09;来定义网页的结构和内容。HTML文档的基本结构如下&#xff1a; <!DOCTYPE html> <html lang"en"><head><meta…

PHP反序列化漏洞从入门到深入8k图文介绍,以及phar伪协议的利用

文章参考&#xff1a;w肝了两天&#xff01;PHP反序列化漏洞从入门到深入8k图文介绍&#xff0c;以及phar伪协议的利用 前言 本文内容主要分为三个部分&#xff1a;原理详解、漏洞练习和防御方法。这是一篇针对PHP反序列化入门者的手把手教学文章&#xff0c;特别适合刚接触PH…

Linux用户-用户组管理

文章目录 14. Linux 用户 - 用户组管理14.1 用户-用户组概述14.2 查看用户登录14.3 用户和用户组配置文件概述14.4 用户账号配置文件信息14.5 用户账号管理14.6 用户密码管理14.7 用户密码配置文件14.8 用户删除14.9 用户组管理14.10 用户组文件信息14.11 用户深入管理 14. Lin…

Windows搭建我的世界MC服务器 【Minecraft外网联机教程】

目录 ⛳️推荐 1. 搭建我的世界服务器 1.1 服务器安装java环境 1.2 配置服务端 1.3 创建我的世界服务器 2. 局域网联机测试 3. 安装cpolar内网穿透 4. 公网联机Minecraft 5. 配置固定远程联机端口地址 ⛳️推荐 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通…

新手转行AI运营岗位,轻松实现月入15K+

近年来人工智能大爆发&#xff0c;各种AI产品层出不穷&#xff0c;市场也出现了一批高薪AI运营类岗位 不需要技术背景、门槛低&#xff0c;即便是新手&#xff0c;也有机会拿下offer。如果你计划今年跳槽或转行运营&#xff0c;这5个岗位不妨试试&#xff08;结尾附国内AI公司清…

科普文:万字梳理高性能 Kafka快的8个原因

概叙 科普文&#xff1a;万字详解Kafka基本原理和应用-CSDN博客 科普文&#xff1a;万字梳理31个Kafka问题-CSDN博客 我们都知道 Kafka 是基于磁盘进行存储的&#xff0c;但 Kafka 官方又称其具有高性能、高吞吐、低延时的特点&#xff0c;其吞吐量动辄几十上百万。 在座的…

【深度学习】kaggle使用

https://blog.csdn.net/2301_78630677/article/details/133834096 https://blog.csdn.net/xiaojia1001/article/details/139467176 https://www.kaggle.com/ 使用要挂代理&#xff0c;要不然可能无法注册 绑定手机号之后才能使用GPU 每周30h免费GPU使用时长 上传数据集 Ad…

安科瑞ACTB系列电流互感器过电压保护器

产品概述&#xff1a; 安科瑞ACTB系列电流互感器过电压保护器是一种重要的电力保护设备&#xff0c;‌主要用于防止电流互感器在运行中因二次绕组开路或一次绕组流过异常电流而在二次侧产生的高压过电压。‌这种保护器能有效防止因电流互感器二次侧异常高压引起的事故&#xf…

手撕数据结构---栈和队列的概念以及实现

栈的概念&#xff1a; 栈&#xff1a;⼀种特殊的线性表&#xff0c;其只允许在固定的⼀端进⾏插⼊和删除元素操作。进⾏数据插⼊和删除操作的⼀端称为栈顶&#xff0c;另⼀端称为栈底。栈中的数据元素遵守后进先出LIFO&#xff08;Last In First Out&#xff09;的原则。 压栈…

Kafka、RabbitMQ、RocketMQ:消息队列技术深度对比

文章目录 摘要1. 消息队列概述1.1 消息队列的作用 2. Kafka2.1 简介2.2 核心特性2.3 使用场景 3. RabbitMQ3.1 简介3.2 核心特性3.3 使用场景 4. RocketMQ4.1 简介4.2 核心特性4.3 使用场景 5. 技术对比5.1 吞吐量5.2 可靠性5.3 消息延迟5.4 消息顺序 6. 结语 摘要 消息队列是…

《框架》

《框架》 引言 在当今快速发展的技术世界中,框架(Framework)已成为软件开发中不可或缺的一部分。框架为开发者提供了一种结构化的方法来构建应用程序,从而提高开发效率、确保代码质量和维护性。本文将深入探讨框架的概念、类型、优势以及在现代软件开发中的应用。 什么是…

opencascade AIS_RubberBand AIS_RotationMode源码学习

//!相机旋转类型 Camera rotation mode. enum AIS_RotationMode { AIS_RotationMode_BndBoxActive, //!< default OCCT rotation AIS_RotationMode_PickLast, //!< rotate around last picked point AIS_RotationMode_PickCenter, //!< rotate around point at the ce…

广东省道路工程检测练习试题(单选406题)真题

1.一般项目的合格点率应达到( ),且不合格点的最大偏差值不得大于规定允许偏差值的1.5倍。 A.不低于75% B.不低于80% C.不低于85% D.不低于90% 答案:B 2.进行土路基平整度检测时,当路宽小于9m,检测点数应为( ) A.1 B.2 C.3 D.4 答案:A 3.根据《城镇道路工程施工…

python之代码简化式(列表、字典生成式,递归函数,迭代器(iter)和生成器(yield)、匿名函数(lambda)的使用)(12)

文章目录 前言1、列表、字典生成式2、递归函数2.1 python中代码的递归深度&#xff08;扩展&#xff09; 3、拓展&#xff1a;迭代器和生成器3.1 迭代器&#xff08;iter&#xff09;3.2 生成器&#xff08;yield&#xff09; 4、匿名函数&#xff08;lambda&#xff09;4.1 ma…

宠物猫用空气净化器真的有用吗?值得买的猫用空气净化器牌子排名

作为一名6年资深铲屎官&#xff0c;每天铲猫砂盆的工作无疑是一项挑战。家中不仅弥漫着难以忍受的气味&#xff0c;而且家里的小孩和老人偶尔会因为过敏性鼻炎或结膜炎等问题感到不适。换毛季节尤其头疼&#xff0c;浮毛无处不在&#xff1a;沙发、外套、坐垫&#xff0c;甚至连…

C++中绝对值的用法

在C中&#xff0c;std::fabs函数可以用于四则运算中&#xff0c;特别是当你需要确保参与运算的浮点数是正值时。std::fabs函数返回其参数的绝对值&#xff0c;这对于处理可能包含负数的表达式很有用。 下面是一些示例&#xff0c;展示了如何在四则运算中使用std::fabs函数&…

Spring Boot 3 + Resilience4j 简单入门 + Redis Cache 整合

1. 项目结构 2. Maven依赖 <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>3.1.2</version><relativePath/> <!-- lookup parent from repository --&…