大模型不会比大小和单词字母计数?日期计算也是一片混乱

9.9和9.11哪个大?13.8%和13.11%谁大谁小?这两个比大小的问题,前段时间难倒众多大模型,在网上掀起热议。

除此之外,向大模型提问“草莓(strawberry)这个单词有几个r时”,多家主流大模型回答错误,即使是百度的文心一言、阿里的通义千问、字节的豆包也都集体出现错误答案。

针对这些问题的出现,月之暗面回应称:其实我们人类对大模型的能力探索——无论是大模型能做到什么,还是大模型做不到什么——都还处于非常早期的阶段。“要彻底解决问题,又不能仅仅依赖于逐一修复每个案例,原因在于这些情况就像自动驾驶会遇到的场景一样是很难穷尽的,我们更加要做的是不断增强底层基础模型的智能水平,让大模型变得更加强大和全面,能够在各种复杂和极端情况下依然表现出色。”

时隔10天,再次向主流大模型提问,仍有部分大模型给出的是错误答案。

另外,在测试过程中,还发现多家大模型对于日期计算无法给出正确答案,如去年11月11日至今有多少天,有的无法确定去年是哪一年、今天是几月几日,而有的即便是确认了,也会出现计算错误。

比大小

一场在大模型领域开展的数学能力小测试——比大小,最初由综艺节目《歌手2024》排名引发。不少网友和媒体向大模型助手提问:9.9和9.11哪个大?13.8%和13.11%谁大谁小?

彼时,“BAT”三家的文心一言、通义千问和元宝,都给出了正确答案,但是部分大模型给出了错误答案,有的是全错,有的则是一个对一个错。

7月29日,再此向主流的大模型提问时,“BAT”三家依旧都给出正确答案。针对“9.9与9.11谁大”这一问题,智谱AI的智谱清言、百川智能的百小应都回答正确,而月之暗面的Kimi、字节的豆包仍回答错误。

在回答时,有部分大模型会呈现推理过程,比如豆包认为9.11大于9.9。是因为9.9表示9+0.9=9.9,9.11表示9+0.11=9.11,0.9大于0.11,所以9.9小于9.11。

将问题改成13.8%和13.11%谁大谁小时,百小应、智谱清言、Kimi、万知AI都给出了正确答案。

单词字母计数

在比大小的问题引起热议的同时,单词字母计数的问题也浮现出来。

向主流大模型提问:strawberry这个单词有几个r时,“BAT”里只有腾讯元宝回答是正确的,百度文心一言、阿里通义千问都给出了错误答案:2。

(腾讯元宝)

而在反问文心一言后,其再次分析得出的答案仍是2。

通义千问同样肯定自己的答案是正确的,还再次进行了解释:“strawberry”这个单词确实只有两个 “r”。让我再次确认一下拼写:s-t-r-a-w-b-e-r-r-y。

- 第一个“r”在第三个位置,

- 第二个“r”在第七个位置。

所以 “strawberry” 中确实只有两个 “r”。

豆包和通义千问如出一辙,反问后仍确认自己的答案:“strawberry”这个单词中“r”分别出现在“straw”和“berry”部分,一共2个。

百川智能的百小应、智谱AI的智谱清言、零一万物的万知AI、月之暗面的Kimi等都出现回答错误,其中万知AI的答案为1个“r”。

日期计算

在不断向大模型提问时发现,除了比大小、单词字母计数有误外,日期计算也难倒了诸多大模型。

当向百度大模型文心一言提问:去年11月11日至今有多少天时,文心一言回答:这是一个日期计算问题,要求确定从去年11月11日至今经过了多少天。解题关键在于确定起始和结束日期,并考虑期间的闰年情况,从而准确计算出两个日期之间的天数差。经过计算,从去年11月11日至今有261天。

这个答案实际上是正确的,但是为了核实它是凑巧答对还是有逻辑地计算正确,追问了一下计算过程,其假设了“去年”是2022年,而“至今”是2023年的某一天,比如2023年8月1日。

由于其用的是假设,则再追问能否确定去年是哪一年和今天是几号,文心一言根据公历日历明确去年是2023年,今天是7月29日。在此基础上,要求它重新计算去年(2023年)11月11日至今(2024年7月29日)有多少天时,它分月份给出的天数均是正确的,但是在计算过程中依然给我出了错误答案。要求其核对后,它坚定认为自己的答案是正确的。

同样的场景在腾讯元宝上也再次上演,元宝首先给出的答案也是正确的,但是当要求展开计算过程时候,发现其将起始日期定为2022年11月11日—2023年8月15日。因为展开计算过程与初次给的261天的结果不相同,元宝还修改了一下截止日期。

让元宝确认好去年是2023年、今天的日期是2024年7月29日后,元宝给出了更为出奇的答案:36天。

让它再次确认时,它给的计算过程又是2022年11月11日至2023年8月15日,算出的天数为277天,与此前计算的268天又不一致。‍‍‍

“BAT”里阿里的通义千问是最直接确定去年11月11日和今天的日期为2023年11月11日至2024年7月29日的,但是在相加的过程中,少计算了一个月份,最终答案还是错误。提示其少加了一个月,其依然给出的是错误答案。

“BAT”的大模型纷纷出现各种错误时,有独角兽企业也出现了错误,比如百川智能的百小应,在计算11月11日至月底天数时,计为30日,导致最终结果错误;零一万物的万知AI则把去年定为2021年,最后得出了999天的结果。

但是也有部分独角兽企业给出了惊喜。针对这一问题,月之暗面的Kimi、智谱AI的智谱清言给出了正确答案,且给出的推理过程也是正确的。比如Kimi先是确定去年11月11日和今天的具体日期,再根据自然月、闰年等信息,确定每月的天数,最后进行相加。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/51748.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

三目操作符

双目操作符有、-、*、/、% 单目操作符有--、、、- 三目操作符有表达式1&#xff1f;表达式2&#xff1a;表达式3 如果表达式1为真则表达式2计算否则表达式3计算&#xff0c;计算结果为整个表达式的结果 #include<stdio.h> int main() {int a 0;int b 0;scanf(&quo…

Doris-计算特性

1 全新优化器 1.1 如何开启1.2 统计信息 1.2.1 使用ANALYZE语句手动收集1.2.1 自动收集1.2.3 作业管理1.3 会话变量及配置项调优参数2 Join相关 2.1 支持的Join算子2.2 支持的shuffle方式 2.2.1 Broadcast Join2.2.2 Shuffle Join2.2.3 Bucket Shuffle Join 2.2.3.1 原理2.2.3.…

PHP反序列化漏洞从入门到深入8k图文介绍,以及phar伪协议的利用

文章参考&#xff1a;w肝了两天&#xff01;PHP反序列化漏洞从入门到深入8k图文介绍&#xff0c;以及phar伪协议的利用 前言 本文内容主要分为三个部分&#xff1a;原理详解、漏洞练习和防御方法。这是一篇针对PHP反序列化入门者的手把手教学文章&#xff0c;特别适合刚接触PH…

Windows搭建我的世界MC服务器 【Minecraft外网联机教程】

目录 ⛳️推荐 1. 搭建我的世界服务器 1.1 服务器安装java环境 1.2 配置服务端 1.3 创建我的世界服务器 2. 局域网联机测试 3. 安装cpolar内网穿透 4. 公网联机Minecraft 5. 配置固定远程联机端口地址 ⛳️推荐 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通…

新手转行AI运营岗位,轻松实现月入15K+

近年来人工智能大爆发&#xff0c;各种AI产品层出不穷&#xff0c;市场也出现了一批高薪AI运营类岗位 不需要技术背景、门槛低&#xff0c;即便是新手&#xff0c;也有机会拿下offer。如果你计划今年跳槽或转行运营&#xff0c;这5个岗位不妨试试&#xff08;结尾附国内AI公司清…

科普文:万字梳理高性能 Kafka快的8个原因

概叙 科普文&#xff1a;万字详解Kafka基本原理和应用-CSDN博客 科普文&#xff1a;万字梳理31个Kafka问题-CSDN博客 我们都知道 Kafka 是基于磁盘进行存储的&#xff0c;但 Kafka 官方又称其具有高性能、高吞吐、低延时的特点&#xff0c;其吞吐量动辄几十上百万。 在座的…

【深度学习】kaggle使用

https://blog.csdn.net/2301_78630677/article/details/133834096 https://blog.csdn.net/xiaojia1001/article/details/139467176 https://www.kaggle.com/ 使用要挂代理&#xff0c;要不然可能无法注册 绑定手机号之后才能使用GPU 每周30h免费GPU使用时长 上传数据集 Ad…

安科瑞ACTB系列电流互感器过电压保护器

产品概述&#xff1a; 安科瑞ACTB系列电流互感器过电压保护器是一种重要的电力保护设备&#xff0c;‌主要用于防止电流互感器在运行中因二次绕组开路或一次绕组流过异常电流而在二次侧产生的高压过电压。‌这种保护器能有效防止因电流互感器二次侧异常高压引起的事故&#xf…

手撕数据结构---栈和队列的概念以及实现

栈的概念&#xff1a; 栈&#xff1a;⼀种特殊的线性表&#xff0c;其只允许在固定的⼀端进⾏插⼊和删除元素操作。进⾏数据插⼊和删除操作的⼀端称为栈顶&#xff0c;另⼀端称为栈底。栈中的数据元素遵守后进先出LIFO&#xff08;Last In First Out&#xff09;的原则。 压栈…

opencascade AIS_RubberBand AIS_RotationMode源码学习

//!相机旋转类型 Camera rotation mode. enum AIS_RotationMode { AIS_RotationMode_BndBoxActive, //!< default OCCT rotation AIS_RotationMode_PickLast, //!< rotate around last picked point AIS_RotationMode_PickCenter, //!< rotate around point at the ce…

python之代码简化式(列表、字典生成式,递归函数,迭代器(iter)和生成器(yield)、匿名函数(lambda)的使用)(12)

文章目录 前言1、列表、字典生成式2、递归函数2.1 python中代码的递归深度&#xff08;扩展&#xff09; 3、拓展&#xff1a;迭代器和生成器3.1 迭代器&#xff08;iter&#xff09;3.2 生成器&#xff08;yield&#xff09; 4、匿名函数&#xff08;lambda&#xff09;4.1 ma…

宠物猫用空气净化器真的有用吗?值得买的猫用空气净化器牌子排名

作为一名6年资深铲屎官&#xff0c;每天铲猫砂盆的工作无疑是一项挑战。家中不仅弥漫着难以忍受的气味&#xff0c;而且家里的小孩和老人偶尔会因为过敏性鼻炎或结膜炎等问题感到不适。换毛季节尤其头疼&#xff0c;浮毛无处不在&#xff1a;沙发、外套、坐垫&#xff0c;甚至连…

Spring Boot 3 + Resilience4j 简单入门 + Redis Cache 整合

1. 项目结构 2. Maven依赖 <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>3.1.2</version><relativePath/> <!-- lookup parent from repository --&…

如何学习ClickHouse:糙快猛的大数据之路(技术要点概览)

这个系列文章用"粗快猛大模型问答讲故事"的创新学习方法&#xff0c;让你轻松理解复杂知识&#xff01;涵盖Hadoop、Spark、MySQL、Flink、Clickhouse、Hive、Presto等大数据所有热门技术栈&#xff0c;每篇万字长文。时间紧&#xff1f;只看开头20%就能有收获&#…

如何智能便捷、自动化地进行文件数据采集?

文件数据采集是指从各种源头和渠道收集、整理、清洗、分析和挖掘数据的过程。它是大数据应用的基础&#xff0c;为企业提供全面的决策支持和业务价值。文件数据采集对于不同行业都至关重要&#xff0c;通过有效的文件数据采集&#xff0c;企业可以更好地了解市场动态、优化服务…

数据驱动未来:构建下一代湖仓一体电商数据分析平台,引领实时商业智能革命

1.1 项目背景 本项目是一个创新的湖仓一体实时电商数据分析平台&#xff0c;旨在为电商平台提供深度的数据洞察和业务分析。技术层面&#xff0c;项目涵盖了从基础架构搭建到大数据技术组件的集成&#xff0c;采用了湖仓一体的设计理念&#xff0c;实现了数据仓库与数据湖的有…

pytorch3d的安装

在这个网址中&#xff0c;下载对应的pytorch3d安装包 https://anaconda.org/pytorch3d/pytorch3d/files下载完成后使用下面命令进行安装 conda install ./pytorch3d-0.7.7-py39_cu118_pyt201.tar.bz2

web基础及http协议、

⼀、web基本概念和常识 Web&#xff1a;为⽤户提供的⼀种在互联⽹上浏览信息的服务&#xff0c;Web 服 务是动态的、可交 互的、跨平台的和图形化的。Web 服务为⽤户提供各种互联⽹服务&#xff0c;这些服务包括信息浏览 服务&#xff0c;以及各种交互式服务&#xff0c;包括聊…

芋道微服务全栈开发日记(商品sku数据归类为规格属性)

商品的每一条规格和属性在数据库里都是单一的一条数据&#xff0c;从数据库里查出来后&#xff0c;该怎么归类为对应的规格和属性值&#xff1f;如下图&#xff1a; 在商城模块&#xff0c;商品的单规格、多规格、单属性、多属性功能可以说是非常完整&#xff0c;如下图&#x…

web、http协议、apache服务、nginx服务

web基本概念和常识 概念 web&#xff1a;为用户提供的一种在互联网上浏览信息的服务&#xff0c;是动态的、可交互的、跨平台的和图形化的&#xff1b; 为用户提供各种互联网服务&#xff0c;这些服务包括浏览服务以及各种交互式服务&#xff0c;包括聊天、购物等&#xff1…