从一个简单的计算问题,看国内几个大语言模型推理逻辑能力

引言

首先,来看问题:

123456*987654等于多少,给出你计算的过程。

从openai推出chatgpt以来,大模型发展的很快,笔者也经常使用免费的大语言模型辅助进行文档编写和编码工作。大模型推出时间也好久了,笔者想当然的认为这样一个简单的计算问题,应该很容易得到正确的结果和答案,可是从得到的回答看,大模型的逻辑推理能力显然还不太行,还有这样或者那样的问题。

比较结果

下面表格是这个问题国内的几个大模型回答的结果比较(后附回答截图)。唯一笔者认为完美无错的给出解答的是文心大模型turbo4.0,果然花钱的就是要香一些。在回答问题的过程中,笔者诧异的发现文心大模型3.5、通义千问2.5、月之暗面在子计算过程中犯几乎一样的错误,难免会让人浮想联翩:三个大模型是同一个模型出来的?对比chagpt,计算过程不完整,结果也错误。看来国外和国内的在推理逻辑上并没差多少。

从我的角度看,如果给出的计算过程正确,说明具有一定的推理逻辑能力。但是为什么一个简单的计算结果却还是出错,让笔者又不得不怀疑现在大模型的逻辑推理能力,对数学计算并不完全理解?

模型

计算过程

结果

对问题的理解

文心大模型3.5

缺少部分子计算,子计算过程存在错误

错误

理解,给出了计算过程

文心大模型4.0

复杂化计算,计算过程存在错误

错误

理解,给出了计算过程,但给出了复杂化的计算过程

文心大模型turbo4.0

正确

正确

理解,给出了计算过程

通义千问2.5

部分子计算过程错误

错误

理解,给出了计算过程

深度求索2.5

正确

错误

理解,给出了计算过程

月之暗面

部分子计算过程错误

错误

理解,给出了计算过程

星火大模型

正确

错误

部分理解,再次提问才给出了计算过程

智普轻言

缺少部分子计算过程,子计算过程存在错误

正确

部分理解,再次提问才给出了计算过程

Chatgpt4o

缺少部分子计算过程

错误

理解,给出了计算过程

结论

从测试结果来看,笔者认为文心大模型turbo4.0逻辑性推理性都还可以,深度求索2.5次之,其他的暂时还不太行。大名鼎鼎的chagpt过程和结果也不行,所以咱们也不要妄自菲薄,相信国人的智慧。

具体的过程和结果看截图:

文心大模型3.5

123456为毛乘以4确等于740736,请记住这个结果,后边部分的模型计算过程中也会出这样的错,师出同门吗?位数全搞错了,还少位数。

文心大模型4.0

看到这个因式分解,脑洞之大开,不得不让人感叹很强大,说一声厉害,但一顿操作猛如虎,结果只能让人呵呵了。

文心大模型turbo4.0

完美,虽然最后结果可能调用了计算器或者代码,但使用的目的不就是为了省心,不出错吗。花了1毛钱,找的免费试用的链接,花钱的就是香。


通义千问2.5

计算过程中的个位、千位计算错误,明明写的123456*4,实际值却是乘以6。


深度求索2.5

推理过程正确,但为毛结果错误???


月之暗面

计算的逻辑有些问题,没理解不同的位数,个十百位混乱,但计算步骤正确,但是结果又是错误(按混乱后的个十百位计算出的结果之和)。这个第一个结果(740736),和文心一言3.5、通义千问一样的错误,让人不得不怀疑这三个模型是同根同源的。


星火大模型

第一次回答没给出计算过程,结果应该是调用计算器或者编程给出的,第二次给出计算过程,中间的计算正确,最后计算结果错误,又让人搞不懂了。推测无上下文逻辑联系功能,否则不会给出错误的结果还一本正经的胡说,稍微多几项的加法就算错就不行了。


智普轻言

第一次明明白白的告诉结果是调用代码生成的,第二次给出计算过程,部分子计算不正确,但结果又正确了,这让人也搞不懂了。推测结果是基于上下文,但是中间这个逻辑推理不行,说明并不理解计算。


Chatgpt4o

千位、万位计算缺失,也不过如此。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/882982.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

autMan框架的定时推送功能学习

一、定时推送功能简介 “定时推送”位于“系统管理”目录 主要有两个使用方向: 一是定时向某人或某群发送信息。 二是定时运行某指令,就是机器人给自己发指令,让自己运行此指令。 二、定时推送设置 定时:cron表达式,…

Java 21新特性概述

Java 21于2023年9月19日发布,这是一个LTS(长期支持)版本,到此为止,目前有Java 8、Java 11、Java 17和Java 21这四个LTS版本。 Java 21此次推出了15个新特性,本节就介绍其中重要的几个特性: JEP…

Ubuntu20.04安装ROS2教程

Ubuntu20.04安装ROS2教程 ROS 2 安装指南支持的ROS 2 版本设置语言环境(Set locale)设置源(Setup Sources)设置密钥安装 ROS 2 包(Install ROS 2 packages)环境设置(Environment setup&#xff…

java--反射(reflection)

一、反射机制 Java Reflection (1)反射机制允许程序在执行期借助 Reflection API 取得任何类的内部信息(比如成员变量、构造器、成员方法等等),并能操作对象的属性及方法。反射在设计模式和框架底层都会用到。&#x…

时间序列预测(九)——门控循环单元网络(GRU)

目录 一、GRU结构 二、GRU核心思想 1、更新门(Update Gate):决定了当前时刻隐藏状态中旧状态和新候选状态的混合比例。 2、重置门(Reset Gate):用于控制前一时刻隐藏状态对当前候选隐藏状态的影响程度。…

Java项目-基于springboot框架的智慧外贸系统项目实战(附源码+文档)

作者:计算机学长阿伟 开发技术:SpringBoot、SSM、Vue、MySQL、ElementUI等,“文末源码”。 开发运行环境 开发语言:Java数据库:MySQL技术:SpringBoot、Vue、Mybaits Plus、ELementUI工具:IDEA/…

小新学习K8s第一天之K8s基础概念

目录 一、Kubernetes(K8s)概述 1.1、什么是K8s 1.2、K8s的作用 1.3、K8s的功能 二、K8s的特性 2.1、弹性伸缩 2.2、自我修复 2.3、服务发现和负载均衡 2.4、自动发布(默认滚动发布模式)和回滚 2.5、集中化配置管理和密钥…

高效改进!防止DataX从HDFS导入关系型数据库丢数据

高效改进!防止DataX从HDFS导入关系型数据库丢数据 针对DataX在从HDFS导入数据到关系型数据库过程中的数据丢失问题,优化了分片处理代码。改动包括将之前单一分片处理逻辑重构为循环处理所有分片,确保了每个分片数据都得到全面读取和传输&…

Python 实现 excel 数据过滤

一、场景分析 假设有如下一份 excel 数据 shop.xlsx, 写一段 python 程序,实现对于车牌的分组数据过滤。 并以车牌为文件名,把店名输出到 车牌.txt 文件中。 比如 闽A.txt 文件内容为: 小林书店福州店1 小林书店福州店2 二、依赖安装 程序依…

TBWeb正式稳定版V3.4.0+AI+MJ绘画+免授权无后门+详细安装教程

TBWeb正式稳定版V3.4.0AIMJ绘画免授权无后门详细安装教程; 运行环境 Nginx1.22 PHP5.7 MySQL7.4 Redis7.0 Node.js(16.19.1) PM2管理器5.6 TBWeb系统是基于 NineAI 二开的可商业化 TB Web 应用(免授权,无后门&a…

【隐私计算】隐语HEU同态加密算法解读

HEU: 一个高性能的同态加密算法库,提供了多种 PHE 算法, 包括ZPaillier、FPaillier、IPCL、Damgard Jurik、DGK、OU、EC ElGamal 以及基于FPGA和GPU硬件加速版本的Paillier版本。 本文我们会基于GPU运行HEU Docker容器,编译打包GPaillier并测…

算法的学习笔记—两个链表的第一个公共结点(牛客JZ52)

😀前言 在链表问题中,寻找两个链表的第一个公共结点是一个经典问题。这个问题的本质是在两个单链表中找到它们的相交点,或者说它们开始共享相同节点的地方。本文将详细讲解这个问题的解题思路,并提供一种高效的解决方法。 &#x…

蓝牙资讯|iOS 18.1 正式版下周推送,AirPods Pro 2耳机将带来助听器功能

苹果公司宣布将在下周发布 iOS 18.1 正式版,同时确认该更新将为 AirPods Pro 2 耳机带来新增“临床级”助听器功能。在启用功能后,用户首先需要使用 AirPods 和 iPhone 进行简短的听力测试,如果检测到听力损失,系统将创建一项“个…

docker run 命令解析

docker run 命令解析 docker run 命令用于从给定的镜像启动一个新的容器。这个命令可以包含许多选项,下面是一些常用的选项: -d:后台运行容器,并返回容器ID;-i:以交互模式运行容器,通常与 -t …

【C++】string类 (模拟实现详解 下)

我们接着上一篇【C】string类 (模拟实现详解 上)-CSDN博客继续对string模拟实现。从这篇内容开始,string相关函数的实现就要声明和定义分离了。 1.reserve、push_back和append 在string.h的string类里进行函数的声明。 void reserve(size_…

JVM(HotSpot):GC之垃圾回收器的分类

文章目录 前言一、串行二、吞吐量优先三、响应时间优先四、常见垃圾回收器使用组合 前言 上一篇,我们学习了分代回收机制 它的主要内容是对JVM内存的一个划分,以及垃圾回收器工作时,区域运作顺序的一个规定。 所以,它是一个规范。…

Spring Boot论坛网站:开发、部署与管理

3系统分析 3.1可行性分析 通过对本论坛网站实行的目的初步调查和分析,提出可行性方案并对其一一进行论证。我们在这里主要从技术可行性、经济可行性、操作可行性等方面进行分析。 3.1.1技术可行性 本论坛网站采用SSM框架,JAVA作为开发语言,是…

智慧楼宇平台,构筑未来智慧城市的基石

随着城市化进程的加速,城市面临着前所未有的挑战。人口密度的增加、资源的紧张、环境的恶化以及对高效能源管理的需求,都在推动着我们寻找更加智能、可持续的城市解决方案。智慧楼宇作为智慧城市建设的重要组成部分,正逐渐成为推动城市可持续…

MATLAB电化学特性评估石墨和锂电

🎯要点 模拟对比石墨电池的放电电压曲线与实验数据定性差异。对比双箔、多相多孔电极理论和锂电有限体积模型实现。通过孔隙电极理论模型了解粗粒平均质量和电荷传输以及孔隙率的表征意义。锂电中锂离子正向和逆向反应速率与驱动力的指数以及电解质和电极表面的锂浓…

Docker 部署 EMQX 一分钟极速部署

部署 EMQX ( Docker ) [Step 1] : 拉取 EMQX 镜像 docker pull emqx/emqx:latest[Step 2] : 创建目录 ➡️ 创建容器 ➡️ 拷贝文件 ➡️ 授权文件 ➡️ 删除容器 # 创建目录 mkdir -p /data/emqx/{etc,data,log}# 创建容器 docker run -d --name emqx -p 1883:1883 -p 1808…