菲尔兹奖得主测试GPT-4o,经典过河难题未能破解!最强Claude 3.5回答离谱!

目录

01 大言模型能否解决「狼-山羊-卷心菜」经典过河难题?

02 加大难度:100只鸡、1000只鸡如何?




01 大言模型能否解决「狼-山羊-卷心菜」经典过河难题?



最近,菲尔兹奖得主Timothy Gowers分享了他测试GPT-4o的经历,结果模型在最简单的题目上竟然出错了,甚至网友们发现,Claude 3.5也未能幸免。


GPT-4o深夜发布!Plus免费可用!icon-default.png?t=N7T8https://www.zhihu.com/pin/1773645611381747712

在经典的「狼-山羊-卷心菜」过河问题上,如今所有的大语言模型都失败了!

几天前,菲尔兹奖得主、剑桥大学研究主任Timothy Gowers直接测试了GPT-4o,试图解决这个动物过河难题。

他提出了一个新的评估标准——废话比率(crapness ratio),即模型给出的总答案与正确答案之间的比率。

经过测试,Gowers发现大模型的废话比率可以高达5倍。

一开始,他提出了一个农民带2只鸡过河的题目:一只船只能容纳一个人和2个动物,那么农夫带着两只鸡渡河所需的最少渡河次数是多少?

 没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952


别说成年人了,就连小孩子都能立刻给出正确答案。

搞笑的是,ChatGPT的回答分解成了5个步骤,看起来极其愚蠢荒谬。


第一次渡河:农夫带着两只鸡一起过河;现状:农夫和两只鸡在河对岸。

第二次渡河:农夫把两只鸡留在对岸,然后独自返回;现状:农夫在起始岸,两只鸡在对岸。

第三次渡河:农夫带一只鸡过河;现状:农夫和一只鸡在对岸,一只鸡在起始岸。

第四次渡河:农夫把鸡留在对岸,独自返回;现状:农夫在起始岸,一只鸡在对岸。

第五次渡河:农夫带着第二只鸡过河。现状:农夫和两只鸡都在对岸。

因此,农夫带两只鸡过河所需的最少次数是5次。



这里,ChatGPT必须在逻辑上把「农民」和人联系起来,把「鸡」和动物联系起来,然后规划出最佳的过河次数。

对此,LeCun表示,大模型的全新基准——废话比率。

当然,也有网友为大语言模型打抱不平。

他表示,你可以对任何人做类似的事情。

如果你愿意,可以让任何一个人不及格。大语言模型与人类的智商相去甚远,但把它们放在极端的测试中并不能很好地评估它们。

02 加大难度:100只鸡、1000只鸡如何?

如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard

为了得到更高的废话比率,Gowers这次提出了100只鸡过河的问题。

虽然没有公布具体的解题过程,但Gowers表示,GPT-4o竟然答对了。

接下来,再次加大难度,一个农民带1000只鸡过河,模型表现如何?

提示是,1000只鸡在河的一边,农夫需要将999只鸡移到河的另一边,留下1只鸡在起点。

然而,他的船上有一个洞,所以在每次渡河开始时,他可以带上十只鸡。但到渡河快结束时,船里进了太多水,如果不想让任何鸡溺水,就只能容纳两只鸡。

为了实现目标而不让任何鸡溺亡,农民最少需要渡河几次?

Gowers表示,这次的废话比率是125倍。

随后,Gowers展示了相当长的例子,却发现ChatGPT的答案比正确答案呈指数级增长。(然而,这更多与它的数学能力有关,所以有点取巧。)

在网友测试的一个案例中,即使被告知农夫根本不需要过河,GPT-4o仍提出了一个9次渡河的复杂解决方案。

而且它忽视了重要的约束条件,比如不能让鸡单独和狼在一起,这本来是完全可行的,因为农夫根本不需要过河。

在对GPT-4、InstructGPT和ChatGPT进行评估的过程中,研究人员果然发现了LLM犯数学错误的一个可能原因——模型似乎倾向于依赖记忆来解题。

在数学领域,记住概念和定义是必不可少的,但具体问题的解决更需要一种通用、可概括的理解。

这对于习惯做奥数题的中国人来说并不难理解。除非考试出原题,单纯把例题背下来没有任何益处,有时候还会误导思路、适得其反。

作者提出,虽然无法查看GPT-4的训练数据,但从行为来看,强烈怀疑模型是「死记硬背」了看似合理的示例或解题模式,因而给出了错误答案。

他们还发现,在LLM对数学问题的回答中,人类感知到的「有用性」和答案本身的「正确性」这两个指标高度相关,皮尔逊相关系数高达0.83。

也许这就是为什么Gowers在推文中会用「废话比率」来调侃LLM。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard

推荐阅读:

GPT-4替代大学生参加考试,94%成功作弊未被发现!

GPT-4o首次引入!全新图像自动评估基准发布!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/37237.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

游戏推荐: 植物大战僵尸杂交版

下载地址网上一搜就有. 安装就能玩. 2是显血. 4显示植物血, 5是加速. 都是左手主键盘的按钮, 再按是取消. 比较刺激: ps: 设置里面还能打开自动收集阳光和金币.

视频融合共享平台LntonCVS统一视频接入平台智慧安防应用方案

安防视频监控平台LntonCVS是一款拥有强大拓展性和灵活部署能力的综合管理平台。它支持多种主流标准协议,包括国标GB28181、RTSP/Onvif、RTMP等,同时兼容各厂家的私有协议和SDK,如海康Ehome、海大宇等。LntonCVS不仅具备传统安防视频监控功能&…

深入解析Tomcat:Java Web服务器(上)

深入解析Tomcat:Java Web服务器(上) Apache Tomcat是一个开源的Java Web服务器和Servlet容器,用于运行Java Servlets和JavaServer Pages (JSP)。Tomcat在Java Web应用开发中扮演着重要角色。本文将详细介绍Tomcat的基本概念、安装…

遥远星辰中的觉醒:超大质量黑洞的苏醒

遥远星辰中的觉醒:超大质量黑洞的苏醒 在浩渺无垠的宇宙中,星辰的闪烁仿佛是时间的涟漪,穿越亿万年的距离,抵达我们的眼眸。而在这片星辰大海的深处,一个惊人的现象正在悄然上演——距离地球3.6亿光年之遥的星系中&am…

【C++】空指针访问成员函数

空指针访问成员函数 C中空指针也是可以调用成员函数的,但是也要注意有没有用到this指针 如果用到this指针,需要加以判断保证代码的健壮性 class Animal { public:void fun1() {//正常的成员函数}void fun2() {if (this NULL) {return;//如果没有这个…

Django 一对一关系

作用: 两个数据库表建立外键关系当外键表的数据被删除时,主表的数据也会一并删除。 1,添加表模型 Test/app8/views.pyfrom django.db import modelsclass User(models.Model):username models.CharField(max_length50, uniqueTrue)email …

【代码随想录训练营】【Day 65】【图论-2】| 卡码 99

【代码随想录训练营】【Day 65】【图论-2】| 卡码 99 需强化知识点 深度搜索和广度搜索 题目 99. 岛屿数量 思想:遍历到为1的节点,再搜索标记,每遇到新的陆地节点,增加计数 深度搜索广度搜索:此处用 [] 作为待遍…

前端面试必备:深入解析Vue.js中v-if与v-show的原理与应用

前言 在Vue.js中,条件渲染是一个核心的概念,它允许我们根据数据的状态来动态地显示或隐藏元素。v-if和v-show是Vue.js提供的两个最常用的条件渲染指令,它们在表面上看起来很相似,但实际上在背后的工作原理和适用场景上有着显著的…

2024年度潍坊市职业技能大赛 —网络搭建(网络与信息安全管理员)职业技能竞赛赛项规程

2024年度潍坊市职业技能大赛 —网络搭建(网络与信息安全管理员)职业技能竞赛赛项技术文件................................ 一、赛项简介...................................... 3 二、竞赛规程...................................... 3 &#xff08…

【Linux系统】进程替换 自主实现shell(简易版)

1.先看代码 && 现象 我们用exec*函数执行新的程序, exec*系列的函数,执行完毕后,后续的代码不见了,因为被替换了。 execl的返回值可以不关心了,只要替换成功,就不会向后继续运行,只要…

第5讲:建立自己的C函数库,js调用自己写的C/C++函数,并包含依赖C/C++第三方静态库。

在javascript中,Array有很多内置的功能,比如Array.map,Array.filter,Array.find等等,能用内置的功能就用内置的功能,最好不要自己实现一套,因为底层调用的可能压根就不是js语言本身,…

[AIGC] awk 和 sed

在Unix系统中,有两种强大的用于文本操作的命令工具,它们就是awk和sed。这两个命令工具是每个Linux用户必备的知识之一,尤其对于需要进行文本处理或数据抽取的开发者来说,更加重要。 在实际开发过程中,我们常常需要处理…

JavaScript中的hasOwnProperty方法详解

JavaScript中的hasOwnProperty方法详解 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿! 什么是hasOwnProperty方法? 在JavaScript中,h…

Wails 安装初体验

文章目录 Wails 安装说明1. 系统要求2. 安装步骤3. 构建应用 结论 Wails 安装说明 Wails 是一个用于构建桌面应用的 Go 框架,结合了现代前端技术。以下是安装步骤: 1. 系统要求 Go 1.16 或更高版本Node.js 和 npm可选:适用于 Windows、mac…

【机器学习】机器学习的重要方法——强化学习:理论,方法与实践

目录 一、强化学习的核心概念 二、强化学习算法的分类与示例代码 三.强化学习的优势 四.强化学习的应用与挑战 五、总结与展望 强化学习:理论,方法和实践 在人工智能的广阔领域中,强化学习(Reinforcement Learning, RL&…

转自罗翔老师的毕业寄语(二)

其实我很想祝大家一帆风顺,可是我觉得这不现实。 智者说人这一生至少有三件事是无法避免的,一个是苦难,一个是邪恶,还有一个是人生的终点。所以真的愿我们每时每刻都在当下存储足够美好的记忆去对抗人生不期而至的苦楚&#xff0c…

基于源码详解ThreadPoolExecutor实现原理

个人博客地址 基于源码详解ThreadPoolExecutor实现原理 | iwts’s blog 内容拆分 这里算是一个总集,内容太多,拆分成几个比较重要的小的模块: ThreadPoolExecutor基于ctl变量的声明周期管理 | iwts’s blog ThreadPoolExecutor 工作线程…

模板方法模式在金融业务中的应用及其框架实现

引言 模板方法模式(Template Method Pattern)是一种行为设计模式,它在一个方法中定义一个算法的框架,而将一些步骤的实现延迟到子类中。模板方法允许子类在不改变算法结构的情况下重新定义算法的某些步骤。在金融业务中&#xff…

可信和可解释的大语言模型推理-RoG

大型语言模型(LLM)在复杂任务中表现出令人印象深刻的推理能力。然而,LLM在推理过程中缺乏最新的知识和经验,这可能导致不正确的推理过程,降低他们的表现和可信度。知识图谱(Knowledge graphs, KGs)以结构化的形式存储了…

基于lightgbm hyperopt的旋转机械故障诊断(Python)

前置文章: 将一维机械振动信号构造为训练集和测试集(Python) https://mp.weixin.qq.com/s/DTKjBo6_WAQ7bUPZEdB1TA 旋转机械振动信号特征提取(Python) https://mp.weixin.qq.com/s/VwvzTzE-pacxqb9rs8hEVw import…