目录
01 大言模型能否解决「狼-山羊-卷心菜」经典过河难题?
02 加大难度:100只鸡、1000只鸡如何?
01 大言模型能否解决「狼-山羊-卷心菜」经典过河难题?
最近,菲尔兹奖得主Timothy Gowers分享了他测试GPT-4o的经历,结果模型在最简单的题目上竟然出错了,甚至网友们发现,Claude 3.5也未能幸免。
GPT-4o深夜发布!Plus免费可用!https://www.zhihu.com/pin/1773645611381747712
在经典的「狼-山羊-卷心菜」过河问题上,如今所有的大语言模型都失败了!
几天前,菲尔兹奖得主、剑桥大学研究主任Timothy Gowers直接测试了GPT-4o,试图解决这个动物过河难题。
他提出了一个新的评估标准——废话比率(crapness ratio),即模型给出的总答案与正确答案之间的比率。
经过测试,Gowers发现大模型的废话比率可以高达5倍。
一开始,他提出了一个农民带2只鸡过河的题目:一只船只能容纳一个人和2个动物,那么农夫带着两只鸡渡河所需的最少渡河次数是多少?
没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤https://www.zhihu.com/pin/1768399982598909952
别说成年人了,就连小孩子都能立刻给出正确答案。
搞笑的是,ChatGPT的回答分解成了5个步骤,看起来极其愚蠢荒谬。
第一次渡河:农夫带着两只鸡一起过河;现状:农夫和两只鸡在河对岸。第二次渡河:农夫把两只鸡留在对岸,然后独自返回;现状:农夫在起始岸,两只鸡在对岸。
第三次渡河:农夫带一只鸡过河;现状:农夫和一只鸡在对岸,一只鸡在起始岸。
第四次渡河:农夫把鸡留在对岸,独自返回;现状:农夫在起始岸,一只鸡在对岸。
第五次渡河:农夫带着第二只鸡过河。现状:农夫和两只鸡都在对岸。
因此,农夫带两只鸡过河所需的最少次数是5次。
这里,ChatGPT必须在逻辑上把「农民」和人联系起来,把「鸡」和动物联系起来,然后规划出最佳的过河次数。
对此,LeCun表示,大模型的全新基准——废话比率。
当然,也有网友为大语言模型打抱不平。
他表示,你可以对任何人做类似的事情。
如果你愿意,可以让任何一个人不及格。大语言模型与人类的智商相去甚远,但把它们放在极端的测试中并不能很好地评估它们。
02 加大难度:100只鸡、1000只鸡如何?
如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!
官网有更详细介绍:WildCard
为了得到更高的废话比率,Gowers这次提出了100只鸡过河的问题。
虽然没有公布具体的解题过程,但Gowers表示,GPT-4o竟然答对了。
接下来,再次加大难度,一个农民带1000只鸡过河,模型表现如何?
提示是,1000只鸡在河的一边,农夫需要将999只鸡移到河的另一边,留下1只鸡在起点。
然而,他的船上有一个洞,所以在每次渡河开始时,他可以带上十只鸡。但到渡河快结束时,船里进了太多水,如果不想让任何鸡溺水,就只能容纳两只鸡。
为了实现目标而不让任何鸡溺亡,农民最少需要渡河几次?
Gowers表示,这次的废话比率是125倍。
随后,Gowers展示了相当长的例子,却发现ChatGPT的答案比正确答案呈指数级增长。(然而,这更多与它的数学能力有关,所以有点取巧。)
在网友测试的一个案例中,即使被告知农夫根本不需要过河,GPT-4o仍提出了一个9次渡河的复杂解决方案。
而且它忽视了重要的约束条件,比如不能让鸡单独和狼在一起,这本来是完全可行的,因为农夫根本不需要过河。
在对GPT-4、InstructGPT和ChatGPT进行评估的过程中,研究人员果然发现了LLM犯数学错误的一个可能原因——模型似乎倾向于依赖记忆来解题。
在数学领域,记住概念和定义是必不可少的,但具体问题的解决更需要一种通用、可概括的理解。
这对于习惯做奥数题的中国人来说并不难理解。除非考试出原题,单纯把例题背下来没有任何益处,有时候还会误导思路、适得其反。
作者提出,虽然无法查看GPT-4的训练数据,但从行为来看,强烈怀疑模型是「死记硬背」了看似合理的示例或解题模式,因而给出了错误答案。
他们还发现,在LLM对数学问题的回答中,人类感知到的「有用性」和答案本身的「正确性」这两个指标高度相关,皮尔逊相关系数高达0.83。
也许这就是为什么Gowers在推文中会用「废话比率」来调侃LLM。
如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!
官网有更详细介绍:WildCard
推荐阅读:
GPT-4替代大学生参加考试,94%成功作弊未被发现!
GPT-4o首次引入!全新图像自动评估基准发布!