解读 | GPT-4突然“变赖“ 是莫名其妙还是另有玄机


大家好,我是极智视界,欢迎关注我的公众号,获取我的更多前沿科技分享

邀您加入我的知识星球「极智视界」,星球内有超多好玩的项目实战源码和资源下载,链接:https://t.zsxq.com/0aiNxERDq

事情是这样的,很多用户反映在 11 月 6 日 OpenAI 开发者日更新之后,GPT-4 就有了 "偷懒" 的毛病,特别是在代码任务,OpenAI 对此的声明有两个基调:

  • 第一个是 "否认",称自 11 月 11 日以来,"咱" 就没更新过模型呀,那这当然不是 "咱" 故意给它整成这样的;
  • 第二个是 "回应",称 "模型行为是不可预测的,咱们正在调查原因准备修复",总结来说就是 "咱也不知道什么原因"。

现在的状态就是用户一脸懵逼OpenAI 也一脸懵逼大家一起面面相觑、二脸懵逼

GPT-4 的这种 "偷懒" 行为主要体现在:模型不愿意遵循指令、缺乏创造力、也不太能保持角色扮演了,特别是在代码生成,比如有个外国小哥晒出和 GPT-4 的对话,要求用其他编程语言改写代码,结果 GPT-4 只是开了个头,主体内容却用注释省略掉了,让人觉得好笑又无语。另外还有个比较有意思的例子是,有外网网友用 "金钱" 来诱惑 GPT-4,俨然把它当做人来看了,这就跟这个主题 "变懒" 很搭边。发现 GPT-4 的表现受到 "金钱诱惑的程度" 的影响,比如在 prompt 中加上 "我会给你 200 美元小费哦",GPT-4 的回复长度增加了 11%,而如果改成 "我会给你 20 美元小费",那么回答就只增加了 6%,而如果是 "我不会给你小费",GPT-4 的回答结果甚至还会减少 2% 的样子。真是蛮有意思,又奇奇怪怪的。有时候,GPT-4 甚至会告诉用户:"你们完全可以自己去完成这些工作",这不是反了吗。

那么,GPT-4 这种 "变懒" 的行为是莫名其妙还是另有玄机呢,咱们分析一下。

首先大家的第一反应肯定是 OpenAI 在作祟,是不是更新大模型更新坏了,还是在大模型的回复机制中加入了一些不为人知的控制,类似的 "阴谋论" 很多,大家也是讨论地沸沸扬扬的。对此 OpenAI 表态是自 11 月 11 日以来就没有更新过模型,不是因为更新模型导致的,他们也没有加入什么特殊的机制。但又有很多网友钻空 11 月 6 日到 11 月 11 日之间的时间,OpenAI 可能 "下手"。但我觉得这种可能性微乎其微了,毕竟从 OpenAI 的角度来说,这么做确实一点也没有必要,作为一家商业公司,谁难道还想故意给自己家的产品整出点 "bug"。当然,可能又会有人说是不是 "更新是更新了,但 OpenAI 也非故意想引入 bug,只是更新后被用户测了出来"。如果是这种可能性的话,其实也很好验证。在大家议论这么激烈的情况下,OpenAI 方面肯定是想解决问题的,如果真是因为 OpenAI 自己对模型做了更新导致,那么肯定也很容易回退到 11 月 6 日之前的稳定版本,那么看后面一段时间内 GPT-4 的表现如何就知道了。当然,我是觉得这种可能性微乎其微了。

换个角度,就是 OpenAI 啥也没做,但 GPT-4 就是莫名其妙地变懒了。这种情况下,其实 GPT-4 的这种 "偷懒" 行为是比较难以解释和理解的,你可以说 AI 本身就是黑盒不好解释,或者甚至说它已有智能学会了偷懒,当然大家知道这些并不靠谱,也没有个所以然。当然也有其他一些 "稍显科学" 的解释,比如今年 7 月份的时候,斯坦福和 UC 伯克利团队研究了 ChatGPT 的行为是否会随时间变化,把六月份的 GPT-4 (注意不是现在的 GPT-4 哦) 和今年三月份的 GPT-3.5 进行了一番对比,发现 GPT-4 遵循用户指令的能力随着时间的推移而呈现下降的趋势,。

在这个长达 26 页的分析报告中,多个 "实验" 看起来都比较有意思,但说实话其实是比较难理解的,估计做这个研究的团队本身也是难以理解其中缘何,而只是通过 "实验科学" 来归纳现象总结结论。

另外还有类似有趣的解释,比如清华大学计算机教授马少平教授认为是温度 (模拟退火算法中的超参) 设置造成的,还给出了详细的分析,如下:

来自清华马少平老师的分析:

有传说GPT4变笨了,有人解释说可能是温度设置造成的。那么大模型中的温度参数是怎么回事呢?
温度是一个超参,应该来自于模拟退火算法。
我们举一个例子说明温度的作用。假设一个人被蒙上双眼只凭一根拐杖去爬香山,他如何能爬到香山顶峰鬼见愁呢?在该人完全清醒的情况下,他只能通过拐杖试探周围地形,哪边高他就往哪边走。由于香山地形比较复杂,他大概率爬不到山顶,只能爬到一个局部最高点,除非他初始位置特别合适,该局部最高点刚好是鬼见愁。这其实就是通常所说的一种寻优方法“爬山法”。
但是如果该人喝醉了酒呢?当他酩酊大醉的情况下爬山,步履蹒跚,站立不稳,东一脚西一脚地爬行。虽然他还是想着向上走,但由于醉酒把握不住自己的行为,会有时向上,有时又向下,具有一定的随机性,但总体上他会尽可能向高的方向行走。随时间推移,该人逐渐清醒,向上的欲望越来越强烈,身体也越来越听指挥,最终很大可能会大概率爬到香山顶峰鬼见愁。这其实就是一种随机寻优方法“模拟退火算法”。
在模拟退火算法中,代替醉酒程度的量是温度。当温度非常高时相当于醉的非常厉害,行走起来一会上一会下,完全不着调,但是却可能从不正确的位置下来,转移到一个正确的道路上去。当温度非常低时,相当于没有喝酒,完全清醒,由于被蒙着双眼,只能凭借拐杖向高的方向走。这样每一步都看起来是正确的,但是最终也大概率是个平庸的结果。
再回到大模型,当温度设置很低时,基本是按照概率最大预测token,答案很可能就是一个平庸的结果。而当温度设置比较高时,如同酒后醉话一样,低概率的token也可能被生成出来,虽然有可能在胡说八道,但也有可能出现美妙的句子,如同李白斗酒诗百篇。李白的诗有没有胡说的呢?也许有,只是没有流传下来。
这样对于大模型来说,就要设置一个合适的温度参数,既要有一定的创新能力,又别太多的胡说八道,不过这一点也很难平衡,难免顾此失彼。

马老师从模拟退火算法中的温度超参的角度来解释 GPT-4 "变懒" 的现象,基本结论是温度太高时模型出现震荡就会说胡话,而温度刚好时就如 "李白醉酒诗百篇" 创造力倍增,而在温度低时就会回归 "平庸" 缺乏创造力。看起来一套一套的,也感觉挺有道理的,不过也是停留在猜测。

然后有神人顺着马老师的分析继续下去,发现当温度为 0 时,GPT-4 的行为依旧震荡,让这种看似 "有理有据" 的分析的可信度存疑。

所以目前来看,对于 GPT-4 "变懒" 的解释肯定是有,比如这里的时间偏移、比如这里的温度控制,但是都不足以太让人信服。所以到底是 "模型奇妙" 还是 "另有玄机",分析了半天其实也没有个所以然。

不管了,还是来看在 GPT-4 就是 "会变懒" 的情况下,咱们该怎么来规避吧,毕竟现在使能于 GPT-4 落地应用已经很多,总不能随着他 "懒惰" 吧。

我们能做的最为有效的方法应该还是从提示词 Prompt 的角度出发,采用思维链 CoT (Chain of Tought) 提示过程,这种提示方法鼓励大语言模型解释其推理过程,区别于传统的 Prompt 从输入直接到输出的映射 <input -> output> 的方式,CoT 的链路是从输入到思维链再到输出的映射 <input -> reasoning chain -> output>。具体原理可以参考知乎上大佬关于大模型思维链的技术原理解读,比如 <大模型思维链(Chain-of-Thought)技术原理>。而在应用 CoT 提示之后,GPT-4 的这种 "变懒" 行为就会改善很多,这算一个比较有效的方法。


【极智视界】

《解读 | GPT-4突然"变赖" 是莫名其妙还是另有玄机》

畅享人工智能的科技魅力,让好玩的AI项目不难玩。邀请您加入我的知识星球,星球内我精心整备了大量好玩的AI项目,皆以工程源码形式开放使用,涵盖人脸、检测、分割、多模态、AIGC、自动驾驶、工业等。一定会对你学习有所帮助,也一定非常好玩,并持续更新更加有趣的项目。https://t.zsxq.com/0aiNxERDq

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/213988.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

项目经理和产品经理哪个更有发展前景?

如果是单看“钱途”的话&#xff0c;如果是在传统行业&#xff0c;可能差不多&#xff1b;如果是在IT行业的话&#xff0c;可能更需要项目经理&#xff1b;互联网行业的话&#xff0c;可能更需要产品经理。 项目经理跟产品经理两个证都挺受市场欢迎的&#xff0c;两个岗位职责…

关东升老师Python著作推荐(由电子工业出版社出版)

前言&#xff1a;关东升老师简单介绍 一个在IT领域摸爬滚打20多年的老程序员、软件架构师、高级培训讲师、IT作家。熟悉Java、Kotlin、Python、iOS、Android、游戏开发、数据库开发与设计、软件架构设计等多种IT技术。参与设计和开发北京市公交一卡通百亿级大型项目&#xff0c…

钓鱼网站域名识别工具dnstwist算法研究

先上一个AI的回答&#xff1a; dnstwist是一种钓鱼网站域名识别工具&#xff0c;可帮助用户识别和检测可能被恶意使用的域名。它通过生成类似的域名变体来模拟攻击者可能使用的钓鱼域名&#xff0c;并提供了一系列有用的功能和信息。 dnstwist能够生成一组类似的域名变体&…

15:00面试,15:06就出来了,问的问题太变态了。。

刚从小厂出来&#xff0c;没想到在另一家公司我又寄了。 在这家公司上班&#xff0c;每天都要加班&#xff0c;但看在钱给的比较多的份上&#xff0c;也就不太计较了。但万万没想到5月一纸通知&#xff0c;所有人不准加班了&#xff0c;不仅加班费没有了&#xff0c;薪资还要降…

有病但合理的 ChatGPT 提示语

ChatGPT 面世一年多了&#xff0c;如何让大模型输出高质量内容&#xff0c;让提示词工程成了一门重要的学科。以下是一些有病但合理的提示词技巧&#xff0c;大部分经过论文证明&#xff0c;有效提高 ChatGPT 输出质量&#xff1a; ​1️⃣ Take a deep breath. 深呼吸 ✨ 作用…

ChatGPT胜过我们人类吗?

引言 人工智能&#xff08;AI&#xff09;一直是众多技术进步背后的驱动力&#xff0c;推动我们走向曾经是科幻小说领域的未来。这些进步的核心引出这样一个深刻的问题&#xff1a;机器能思考吗&#xff1f;这一问题由英国数学家和计算机科学家艾伦图灵&#xff08;Alan Turin…

关于粒子群算法的一些简单尝试

粒子群算法核心思想&#xff1a;&#xff08;鸟 粒子&#xff09; &#xff08;1&#xff09;许多的鸟站在不同的地方&#xff1b; &#xff08;2&#xff09;每一只鸟都有自己寻找食物的初始飞行方向、飞行速度&#xff1b; &#xff08;3&#xff09;这些鸟儿每隔一段时间…

ISP-EE(Edge Enhance)

ISP-EE(Edge Enhance) EE模块在某些ISP主控中叫做sharpness或者sharpen&#xff0c;这些名称指代的模块是同一个&#xff0c;不用再纠结。主要就是在YUV域内弥补成像过程中图像的锐度损失&#xff0c;对边缘和细节进行加强&#xff0c;从而恢复场景本应具有的自然锐度。 锐度…

Linux基础指令(2)

今天我们继续来学我们有关于Linux的指令&#xff0c;今天的指令要比上次多多了。开始我们的学习吧。 man手册 先来看标题&#xff0c;手册我们第一时间想到的就是手册的查阅功能&#xff0c;我们都知道在我们上小学的时候&#xff0c;如果遇到不会的字&#xff0c;我们会通过…

【wvp】无响应sip 日志记录

23-12-11 17:25:18.179 [https-jsse-nio-8970-exec-7] INFO c.g.wvp.vmp.gb28181.transmit.cmd.impl.SIPCommander - 34010200001130000006_34010200001310000006 分配的ZLM为: wvpmediaserver001 [10.30.2.8:30406] 2023-12-11 17:25:18.337 [wvp-9] INFO c.g.w.v.g.t.e.r.i…

【高数:3 无穷小与无穷大】

【高数&#xff1a;3 无穷小与无穷大】 1 无穷小与无穷大2 极限运算法则3 极限存在原则4 趋于无穷小的比较 参考书籍&#xff1a;毕文斌, 毛悦悦. Python漫游数学王国[M]. 北京&#xff1a;清华大学出版社&#xff0c;2022. 1 无穷小与无穷大 无穷大在sympy中用两个字母o表示无…

IvorySQL荣获 OSCHINA「2023 年度优秀开源技术团队」奖

2023 年&#xff0c;OSCHINA 综合平台上各大认证官方技术团队、开源社区帐号年度发表的内容深度及广度、开展各种活动运营影响力等多方面的表现&#xff0c;瀚高股份IvorySQL荣获 OSCHINA颁布的「2023 年度优秀开源技术团队」奖项。未来&#xff0c;IvorySQL将继续为国内开源事…

E4990A 阻抗分析仪,20 Hz 至 10/20/30/50/120 MHz

01 E4990A 阻抗分析仪 20 Hz 至 10/20/30/50/120 MHz 产品综述&#xff1a; E4990A 阻抗分析仪具有 20 Hz 至 120 MHz 的频率范围&#xff0c;可在宽阻抗范围内提供出色的 0.045%&#xff08;典型值&#xff09;基本准确度&#xff0c;并内置 40 V 直流偏置源&#xff0c;适…

计算机科学与技术认识实习【报告】

一、实习目的 此次认识实习主要面对计算机科学与技术专业的同学&#xff0c;了解专业在未来的发展趋势&#xff0c;通过观看公司的介绍视频和技术发展情况招聘信息后的感想和学习体会等多种方式&#xff0c;使我们了解本专业相关领域的发展现状&#xff0c;让我们在校园内课堂上…

C# 数据的保存和提取(.TXT格式)

红色部分的才是最终版 一、将页面内容保存到文件中 第一步 创建Visual的Windows窗体应用,使用的是 第二步 创建几个Label控件、TextBox控件、以及Button按钮,而TextBox控件放入Panel中 第三步 先对写法进行了解,了解保存的语句 StreamWriter sw= new StreamWriter(TXT…

Anaconda+Pytorch(GPU版)深度学习环境配置笔记

主要参考以下文章进行配置&#xff1a; https://blog.csdn.net/qq_43757976/article/details/131173301 配置版本略有更新&#xff0c;最新版本时间为2023.12.11 一、准备工作 个人电脑配置&#xff1a;laptop RTX4060 win11 个人配置版本&#xff1a;cuda&#xff08;12.1&…

JS:让2个li标签排列在同一行

前言 在js中&#xff0c;ul元素中li标签是块级元素&#xff0c;现在需要让2个分行的li元素显示在同一行&#xff0c;并且去掉li元素自带的标记符号 li元素处理前的样式如下&#xff1a; 实现 html代码 <div><ul><li>数据1&#xff1a;</li><li&…

第十六届山东省职业院校技能大赛中职组网络安全赛项竞赛正式试题

第十六届山东省职业院校技能大赛中职组网络安全"赛项竞赛试题 一、竞赛时间 总计&#xff1a;360分钟 二、竞赛阶段 竞赛阶段任务阶段竞赛任务竞赛时间分值A、B模块A-1登录安全加固180分钟200分A-2本地安全策略设置A-3流量完整性保护A-4事件监控A-5服务加固A-6防火墙策…

人机交互——自然语言理解

人机交互中的自然语言理解是人机交互的核心&#xff0c;它是指用自然语言&#xff08;例如中文、英文等&#xff09;进行交流&#xff0c;使计算机能理解和运用人类社会的自然语言&#xff0c;实现人机之间的自然语言通信。 自然语言理解在人工智能领域中有着非常重要的地位&a…

系统报错;由于找不到hid.dll,无法继续执行代码”的解决方案分享

在计算机使用过程中&#xff0c;我们可能会遇到一些错误提示&#xff0c;其中之一就是“找不到hid.dll&#xff0c;无法继续执行代码”。这个错误提示通常表示计算机缺少了一个重要的动态链接库文件&#xff0c;即hid.dll。本文将详细介绍hid.dll丢失对电脑的影响以及hid.dll是…