认知篇:什么是逆转诅咒?一个提问GPT的错误姿势

本系列文章主要是分享一些关于大模型的一些学术研究或者实验性质的探索,为大家更新一些针对大模型的认知。所有的结论我都会附上对应的参考文献,有理有据,也希望这些内容可以对大家使用大模型的过程有一些启发。

注:本系列研究关注的是大型语言模型(Large Language Models, LLMs)的普遍特性,而非专指GPT。在文中,我们使用“GPT”作为一个典型例子来代表这一类模型,但请读者注意,所讨论的观点和结论通常也适用于其他同类大型模型。这样的表述旨在简化叙述,同时也强调了这些发现的广泛适用性。

不定期更新,敬请期待~

首先看一个例子,拿古诗“黄鹤一去不复返,白云千载空悠悠”的一部分去提问GPT。
如果向GPT-4提出正向的问题,它能正确地回答:

回答正确

但是,如果我们提出反向的问题,它就无法给出正确的答案:
回答错误

这个现象其实并不难理解。还记得小时候背古诗,如果被问到上半句,我们通常能很容易地接出下半句。但如果被问到下半句,我们可能需要花费一些时间来回忆上半句。

然而,这并非特例。相反,这是一个广泛存在于大模型中的现象,称为「逆转诅咒」。

参考文献:The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A”

这篇论文就探讨了大模型在泛化能力上的一个意外失败现象,即所谓的「逆转诅咒」(Reversal Curse)。论文指出,如果一个模型在训练时学习到的句子是“A是B”(例如,“Olaf Scholz是德国第九任总理”),它不会自动泛化到相反的方向“B是A”(例如,“谁是德国第九任总理?”)。

为了证明这一现象,作者通过在虚构陈述上微调GPT-3和Llama-1模型(例如,“Uriah Hawthorne是Abyssal Melodies的作曲家”),并展示它们无法正确回答“谁是Abyssal Melodies的作曲家?”。作者还评估了ChatGPT(GPT-3.5和GPT-4)在关于真实世界名人的问题上的表现,例如“Tom Cruise的母亲是谁?”(答案:Mary Lee Pfeiffer)和相反的“Mary Lee Pfeiffer的儿子是谁?”(答案:Tom Cruise)。GPT-4正确回答前者问题的概率为79%,而后者只有33%,这进一步证实了逻辑推理的失败。

论文还探讨了这一现象的原因,提出可能与模型的训练方式有关,即模型在训练过程中可能没有学会从“A是B”推断出“B是A”。此外,作者还提出了一些可能的解决方案,例如改变数据的呈现方式,或者在微调过程中包含更多样例,但这些方法并未能缓解“反转诅咒”。

这个现象也提醒我们在使用大模型时,要尽量避免提出过于逆向的问题,以免影响模型的回答准确性。

挽弓当挽强,用人当用长。

当然,这并不意味着我们不能提出逆向问题,而是要在提问时,你要对GPT的回答有一个清楚的预期…,知道它甚至不一定答对简单的问题。如果你刚好有一个任务需要GPT反着回答的时候,你此时应该降低预期。

下一篇,请看如何针对这个问题,进行拨乱反正。

认知篇:什么是CoT(思维链)? 也许GPT需要你引导

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/656178.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

养猫家庭如何挑选宠物空气净化器?猫用空气净化器品牌推荐!

家里的猫咪真的太可爱了,但它们的毛发总是无处不在。而且猫砂盆一天不清理,整个屋子都会弥漫着臭味。每天打扫也很费时费力,虽然享受着猫咪带来的快乐,但也不得不面对这些困扰。 一直以来,我都想购买一台空气净化器&a…

宠物处方单子怎么开,宠物门诊处方管理软件教程

宠物处方单子怎么开,宠物门诊处方管理软件教程 一、前言 宠物店电子处方软件操作教程以 佳易王宠物店电子处方管理系统V16.0为例说明。 如图,在开处方的时候,点击导航栏菜单,兽医处方按钮 点击 增加新单,填写宠物及…

Security ❀ HTTP/HTTPS逐包解析交互过程细节

文章目录 1. TCP三次握手机制2. HTTP Request 请求报文3. HTTP Response 响应报文4. SSL/TLS协议4.1. ClientHello 客户端Hello报文4.2 ServerHello 服务器Hello报文4.3. *ServerKeyExchange 服务公钥交换4.4. ClientKeyExchange 客户端公钥交换4.5. *CertificateVerify 证书验…

graphviz下载与使用-----决策树可视化

下载graphviz 官网:https://www.graphviz.org/download/ 安装graphviz 双击安装程序

报错“MySql配置文件已损坏,请联系技术支持”的解决方法

目录 第一步 打开控制面板,选择管理工具,再选择事件查看器 第二步 在【应用程序】里找到这条报错,记下来文件内容。我自己的来源是“MsiInstaller” 第三步 winR组合键,输入regedit打开注册表 第四步 根据前面报错的文件名定位…

靠着这篇笔记,我拿下了16k车载测试offer!

🔥 交流讨论:欢迎加入我们一起学习! 🔥 资源分享:耗时200小时精选的「软件测试」资料包 🔥 教程推荐:火遍全网的《软件测试》教程 📢欢迎点赞 👍 收藏 ⭐留言 &#x1…

构建基于Flask的跑腿外卖小程序

跑腿外卖小程序作为现代生活中的重要组成部分,其技术实现涉及诸多方面,其中Web开发框架是至关重要的一环。在这篇文章中,我们将使用Python的Flask框架构建一个简单的跑腿外卖小程序的原型,展示其基本功能和实现原理。 首先&…

NVIDIA Isaac Sim 入门教程(二)

系列文章目录 前言 一、简介 1.1. Isaac Sim Interface 1.1.1. 学习目标 本教程介绍了Omniverse Isaac Sim中最常用的用户界面按钮、菜单和控件。学完本教程后,您应该能够更自信地在 Isaac Sim 界面中浏览和查找内容。 1.1.2. 入门 首先在场景中添加一个立方体。…

银行数据仓库体系实践(14)--数据应用之内部报表及数据分析

在银行日常经营中,每个部门、分支行随时随地都需要进行数据统计和分析,才能对银行当前业务状况及时了解,以进行后续经营策略、营销活动、风险策略的调整和决策。那在平时进行数据分析时除了各数据应用系统(如各类监管报表系统、财…

Linux浅学笔记03

目录 有关root的命令 用户和用户组 用户组管理:(以下需要root用户执行) 创建用户组: 删除用户组: 用户管理:(以下需要root用户执行) 创建用户: 删除用户: 查看用…

【算法专题】贪心算法

贪心算法 贪心算法介绍1. 柠檬水找零2. 将数组和减半的最少操作次数3. 最大数4. 摆动序列(贪心思路)5. 最长递增子序列(贪心算法)6. 递增的三元子序列7. 最长连续递增序列8. 买卖股票的最佳时机9. 买卖股票的最佳时机Ⅱ(贪心算法)10. K 次取反后最大化的数组和11. 按身高排序12…

BUUCTF misc 二维码

目录 将Windows中的文件传输到Linux虚拟机中 binwalk用法 kali-linux中使用fcrackzip工具爆破zip密码 打开题目: 下载并解压后,得到一张二维码图片,我们使用 toolhelper.cn 里的二维码解析小工具查看得到: 可以看到 secret is …

开源知识库:让企业低成本实现知识管理

管理和利用企业内部知识已经成为提升效率和竞争力的重要手段。而对于大多数企业,尤其是中小企业而言,如何在有限的预算下,实现高效的知识管理,仍是一项挑战。面对这一问题,开源知识库应运而生。今天,我们将…

羊奶的神奇功效,喝着喝着皮肤就更年轻了!

羊奶的神奇功效,喝着喝着皮肤就更年轻了! 羊奶,作为一种珍贵的食品,一直以来都备受人们的青睐。它不仅具有丰富的营养价值,还拥有许多独特的保健功效。喝着羊奶,不仅能享受美味,还能帮助我们实…

VBA语言専攻介绍(更新)

VBA语言専攻简介 我给VBA的定义:VBA是个人小型自动化处理的有效工具。我这里专注VBA,垂直度非常高,并和多个国际VBA网站(英语系和德语系)有互动及技术互通。您来到这里,就是进入到了一个绚烂的VBA世界&…

无需 Root 卸载手机预装软件,精简过的老年机又行了

基础准备 准备目标手机、USB 数据线、以及一台电脑。手机 USB 连接电脑,开发者选项中打开 USB 调试。(开发者选项默认隐藏,需要在关于手机中多次点击版本号才能调出)。 安装手机驱动,下载安装 ADB 工具包。 开始操作…

容器化搭建prometheus

前言 在之前的博客,我介绍了consonl对node的自动发现,kube-api的自动发现,今天介绍Prometheus的自动发现,也就是Prometheus的容器化部署。 实验部署 (1)创建node的yaml文件 mkdir /opt/prometheus/node vi…

CRM系统的好处,以及如何选择合适的CRM系统?

任何足以拥有在线形象的企业都需要投资于CRM或客户关系管理软件。 任何小型企业都希望提高其利息和销售回报率,同时还希望加强客户关系和内部运营。 但并非所有的CRM软件都符合同样出色的标准。那些成功的应该是你的多合一工具,可以简化你的优先级并跟…

MySQL原理(一)架构组成(2)逻辑模块组成

总的来说,MySQL可以看成是二层架构,第一层我们通常叫做SQL Layer,在MySQL数据库系统处理底层数据之前的所有工作都是在这一层完成的,包括权限判断,sql解析,执行计划优化,query cache的处理等等&…

Spring Security简介

什么是Spring Security Spring Security是 Spring提供的安全认证服务的框架。 使用Spring Security可以帮助我 们来简化认证和授权的过程。 官网&#xff1a;Spring Security 对应的maven坐标&#xff1a; <!--security启动器--> <dependency><groupId>or…