研表究明,文字的序顺并不定一能响影GPT-4读阅

深度学习自然语言处理 原创
作者:yy

6ce4444a6059e054c24382844817c420.png

很多年前,你一定在互联网上看过这张图,展示了人脑能够阅读和理解打乱顺序的单词和句子!而最近东京大学的研究发现,大语言模型(LLMs) 尤其是 GPT-4,也可以读懂打乱顺序的单词,甚至是在人脑都难以分辨的情况下

接下来就让我们来具体介绍一下这个违反直觉的发现吧!3ea34e56077bdc98ec196ec1d765f1d2.png

论文:Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text

地址:https://arxiv.org/pdf/2311.18805.pdf

代码:https://github.com/ccqq77/unnatural-error-correction.

前言

Typoglycemia” 这个词曾在互联网上风靡一时,它是由“打字错误(Typo)”和“低血糖(Hypoglycemia)” 这两个单词拼凑而成。通俗地讲,”Typoglycemia“ 指一个有趣的现象:只要每个单词的首尾字母正确,即使中间的字母顺序是完全打乱的,也不影响人类的正常阅读与理解。

而这篇研究发现,大多数强大的 LLMs 都具备类似于 “typoglycemia” 的超能力。更令人惊讶的是,作者发现,即使每个单词中的所有字母都是乱序, 仍有且并仅有 GPT-4 能近乎完美地从乱序中恢复原始句子,将编辑距离减少 95%!尽管乱码文本对输入 tokenization 造成了严重破坏,但 LLMs 仍能表现出如此强大的恢复能力!

任务设计

为了评估 LLMs 处理乱序文本的能力,作者提出了 Scrambled Bench ,包含两个任务(如图所示)。

9e36bc0762ba93f47a3606fe95e3c2b9.png

1. 乱序句子恢复(ScrRec)

提供包含乱序词的句子,要求LLMs恢复出原始句子。这项任务可以直接评估 LLMs 识别和重建句子中乱序词的能力。

2. 乱序问题解答(ScrQA)

如果模型在 ScrRec 任务中表现不佳,可能有两个原因:

(1) 模型难以遵循指令;

(2) 模型无法恢复句子。

为了区分这两种情况,作者设计了 ScrQA 任务来评估模型在乱序语境下完成标准任务(即 QA )的能力。具体而言,作者将包含了回答问题所需基本信息的文本打乱,并根据模型表现的差异对其进行评估。

数据集构建

RealtimeQA(2022年)

RealtimeQA 是一个动态的问题解答数据集,每周都会公布有关近期新闻的问题。为了缓解数据污染,作者从 RealtimeQA 中收集最近的数据(2023/03/17-2023/08/04),并对证据句进行加扰处理,以构建 ScrRec 和 ScrQA 任务的样本。

DREAM(2019年)

DREAM 是一个基于对话的多选阅读理解数据集。作者对每个问题的对话部分进行了加扰处理。

AQuARAT(2017年)

AQuA-RAT 是一个数学单词问题数据集,需要多步推理才能解决。作者采用了 few-shot Chain of Thought(CoT),并对主问题和示例问题都加入扰动。

对于每个数据集,作者使用不同的扰动类型和比例生成扰动文本。

1. 随机扰动(RS)

对于每个句子,随机选择一定比例(20%、50%、100%)的单词,并随机扰乱每个选定单词中的所有字母(阿拉伯数字保持不变)。

2. 保留第一个字母(KF)

保持每个单词的第一个字母不变,并随机扰乱其他位置的字母。

3. 保留首尾字母(KFL)

保持每个单词的第一个和最后一个字母不变,并随机扰乱其他位置的字母。

评价指标

Recovery Rate (RR)

对于 ScrRec 任务,原始句子与恢复句子之间的平均编辑距离(ED)是一种自然的性能度量指标。

此外,作者还定义了 Recovery Rate(RR)来衡量 ED 在恢复的句子中所占的比例,从而可以更简明地比较不同设置下模型的性能:

Relative Performance Gain (RPG)

对于 ScrQA 而言,accuracy 是衡量性能的一个自然指标。但是由于不同模型在处理原始问题时的能力存在差异,很难比较不同模型的性能。

因此,作者引入了 Relative Performance Gain(RPG),将评估重点放在与原始文本相比,模型理解扰动文本的能力上:

实验设置

作者评估了最强大的闭源 LLM,包括 text-davinci-003、GPT-3.5-turbo 和 GPT-4,以及 Falcon 系列、Llama-2 系列、MPT 系列、UL2 系列、T5 系列等开源模型。对于各数据集和任务,采取了以下设置:

  • RealtimeQA

    • ScrRec:zero-shot + few-shot

    • ScrQA:zero-shot

  • DREAM

    • ScrQA :zero-shot

  • AQuA

    • ScrQA :few-shot COT

结果分析

由于篇幅等原因,仅展示性能最好的五种 LLM(即 GPT4、GPT-3.5-turbo、text-davinci-003、Falcon-180b 和 Llama-2-70b)的结果。

结果 1:扰动类型

实验结果表明,在 KFL 设置下,各模型之间的性能差距不大。然而,除 GPT-4 外,随着扰动类型难度的增加(KFL ➡ KF ➡ RS),模型性能明显下降。相比之下,GPT-4 的性能始终保持在较高水平,而与扰动类型无关。在 ScrRec 任务上,GPT-4 的 RR 在所有设置下都保持在 95% 以上。在 ScrQA 任务上,GPT-4 的表现一直优于其他模型,即使扰动的难度增加,也能保持较高的准确率。

5e161448b36e531d3c8b3d0653a6aa7a.png

结果 2:扰动比例

随着扰动比例的增加,text-davinci-003、Falcon-180b 和 Llama-2-70b 的 RR 会降低。GPT-3.5-turbo 和 GPT-4 的 RR 变化不大。GPT-4 的表现远远优于其他模型,大多数设置下的 RR 都高于 95%(20% 扰动率除外)。

所有模型的 RPG 都随着扰动比例的增加而下降但 GPT-4 即使在 100%加扰证据的情况下,仍能保持 87.8% 的原有性能。随着扰动比例的增加,不同模型之间的性能差距也越来越大。

6854ee8aab8f07723655d2f5cb9e8fe4.png

结果 3:其他数据集

在加扰的 DREAM 数据集上,除了评估整体性能,作者还评估了不同类别问题的性能。结果显示,GPT-4 与其他模型间的差异比在 RealtimeQA 上更加突出,这可能由于 DREAM 需要对较长文本进行深层次理解。与其他类别相比,模型在算术问题上的表现往往更容易受到乱序文本的影响,即使是 GPT-4 也是如此。

8db73ca654aa74440e2af7b2af4cac33.png

下表展示了在加扰的 AQuA-RAT 数据集上进行 4-shot CoT 设置的实验结果。结果表明,加扰示例的影响相对较小。但当主问题的加扰率达到 100%时,GPT-3.5-turbo 和 text-davinci-003 的性能明显下降,而 GPT-4 基本保持了最初的性能

70b7d9a29818394e516ca87485ccbbf4.png

结论

本研究提出了 Scrambled Bench 来衡量 LLMs 处理乱序文本的能力,包括两个任务(乱序句子恢复 ScrRec 和乱序问题解答 ScrQA),并基于 RealtimeQA、DREAM 和 AQuA-RAT 构建了乱序数据集。尽管乱序文本显著改变了 tokenization,大多数强大的 LLMs 仍能在不同程度上处理乱序文本,不过它们在面对极端乱序的文本时会显得力不从心。在这两项任务中,GPT-4 都表现出了良好的性能,显著优于其他模型。

未来的改进空间也很大。首先,对于 LLMs,还有多种方法可以破坏单词的 tokenization(如插入字母、替换字母等)。其次,ScrRec 和 ScrQA 这两项任务适用于多种数据集且易于扩展分析。最后,由于无法直接访问闭源模型,作者没有总结出 LLMs 能够处理这些任务的具体原因。特别地,GPT-4 可以近乎完美地完成任务,其背后的原因值得深究!


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

e71b4e86be2e04d14a19fcd8ef9afda0.png

id:DLNLPer,记得备注呦

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/214595.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

对象与对象数组

对象与对象数组 实验介绍 本章节主要介绍对象数组和对象成员。在实际的开发中,对象数组和对象成员是经常使用的,所以首先需要学习对象数组与对象成员的各种使用方法。 提示:为了方便课程讲解,示例代码使用类内定义的方式实现&a…

19 redis缓存数据同步问题

1、缓存穿透 指缓存和数据库中都没有的数据,而用户不断发起请求。由于缓存不命中,并且出于容错考虑,如果从存储层查不到数据则不写入缓存,这将导致这个不存在的数据每次请求都要到存储层去查询,缓存就没有意义了。 在…

掌控安全 -- header注入

http header注入 该注入是指利用后端验证客户端口信息(比如常用的cookie验证)或者通过http header中获取客户端的一些信息(比如useragent用户代理等其他http header字段信息),因为这些信息是会重新返回拼接到后台中的&…

JAVA定时任务技术总结

在日常的项目开发中,多多少少都会涉及到一些定时任务的需求。例如每分钟扫描超时支付的订单,每小时清理一次数据库历史数据,每天统计前一天的数据并生成报表,定时去扫描某个表的异常信息(最终一致性的方案也可能涉及&a…

java面试题-描述下Object中常用的方法

远离八股文,面试大白话,通俗且易懂 看完后试着用自己的话复述出来。有问题请指出,有需要帮助理解的或者遇到的真实面试题不知道怎么总结的也请评论中写出来,大家一起解决。 java面试题汇总-目录-持续更新中 这个没办法&#xff0c…

31、卷积 - 参数 dilation 以及空洞卷积

在卷积算法中,还有一个不常见的参数叫做dilation(中文:膨胀)。 很多同学可能没听说过这个参数,下面看看这个参数有什么作用,用来控制什么的。 我们还是放这个经典的卷积运算图,图中是看不出 dilation 这个参数的存在的。 如果再换一张图呢,发现两图的区别了吗? 没错…

怎么去评估数据资产?一个典型的政务数据资产评估案例

据中国资产评估协会《数据资产评估指导意见》,数据资产评估主要是三个方法:市场法、成本法和收益法。之前小亿和大家分享了数据资产评估方法以及价值发挥的路径,今天结合一个案例来具体讲解一下怎么去评估数据资产。 这个案例是一个典型的一个…

tmux常见会话管理命令

tmux常见会话管理命令 新建会话 tmux new -s <session-name> 查看会话 会话内外都可以用tmux ls或者tmux list-session 分离会话 如果命令行可以输入命令&#xff0c;则可以选择输入命令tmux detach 如果命令行没法输入命令&#xff0c;可以按下commandb以后按d …

SAM+使用SAM应用数据集完成分割

什么是SAM&#xff1f; SAM(Segment Anything Model&#xff09;是由 Meta 的研究人员团队创建和训练的深度学习模型。在 Segment everything 研究论文中&#xff0c;SAM 被称为“基础模型”。 基础模型是在大量数据上训练的机器学习模型&#xff08;通常通过自监督或半监督学习…

CV计算机视觉每日开源代码Paper with code速览-2023.12.6

点击计算机视觉&#xff0c;关注更多CV干货 论文已打包&#xff0c;点击进入—>下载界面 点击加入—>CV计算机视觉交流群 1.【基础网络架构&#xff1a;Transformer】Rejuvenating image-GPT as Strong Visual Representation Learners 论文地址&#xff1a;https://a…

云原生Kubernetes系列 | Docker/Kubernetes的卷管理

云原生Kubernetes系列 | Docker/Kubernetes的卷管理 1. Docker卷管理2. Kubernetes卷管理2.1. 本地存储2.1.1. emptyDir2.1.2. hostPath2.2. 网络存储2.2.1. 使用NFS2.2.2. 使用ISCSI2.3. 持久化存储2.3.1. PV和PVC2.3.2. 访问模式2.3.3. 回收策略1. Docker卷管理

从零开始搭建企业管理系统(六):RBAC 权限管理设计

RBAC 权限管理设计 前言权限分类功能权限设计什么是 RBACRBAC 组成RBAC 模型分类基本模型RBAC0角色分层模型RBAC1角色限制模型RBAC2统一模型RBAC3 RBAC0 权限设计用户管理角色管理权限管理关联表 总结 前言 作为一个后台管理系统&#xff0c;权限管理是一个绕不开的话题&#…

视频剪辑:视频创意制作,背景图片融合视频制作画中画效果

随着社交媒体的兴起&#xff0c;视频制作不再仅仅是专业人士的专利。每个人都可以通过一些技巧&#xff0c;创作出独特而富有吸引力的视频内容。视频剪辑是一种非常重要的技术&#xff0c;它能让视频从平淡无奇变为生动有趣。背景图片融合视频制作画中画效果&#xff0c;也能增…

vm的centos本地配置yum

vm的centos本地配置yum 关于上篇文章vmware安装centos7总结 出现关于配置yum源wget找不到命令&#xff0c;但是没安装yum就没法下载wget&#xff0c;也就没法使用wget 所以我们本地配置yum源&#xff0c;不用wget那个命令了 &#x1f4d5;步骤&#xff1a; cd /etc/yum.repo…

springboot利用easyexcel在浏览器中下载excel

前言 项目中操作excel是一种很常用的功能&#xff0c;比如下载一份excel的报价单。这篇文章会介绍一款excel的处理工具以及导出遇到的三个常见异常(重要)。 之前遇到一个这样的需求&#xff1a;后台管理页面&#xff0c;点击下载按钮&#xff0c;下载一份excel格式的报价清单…

《人工智能导论》知识思维导图梳理【1~5章节】

文章目录 说明第一章 绪论人工只能概述 第二章 知识表示和知识图谱一阶谓词逻辑和知识表示法产生式表示和框架表示法 第三章 确定性推理方法推理的基本概念自然演绎推理归结演绎推理谓词公式化子句集鲁宾孙归结原理归结反演归结反演求解问题 第四章 不确定性推理方法似然推理可…

npm run build时提示vue/types/jsx.d.ts中的错误

解决方法一&#xff1a; 可能是因为vue版本过高引起的 我直接将package.json中vue以及vue-template-compiler的版本的前面^去掉&#xff0c;安装指定的版本 注意&#xff1a;vue和vue-template-compiler需要版本一致 参考链接&#xff1a;链接 解决方法二&#xff1a; 如果如…

线上问题得解决

问题&#xff1a; 最近碰到一个比较棘手但是比较低级的问题&#xff0c;一直没有找到原因&#xff0c;苦找了两天才发现问题。场景就是订单做了某一个操作之后&#xff08;比如拣货完成&#xff09;然后到下一步&#xff08;下道口&#xff09;。 但是线上几万笔订单 &#xf…

QT使用SQLite 超详细(增删改查、包括对大量数据快速存储和更新)

QTSQLite 在QT中使用sqlite数据库&#xff0c;有多种使用方法&#xff0c;在这里我只提供几种简单&#xff0c;代码简短的方法&#xff0c;包括一些特殊字符处理。在这里也给大家说明一下&#xff0c;如果你每次要存储的数据量很大&#xff0c;建议使用事务&#xff08;代码中…

canvas 有趣的弹簧效果

先上效果 两个小球之间有一根弹簧&#xff0c;这里有一条线表示&#xff0c;其中左球固定&#xff0c;在点击开始后&#xff0c;右球开始做自由落体 思路 先做受力分析 经过受力分析可以发现&#xff0c;整个系统一共有三个力在起作用&#xff0c;我们分别把他们求出来并合成…