语言模型和人类的推理都依赖内容

人类不太擅长逻辑,需要依赖内容直觉进行推理。许多认知研究表明,人类的推理并不是完全抽象的(不是完全的形式与内容分离)。

相反,我们的推理取决于问题的内容:

  • 当内容支持逻辑推理时,我们回答得更准确,
  • 当内容和逻辑冲突时,我们会犯更多的错误。

这篇论文对最先进的大型语言模型和人类进行了评估,发现语言模型反映了人类在这些任务中观察到的许多相同模式--与人类一样,当任务的语义内容更准确时,模型的回答也更准确。

这些相似之处既反映在回答模式中,也反映在较低层次的特征中,如模型回答分布与人类响应时间之间的关系。我们的研究结果对理解人类的这些认知效应以及语言模型性能的影响因素都有意义。

抽象推理是智能系统的一项关键能力。
大型语言模型(LMs)在抽象推理任务中的表现超过了预期,但也表现出许多不完美之处。然而,人类的抽象推理也是不完美的。例如,人类的推理会受到现实世界知识和信念的影响,并表现出明显的 "内容效应";当问题的语义内容支持正确的逻辑推理时,人类的推理会更加可靠。

这些与内容相关的推理模式在有关人类智力基本性质的争论中发挥着核心作用。

在这里,我们研究了语言模型(其先验预期捕捉到了人类知识的某些方面)是否同样在逻辑问题的答案中混入了内容。

我们在三个逻辑推理任务中探讨了这一问题:自然语言推理、判断三段论的逻辑有效性和华森选择任务。

  • 在简单的NLI自然语言推理任务中,无论内容如何,LM和人类都接近天花板。
  • 在更困难的三段论和Wason任务中,准确性降低,并且当内容支持逻辑时,人类和LM都表现出比不支持逻辑时更好的性能。

在许多情况下,这些相似之处延伸到捕获人类内容效应的更精细的细节,例如内容对无效三段论的影响大于有效三段论,甚至在内容和其他任务变量的准确性控制中存在显着的项目级相关性。

相似之处还不仅仅是准确性;

  • 在NLI和三段论任务中,我们发现人类响应时间和模型置信度之间存在项目级关联(logprob差异),即使在控制内容等时也是如此。
  • 在Wason任务中,响应时间以不同的方式很重要-即使是现实的(内容支持的)版本对人类来说也比我们预期的要困难,只有响应最慢的子集(80秒)在这些问题上表现出高于机会的表现。

总的来说,我们发现LM和人类在推理任务上的表现有很大的重叠:内容对准确性和其他行为指标产生了类似的影响。人类和LMs都不是理想的抽象推理者

人类不太擅长逻辑,但内容可以在一定程度上提供帮助。

观点:推理源于直觉的证据
这篇令人信服的证据表明,人类和LLM大模型在推理时都非常依赖直观的归纳过程,而不是纯粹的逻辑演绎。以下是其中的三个主要原因:

首先,推理的准确性在很大程度上取决于人类和LLM的语义内容,这一发现表明了直觉知识和偏见的影响。如果推理是纯粹的逻辑(形式)推理,那么它就不会受到所涉及的实体是否符合现实世界关系的影响。内容效应揭示了直觉对逻辑应用的影响。

其次,人类与 LLM大模型 之间的相似性意味着人类与 LLM 有着共同的归纳、直觉基础。LLM 从语言的统计模式中获取知识,而不是逻辑规则的指导。它们通过归纳学习获得的偏差与人类的直觉如出一辙,这表明人类的推理与归纳有关。

第三,正规的逻辑教育只能部分减少人类的内容偏差。这表明仅靠明确的逻辑训练无法消除直觉偏差的影响。尽管进行了逻辑训练,但这些偏差依然存在,这有力地说明直觉过程在人类推理中发挥着不可或缺的作用。

总之,人类与 LLM 在将内容与逻辑相融合方面的相似之处、模型归纳与人类直觉之间的共性以及逻辑训练的局限性共同提供了令人信服的证据,证明人类和人工智能在推理时都会利用直觉和演绎。这些发现使人们对将人类推理视为纯粹逻辑系统的观点产生了怀疑。推理似乎深受对世界统计模式的直觉吸收的影响。

https://www.jdon.com/69468.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/128871.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot实践 --windows环境下 K8s 部署 Docker

第一步:搭建项目并制作合适的jar包 这里我们准备好前面项目 用户管理系统 项目里的jar包。测试功能,定时任务会每过10s打印一次日志: E:\test>java -jar demospringboot-0.0.1-SNAPSHOT.jar2023-11-01 20:24:21.059 INFO 11848 --- [ …

关于Linux下排查C++进程Segment fault问题的步骤

C 中出现Segment问题的常见原因有: 如果要定位Segment fault问题,需要进行如下几步: gdb your_program(gdb) break main(gdb) run(gdb) backtrace同时要在CMakeLists.txt文件中配置编译时启用符号调试信息, 在C或者C中的设置分别如下&#x…

Layui上传Excel, 并返回每行导入的结果

前端代码 <button type"button" class"layui-btn" id"uploadExcel"><i class"fa fa-lg fa-file-excel-o"></i> 上传Excel </button>layui.config({base: assets/layuiadmin/ //静态资源所在路径}).extend({i…

Java中队列的数据结构

Java中的队列是一种基于先进先出&#xff08;FIFO&#xff09;原则的数据结构&#xff0c;它可以用来存储一组元素&#xff0c;并支持在队列的末尾添加元素&#xff0c;以及在队列的开头删除元素。Java中的队列可以通过Java集合框架中的Queue接口来实现&#xff0c;常用的实现类…

数据交易模型的扩展性,可操作性

目录 数据交易模型的扩展性,可操作性 模型的扩展性: 模型的可操作性: 数据交易模型的扩展性&

Pytest UI自动化测试实战实例

环境准备 序号库/插件/工具安装命令1确保您已经安装了python3.x2配置python3pycharmselenium2开发环境3安装pytest库pip install pytest4安装pytest -html 报告插件pip install pytest-html5安装pypiwin32库(用来模拟按键)pip install pypiwin326安装openpyxl解析excel文件库p…

论文辅助笔记:t2vec models.py

1 EncoderDecoder 1.1 _init_ class EncoderDecoder(nn.Module):def __init__(self, vocab_size, embedding_size,hidden_size, num_layers, dropout, bidirectional):super(EncoderDecoder, self).__init__()self.vocab_size vocab_size #词汇表大小self.embedding_size e…

leetcode_117 填充每个节点的下一个右侧节点指针 II

文章目录 1. 题意2. 题解2.1 BFS2.2 BFS空间优化2.3 DFS序层次记录 3. Ref 1. 题意 在一颗树的同层之间用指针把他们链接起来。 填充每个节点的下一个右侧节点指针 II 2. 题解 2.1 BFS 用一个变量记录下同层最右侧的节点&#xff0c;当遍历到时更新下一层的最右侧节点即可…

2023-11-03 C++ 类型擦除与状态保留

点击 <C 语言编程核心突破> 快速C语言入门 C 类型擦除与状态保留 前言一、一个正常的继承和多态二、一个不太正常的继承和多态三、试图构建能类型抹除但保留状态的mySharedPtr类总结 前言 要解决问题: 在C中, 类型决定着对象的数据存储和解释, 以及方法. 通过继承和虚…

R语言使用surveyCV包对NHANES数据(复杂调查加权数据)进行10折交叉验证

美国国家健康与营养调查&#xff08; NHANES, National Health and Nutrition Examination Survey&#xff09;是一项基于人群的横断面调查&#xff0c;旨在收集有关美国家庭人口健康和营养的信息。 地址为&#xff1a;https://wwwn.cdc.gov/nchs/nhanes/Default.aspx 既往咱们…

ES6、ES7、ES8的特性是什么?

ES6、ES7、ES8都是JavaScript语言的版本,它们具有一些新的特性和变化。 ES6(ECMAScript 2015)引入了很多重要的新特性,包括: 1: 类(class):对熟悉Java,object-c,c#等纯面向对象语言的开发者来说,都会对class有一种特殊的情怀。ES6 引入了class(类),让JavaScri…

Kubernetes群集调度

调度约束 Kubernetes 是通过 List-Watch 的机制进行每个组件的协作&#xff0c;保持数据同步的&#xff0c;每个组件之间的设计实现了解耦。 用户是通过 kubectl 根据配置文件&#xff0c;向 APIServer 发送命令&#xff0c;在 Node 节点上面建立 Pod 和 Container。 APIServ…

Linux 服务器 Oracle19C安装

原文:【精选】Oracle | CentOS7安装Oracle19c数据库(RPM包)_oracle-database-preinstall-19c-1.0-1.el7.x86_64.rp_Thorolds Deer的博客-CSDN博客 下载 第一个软件包:Oracle Database 19c Download for Linux x86-64 第二个包:Oracle Linux 7 (x86_64) Latest | Oracle,…

Python-loguru-跨进程的日志服务器-django

文章目录 1.安装2.基础配置3.具体使用4.总结 1.安装 pip install loguru2.基础配置 可以在包的初始化文件中使用。 # -*- coding : utf-8-*- from pathlib import Path from loguru import logger#初始化日志系统 def InitLog():ROOT_DIR Path(__file__).resolve().parent.…

免费(daoban)gpt,同时去除广告

一. 内容简介 免费(daoban)gpt&#xff0c;同时去除广告&#xff0c;https://chat18.aichatos.xyz/&#xff0c;也可当gpt用&#xff0c;就是有点广告&#xff0c;大家也可以支持一下 二. 软件环境 2.1 Tampermonkey 三.主要流程 3.1 创建javascript脚本 点击添加新脚本 …

自己设计一个自动化测试框架

在进行自动化框架设计之前我们先来看两个问题&#xff0c;什么是自动化框架&#xff0c;设计的时候应该注意什么原则&#xff0c;然后该怎么做&#xff1f;本文会以一个web端的UI自动化测试框架设计为例 什么是自动化测试框架 什么是框架 特指为解决一个开放性问题而设计的具…

香港服务器不稳定的几种情况

​  近年来&#xff0c;随着互联网的迅猛发展&#xff0c;香港作为一个重要的网络枢纽地区&#xff0c;扮演着连接中国内地和国际网络的重要角色。一些用户表示在使用香港服务器时可能会遇到不稳定的情况&#xff0c;导致访问困难、加载缓慢甚至无法连接。 为什么香港服务器会…

uni-app 开发的H5 定位功能部署注意事项

一、H5部署的时候&#xff0c;如果设计到定位功能&#xff0c;需要注意以下几点 1、打包部署的时候需要在Web配置-定位和地图里面勾选一个地图&#xff0c;并配置key 2、打包部署需要域名是https协议的&#xff0c;大多数现代浏览器要求在HTTPS协议下才能够访问地理位置信息&a…

C/C++ system()函数的常用参数详解

文章目录 一、头文件二、system使用案例1. 执行系统命令2. 运行可执行程序3. 删除文件或目录4. 复制文件或目录5. 创建目录6. 网络操作7. 修改文件权限8. 查看系统信息9. 获取脚本结果在Linux操作系统下, system() 函数可以用来执行shell命令。你可以传递不同的命令字符串作为…

对于numpy.linalg和scipy.linalg(待完善)

这俩部分都是用于线性代数的计算&#xff0c;但是存在一些差别&#xff0c;下面是使用中出现的问题&#xff1a; 首先说明的是计算矩阵的伪逆的时候&#xff1a;np.linalg.pinv和scipy.linalg.pinv都是用于计算矩阵伪逆的&#xff0c;二者得到结果并不一致&#xff0c;只能说是…