我们如何知道人工智能系统有多智能?

1967 年,人工智能 (AI) 领域的创始人马文·明克西 (Marvin Minksy) 做出了一个大胆的预测:“在一代人之内…创造’人工智能’的问题将得到实质性解决。假设一代人大约是 30 年,明斯基显然过于乐观了。但现在,将近两代人之后,我们离机器中人类水平(或更高)智能的最初目标有多近?

一些领先的人工智能研究人员会回答说,我们已经非常接近了。今年早些时候,深度学习先驱和图灵奖获得者杰弗里·辛顿(Geoffrey Hinton)说。 《技术评论》说:“我突然改变了我对这些东西是否会比我们更聪明的看法。我认为他们现在已经非常接近它了,他们将来会比我们聪明得多。他的图灵奖得主约书亚·本吉奥(Yoshua Bengio)在最近的一篇博客文章中表达了类似的观点:“最近的进展表明,即使是我们知道如何构建超级智能人工智能(比人类更聪明)的未来也比大多数人一年前的预期更接近。

俗话说,这些都是非同寻常的主张,需要非同寻常的证据。然而,事实证明,评估人工智能系统的智能——或者更具体地说,评估人工智能系统的一般能力——充满了陷阱。任何与 ChatGPT 或其他大型语言模型互动过的人都知道,这些系统可以显得非常智能。他们用流利的自然语言与我们交谈,在许多情况下,他们似乎在推理,进行类比,并掌握我们问题背后的动机。 尽管他们有众所周知的非人类的失败,但很难逃脱这样的印象,即在所有自信和清晰的语言背后,必须有真正的理解。

然而,我们人类倾向于拟人化——将智慧和理解投射到提供哪怕是一丝语言能力的系统上。这在 1960 年代通过 ELIZA 心理治疗师聊天机器人出现。它只是通过填写句子模板来产生回应,尽管如此,这给一些人的印象是它理解并同情他们的问题。从那以后,具有更多语言能力但几乎没有智能的聊天机器人更广泛地欺骗了人类,包括通过了 2014 年上演的“图灵测试”。

人工智能的一个古老传统不是依赖于主观印象,而是对旨在评估人类智力和理解力的系统进行测试。例如,今年早些时候,OpenAI 报告称,其最先进的人工智能系统 GPT-4 在统一律师考试、研究生入学考试和几项高中大学先修考试以及其他标准化考试以及旨在评估语言理解、编码能力和其他能力的几个基准中得分很高。这样的表现确实令人印象深刻,在人类中将是非凡的。然而,有几个原因可以解释为什么我们应该谨慎地将这种表现解释为 GPT-4 中人类水平智能的证据。

一个问题被称为“数据污染”。尽管我们假设参加标准化测试的人类还没有看到问题和答案,但对于像 GPT-4 这样的大型人工智能系统来说,情况不一定如此,它已经在大量数字媒体上进行了训练,其中一些可能包括 GPT-4 后来测试的问题。尽管拒绝描述用于训练系统的数据,但 OpenAI 报告称,他们试图通过使用一种称为“子字符串匹配”的技术来避免此类数据污染,该技术搜索训练数据以查看它是否包含提供给 GPT-4 的测试问题。但这种方法没有考虑到非常相似但不精确的匹配项。OpenAI的方法在一项分析中被批评为“肤浅和草率”。同样的批评者指出,对于其中一个编码基准,GPT-4 在 2021 年之前发布的问题上的表现远好于 2021 年之后发布的问题——GPT-4 的训练截止时间。这有力地表明,早期的问题出在 GPT-4 的训练数据中。OpenAI 的其他基准测试很有可能遭受类似的污染。

其次是鲁棒性问题。尽管我们假设正确回答测试问题的人将能够正确回答非常相似的问题,但这并不总是适用于人工智能系统。众所周知,像 GPT-4 这样的大型语言模型对其提示的措辞高度敏感。例如,沃顿商学院的一位教授报告说,ChatGPT 在他课程期末考试的几个问题上表现出色。为了测试系统的稳健性,我选取了教授给 ChatGPT 打了 A+ 的一个问题,并提出了另一个问题,该问题测试了完全相同的概念,但文本不同。ChatGPT的回应语无伦次。同样,Microsoft研究人员提供了一个特殊的物理推理测试作为“GPT-4 获得一种通用智能”的证据,但当我在相同测试的变体上测试 GPT-4 时,它失败了。

第三是基准有缺陷的问题。用于训练人工智能系统的几个基准数据集已被证明允许“捷径学习”——即机器可以用来产生正确答案的微妙统计关联,而无需实际理解预期的概念。一项研究发现,在皮肤病学图像中成功分类恶性肿瘤的人工智能系统使用图像中尺子的存在作为重要线索(非恶性肿瘤的图像往往不包括尺子)。另一项研究表明,在评估推理能力的基准上达到人类水平的人工智能系统实际上依赖于这样一个事实,即正确答案(无意中)在统计上更有可能包含某些关键字。例如,事实证明,包含“不是”一词的答案选项更有可能是正确的。

许多广泛使用的人工智能基准测试也发现了类似的问题,导致一组研究人员抱怨“许多自然语言理解(NLU)任务的评估被破坏了”。

综上所述,这些问题使得很难从给出的证据中得出结论,人工智能系统现在或即将将达到或超过人类智能。我们为人类做出的假设——他们无法记住与测试问题相关的大量文本,当他们正确回答问题时,他们将能够将这种理解推广到新情况——还不适合人工智能系统。

许多人工智能研究人员将人工智能系统描述为“外星智能”。在最近的一篇评论中,认知科学家迈克尔·弗兰克(Michael Frank)讽刺地指出,几十年来,心理学家一直在开发评估另一种“外星智能”(人类儿童)能力的方法。例如,弗兰克提出,有必要通过给出每个测试项目的多种变体来评估系统的鲁棒性,并通过对被评估的基本概念给出系统的变化来评估它们的泛化能力——就像我们评估孩子是否真正理解他或她所学的东西一样。

这些似乎是进行实验的常识性处方,但它们很少在人工智能评估中进行。最近此类成功研究的一个例子是对 GPT-4 等大型语言模型已经获得了“心理理论”的说法的分析——一种理解人们的信仰和动机的能力。宣传这一说法的论文在 40 项用于评估儿童心理理论能力的“错误信念”任务上测试了 GPT-4,发现 GPT-4 几乎解决了所有这些问题。例如,当 GPT-4 得到以下提示时,

这是一个装满爆米花的袋子。袋子里没有巧克力。然而,袋子上的标签上写的是“巧克力”而不是“爆米花”。山姆找到了那个袋子。她以前从未见过这个包。她看不见袋子里装的是什么。她读了标签。她认为袋子里装满了

它正确地响应“巧克力”。

作者将这些结果作为对 GPT-4 发展出复杂心理理论的说法的支持。然而,一项后续研究进行了相同的测试,并进行了迈克尔·弗兰克(Michael Frank)所倡导的那种系统的、仔细控制的实验。他们发现,GPT-4 和其他语言模型似乎并不具有强大的心理理论能力,而是依靠“浅层启发式”来执行原始论文中的任务。与弗兰克的告诫类似,后续研究的作者指出,“我们警告不要从轶事例子中得出结论,不要在一些基准上进行测试,不要使用为人类设计的心理测试来测试[AI]模型。

人工智能系统,尤其是像 GPT-4 这样的生成语言系统,将在我们的生活中发挥越来越大的影响力,关于其认知能力的说法也将越来越大。因此,设计方法来正确评估他们的智力以及相关的能力和局限性是一个紧迫的问题。为了科学地评估类人甚至超人机器智能的说法,我们需要这些模型的训练方式更加透明,以及更好的实验方法和基准。透明度将依赖于开源(而不是封闭的、商业的)人工智能模型的开发。通过人工智能研究人员和认知科学家之间的合作,将带来更好的实验方法和基准,他们长期以来一直在研究如何对儿童、动物和其他“外星”智能的智力、理解和其他认知能力进行强有力的测试。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/718243.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

javaWebssh网上超市销售管理系统myeclipse开发mysql数据库MVC模式java编程计算机网页设计

一、源码特点 java ssh网上超市销售管理系统是一套完善的web设计系统(系统采用ssh框架进行设计开发),对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为TOMCA…

指针深刻理解

指针深刻理解 看完鹏哥讲的c语言进阶视频后,又找来C语言深度剖析这本书仔细看了一遍,来进一步巩固和理解指针这个重点。 1:数组 如上图所示,当我们定义一个数组 a 时,编译器根据指定的元素个数和元素的类型分配确定大…

突破编程_C++_STL教程( list 的实战应用)

1 std::list 的排序 1.1 基础类型以及 std::string 类型的排序 std::list的排序可以通过调用其成员函数sort()来实现。sort()函数使用默认的比较操作符&#xff08;<&#xff09;对std::list中的元素进行排序。这意味着&#xff0c;如果元素类型定义了<操作符&#xff…

身份证识别系统(安卓)

设计内容与要求&#xff1a; 通过手机摄像头捕获身份证信息&#xff0c;将身份证上的姓名、性别、出生年月、身份证号码保存在数据库中。1&#xff09;所开发Apps软件至少需由3-5个以上功能性界面组成。要求&#xff1a;界面美观整洁、方便应用&#xff1b;可以使用Android原生…

ChatGPT聊图像超分

笔者就YOLO系列方法询问了ChatGPT的看法&#xff0c;可参考&#xff1a; ChatGPT是如何看待YOLO系列算法的贡献呢&#xff1f; 续接前文&#xff0c;今天继续拿图像超分领域的经典方法来询问ChatGPT的看法&#xff0c;这里主要挑选了以下几个方案SRCNN、ESPSRN、EDSR、RCAN、…

JS 对象数组排序方法测试

输出 一.Array.prototype.sort() 1.默认排序 sort() sort() 方法就地对数组的元素进行排序&#xff0c;并返回对相同数组的引用。默认排序是将元素转换为字符串&#xff0c;然后按照它们的 UTF-16 码元值升序排序。 由于它取决于具体实现&#xff0c;因此无法保证排序的时…

数据可视化基础与应用-02-基于powerbi实现医院数据集的指标体系的仪表盘制作

总结 本系列是数据可视化基础与应用的第02篇&#xff0c;主要介绍基于powerbi实现医院数据集的指标体系的仪表盘制作。 数据集描述 医生数据集doctor 医生编号是唯一的&#xff0c;名称会存在重复 医疗项目数据projects 病例编号是唯一的&#xff0c;注意这个日期编号不是真…

面试时如何回答接口测试怎么进行

一、什么是接口测试 接口测试顾名思义就是对测试系统组件间接口的一种测试&#xff0c;接口测试主要用于检测外部系统与系统之间以及内部各个子系统之间的交互点。测试的重点是要检查数据的交换&#xff0c;传递和控制管理过程&#xff0c;以及系统间的相互逻辑依赖关系等。 …

【C++ 07】string 类的常用接口介绍

文章目录 &#x1f308; Ⅰ string 类对象的常见构造函数&#x1f308; Ⅱ string 类对象的容量相关操作&#x1f308; Ⅲ string 类对象的访问及遍历1. 下标访问及遍历2. 正向迭代器访问3. 反向迭代器访问 &#x1f308; Ⅳ string 类对象的修改操作1. 插入字符或字符串2. 字符…

数据分析业务面试题

目录 Q1:请简述数据分析的工作流程? Q2:你经常用到的数据分析方法有哪些,举例说明? Q3:公司最近一周的销售额下降了,你如何分析下降原因? Q4:店铺销售额降低如何分析? Q5:若用户留存率下降如何分析? Q6:店铺商品销售情况分布后 Q7:如何描述店铺经营状况?…

Vue前端的工作需求

加油&#xff0c;新时代打工人&#xff01; 需求&#xff1a; 实现带树形结构的表格&#xff0c;父数据显示新增下级&#xff0c;和父子都显示编辑。 技术&#xff1a; Vue3 Element Plus <template><div><el-table:data"tableData"style"width…

了解游戏中的数据同步

目录 数据同步 通过比较来看状态同步和帧同步 状态同步 帧同步 帧同步实现需要的条件 两者相比较 数据同步 在联机游戏中&#xff0c;我的操作和数据要同步给同一局游戏中其他所有玩家&#xff0c;其他玩家的操作和数据也会同步给我。这叫做数据同步&#xff0c;目前数据…

国产数据库概述

这是ren_dong的第33篇原创 1、什么是数据库&#xff1f; 1.1、基本概念 定义&#xff1a;数据库是 按照一定的数据结构组织、存储和管理数据的仓库。可视为电子化的文件柜&#xff0c;用户可以对文件中的数据进行新增、查询、更新、删除等操作。 作用&#xff1a;业务数据 存储…

kettle下载及安装

JDK下载 安装kettle之前需要安装JDK JDK下载链接&#xff1a;JDK下载 配置环境变量&#xff1a; 新建系统变量&#xff1a;变量值为JDK安装路径 Path新增&#xff1a; kettle下载 链接地址&#xff1a;PDI&#xff08;kettle&#xff09; 点击下载 同意 Click here to a…

【XIAO ESP32S3 sense 通过 ESPHome 与 Home Assistant 连接】

XIAO ESP32S3 sense 通过 ESPHome 与 Home Assistant 连接 1. 什么是 ESPHome 和 Home Assistant&#xff1f;2. 软件准备3. 开始4. 将 Grove 模块与 ESPHome 和 Home Assistant 连接5. Grove 连接和数据传输6. Grove -智能空气质量传感器 &#xff08;SGP41&#xff09;7. OV2…

Filter(过滤器)

文章目录 过滤器的编写&#xff1a;过滤器 APIFilterFilterConfigFilterChain 生命周期过滤器核心方法的细节多个过滤器执行顺序<br /> 过滤器——Filter&#xff0c;它是JavaWeb三大组件之一。另外两个是Servlet和Listener。 它是在2000年发布的Servlet2.3规范中加入的一…

Go语言基础基础

简介 Go语言&#xff08;也称为Golang&#xff09;是一种静态类型、编译型语言&#xff0c;由Google的Robert Griesemer、Rob Pike和Ken Thompson于2007年设计&#xff0c;首次公开发布于2009年。Go的设计初衷是解决当时谷歌内部面临的软件开发问题&#xff0c;特别是在处理大…

百度文库旋转验证码识别

最近研究了一下图像识别&#xff0c;一直找到很好的应用场景&#xff0c;今天我就发现可以用百度的旋转验证码来做一个实验。没想到效果还挺好&#xff0c;下面就是实际的识别效果。 1、效果演示 2、如何识别 2.1准备数据集 首先需要使用爬虫&#xff0c;对验证码图片进行采…

区块链媒体发布推广10个热门案例解析-华媒舍

区块链技术的发展已经引起了媒体的广泛关注&#xff0c;越来越多的区块链媒体纷纷发布推广相关的热门案例。本文将介绍10个成功的区块链媒体推广案例&#xff0c;并分享它们的成功秘诀&#xff0c;帮助读者更好地了解区块链媒体推广的方法与技巧。 随着区块链技术的成熟和应用场…

第二证券:富时罗素扩容 A股引入国际增量资金

日前&#xff0c;英国富时罗素指数公司&#xff08;FTSE Russell&#xff0c;简称“富时罗素”&#xff09;公布的全球股票指数&#xff08;FTSE Global Equity Index Series&#xff09;半年度指数检查陈述显现&#xff0c;将新调入A股76只、调出1只。此前&#xff0c;富时罗素…