近年来,人工智能技术日臻成熟。现在,许多产品和服务都依靠人工智能技术实现自动化和智能化,因此它与我们的日常生活息息相关。无论是为我们带来各种便利的家用设备,还是我们一直在使用的产品制造方式,人工智能的影响无所不在,几乎在我们生活的方方面面推动着创新。但这其中依然存在不足,让终端用户会感到失望,也给设法改进人工智能技术性能的研究人员带来了重大挑战。
常识方法
微软联合创始人保罗·艾伦(Paul Allen)在2018年去世之前,曾投入大量的时间和资源来解决似乎层出不穷的巨大挑战:对人工智能技术缺乏基本常识。艾伦先生的艾伦人工智能研究所(AI2)推出了马赛克(Mosaic)项目,继续解决这一问题。他的构想是这样的: “在人工智能研究的早期,人们非常关注常识,但这项工作却停滞不前。人工智能仍然缺乏大多数10岁儿童都能掌握的普通常识。我们希望从这项研究开始,在这一领域取得重大突破。” 艾伦的比喻凸显了当前深度学习技术存在的一个重大问题。尽管我们的人工智能产品通常很聪明,但它们仍然无法回答我们可能会向同事或伴侣提出的极其简单的问题。例如,“如果我把这面墙涂成红色,它明天还会是红色吗?”为了说明我们要在多大程度上解决这个问题,AI2首席执行官奥伦·埃齐奥尼(Oren Etzioni)举了一个例子:“虽然谷歌人工智能程序阿尔法狗(AlphaGo)在2016年击败了世界排名第一的围棋选手,但它却并不知道围棋是一种棋盘游戏。”我想我们都同意,这是一个非常重要的细节,如果我们无法解决这个问题,人工智能的成功潜力就将局限于狭窄的应用领域。
常识问题的复杂解决方案
显然,常识性人工智能需要多管齐下的策略,才能突破其局限性。为此,艾伦的马赛克项目“整合了机器阅读和推理、自然语言理解、计算机视觉和众包技术,为未来的人工智能系统建立了一项新的广泛基本常识知识来源。”对于AI2这样的组织而言,这在研究层面上是怎样的呢?
- 视觉常识推理(VCR)是用于认知级视觉理解的一项新任务和大规模数据集。该研究专注于为基于人工智能的视觉系统,创建高阶认知和常识推理。VCR是华盛顿大学和AI2的研究人员共同努力的结果。VCR利用一组众包工作人员为该项目标注数据。
- 常识知识图提供了一种表示常识概念的半结构化方式。这种结构提供的观点与其他知识源不同,但是,表示何种类型知识以及如何理想地将其纳入现代神经方法,仍然是该领域研究面临的一项重要问题。为了解决这个问题,该团队目前正在构建和发布资源,以探索常识的各个方面,例如有关社会状况、心理状态和因果关系的信息。
- 它是一个实现常识性推理、统一自然语言推理和基于物理推理的大规模数据集。数据集包括关于依据场景的11.3万个多项选择题。每个问题都是来自大规模电影描述与理解挑战(LSMDC)或大规模密集事件描述数据库ActivityNet Captions的视频字幕,其中有四个答案可供选择,旨在通过选择判断有关场景接下来会发生什么。正确答案是视频中下一个事件的(真实)视频字幕;三个错误的答案是对抗性生成的,经过人工验证,以便迷惑非人类的机器。该团队的目标是使SWAG成为基于常识的NLI及学习表示形式的评估基准。