学界 | DeepMind想用IQ题测试AI的抽象思维能力,进展还不错

640?

来源:大数据文摘

摘要:抽象理解能力一直是人类引以为豪的智慧来源。


阿基米德基于对物体体积的抽象理解,悟到了物体的体积与物体浮力之间的关系。这就是抽象推理的魔力。


基于神经网络的机器学习模型取得了惊人的成绩,但是测量其推理抽象概念的能力却是非常困难的。


虽然人工智能已经可以在策略游戏的对战中战胜人类,但是却在一些简单任务方面“无能为力”,特别是需要在新环境中发现并重新构建抽象概念。


举个例子,如果你只训练AI计算三角形的属性,那么,你训练的AI系统永远无法计算正方形或者其他没有训练过的形状的属性。


又比如下边这道简单的IQ测试题。


640?


IQ测试给了DeepMind灵感,是不是也能用其测量AI的推理能力呢?


在以往解决通用学习系统努力的基础上,DeepMind最新论文提出了一种如何测量机器模型认知能力的方法,并表达了关于泛化的一些重要见解。


640?


要构建更好、更智能的系统,使得神经网络能够处理抽象概念,需要对其进行改进。


此方法的灵感来源于IQ测试。


创建抽象推理数据集


标准的人类智商测试中,通常要求测试者通过应用他们日常经验学习的原则来解释感知上简单的视觉场景。


例如,人类测试者可能已经通过观察植物或建筑物的增长,通过在数学课上学习加法,或通过跟踪银行余额获取利息增长的情况来了解“渐进”(一些属性能够增加的概念)。


然后把这些感性认识上升到理性认识,从而对测试题进行推断预测,例如图形的数量、大小,甚至沿着序列增加颜色强度。


现在机器学习仍然无法理解一些看似简单的“日常体验”,这意味着,人类无法轻易地衡量AI将知识从现实世界转移到视觉推理测试的能力。


基于此认知,DeepMind设计一个实验,希望使人类视觉推理测试得到很好的利用。这一研究不是从日常生活到视觉推理问题(如人类测试)的知识转移,而是研究知识从一组受控的视觉推理问题转移到另一组问题。


为实现这一目标,DeepMind构建了一个用于创建矩阵问题的生成器,涉及一组抽象因子,包括“渐进”之类的关系以及“颜色”和“大小”等属性。 虽然问题生成器使用了一小组潜在因子,但它仍然会产生大量独特的问题。


接下来,DeepMind约束生成器可用的因子或组合,以便创建用于训练和测试模型的不同问题集,以度量模型可以推广到留存的测试集的程度。


例如,创建了一组谜题训练集,其中只有在应用于线条颜色时才会遇到渐进关系,而在应用于形状大小时会遇到测试集。如果模型在该测试集上表现良好,它将提供推断和应用抽象概念的能力的证据,即使在之前从未见过进展的情况下也是如此。


有希望的抽象推理证据


在机器学习评估中应用的典型的泛化机制中,训练和测试数据来自于相同的基础分布,测试的所有网络都表现出良好的泛化误差,其中一些在略高于75%的情况下实现了令人印象深刻的绝对性能。性能最佳的网络明确地计算了不同图像面板之间的关系,并且并行地评估了每个潜在答案的适用性。DeepMind将此架构称为Wild RelationNetwork(WReN)。


当需要在先前看到的属性值之间使用属性值“插值”来推理,以及在不熟悉的组合中应用已知的抽象关系时,模型的泛化效果显著。然而,在“外推”机制中,同样的网络表现得糟糕得多,在这种情况下,测试集中的属性值并不与训练中看到的值处于相同的范围内。


这种事情发生在当训练集中有深颜色的物体而测试集中是浅颜色的物体的谜题中。当模型被训练来应用以前所见的关系(比如形状的数量)到一个新的属性(如大小)时,泛化性能也会更糟。


最后,当训练模型不仅预测正确的答案,而且还预测答案的“原因”(即应该考虑解决这个难题的特定关系和属性)时,DeepMind称观察到了改进的泛化性能。


有趣的是,在中性分割中(the neutral split),模型的准确性与它推断矩阵下正确关系的能力密切相关:当解释正确时,模型会选择当时正确的答案的概率为87%,但当它的解释错误时,性能下降到只有32%。这表明,当模型正确地推断出任务背后的抽象概念时,能够获得更好的性能。


更微妙的泛化方法


目前的文献关注于基于神经网络的机器学习方法的优缺点,通常是基于它们的能力或泛化的失败。DeepMind的结果表明,得出关于泛化的普遍结论可能是没有帮助的:测试的神经网络在某些泛化状态下表现得很好,而在其他状态下表现得很差。


它们的成功是由一系列因素决定的,包括所使用的模型的架构,以及模型是否被训练为其选择的答案提供可解释的“原因”。在几乎所有的情况下,当需要推断出超出其经验的输入或处理完全陌生的属性时,系统表现很差;在这个至关重要的研究领域为未来的工作创造一个清晰的重点。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/495102.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

frida hook so层、protobuf 数据解析

手机安装 app ,设置代理,然后开始抓包。 发现数据没法解密,查看请求的 url 是 http://lbs.jt.sh.cn:8082/app/rls/monitor,使用 jadx 反编译 app 后搜索这个 url(提示:可以只搜索 url 中一部分,…

大数据技术与应用解读及案例分析(PPT)

来源:网络大数据摘要:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据就是未来的石油。未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学…

pywin32库 : Python 操作 windows 系统 API

Python 模块虽多,但也不可能满足所有需求。而且,模块为了便于使用,通常都封装过度,有些功能无法灵活使用,必须直接调用Windows API 来实现。要完成这一目标,有两种办法,一种是使用 C 编写 Pytho…

华为秘密作战计划曝光,重注研发AI芯片挑战英伟达,轮值董事长挂帅

雷刚 问耕 发自 凹非寺 量子位 报道 | 公众号 QbitAI摘要:据报道,对于如何把AI引入所有业务,华为内部已经开启了代号为“达芬奇”的作战计划,并且成为华为高层每月一次讨论会的重点议题,也有不少华为高管以“D项目”来…

Python --- ctypes库的使用

ctypes 的官方文档 英文文档:https://docs.python.org/3/library/ctypes.html中文文档:https://docs.python.org/zh-cn/3.10/library/ctypes.html Python--ctypes(数据类型详细踩坑指南):https://zhuanlan.zhihu.com/p/145165873…

机器学习近年来之怪现象

来源:网络大数据人工智能领域的发展离不开学者们的贡献,然而随着研究的进步,越来越多的论文出现了「标题党」、「占坑」、「注水」等现象,暴增的顶会论文接收数量似乎并没有带来更多技术突破。最近,来自卡耐基梅隆大学…

PySide6 : Qt for Python 教程

Qt for Python 教程:https://doc.qt.io/qtforpython/tutorials/index.html 官方文档示例:https://doc.qt.io/qtforpython/examples/index.html Qt for Python 提供了一系列带有演练指南的教程,以帮助新用户入门。 其中一些文档是从 C 移植到…

PySide6 信号、槽

信号与槽的入门应用(一):https://blog.csdn.net/jia666666/article/details/81774175 信号与槽的再细分(二):https://blog.csdn.net/jia666666/article/details/81774858 信号与槽的高级玩法(三…

芯片业又起波澜!博通189亿美元收购遭质疑,股价一度跌近19%

来源:华尔街见闻摘要:如果说博通上次收购高通面临的最大“对手”是特朗普政府,这次收购CA的“对手”可能是华尔街。如果说博通上次收购高通面临的最大“对手”是特朗普政府,这次收购CA的“对手”可能是华尔街。美东时间周三&#…

JavaScript常用技巧专题五

文章目录 一、使用适当的命名和注释来提高代码可读性二、优雅的写条件判断代码2.1、普通的if else2.2、三元运算符2.3、多个if else2.4、switch case2.5、对象写法2.6、Map写法 三、封装条件语句四、函数应该只做一件事五、Object.assign给默认对象赋默认值六、函数参数两个以下…

HTML 页面的生命周期、HTML 事件

From:https://blog.csdn.net/WuLex/article/details/101016936 1、页面生命周期 HTML页面的生命周期有以下三个重要事件,每个事件都有特定的用途 DOMContentLoaded : 浏览器已经完全加载 HTML,DOM 树已经构建完毕,js …

腾讯再次海选AI项目,1500进40,医疗零售机器人成新风向

雷刚 发自 凹非寺 量子位 报道 | 公众号 QbitAI一年一度风向标,腾讯又一次海选AI项目。去年第一期腾讯AI加速器结业后,鹅厂就马不停蹄开启了第二期报名,而且这一次报名企业更多、竞争更激烈、最终录取概率甚至不到3%。第二期AI加速器通过初试…

The Human Touch 将人工智能和机器人用于病人工作的实际和伦理意义

来源:IEEE电气电子工程师学会摘要:我们生活在一个科幻小说可以很快成为科学事实的时代。在一代人的时间里,互联网已经从技术奇迹变成了实用工具,移动电话重新定义了我们的交流方式。我们生活在一个科幻小说可以很快成为科学事实的…

渗透测试 ( 0 ) --- XSS、CSRF、文件上传、文件包含、反序列化漏洞

漏洞数据库:https://www.exploit-db.com/google-hacking-database 1、渗透测试 实用 浏览器插件 chrome、edge 插件:搜索 cookie,安装 cookie editor,打开插件,可以 导出 cookie HackBar :Hackbar是网络安…

专访盛大创始人陈天桥:未来的杀手级应用必将诞生于脑科学

翻译丨于波 校对丨其奇来源丨Medium 神经科技初见陈天桥,他穿着带有花纹的短袖衬衫,休闲款式的蓝色牛仔裤,迷彩色的运动鞋,仿佛是个享受退休生活的人。过去的他可不是这样。1999年,陈天桥创建盛大游戏公司&#xff0c…

动手解决jar转txt软件的一个缺陷

代码: import java.io.BufferedOutputStream;import java.io.BufferedReader;import java.io.DataOutputStream;import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStreamReade…

渗透测试 ( 2 ) --- 渗透测试系统、靶机、GoogleHacking、kali工具

操作系统:https://zhuanlan.zhihu.com/p/162865015 1、基于 Windows、Linux、Android 的渗透测试系统 1.1 基于 Linux 的系统 Kali:https://www.kali.org/get-kali/Parrot Security OS:Parrot Securitybackbox:https://www.backbo…

清华发布《中国AI发展报告2018》:中科院系统AI论文产出全球第一

来源:大数据文摘人工智能正成为全球性话题,各国的AI人才争夺战也正愈演愈烈。那么目前,人工智能在中国的发展条件如何,中国距离成为真正的人工智能强国到底还有多远?基于此,7月13日,《中国人工智…

单例模式小记【原创】

中国的历史上很少出现两个皇帝并存的时期,是有,但不多,那我们就认为皇帝是个单例模式,在这个场景中,有皇帝,有大臣,大臣是天天要上朝参见皇帝的,今天参拜的皇帝应该和昨天、前天的一…

渗透测试 ( 3 ) --- Metasploit Framework ( MSF )

白嫖 :https://zhuanlan.zhihu.com/p/449836479:http://t.zoukankan.com/hxlinux-p-15787814.html:https://www.52pojie.cn/thread-1586222-1-1.html Metasploit Pro 英文文档:https://docs.rapid7.com/metasploit/ Metasploit P…