DeepMind 最新发文:AlphaZero 的黑箱打开了

707364354741f7fa2eb1f9433e6e6912.jpeg

来源:AI科技评论

作者:李梅

编辑:陈彩娴

AlphaZero 表明神经网络可以学到人类可理解的表征。

国际象棋一直是 AI 的试验场。70 年前,艾伦·图灵猜想可以制造一台能够自我学习并不断从自身经验中获得改进的下棋机器。上世纪出现的“深蓝”第一次击败人类,但它依赖专家编码人类的国际象棋知识,而诞生于 2017 年的 AlphaZero 作为一种神经网络驱动的强化学习机器实现了图灵的猜想。

AlphaZero 的无需使用任何人工设计的启发式算法,也不需要观看人类下棋,而是完全通过自我对弈进行训练。

那么,它真的学习了人类关于国际象棋的概念吗?这是一个神经网络的可解释性问题。

最近,AlphaZero 的作者 Demis Hassabis 与 DeepMind 的同事以及谷歌大脑的研究员合作了一项研究,在 AlphaZero 的神经网络中找到了人类国际象棋概念的证据,展示了网络在训练过程中获得这些概念的时间和位置,还发现了 AlphaZero 与人类不同的下棋风格。论文近期发表于 PNAS。

6e673e768e0e61ceb199374f34bad6f8.jpeg

论文地址:

https://www.pnas.org/doi/epdf/10.1073/pnas.2206625119

1

AlphaZero 在训练中获得人类象棋概念

AlphaZero 的网络架构包含一个骨干网络残差网络(ResNet)和单独的 Policy Head、Value Head,ResNet 由一系列由网络块和跳跃连接(skip connection)的层构成。

在训练迭代方面,AlphaZero 从具有随机初始化参数的神经网络开始,反复与自身对弈,学习对棋子位置的评估,根据在此过程中生成的数据进行多次训练。

为了确定 AlphaZero 网络在多大程度上表征了人类所拥有的国际象棋概念,这项研究使用了稀疏线性探测方法,将网络在训练过程中参数的变化映射为人类可理解概念的变化。

首先将概念定义为如图 1 中橙色所示的用户定义函数。广义线性函数 g 作为一个探针被训练用于近似一个国际象棋概念 c。近似值 g 的质量表示层(线性)对概念进行编码的程度。对于给定概念,对每个网络中所有层的训练过程中产生的网络序列重复该过程。

727432366017fd674d36f23a0b28bcbb.jpeg

图 1:在 AlphaZero 网络(蓝色)中探索人类编码的国际象棋概念。

比如,可以用一个函数来确定我方或地方是否有“主教” (♗) :

e22e25b63260dbf9a65a4b6afe6ffab4.jpeg

当然,还有很多比这个例子更复杂的象棋概念,比如对于棋子的机动性(mobility),可以编写一个函数来比较我方和敌方移动棋子时的得分。

在本实验中,概念函数是已经预先指定的,封装了国际象棋这一特定领域的知识。

接下来是对探针进行训练。研究人员将 ChessBase 数据集中 10 的 5 次方个自然出现的象棋位置作为训练集,从深度为 d 的网络激活训练一个稀疏回归探针 g,来预测给定概念 c 的值。

通过比较 AlphaZero 自学习周期中不同训练步骤的网络,以及每个网络中不同层的不同概念探针的分数,就可以提取网络学习到某个概念的时间和位置。

最终得到每个概念的 what-when-where 图,对“被计算的概念是什么”、“该计算在网络的哪个位置发生”、“概念在网络训练的什么时间出现”这三个指标进行可视化。如图2。

0537e62d0af1748864bb78e0328133a3.jpeg

图2:从 A 到 B 的概念分别是“对总分的评估”、“我方被将军了吗”、“对威胁的评估”、“我方能吃掉敌方的皇后吗”、“敌方这一步棋会将死我方吗”、“对子力分数的评估”、“子力分数”、“我方有王城兵吗”。

可以看到,C 图中,随着 AlphaZero 变得更强,“threats”概念的函数和 AlphaZero 的表征(可由线性探针检测到)变得越来越不相关。

这样的 what-when-where 图包括探测方法比较所需的两个基线,一是输入回归,在第 0 层显示,二是来自具有随机权重的网络激活的回归,在训练步骤 0 处显示。上图的结果可以得出结论,回归精度的变化完全由网络表征的变化来决定。

此外,许多 what-when-where 图的结果都显示了一个相同的模式,即整个网络的回归精度一直都很低,直到大约 32k 步时才开始随着网络深度的增加而迅速提高,随后稳定下来并在后面的层中保持不变。所以,所有与概念相关的计算都在网络的相对早期发生,而之后的残差块要么执行移动选择,要么计算给定概念集之外的特征。

而且,随着训练的进行,许多人类定义的概念都可以从 AlphaZero 的表征中预测到,且预测准确率很高。

对于更高级的概念,研究人员发现 AlphaZero 掌握它们的位置存在差异。首先在 2k 训练步骤时与零显著不同的概念是“material”和“ space”;更复杂的概念如“king_safety”、“threats”、“mobility”,则是在 8k 训练步骤时显著得变为非零,且在 32k 训练步骤之后才有实质增长。这个结果与图 2 中 what-when-where 图显示的78fa4b0dd42306b56f856d139156eeb5.png急剧上升的点一致。

另外,大多数 what-when-where 图的一个显著特征是网络的回归精度在开始阶段增长迅速,随后达到平稳状态或下降。这表明目前从 AlphaZero 身上所发现的概念集还只是检测了网络的较早层,要了解后面的层,需要新的概念检测技术。

2

AlphaZero 的开局策略与人类不同

在观察到 AlphaZero 学习了人类国际象棋概念后,研究人员进一步针对开局策略探讨了 AlphaZero 对于象棋战术的理解,因为开局的选择也隐含了棋手对于相关概念的理解。

943ef8c3332540f5785f9ac77efbd1fd.jpeg

研究人员观察到,AlphaZero 与人类的开局策略并不相同:随着时间的推移,AlphaZero 缩小了选择范围,而人类则是扩大选择范围。

如图 3A 是人类对白棋的第一步偏好的历史演变,早期阶段,流行将 e4 作为第一步棋,后来的开局策略则变得更平衡、更灵活。

图 3B 则是 AlphaZero 的开局策略随训练步骤的演变。可以看到,AlphaZero 的开局总是平等地权衡所有选择,然后逐渐缩小选择范围。

cec95ecbc1fce7ac6ea69024a5d7fe99.jpeg

图 3:随着训练步骤和时间的推移,AlphaZero 和人类对第一步的偏好比较。

这与人类知识的演变形成鲜明对比,人类知识从 e4 开始逐渐扩展,而 AlphaZero 在训练的后期阶段明显偏向于 d4。不过,这种偏好不需要过度解释,因为自我对弈训练是基于快速游戏,为了促进探索增加了许多随机性。

造成这种差异的原因尚不清楚,但它反映了人类与人工神经网络之间的根本差异。一个可能的因素,或许是关于人类象棋的历史数据更强调大师玩家的集体知识,而 AlphaZero 的数据包括了初学者级别下棋和单一进化策略。

那么,当 AlphaZero 的神经网络经过多次训练后,是否会出对某些开局策略显示出稳定的偏好?

研究结果是,许多情况下,这种偏好在不同训练中并不稳定,AlphaZero 的开局策略非常多样。比如在经典的Ruy Lopez 开局(俗称“西班牙开局”)中,AlphaZero 在早期有选择黑色的偏好,并遵循典型的下法,即 1.e4 e5,2.Nf3 Nc6,3.Bb5。

74463f935bbb7bb5d52c9a28303242af.jpeg

图 4:Ruy Lopez 开局

而在不同的训练中,AlphaZero 会逐渐收敛到 3.f6 和 3.a6 中的一个。此外,AlphaZero 模型的不同版本都各自显示出对一个动作的强烈偏好,且这种偏好在训练早期就得以建立。

这进一步证明,国际象棋的成功下法多种多样,这种多样性不仅存在于人与机器之间,也存在于 AlphaZero 的不同训练迭代中。

3

AlphaZero 掌握知识的过程

那么,以上关于开局策略的研究结果,与 AlphaZero 对概念的理解有什么关联呢?

这项研究发现,在各种概念的 what-when-where 图中有一个明显的拐点,与开局偏好的显著变化正好相吻合,尤其是 material 和 mobility的概念似乎与开局策略直接相关。

material 概念主要是在训练步骤 10k 和 30k 之间学习的,piece mobility 的概念也在同一时期逐步融入到 AlphaZero 的 value head 中。对棋子的 material 价值的基本理解应该先于对棋子 mobility 的理解。然后 AlphaZero 将这一理论纳入到 25k 到 60k 训练步骤之间开局偏好中。

作者进一步分析了 AlphaZero 网络关于国际象棋的知识的演变过程:首先发现棋力;接着是短时间窗口内基础知识的爆炸式增长,主要是与 mobility 相关的一些概念;最后是改进阶段,神经网络的开局策略在数十万个训练步骤中得到完善。虽然整体学习的时间很长,但特定的基础能力会在相对较短的时间内迅速出现。

前国际象棋世界冠军 Vladimir Kramnik 也被请来为这一结论提供佐证,他的观察与上述过程一致。

最后总结一下,这项工作证明了 AlphaZero 网络所学习的棋盘表示能够重建许多人类国际象棋概念,并详细说明了网络所学习的概念内容、在训练时间中学习概念的时间以及计算概念的网络位置。而且,AlphaZero 的下棋风格与人类并不相同。

既然我们以人类定义的国际象棋概念来理解神经网络,那么下一个问题将会是:神经网络能够学习人类知识以外的东西吗?

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

f06d62a61aa7b5f2171670615e2d1d22.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481403.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

陶哲轩:张益唐新论文存在一些技术问题,我已请他澄清

来源:梦晨 羿阁 发自 凹非寺量子位 | 公众号 QbitAI张益唐的零点猜想证明,该由谁来检验?不少人把目光投向陶哲轩。最新消息,陶哲轩已经读过张益唐的论文并做出点评:目前论文的基本正确性尚未得到确认。存在一些印刷错误…

MIT提出封闭式连续时间神经网络,解决大脑动力学问题可产生灵活的机器学习模型...

编辑/绿萝去年,麻省理工学院(MIT)的研究人员开发出了「液体」神经网络,其灵感来自小型物种的大脑,不仅能在训练阶段学习,而且还能持续不断地适应。可用于自动驾驶和飞行、大脑和心脏监测、天气预报和股票定…

自上而下的因果关系:数学结构与观察者

导语复杂性的基础是模块化的分层结构,导致基于较低级别网络的结构和功能的涌现级别。通俗而言,当需要执行复杂的任务时,可以将其分解为子任务,每个子任务都比整个项目更简单,需要更少的数据和更少的计算能力&#xff0…

从大脑中汲取灵感,能效提高了1000倍,新芯片拓展AI的可能性

来源:ScienceAI人工智能算法无法以目前的速度保持增长。像深度神经网络这样的算法——它受到大脑的松散启发,多层人工神经元通过称为权重的数值相互连接——每年都在变大。但如今,硬件改进已无法跟上运行这些海量算法所需的大量内存和处理能力…

5G/6G:构建一个更加互联智能的世界

来源:IEEE电气电子工程师在过去几年中,随着5G网络技术的兴起,5G基础建设与应用也日渐成熟。2023年,通信行业的发展步伐也并未放缓。在《IEEE全球调研:科技在2023年及未来的影响》中显示,当半数的受访者谈及…

Science 撤稿“天使粒子”论文,原始数据受质疑

海归学者发起的公益学术平台分享信息,整合资源交流学术,偶尔风月11月18日, Science 撤下了王康隆、张首晟等科学家完成的著名“天使粒子”论文。2021年3月 Nature 也撤回了代尔夫特理工大学的一篇“天使粒子”相关的论文。两篇重量级论文的倒…

2022年全球人工智能产业态势分析

来源:学术plus 作者:学术plus观察员 曹文,惠文审核:行业研究顾问 辛鑫,行雁国家战略风向1.1 全球主要国家密集发布政策举措,争夺人工智能领域优势2022年全球主要国家在人工智能领域的竞争仍然激烈。据英国牛…

你与植物人有何区别?意识与复杂性的新研究给你答案

来源:Mindverse Research作者:郭瑞东相比无意识的时间,当你有意识时,你会有怎样的直观感受?是觉得更加不可预测,还是能够用相距更长的事件进行描述?如果将有意识时的大脑活动记录下来&#xff0…

NeuroAI作者,冷泉港主任独家专访:忽视神经科学给我们的启示是愚蠢的

来源:智源社区采访&整理:李梦佳校对:熊宇轩神经科学究竟如何启发AI?不同路径如何殊途同归?智源社区采访了NeuroAI白皮书的第一署名作者,来自冷泉港实验室(Cold Spring Harbor Laboratory&am…

AI再卷数学界,DSP新方法将机器证明成功率提高一倍

来源:机器之心编谷歌的吴宇怀 (Yuhuai Tony Wu)等研究者设计了一种叫做「Draft, Sketch, and Prove」 (DSP)的新方法将非形式化的数学证明转化为形式化的证明。实验结果显示,自动证明器在 miniF2F 上解决的问题比例从 20.9% 提高到了 38.9%。自动证明数学…

华人数学家死磕欧拉方程10年,用计算机找到了让它失效的“奇点”

来源:金磊 发自 凹非寺量子位 | 公众号 QbitAI专研长达10年,论文足足177页。华人数学家通过计算机,找到了让著名欧拉方程失效的“奇点”。△图源:Quanta Magazine欧拉方程,是250年前(1755年)由瑞…

张益唐零点问题论文会是什么结果?

关注 哆嗒数学网 每天获得更多数学趣文最近,菲尔兹奖得主在他的一篇旧博文的评论区对张益唐关于朗道-西格尔猜想的论文进行了评论。大概意思是,论文还没被确认是正确的,因为文章已经发现的各种问题,其中一些问题还是阻碍验证的过程…

大型互联网系统架构演进,BATJ其实无需神化……

来源:云技术一、前言说到互联网系统架构,在互联网行业日渐成熟的今天,一谈到这背后的技术体系,很多人脑海中可能就会浮现从网上看到的,一个个庞大的知识图谱,能说地清楚其中一二的同学,自然是志…

AI能否改变我们发现新药的方式?哈佛医学院团队开发AI驱动的药物发现平台

编辑 | 绿萝世界人口老龄化、慢性病和传染病负担日益加重,迫切需要安全有效的药物来满足全球数十亿人的医疗需求。然而,发现一种新药并将其推向市场是一个漫长、艰巨且昂贵的过程。长期以来,人工智能(AI)一直被认为能够…

城市大脑的基本原理与战略意义分析

本文发布于2022年10月中国指挥与控制学会会刊作者:刘锋城市大脑是21世纪以互联网为核心的世界数字生态向类脑结构演化并与智慧城市结合的产物,世界统一的数字神经元将人、物、系统和组织有机的结合在一起实现万物互联,云反射弧机制实现数字神…

“史上最贵”世界杯,暗藏哪些传感器黑科技?

来源:综合来源:科技日报、IDG资本、中国日报双语新闻、感知芯视界等编辑:感知芯视界2022年卡塔尔世界杯(FIFA World Cup Qatar 2022)是第二十二届世界杯足球赛,是历史上首次在卡塔尔和中东国家境内举行、也是继2002年韩日世界杯之…

刘庆生:学术需要批判氛围

来源:刘庆生科学网博客链接地址:https://blog.sciencenet.cn/blog-673617-1364620.html作者:刘庆生(中国地质大学)最近在抖音上看了复旦大学特聘教授张汝伦的一个短视频。他在视频中提到,上海电视台采访一位…

斯蒂芬·沃尔夫勒姆 | 圣塔菲研究所的初创故事

来源:集智俱乐部 作者:斯蒂芬沃尔夫勒姆 数学家、物理学家、计算机科学家导语:圣塔菲研究所被誉为复杂性科学的圣地,被称为“没有围墙的研究所”,那么它是如何创建发展起来的呢?2019 年,为了纪…

为什么地球的生物都是碳基生命?科学家:大自然环境选择的结果

来源:科学的乐园地球是一个有着多达数百万种生物形式的生命世界,不管这些物种的外形有多大的差异,也不管是植物还是动物,它们都有一个共同的本质,都是碳基生命。可能有朋友会说了,生命体内最多的物质不是氧…

台积电1nm,有新进展

来源:万物智能视界中国台湾地区行政院副院长沈荣津昨日接受本台媒专访时表示,台积电1纳米新厂将落脚桃园龙潭,台积电大本营在新竹科学园区,若真的想要超前部署台湾半导体先进制程,就近选择龙潭科学园区是最理想之处&am…