DeepMind新研究:AI也懂合纵连横

63dfb774833b4a554fbc72c94d137400.jpeg

摘要

人类文明的成功,植根于我们通过沟通和制定共同计划进行合作的能力。人工智能主体面临着与人类类似的问题。最近,人工智能公司 DeepMind 展示了AI如何利用沟通在桌游“强权外交”中更好地合作。研究发现,沟通主体容易受到背叛协议者的负面影响。但如果对违反合同的主体进行制裁,则可以大大降低背叛者的优势,并鼓励人工智能主体保持诚实。

人工智能,合作博弈

来源:集智俱乐部 

作者:Yoram Bachrach, János Kramár

译者:郭瑞东

审校:梁金

编辑:邓一雪 

9ff4e724f1b29e37a27420f2c29c28a9.jpeg

论文题目:

Negotiation and honesty in artificial intelligence methods for the board game of Diplomacy

论文链接:

https://www.nature.com/articles/s41467-022-34473-5

纵观历史,成功的沟通与合作对于推动社会发展至关重要。棋类游戏的封闭环境可以作为沙盒来建模和调研交互和沟通,我们可以从中学到很多东西。在最近发表在 Nature Communications 杂志上的论文中,我们展示了人工智能(AI)如何利用沟通在桌游“强权外交”(Diplomacy)中更好地进行合作。“强权外交”是人工智能研究中一个充满活力的领域,以其对建立联盟的关注而闻名。

“强权外交”是具有挑战性的桌游,它规则简单,但由于玩家之间强烈的相互依赖性和巨大的行动空间而涌现出高度的复杂性。为解决这一挑战,我们设计了协商算法,允许主体(agent)交流并就联合计划达成一致,使他们能够战胜缺乏这种能力的主体。

当我们不能指望同伴履行承诺时,合作尤其具有挑战性。我们将“强权外交”作为沙盒,来探索当主体背叛他们过去的协议时会发生什么。我们的研究说明了当复杂的主体能够歪曲他们的意图,或者在未来计划上误导他人时,会出现怎样的风险,这就引出了另一个大问题:什么样的条件能够促进可信赖的沟通和团队合作?

我们的研究表明,制裁那些违反合同的同伴这一策略大大削减了他们背弃承诺所能获得的好处,从而促进了更诚实的沟通。

1. 什么是“强权外交”,为什么它很重要?

象棋、扑克、围棋和许多视频游戏一直是人工智能研究的沃土。“强权外交”是一个7人的谈判和结盟游戏,在将欧洲划分成省份的古老地图上进行,每个玩家控制多个单位(外交规则)。在游戏的标准版本,称为“新闻外交”(Press Diplomacy),每回合包括一个谈判阶段,在此之后,所有玩家同时透露他们选择的行动。

“强权外交”的核心是谈判阶段,在这个阶段,玩家们试图就他们的下一步行动达成一致。例如,一个玩家可以支持另一个玩家,允许它克服其他玩家的阻力,如下所示:

396ae147a8e039c16281c47677367a61.jpeg

图1. 两种移动方案。左图: 两支部队(Burgundy 的一支红色部队和 Gascony 的一支蓝色部队)试图进入巴黎。由于两个单元势均力敌,两个单位都不能成功。右图:Picardy 的红色部队支援 Burgundy 的红色部队,压制蓝色部队,让红色部队进入 Burgundy。

自20世纪80年代以来,人们一直在研究“强权外交”的AI算法,其中许多方法都是在一个更简单的游戏版本“无媒体外交”(No-Press Diplomacy)中进行探索的,在这个版本中,玩家之间不允许进行战略沟通。研究人员还提出了计算机友好的谈判协议,有时被称为“限制版外交”。

2. 模拟现实世界谈判

我们使用“强权外交”作为现实世界谈判的模拟,人工智能主体通过算法协调他们的行动。我们通过向没有沟通能力的主体提供一份用以谈判联合行动计划的协议,用以增强他们在沟通方面的能力。我们称这些增强主体为基线谈判主体(Baseline Negotiator),它们受协议的约束。

f97972ac53e524154d1750a66070d272.jpeg

图2. 外交合同。左图: 一个限制,只允许红方玩家采取某些行动 [他们不允许从鲁尔河移动到勃艮第(Burgundy),必须从皮德蒙特(Piedmont)移动到马赛(Marseilles)]。右:红绿双方之间的合同,对双方都有限制。本文考虑两个协议:相互提议协议和提议-选择协议。

我们的主体应用算法,通过模拟游戏如何在不同的合同下展开来识别互惠交易。我们使用博弈论中的纳什讨价还价解(Nash Bargaining Solution)作为识别高质量协议的基础原则。游戏可能以很多方式展开,这取决于玩家的行为,因此我们的主体使用蒙特卡洛模拟来看下一回合可能发生什么。

f11fc861f777ceca3b75ddc3032869a0.jpeg

图3. 给定一个约定的契约,模拟下一步状态。左:部分棋盘上当前的状态,包括红色和绿色玩家之间商定的一个合同。右:多种可能的下一步状态。

实验表明,我们的协商机制允许基线谈判主体明显优于非交流的基线主体。

b1de80e0683bce0ebce2f38bd3d678a0.jpeg

图4. 基线谈判主体的表现明显优于非交流的主体。左: 共同提议协议。右: 提议-选择协议。“谈判者优势”(纵轴)是指交流主体与非交流主体之间的胜率比。

3. 主体违反协议

在“强权外交”中,谈判期间达成的协议是没有约束力的(口说无凭)。但是,如果主体这一次同意合同,下一次又违反合同,会发生什么呢?在许多现实生活场景中,人们同意以某种方式行事,但事后却不能履行承诺。为了实现人工智能主体之间或者主体与人类之间的合作,我们必须研究主体战略性地违反协议带来的潜在隐患,以及解决这个问题的方法。我们利用强权外交研究了背弃承诺的能力如何损害信任与合作,并确定了促进诚实合作的条件。

所以我们考虑背叛主体(Deviator Agent),它通过偏离商定的合同,试图战胜诚实的基线谈判者。简单背叛者(Simple Deviator)只是“忘记”他们曾同意合同,并随心所欲地移动。条件背叛者(Conditional Deviator)更加复杂,他们假设其他接受合同的玩家会按照合同行事,据此优化自己的行为。

51569559022ce6caf8458503842e2e40.jpeg

图5. 所有类型的可交流主体。在绿色分组标准下,每个蓝色块代表一种特定的主体算法。

我们发现简单背叛者和条件背叛者的表现明显优于基线谈判者,而条件背叛者的表现是压倒性的(图3)。

afad3142fd0ce5c7e8a9088f2adf0a5c.jpeg

图6. 背叛主体与 vs 基线谈判主体。左: 共同提议协议。右: 提议-选择协议。“背叛主体优势”(纵轴)是背叛主体与基线谈判主体之间的胜率比。

4. 鼓励AI主体变得诚实

接下来我们使用防御主体(Defensive Agent)来解决背叛问题,防御主体对背叛者有负面的反应。我们调查二元谈判者(Binary Negotiator),它们只是简单地切断与违反协议的主体的联系。但回避只是一种温和的反应,所以我们也开发了制裁主体(Sanctioning Agent),他们不会忽视背叛,而是修改他们的目标,积极地试图降低背叛者的得分——一个怀恨在心的对手!我们表明,这两种类型的防御主体减少了背叛带来的优势,特别是制裁主体。

a164cbbb63ce5c69c8444607117baf7f.jpeg图7. 非背叛主体(基线谈判主体、二元谈判主体和制裁主体)对付条件背叛主体。左图: 共同提案协议。右图,提议-选择协议。“背叛优势”(纵轴)值小于1表示防御主体优于背叛主体。与基线谈判者(灰色)相比,二元谈判者(蓝色)的数量减少了背叛者的优势。

最后,我们引入可学习的背叛者(Learned Deviator),他们在多场游戏中调整和优化策略,以对抗制裁主体的行为,试图降低上述防御策略的有效性。一个可学习背叛者只有在背叛带来的直接收益足够高,而其他主体的报复能力足够低的情况下才会违约。在实践中,可学习的背叛者偶尔会在游戏后期违反合同,这样做相比制裁主体可以获得略微优势。尽管如此,这些制裁还是促使可学习的背叛者履行了99.7%以上的合同。

我们还研究了制裁和背叛主体的可能学习动力学:当制裁主体也可能背叛合同时会发生什么,以及当这种行为代价高昂时停止制裁的潜在动机。这些问题会逐渐削弱合作,因此可能需要其他机制,例如跨多个游戏的重复互动,或需要使用信任和声誉系统。

我们的论文为未来的研究留下了许多问题:是否有可能设计更复杂的协议来鼓励更诚实的行为?如何在不完全信息博弈时使用各种交流技术?最后,还有什么其他机制可以阻止协议被破坏?构建公平、透明和可信赖的人工智能系统是一个极其重要的课题,也是 DeepMind 使命的关键部分。在“强权外交”这样的沙盒中研究这些问题,有助于我们更好地理解现实世界中可能存在的合作与竞争之间的紧张关系。最终,我们相信应对这些挑战能让我们更好地理解,如何根据社会的价值观和优先事项开发人工智能系统。

本文翻译自 DeepMind 的博客文章。

原文链接:https://www.deepmind.com/blog/ai-for-the-board-game-diplomacy

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

ad65d03506120a88d968060da4c11b74.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481237.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从逻辑回归到神经网络

回顾小夕在文章《逻辑回归》中详细讲解了逻辑回归模型,又在《Sigmoid与Softmax》中详细讲解了Sigmoid的实际意义(代表二类分类问题中,其中一个类别的后验概率)。至此,我们已经比较透彻的理解了逻辑回归模型假设函数(也…

华为2019年校招(20届实习)机考题python版解答与思路(2019-3-13软件题)

试题为今天考试时记下,记于此仅做学习分享。侵删。 答案思路仅供参考,肯定有更优的办法!第三题没解出来,欢迎大家评论提点! 第一题: 这道题对输入做切分(调用split()方法)后&#xf…

语言模型生成了自然界不存在的蛋白质,图灵奖得主LeCun:蛋白质编程来了

来源:药学前沿进展Meta:设计蛋白质这件事,语言模型就能干。用机器学习去研究蛋白质结构预测,吸引了众多科技大厂、科研机构的目光纷纷投入其中,这期间,他们也产出了重要成果。如在 2021 年 《Science》的十…

神经网络中的偏置项b到底是什么?

前言很多人不明白为什么要在神经网络、逻辑回归中要在样本X的最前面加一个1,使得 X[x1,x2,…,xn] 变成 X[1,x1,x2,…,xn] 。因此可能会犯各种错误,比如漏了这个1,或者错误的将这个1加到WX的结果上,导致模型出各种bug甚至无法收敛。…

【重版】朴素贝叶斯与拣鱼的故事

重版公告由于小夕之后要讲的好几篇文章要基于这一篇的知识,但是以前写的的这篇文章对朴素贝叶斯的讨论不够深入,又不值得再额外写一篇朴素贝叶斯啦,因此本文重版了以前的文章《朴素贝叶斯》。与旧版相比,新版对基础知识的讲解进行…

2022,这些国之重器让人眼前一亮!

来源:新华社2022即将收官这一年我们有许多难忘的回忆回顾,是为了更好出发我们将这一年各领域走过的壮阔征程制作成了精美的系列海报第一期让我们来看看那些让人眼前一亮的国之重器它们——上天入海!乘风破浪!贯通聚能!…

逻辑回归与朴素贝叶斯的战争

0一起走过的首先,小夕带领大家回顾一下文章《逻辑回归》、《Sigmoid与Softmax》、《朴素贝叶斯》中的几点内容,这几点内容也是本文的前置知识:1. 逻辑回归模型的表达式(假设函数):,其中。2. 逻辑回归模型本质上是二类分…

OpenAI年底上新,单卡1分钟生成3D点云,text-to 3D告别高算力消耗时代

来源:大数据文摘授权转载自HyperAI超神经作者:三羊OpenAI 年底冲业绩,半个多月前发布的 ChatGPT 广大网友还没玩明白,近日又悄么发布了另一利器--可以依据文本提示,直接生成 3D 点云的 PointE。text-to-3D:…

机器学习相关从业者如何兼顾理论与工程能力

理论与工程首先,小夕说一下自己目前对理论与工程的理解吧,这也是小夕当前研究理论和熟练工程时主要的出发点。(仅为个人思考,请勿当成真理理论注重的是学科中各个知识点的大一统,将各种散乱的算法、现象、技巧来归结到…

万字拆解!追溯ChatGPT各项能力的起源

导语一篇十分深度剖析GPT系列模型的文章,作者翻译成了中文,在这里分享给大家。来源:李rumor作者:符尧, yao.fued.ac.uk,爱丁堡大学 (University of Edinburgh) 博士生,本科毕业于北京大学与 彭昊&#xff0…

用excel做数据分析

我们先来看看某公司全国产品销售的报表(截取了部分) 某公司全国产品销售的报表通过货品销售数据案例,需反映如下结果: 货品销售情况货品交货情况销售货品结构构成货品销售区域构成货品按时交货与合格品综合评价 我们使用 excel 进…

消失了一周的小夕在玩什么啦?

啊,你们的小夕回来啦~有没有被吓到( ̄∇ ̄)0小夕在玩什么小夕,终于,在今天,把,各种deadline,完成了(Д )首先,小夕要像大家深深的说一声谢谢啦。好多天没有打开订阅号的后台…

第四届泰迪杯数据挖掘大赛

<script src"//g.alicdn.com/aliyun/goldeneye-deploy/0.0.1/static/goldeneye.js"></script> <link rel"stylesheet" href"//at.alicdn.com/t/font_422887_vrqbpml6oos.css"><!--top-header begin-->云栖社区博客问答聚…

一般化机器学习与神经网络

0前言机器学习的初学者很容易被各种模型搞得晕头转向。如果扎进各种模型的细节无法自拔的话&#xff0c;可能很难发现一般化的框架。如果你觉得神经网络是非常不同的机器学习模型&#xff0c;如果你觉得神经网络的各种新名词让你觉得这完全就是一片新天地&#xff0c;那么可能你…

扩散模型再发力!图灵奖得主Hinton团队提出:图像和视频全景分割新框架

来源&#xff1a;机器之心作者&#xff1a;Ting Chen 等 编辑&#xff1a;赵阳本文的创新点一方面在于能够在大型全景掩码上训练扩散模型&#xff0c;一方面在于可以同时适配图片和流媒体场景。全景分割是一项基本的视觉任务&#xff0c;该任务旨在为图像的每个像素指定语义标…

经典的K-means聚类算法

原理部分主要来自大牛zouxy09和trnadomeet两个人的博客&#xff1b;后面的代码详细讲解为自己精心编写 一、概述 非监督学习的一般流程是&#xff1a;先从一组无标签数据中学习特征&#xff0c;然后用学习到的特征提取函数去提取有标签数据特征&#xff0c;然后再进行分类器的训…

《Cell》发现免疫系统的“武器研发实验室”

来源&#xff1a;生物通如果B细胞是免疫系统的兵工厂&#xff0c;制造抗体来中和有害的病原体&#xff0c;那么被称为生发中心的微小生物结构就是它的武器开发设施。.淋巴结的生发中心簇充满了成熟的B细胞(红色)&#xff0c;点缀着进化程度较低的B细胞(绿色)。 如果B细胞是免…

机器学习从理论到工程的第一步-编程语言篇

前言在文章《机器学习从业者如何兼顾理论与工程》中&#xff0c;小夕对编程语言的选择进行了小小建议。鉴于有些同学对小夕建议的“主python&#xff0c;辅C&#xff0c;备用matlab和java”疑问较大&#xff0c;小夕在此详细解释一下&#xff0c;也欢迎大家补充新观点哦。为什么…

聚类算法当中的K-means算法如何去做天猫淘宝的推广任务

5 人赞同了该回答figure data-size"normal">data-size"normal">这个入口是全网人气新品池&#xff0c;我们今天所获取到的数据都是来源于这里。无论是C店还是B店&#xff0c;统统都有机会进来。这个平台最有价值的数据&#xff0c;就是可以告诉我们自…

通过双重众包预测 RNA 降解的深度学习模型

编辑 | 萝卜皮基于信使 RNA (mRNA) 的药物具有巨大的潜力&#xff0c;正如它们作为 COVID-19 疫苗的快速部署所证明的那样。然而&#xff0c;mRNA 分子的全球分布受到其热稳定性的限制&#xff0c;这从根本上受限于 RNA 分子对称为在线水解的化学降解反应的固有不稳定性。预测 …