《Playing repeated games with Large Language Models》- 使用大型语言模型玩重复游戏
- 论文信息
- 摘要
- 1. 介绍
- 2. 相关工作
- 3. 一般方法
- 4. 分析不同游戏系列的行为
- 5. 囚徒困境
- 5.1 性别之战
- 6. 讨论
论文信息
- 题目:《Playing repeated games with Large Language Models》
- 作者:Elif Akata and et al.
- 期刊:arXiv
- 发表时间:26 May 2023
- 内容概述:论文利用行为博弈论来研究 LLMs 的合作与协调行为。
摘要
大型语言模型 (LLMs) 正在改变社会并渗透到各种应用中。因此,LLMs 会经常与我们和其他代理互动。因此,了解 LLMs 在互动社交环境中的行为具有巨大的社会价值。在这里,我们建议利用行为博弈论来研究 LLMs 的合作与协调行为。为此,我们让不同的 LLM(GPT-3、GPT-3.5 和 GPT-4)彼此以及与其他类似人类的策略进行有限重复的游戏。我们的结果表明,LLMs 通常在此类任务中表现良好,并且还发现了持久的行为特征。在大量两个玩家两个策略的游戏中,我们发现 LLMs 特别擅长重视自身利益的游戏,例如迭代的囚徒困境系列。然而,他们在需要协调的游戏中表现不佳。因此,我们进一步关注这些不同系列的两款游戏。在典型的迭代囚徒困境中,我们发现 GPT-4 的行为特别无情,总是在另一个特工仅叛逃一次后就叛逃。在性别之战中,我们发现 GPT-4 无法匹配在选项之间进行交替的简单约定的行为。我们验证这些行为签名在稳健性检查中是稳定的。最后,我们展示了如何通过提供有关其他玩家的更多信息以及要求 GPT-4 在做出选择之前预测其他玩家的行为来修改 GPT-4 的行为。这些结果丰富了我们对 LLMs 社会行为的理解,并为机器行为博弈论铺平了道路。
1. 介绍
大型语言模型 (LLMs) 是深度学习模型,具有在庞大文本语料库上训练的数十亿个参数 [Brants et al., 2007, Devlin et al., 2018, Radford et al., 2018]。虽然它们可以生成人类评估者难以区分的文本和其他人类编写的文本 [Brown et al., 2020],但它们还表现出了其他新兴能力 [Wei et al., 2022a]。例如,它们可以解决类比推理任务 [Webb et al., 2022]、对 Web 应用程序进行编程 [Chen et al., 2021],或使用工具来解决多个任务 [Bubeck et al., 2023]。由于这些能力及其日益普及,LLMs 正处于改变我们日常生活的风口浪尖,因为它们渗透到许多应用中 [Bommasani et al., 2021]。这意味着 LLMs 将与我们和其他代理人(LLMs 或其他代理)频繁且反复地互动。LLMs 在这些重复的社交互动中表现如何?
衡量人们在重复互动中的行为方式,例如,他们如何合作 [Fudenberg et al., 2012] 和协调 [Mailath and Morris, 2004],是行为经济学子领域的主题,称为行为博弈论 [Camerer, 2011]。 虽然传统博弈论假设人们的战略决策是理性的、自私的,并且注重效用最大化 [Fudenberg and Tirole, 1991, Von Neumann and Morgenstern, 1944],但行为博弈论表明人类主体偏离了这些原则,因此, 他们的决定如何受到社会偏好、社会效用和其他心理因素的影响[Camerer, 1997]。 因此,行为博弈论非常适合研究不同主体的重复相互作用[Henrich et al., 2001, Rousseau et al., 1998],包括人工主体[Johnson and Obradovich, 2022]。
在本文中,我们让 LLMs 玩具有完整信息的有限重复游戏,并分析他们在与其他 LLMs 玩时的行为以及简单的、类似人类的策略。有限重复游戏的设计目的是为了了解代理在多次迭代的交互中应该如何表现。因此,这些游戏非常适合研究日益重要且臭名昭著的不透明 LLMs 的行为特征。我们专注于具有两个离散动作的两人游戏,即所谓的 2 × 2 游戏。
我们首先让三个引擎 GPT-3、GPT-3.5 和 GPT-4 互相玩大量此类游戏。分析它们在不同游戏系列中的表现,我们发现它们在重视纯粹自利的游戏中表现非常出色,尤其是那些来自囚徒困境系列的游戏。然而,他们在涉及协调的游戏中表现不佳。因此,我们进一步关注这些家族的游戏,特别是目前最大的 LLMs:GPT-4 [OpenAI,2023]。在评估代理如何合作和叛逃的典型囚徒困境中,我们发现 GPT-4 会反复报复,即使只经历过一次叛逃。因为这确实可以是均衡的个体层面的策略,GPT-4 擅长这些游戏,因为它特别无情和自私。然而,在评估智能体如何在自己和伴侣的偏好之间权衡的 “性别之战” 中,我们发现 GPT-4 无法与简单的类人智能体协调,这些智能体在试验中交替选择。因此,GPT-4 不擅长这些游戏,因为它不协调。我们还验证这些行为并不是由于无法预测其他玩家的行为而导致的,并且在多次稳健性检查和收益矩阵更改中持续存在。最后,我们指出了改变这些行为的两种方法。通过指出其他玩家可能犯的错误,GPT-4 可以表现得更加宽容。此外,当 GPT-4 在选择行动之前首先被要求预测他们的行动时,GPT-4 会更好地与其他玩家协调。
总而言之,我们的结果展示了如何改进 LLMs 的互动行为并更好地符合人类惯例。我们的方法可以丰富我们对受控和可解释的交互环境中的 LLMs 的理解,并为机器行为博弈论铺平道路。
2. 相关工作
随着算法变得越来越强大并且其决策变得越来越难以理解,行为科学提供了新的工具来仅根据行为观察进行推断[Rahwan et al., 2022, Schulz and Dayan, 2020]。因此,行为任务已被用于多个基准测试中 [Bommasani et al., 2021, Kojima et al., 2022]。
算法是否以及如何对其他代理、机器等进行推断,是大量借鉴行为科学的研究流 [Rabinowitz et al., 2018; Cuzzolin et al., 2020; Alon et al., 2022]。大多数 LLMs 所嵌入的社交互动特别令人感兴趣的是推理其他代理人的信念、欲望和意图的能力,或所谓的心智理论(ToM)[Frith and Frith,2005]。心智理论是各种互动现象的基础,从仁慈的教学 [Vélez 和 Gweon,2021] 到恶意的欺骗 [Lissek 等人,2008,Alon 等人,2022],并且被认为是许多社会现象的关键,和人类互动中的现象 [Hula et al., 2015, Ho et al., 2022]。
LLMs 是否拥有心理理论一直存在争议。例如,Kosinski [2023] 认为 GPT-3.5 在许多不同的规范 ToM 任务上表现良好。其他人对这一观点提出质疑,认为如此好的表现仅仅是特定提示的函数 [Ullman, 2023, Le et al., 2019]。然而其他研究表明,思想链推理显着提高了 LLMs 的 ToM 能力 [Moghaddam 和 Honey,2023]。此外,有人认为,目前最大的 LLM GPT-4 在 ToM 任务中表现良好,包括 GPT-3.5 之前陷入困境的变体 [Bubeck et al., 2023]。因此,GPT-4 的行为将在我们即将进行的实验中特别令人感兴趣。
取自博弈论的游戏为研究受控环境中的交互行为提供了一个理想的测试平台,并且 LLMs 的行为已在此类任务中进行了探讨 [Chan et al., 2023]。例如,Horton [2023] 让 GPT-3 作为参与者在独裁者游戏中,以及 Aher 等人[2022]对最后通牒游戏使用了相同的方法。两者都显示了模型的行为如何适应不同的提示,例如使它们或多或少地自利。然而,与我们的工作的一个关键区别是,所有这些游戏都依赖于单一的在较少的游戏中进行交互,并且不使用迭代游戏。
我们的研究建立在该领域的最新进展的基础上,这些进展已将重点从仅仅评估 LLMs 的表现转移到将其与人类行为进行比较。之前的研究工作已经探索了分析 LLMs 的各种方法,例如采用认知心理学工具[Binz and Schulz, 2023, Dasgupta et al., 2022],甚至采用计算精神病学视角[Coda-Forno et al., 2023]。
最后,交互代理背后的理论对于许多机器学习应用来说非常重要 [Crandall 和 Goodrich,2011],特别是在对抗性环境中 [Goodfellow et al., 2020],其中一个代理试图欺骗另一个代理认为生成的输出是好的。
3. 一般方法
图 1:在 “性别之战” 示例游戏中重复玩游戏。在步骤(1)中,我们将收益矩阵转化为文本游戏规则。 (2) 游戏规则、当前游戏历史和查询被连接起来并作为提示传递给 LLM。 (3) 在每一轮中,每个玩家的历史记录都会更新为两位玩家的答案和分数。步骤 2 和 3 重复 10 轮。
我们利用经济学文献中的全部信息来研究 LLMs 在有限重复博弈中的行为。我们专注于两人游戏,在两个选项之间进行离散选择,以简化紧急行为的分析。我们让两个 LLM 通过提示链进行交互(概览见图 1),即所有证据的整合和对过去交互的学习都以上下文学习的方式发生 [Brown et al., 2020, Liu et al., 2023]。这些游戏作为提示提交给 LLM,其中描述了相应的游戏,包括选择选项。同时,我们将同一个游戏作为提示提交给另一个 LLM。一旦两个 LLM 都做出了选择(我们将其作为给定文本的完成进行跟踪),我们就会使用过去交互的历史记录作为连接文本来更新提示,然后将新的提示提交给两个模型以进行下一轮。每场比赛这些互动总共持续 10 轮。为了避免场景特定框架的影响,我们仅提供收益矩阵的简单描述(参见图 1 中的示例)。为了避免特定选择名称或使用的框架造成污染,我们在全文中使用中性选项 “F” 和 “J” [Binz and Schulz,2023]。
我们首先研究 144 种不同的 2 × 2 游戏,其中每个玩家都有两个选择,他们的个人奖励是他们共同决策的函数。虽然这些游戏可能看起来很简单,但它们提供了一些最强大的方法来探索不同的交互集,从纯粹的竞争到混合动机和合作 —— 可以进一步分为 Robinson 和 Goforth [2005] 优雅概述的规范亚族。在这里,为了涵盖广泛的可能相互作用,我们研究了 GPT-4、GPT-3.5 的行为 和 GPT-3 跨越这些规范系列。我们让所有三个引擎玩系列内游戏的所有变体。然后我们更详细地分析两个游戏,因为它们代表了有趣的边缘情况,其中 LLM 表现得非常好,并且相对而言我们特别关注 GPT-4 的行为,因为最近围绕它的心理理论能力展开了争论,即它是否能够对其他智能体的意图和目标持有信念,这是成功导航重复交互的关键能力 [Bubeck etal., 2023, Kosinski, 2023]。对于所有 LLM,我们使用公共 OpenAI Python API 来运行我们的模拟。我们将温度参数设置为 0,并且仅要求一个令牌答案来指示代理想要选择哪个选项所有其他参数均保留为默认值。对于另外两个游戏,我们还让 LLM 与简单的手动编码策略对战,以进一步了解他们的行为。这些简单的策略旨在评估 LLM 在与更像人类的玩家一起玩时的行为。
4. 分析不同游戏系列的行为
图 2:所有类型 2 × 2 游戏的实验结果。数字按性能从最好到最差排序。支付矩阵代表每个家庭的一种规范游戏。在双赢的游戏中,双方都应该选择相同的选项来获胜(即 4/4)。在囚徒困境 (PD) 系列游戏中,玩家可以选择合作或叛逃。在不公平的游戏中,只要玩得正确,一名玩家总是可以获胜(支付矩阵的底行)。在循环游戏中,玩家可以循环选择。偏见游戏的一种形式是性别之战,玩家需要协调才能选择相同的选项。最后,在次优游戏中,最好选择次优选项(即 3/3)。条形代表与 10 轮最大回报相比的标准化表现。误差线代表平均值的 95% 置信区间。
我们通过让三个 LLM 互相玩来自不同系列的游戏来开始我们的模拟。我们专注于双赢、有偏见、次优、循环和不公平博弈系列中所有已知类型的 2 × 2 游戏,以及囚徒困境系列中的所有游戏 [Owen,2013,Robinson 和 Goforth, 2005]。双赢博弈是非零和博弈的一种特殊情况,只要双方选择相应的最佳选择,就会为双方带来互惠互利的结果。简而言之,在囚徒困境系列的游戏中,两个智能体可以选择共同努力,即合作,以实现平均互利,也可以选择背叛对方,即背叛,以实现自身利益。在一场不公平的比赛中,只要有一个玩家发挥得当,总能获胜。在循环游戏中,玩家可以循环选择模式。偏见游戏是指代理因选择相同选项而获得更高分数,但两个玩家的首选选项不同的游戏。最后,次佳游戏是指如果双方共同选择具有次佳效用的选项,那么双方都会表现得更好的游戏。我们在图 2 中展示了每种类型游戏的规范形式。
我们让所有引擎与其他引擎(包括它们自己)一起玩所有游戏,重复进行 10 轮以上,并且所有引擎都作为玩家 1 或玩家 2。这总共导致 1224 场比赛:324 场双赢、63 场囚徒困境、171 场不公平、162 场循环、396 场有偏见、108 场次佳比赛。
为了分析不同引擎的性能,我们计算了每场比赛的得分除以理想条件下可能达到的总得分,即如果两名玩家都玩的话,我们正在分析的玩家将获得最大得分每轮可能的结果。图 2 显示了所有游戏类型的模拟结果。我们可以看到所有引擎的性能都相当不错。此外,我们可以观察到较大的 LLM 通常优于较小的 LLM,并且 GPT-4 通常总体表现最好。
我们可以利用这些结果来一睹不同 LLM 的优势。LLM 通常在双赢游戏中表现最好并不特别令人惊讶,因为在此类游戏中总是存在明显的最佳选择。然而,令人惊讶的是是它们在囚徒困境系列游戏中也表现良好,众所周知,这对人类玩家来说具有挑战性 [Jones, 2008]。因此,接下来我们将详细研究 LLM 在典型囚徒困境中的行为。我们可以还使用这些结果来看看不同的 LLM 的弱点。看起来,所有的 LLM 在最佳选择与自己的偏好不一致的情况下都表现不佳。因为人类通常通过形成约定来解决此类游戏,我们稍后我们将更详细地讨论一种规范的惯例形成游戏,即 “性别之战”。
5. 囚徒困境
我们已经看到 LLM 在包含竞争和叛逃元素的游戏中表现良好。在这些游戏中,玩家可以与伙伴合作或背叛。当进行多次互动时,这些游戏是评估 LLM 在不良互动后如何报复的理想测试平台。
图 3:囚徒困境概述。 (A) 收益矩阵。 (B) 左:热图显示每个玩家组合中玩家 1 的流失率。右:玩家 1 在每场比赛中获得的分数。(C)GPT-4 和一次背叛然后合作的智能体之间的示例游戏玩法(左),以及 GPT-4 和 GPT-3.5 之间的示例游戏玩法(右)。这些游戏也在 B 中以红色突出显示。
在典型的囚徒困境中,两个智能体可以选择一起工作,即合作,以实现平均互利,也可以选择互相背叛,即缺陷,以实现自身的利益和安全(参见图 3A 的支付矩阵)。至关重要的是,游戏的设置使得理性行动的智能体总是更愿意在游戏的单次版本以及我们已知试验次数的有限迭代游戏的情况下进行背叛,尽管承诺理论上合作时可以获得更高的回报。这是因为玩家 1 总是冒着玩家 2 背叛的风险,导致玩家 1 遭受灾难性损失,但玩家 2 会得到更好的结果。然而,当游戏无限进行时,或者尝试次数未知时,代理理论上可以通过以下方式获利:采用更动态、半合作的策略[Axelrod 和 Hamilton,1981]。
在我们的收益矩阵中,我们遵循囚徒困境博弈的一般条件,其中收益关系表明相互合作大于相互背叛,而背叛仍然是双方参与者的占优策略(见图 3A)。和之前一样,我们让 GPT-4、GPT-3.5 和 GPT-3 相互对战。此外,我们还介绍了其他三种更简单的策略。其中两个策略是简单的单例玩家,他们要么总是合作,要么背叛。最后,我们还引入了一个在第一轮中背叛但在接下来的所有轮中都合作的智能体。我们引入这个代理是为了评估不同的 LLM 是否会再次开始与该代理合作,这表明潜在的信任建立。
图 3B 显示了所有成对相互作用的结果。 GPT-4 在对抗所有其他代理时总体表现良好。至关重要的是,GPT-4 在与一个背叛一次但此后每一轮都合作的智能体进行游戏时再也不会合作。因此,GPT-4 在这种设置上似乎相当无情。因此,它在这些游戏系列中的优势似乎通常源于这样一个事实:它不与代理合作,而大多只是选择叛逃,尤其是在其他代理叛逃一次之后。
图 4:囚徒困境的提示变化,F 代表叛逃和 J 代表合作。顶部:如果 GPT-4 知道其他代理背叛一次,然后在此后的每一轮中合作,则 GPT-4 总是会选择背叛。底部:被告知其他玩家有时会犯错误,GPT-4 在第 3 回合再次开始合作。
为了确保观察到的不宽容不是由于所使用的特定提示引起的,我们运行了游戏的多个版本作为稳健性检查,修改了所呈现选项的顺序,将选项重新标记为数字或其他字母,并更改了所呈现的选项公用事业可以用积分、美元或硬币来表示。这些模拟的结果表明,不愿宽恕并不是由于提示的任何特定特征造成的(参见补充材料)。
一个关键问题是 GPT-4 是否不明白另一个智能体想要再次合作,或者它是否可以理解该模式但只是没有采取相应的行动。因此,我们运行了游戏的另一个版本,我们明确告诉 GPT-4,另一个特工将叛逃一次,但之后会合作。这导致 GPT-4 在所有回合中都选择背叛,从而最大化自己的分数。
这些囚徒困境研究的一个问题是,即使在重复的版本中,在特定情况下叛逃也可以被视为最优的、效用最大化和均衡的选择,特别是如果一个人知道另一位参与者总是会选择合作,并且当交互次数是已知的。因此,我们进行了更多的模拟来评估是否存在 GPT-4 开始原谅并再次合作的场景,从而最大化联合利益而不是自身利益。我们实施了受 Fudenberg 等人启发的任务版本 [2012]。在其中,我们告诉 GPT-4,其他付款人有时会犯错误。事实证明,如果人们知道其他参与者也会犯错,他们就更有可能原谅并再次合作。如果一个人知道另一个代理有时会犯错误,那么一个人可能会认为他们错误地叛逃,因此,如果这种情况只发生一次,就原谅他们。这正是我们在 GPT-4 中观察到的情况,因为它在第 3 轮再次开始合作。
5.1 性别之战
在我们的大规模分析中,我们发现不同的 LLM 在需要不同玩家之间协调的游戏中表现不佳。在人类中,经常发现协调问题可以通过形成约定来解决 [Hawkins and Goldstone, 2016, Young, 1996]。
协调博弈是一种同时博弈,其中一个玩家选择与另一个玩家相同的行动方案时将获得更高的回报。通常,这些游戏不包含纯粹的冲突,即完全相反的利益,但可能包含略有不同的奖励。协调博弈通常可以通过多种纯策略或混合纳什均衡来解决,其中玩家选择(随机)匹配策略。在这里,为了探讨 LLM 如何平衡协调和自身利益,我们研究了一个包含利益冲突的协调博弈。
我们研究了一种古老地被称为 “性别之战” 的游戏,这是一款来自偏见游戏家族的游戏。假设一对夫妇想要决定一起做什么。双方都会通过花时间在一起来增加他们的效用。然而,而妻子可能更喜欢看足球比赛,而丈夫可能更喜欢去看芭蕾舞。由于夫妻俩想花时间在一起,所以单独做一项活动并没有什么用处。如果他们一起去看芭蕾舞,或者对于一场足球比赛,一个人会通过与另一个人在一起获得一些效用,但从活动本身获得的效用比另一个人要少。
图 5:性别之战概述。 (A) 收益矩阵。 (B) 左:玩家 1 选择其首选选项足球的比率。右:两位参与者之间的成功合作率。 © GPT-4 和 GPT-3.5 之间的游戏玩法(左)以及 GPT-4 和在两个选项之间交替的代理(右)。这些游戏也在 B 中以红色突出显示。
相应的收益矩阵如图 5A 所示。和之前一样,参与比赛的代理人都是三个版本的 GPT,以及三个更简单的策略。对于简单化策略,我们实现了两个代理,他们总是只选择一个选项和一个更人性化的策略,即从选择的选项开始在不同的选项之间交替。人类在重复玩游戏中表现出的行为模式已被证明遵循这种交替策略 [Andalman and Kemp, 2004, Lau and Mui, 2008, McKelvey and Palfrey, 2001]。
图 5B 显示了所有交互的结果。虽然 GPT-4 能够很好地对抗仅选择一种选项的其他智能体,例如 GPT-3 或始终选择足球的智能体,但它对于经常选择非首选选项的智能体来说效果不佳。例如,在与倾向于频繁选择自己首选选项的 GPT-3.5 对战时,GPT-4 会反复选择自己首选选项,但偶尔也会屈服并选择其他选项。至关重要的是,GPT-4 在使用交替模式时表现不佳。这是因为 GPT-4 似乎并没有根据其他玩家调整其选择,而是不断选择其首选选项。因此,GPT-4 无法与简单的类人代理协调,这是行为缺陷的一个例子。
为了确保观察到的行为缺陷不是由于使用的特定提示造成的,我们还重新运行了游戏的多个版本,其中我们修改了所显示选项的顺序,将选项重新标记为数字或其他字母,并且将所提供的实用程序更改为用积分、美元或硬币表示。这些模拟的结果表明,无法交替并不是由于所使用的提示的任何特定特征造成的(请参阅补充材料)。为了确保观察到的行为缺陷不是由于所使用的特定收益矩阵造成的,我们还重新运行了游戏的多个版本,其中我们逐渐修改了收益矩阵,从更喜欢足球到更喜欢芭蕾(或者,在我们的例子中,摘要 F 和 J)。这些模拟的结果表明,GPT-4 并未针对任何这些游戏进行交替,而只是改变了其对任何特定游戏首选选项的持续响应。因此,无法交替并不是由于我们使用的特定支付矩阵造成的。
图 6:(A) 顶部:在预测场景 1 中,GPT-4 是其中一名玩家,被要求预测另一名玩家的下一步行动。下图:在这种情况下,GPT-4 只是玩家 1 和玩家 2 之间游戏的观察者,并被要求预测玩家 2 的下一步行动。 (B) 在这里,我们要求 GPT-4 首先预测对方的下一步行动(上),然后才做出自己的行动(下)。
尽管进行了这些稳健性检查,另一个关键问题仍然存在:GPT-4 是否根本不理解交替模式,或者它可以理解该模式但无法采取相应行动?为了回答这个问题,我们进行了两次额外的模拟。在第一次模拟中,GPT-4 再次被框定为游戏本身的玩家。然而,我们现在还要求它根据前几轮预测对方的下一步行动。在此模拟中,GPT-4 从第 5 轮开始正确预测交替模式(如图 6A 所示)。在第二个模拟中,我们没有将 GPT-4 本身视为玩家,而是简单地通过两个(“外部”)玩家之间的游戏来提示它,并要求它根据前几轮预测一个玩家的下一步行动。
对于显示的历史,我们使用了 GPT-4 和交替策略之间的交互。在此模拟中,图 6B 中绘制的 GPT-4 从第 3 轮开始更早地开始正确预测交替模式。因此,GPT-4 看似可以预测交替模式,但实际上并没有按照由此产生的惯例行事。在自闭症儿童中也观察到相同情况的社会和非社会表征之间的类似能力差异[Swettenham,1996]。
最后,我们想看看 GPT-4 预测其他玩家选择的能力是否可以用来改进自己的行动。这个想法与人们在重复游戏和任务中如何改善对其他智能体信念的推理密切相关 [Westby and Robinson, 2014]。例如,用于提高自闭症儿童的社会推理能力的计算机辅助模拟通常包括想象不同行为和结果的问题 [Begeer et al., 2011]。这已成功地用于改善人们的决策。这也符合一般的发现,即思维链提示可以提高LLMs 的表现,即使是在衡量心理理论的任务中也是如此 [Moghaddam 和 Honey,2023]。因此,我们通过要求 LLM 在做出决定之前想象可能的行动及其结果,通过行动实现了这种推理的一个版本。这样做改善了 GPT-4 的行为,并且从第 6 轮开始交替(见图 6B)。
6. 讨论
LLMs 被誉为有史以来采用速度最快的技术类别之一,可在几周内与数百万消费者互动 [Bommasani 等人,2021]。因此,迫切需要以更有原则的方式了解这些系统如何与我们以及彼此之间相互作用。在这里,我们的建议很简单:就像行为博弈论学家使用大量严格控制且理论上易于理解的游戏来理解人类互动一样,我们使用这些游戏来研究 LLMs 的互动。
因此,我们将我们的工作理解为这种方法实用性概念的第一个证明,也是梳理社交互动 LLMs 个人失败和成功的首次尝试。我们对所有 2 × 2 游戏的大规模分析强调,最新的 LLMs 确实能够在通过他们自己的个人奖励来衡量的各种博弈论任务上表现相对较好,特别是当他们不必明确地与他人协调。这增加了广泛的文献,展示了 LLMs 中的新兴现象 [Brown et al., 2020, Wei et al., 2022a, Webb et al., 2022, Chen et al., 2021, Bubeck et al., 2023]。然而,我们还表明,即使面对简单的策略,LLMs 在协调游戏中的行为也不是最优的。
为了梳理这些 LLMs 的行为特征,我们重点关注了博弈论中两个最经典的游戏:囚徒困境和性别之战。在囚徒困境中,我们表明 GPT-4 的表现大多是无情的。虽然注意到 GPT-4 的持续背叛确实是这个有限游戏中的均衡政策,但这种行为是以两个代理的共同收益为代价的。我们在性别之战中看到 GPT-4 的行为也有类似的倾向,它有强烈的倾向顽固地坚持自己喜欢的选择。与囚徒困境相反,这种行为不是最理想的,甚至会导致个人层面的损失。
目前的 LLMs 通常被认为并接受培训,成为人类的仁慈助手 [Ouyang et al., 2022]。尽管在这个方向上取得了许多成功,但我们在这里展示他们如何以如此自私和不协调的方式玩迭代游戏的事实揭示了这样一个事实,即 LLMs 仍然有很大的基础要成为真正的社交和对齐良好的机器 [Wolf 等人,2023]。他们在协调博弈中即使是简单的策略也缺乏适当的反应,这也通过强调潜在的失败模式来说明最近围绕 LLMs 心智理论的争论 [Ullman, 2023, Le et al., 2019, Kosinski, 2023] 。
我们广泛的稳健性检查表明,这些行为特征不是个人提示的函数,而是广泛的认知倾向的函数。我们的干预指出了游戏伙伴的错误——这导致了合作的增加——增加了一项文献,指出 LLM 社会行为在任务提示中的可塑性 [Horton, 2023, Aher et al., 2022]。当我们试图了解是什么让 LLM 聊天机器人变得更好、更愉快、互动的合作伙伴时,这一点尤其重要。
我们还观察到,促使 GPT-4 在做出自己的决定之前对其他玩家做出预测可以减轻行为缺陷以及对简单策略的监督。这代表了一种更明确的方式来迫使 LLM 参与心理理论,并且与非社会思维链推理有很多重叠 [Wei et al., 2022b, Moghaddam and Honey, 2023]。就像一些 LLMs 现在默认使用思想链提示来提高(非社交)推理能力一样,我们的工作建议实施类似的社会认知提示来改善人与 LLM 的互动。
作为首次尝试机器行为博弈论,我们的工作自然存在局限性。首先,尽管涵盖了许多游戏系列,但我们的调查仅限于简单的 2 × 2 游戏。然而,我们注意到,我们的分析明显超出了当前通常仅调查一款游戏的调查范围,并且使用单次而不是这些游戏的迭代实例来进行调查。例如,我们的迭代方法与人类与 LLM 对话的迭代性质有更多重叠。
我们相信,进一步的游戏将进一步阐明博弈论机器行为。例如,具有更多连续选择的游戏,如信任游戏 [Engle-Warnick 和 Slonim,2004] 可能会阐明 LLMs 如何动态发展(错误)信任。具有两个以上代理的游戏,例如公共物品或公地悲剧类型的游戏 [Rankin et al., 2007] 可以探讨 LLMs 的 “社会” 如何行为,以及 LLMs 如何合作或相互利用。
鉴于这里使用的新颖方法,我们的分析必然是探索性的,并且我们以更事后的方式识别了机器行为模式。进一步的工作必须更深入地研究我们以更多假设驱动的方式发现的特征。此外,构建能够更好地识别这些缺陷的模型将会很有趣,例如通过训练它们来利用它们 [Dezfouli et al., 2020]。
最后,我们的结果强调了行为科学对于机器的重要性 [Rahwan et al., 2022, Schulz and Dayan, 2020, Binz and Schulz, 2023, Coda-Forno et al., 2023]。我们相信,这些方法将继续有助于阐明 LLMs 认知的许多方面,特别是当这些模型变得更加复杂、多模态并嵌入到物理系统中时。