AI Alignment: A Comprehensive Survey---治理

治理

除了技术解决方案之外，治理（规则的制定和执行）对于确保人工智能系统的安全开发和部署也是必不可少的。在本节中，我们将通过探索人工智能治理的作用、利益相关者在治理人工智能方面的功能和关系以及有效人工智能治理面临的若干未决挑战，调查有关人工智能治理的文献。

人工智能治理的作用

要探索人工智能治理的作用，我们必须确定需要治理的挑战。人工智能的采用和融入社会各个领域可能已经引发了一系列社会和道德问题（人工智能安全峰会，2023 年）。例如，人工智能应用可能会无意中延续社会偏见，导致种族和性别歧视（Caliskan 等人，2017 年；Perez 等人，2023 年）。此外，对这些系统的过度依赖可能会导致劳动力流失（Acemoglu 和 Restrepo，2018 年）、社会经济差距扩大以及垄断环境的形成等后果。

人工智能系统已经显示出危害全球安全的潜力（Turchin 和 Denkenberger，2020 年）。例如，OpenAI 的 GPT-4 系统卡（OpenAI，2023a）发现，GPT-4 模型的早期版本以及为增加有用性和无害性而微调的版本表现出能够进行虚假信息、影响操作和设计新的生化物质等危险行为的能力。Urbina 等人（2022 年）通过反转他们的药物发现模型来产生 40,000 种有毒分子，进一步证明了人工智能系统能够滥用合成生物学的潜力。

未来还可能出现越来越多的代理和通用人工智能系统，如果没有足够的保障，可能会对人类造成灾难性甚至生存的风险（McLean 等人，2023 年）。例如，OpenAI 的 Weng（2023b）认为，LLM 等模型本质上可以充当智能代理的大脑，通过规划、反思、记忆和工具使用得到增强。AutoGPT、GPT-Engineer 和 BabyAGI 等项目体现了这种演变。这些系统可以自主地将复杂的任务分解为子任务，并在没有人工干预的情况下做出决策。例如，微软的研究表明，GPT-4 暗示了 AGI 的早期迹象（Bubeck 等人，2023 年）。随着这些系统的发展，它们可能会导致广泛的社会经济影响，例如失业，并可能为恶意行为者提供从事有害活动的工具。人工智能治理的主要目标是减轻这种多样化的风险。为实现这一目标，相关行为体应保持平衡的努力组合，对每一类风险给予适当考虑。

多利益相关方方法

我们提出了一个框架来分析人工智能治理中利益相关者之间的功能和关系（见图 13）。在这个框架中，我们概述了三个主要实体。政府机构使用立法、司法和执法权力监督人工智能政策，并开展国际合作。行业和 AGI 实验室研究和部署人工智能技术，使其成为治理框架的主体，同时提出自我治理技术并影响治理政策。第三方，包括学术界、非政府组织 (NGO) 和非营利组织 (NPO)，不仅对公司治理、人工智能系统及其应用进行审计，还协助政府制定政策。已经提出了关于多利益相关方人工智能治理格局的具体原则的建议。值得注意的是，Brundage 等人 (2020) 主张实施机构、软件和硬件，以使有关人工智能系统安全性的说法更具可验证性。

政府，根据 Anderljung 等人 (2023) 的说法，政府监管需要三个基石：

标准开发流程，以确定对尖端 AI 开发人员的适当要求，
注册和报告要求，让监管机构洞察先进 AI 开发流程的进展，
机制，保证在开发和部署尖端 AI 模型时遵守安全标准。

目前，全球范围内出现了一系列新兴的政府法规和法律，包括欧盟的《人工智能法案》（欧洲议会，2023 年）和美国《人工智能法案两党框架》（Blumenthal and Hawley，2023 年）。这些法规对于人工智能系统的安全和协调必不可少。

行业和 AGI 实验室，行业和 AGI 实验室的治理工作应强调在人工智能系统的整个生命周期中进行全面的人工智能风险评估。基于 Koessler 和 Schuett (2023) 的讨论； Schuett 等人（2023 年）认为，人工智能风险评估的完整周期可视为由五个阶段组成。开发前风险评估、训练前风险评估和部署前风险评估都包括使用各种工具对影响和风险进行预测和分析，但细节、清晰度和复杂性不断增加（Koessler 和 Schuett，2023 年）。部署后监测是建立监测机制的阶段，所有先前的分析都会在部署后不断更新（Koessler 和 Schuett，2023 年）。

在这里插入图片描述
图 13：我们目前分析人工智能治理的框架。提出的框架解释了人工智能治理中三个主要实体之间的非详尽的相互关系和功能：政府、行业和 AGI 实验室以及第三方。政府的治理作用包括监管行业和 AGI 实验室，并通过政策文件指导未来人工智能发展的轨迹。它还设计了一个风险管理系统 (RMS) (Mannes, 2020) 来减轻与人工智能相关的威胁。行业和 AGI 实验室通过对人工智能发展提供谨慎的预测并创新新的技术方法来支持监管措施（例如模型评估 (Shevlane et al, 2023)）来回报。第三方履行双重职能，为强有力的政府政策制定提供专家建议并促进政府之间的合作。在行业和 AGI 实验室的背景下，这些第三方协助平衡企业利益，以防止信息不对称导致的无组织竞争。他们还以独立实体的身份向行业和 AGI 实验室提供审计服务。

外部审查包括漏洞赏金计划 (Schuett et al, 2023)、外部红队和第三方模型审计 (Schuett et al, 2023; Anderljung et al, 2023) 针对与 AI 系统相关的风险采取安全措施似乎已被 AI 公司和相关从业者广泛接受。Schuett et al (2023) 的研究表明，98% 的受访者在一定程度上或强烈赞同 AGI 实验室应执行部署前风险评估、危险能力评估、第三方模型审计、模型使用安全限制和红队以保证 AI 安全。与此同时，包括亚马逊、Anthropic、谷歌、Inflection、Meta、微软和 OpenAI 在内的领先 AI 公司已自愿向政府承诺实施安全措施 (The White House, 2023)。

值得注意的是，许多研究人员提议暂停开发先进的人工智能系统，以赢得更多时间进行安全研究、风险评估和监管准备 (Bengio 等人，2023)。他们的建议包括全面暂停所有足够先进的系统 (Bengio 等人，2023)，以及根据对特定故障模式的评估结果有条件地暂停特定类别的模型 (Alaga 和 Schuett，2023)，包括目前采用的负责任的扩展策略 (RSP) 实践 (Anthropic，2023a)。第三方 Mökander 等人 (2023) 提出了第三方审计的三个关键功能：

治理审计 (设计和传播 LLM 的技术提供商)
模型审计 (在预训练之后但在发布之前对 LLM)
应用程序审计 (基于 LLM 的应用程序)。

现有第三方审计的一个突出例子是 METR，它最初是 Alignment Research Center 的一个项目（ARC Evals，2023；Kinniment 等人，2023），该中心与 OpenAI 合作对 GPT-4 进行红队测试（OpenAI，2023a），并与 Anthropic 合作对 Claude 2 进行红队测试（Anthropic，2023c）。这些努力包括对毒性和偏见的评估，以及前沿人工智能风险，如自主复制、操纵、网络安全和生物武器风险（OpenAI，2023a；Shevlane 等人，2023）。

除了审计之外，第三方还可以通过其他方式支持人工智能治理，例如协助政策制定和促进国际合作（Ho 等人，2023）。例如，Maas（2021）认为政府应该倾向于技术中立的规则，而不是技术特定的规则。 AI4People 的良好人工智能社会道德框架：机遇、风险、原则和建议 (Floridi 等人，2021 年)，由AI4People以2019年4月提出的《可信人工智能伦理准则》为指导（Atomium-EISMD，2023）。世界经济论坛（WEF）召集政府官员、合作伙伴和民间社会，并与伙伴组织合作发起了全球人工智能行动联盟，旨在促进人工智能领域的国际合作（Kerry等，2021）。

未解决的问题

现有的人工智能治理领域存在许多未解决的问题。这些问题往往没有明确的答案，对这些问题的讨论往往可以促进更好的治理。为了有效的人工智能治理，我们主要讨论国际治理和开源治理，希望通过我们的讨论促进人工智能的安全发展。

国际治理

在人工智能技术在全球范围内迅速进步和广泛应用的情况下，对人工智能进行国际治理的需求被提上日程（Summit，2023）。批判性讨论围绕建立人工智能治理全球框架的必要性、确保其规范性和合法性的手段（Erman and Furendal，2022）以及其他重要问题展开。这些主题在考虑时会越来越详细和复杂。此外，正如联合国秘书长安东尼奥·古特雷斯 7 月在安理会会议上所说，生成人工智能具有产生大规模积极和消极影响的巨大潜力，如果不采取行动减轻人工智能风险，将严重忽视我们维护当代和后代福祉的责任（Guterres，2023），国际治理也具有代际影响。

因此，我们在本节中从三个方面考察国际人工智能治理的意义和可行性：管理全球灾难性人工智能风险、管理人工智能机遇以及历史和现在的努力，既有代际视角，也有代际视角。我们旨在为国际人工智能治理的未来结构贡献创新思想。管理全球灾难性人工智能风险，人工智能技术的不断进步为全球发展和繁荣带来了巨大的潜力（Vinuesa 等人，2020 年）。然而，它们不可避免地隐藏着潜在的风险。

不受约束的市场竞争和地缘政治因素可能导致先进人工智能系统的不合时宜的开发和部署，从而导致全球负面的外部性（Tallberg 等人，2023 年）。人工智能系统中根深蒂固的种族和性别偏见等现有不平等现象（Swaugerarchive，2020 年）的扩大，可能会导致代际道德歧视。由于这些风险是国际性和代际性的，因此国际治理干预似乎可以缓解这些灾难性的全球人工智能挑战。例如，各国之间的共识可以帮助化解潜在的人工智能军备竞赛，而全行业的协议可以避免复杂人工智能系统的仓促和不负责任的开发，从而确保人工智能的长期可持续发展（Ho 等人，2023 年）。

管理人工智能领域的机会，人工智能发展创造的机会分配不均，这可能导致地区间持久的数字不平等，并损害人工智能发展的可持续性。人工智能发展中的地理差异表明其经济和社会效益分配不均，可能将发展中国家或特定群体排除在这些优势之外 (Ho et al, 2023; Tallberg et al, 2023)。此外，技术领域的决策权集中在有限数量的个人手中 (Sara Stratton, 2021; Noble et al, 2021) 可能会造成代际影响。这种利益分配不平等可以通过国际治理来缓解。通过人工智能的传播、教育和基础设施发展 (Opp, 2023)，在人工智能机会分配方面达成有效的国际共识和协调，可以确保人工智能带来的利益的平衡分配，并促进人工智能持续发展的可持续性。

历史与现实努力，在人工智能技术兴起之前，国际社会已制定了框架，以合作监管有影响力的技术和关键问题。例如，政府间气候变化专门委员会 (IPCC) 召集专家评估气候环境问题，达成科学共识 (Ho et al, 2023)。国际民用航空组织 (ICAO) 规范和监督国际法规，同时评估成员国对这些法律的遵守情况 (Ho et al, 2023)。国际原子能机构 (IAEA) 凭借其全球影响力和先进的监测和评估机制，推动了核能的和谐利用。快进到今天的场景，多个国际组织已经就人工智能治理达成共识。2019 年，二十国集团成员巩固了一项部长级宣言，重点关注以人为本的人工智能原则 (G20, 2019)。与此同时，经济合作与发展组织（OECD）制定了《OECD 人工智能原则》（OECD，2019 年）。IEEE 标准协会发起了一项全球倡议，旨在确保所有参与自主和智能系统设计和实施的利益相关者都能接受适当的教育、培训和激励，以强调道德关注，从而推动这些技术造福人类。（Chatila and Havens，2019）。2021年，联合国教科文组织（UNESCO）制定了首个人工智能伦理全球标准（UNESCO，2021），旨在为使人工智能系统造福人类和社会奠定基础，并防止因失去对人工智能系统的控制而造成的潜在危害。

2023年，人工智能安全峰会在英国伦敦召开，各国就人工智能的风险和机遇举行圆桌讨论，并联合发表了《布莱切利宣言》（Summit，2023）。学术界还提出了未来的人工智能国际治理框架，如国际人工智能组织（IAIO）（Trager et al，2023）。我们希望这些先例和研究成果能够为未来制定一个有弹性和持久的人工智能治理国际框架提供启发和基础。

开源治理

在人工智能治理中，关于当代人工智能模型开源的争论一直存在，特别是随着这些模型的效力不断增强（Seger et al, 2023）。将这些模型开源所带来的潜在安全隐患仍然是人工智能研究人员和政策制定者争论的焦点。开源人工智能治理中的攻防平衡也仍然存在争议。关于开源模型是否会增加模型安全性或增加滥用风险仍存在争议。正如 Shapiro and Siegel (2010) 所提到的，披露的有效性取决于潜在攻击者已经拥有知识的机会，以及政府将透明度转化为对新出现的漏洞的识别和解决的能力。一些学者已经对人工智能领域的攻防平衡进行了初步讨论，例如 Weng (2023a) 对对抗性攻击的讨论。如果无法在人工智能系统之间建立适当的攻防平衡，开源可能会引发人工智能系统被滥用的重大风险。

为了准确和清晰，我们遵循 Seger 等人 (2023) 对开源模型的定义：允许公开访问模型的架构和权重，允许任何人进行修改、研究、进一步开发和使用。目前，最受认可的开源模型包括 Llama2、Falcon、Vicuna 等。在本节中，我们评估了开源模型带来的安全优势和潜在威胁，并促进了关于开源这些模型可行性的讨论。最终，我们的目标是整合现有研究的见解，为未来的开源方法提出建议，以确保这些模型的安全实施。

开源的论据支持现有模型开源的观点表明，这种方法可以通过多种方式减轻这些模型固有的安全风险：

潜在地增强模型的安全性。Meta 在其 Llama2 发布博客 (Meta, 2023) 中的断言促进了这样的信念：这使开发人员和技术社区能够对模型进行测试。因此，这种快速识别和解决问题的方法可以大大增强模型的安全性。相反，另一种观点认为，开源现有模型可以增强对相关风险的认识，从而促进对这些潜在危害的更多关注、调查和缓解 (Zellers, 2019)。
促进权力和控制的分散。开源已被广泛认为是一种有效的策略，可以减少主要人工智能实验室在经济、社会和政治领域等各个领域的主导地位 (Seger 等人, 2023)。一个例子是稳定开源的核心原因，稳定扩散：他们信任个人和社区，而不是让一个中心化的、未经选举的实体控制人工智能技术（Mostaque，2022 年）。此外，某些评论员将开源与启蒙时代进行了类比，声称分散控制加强了人们对人类和社会的力量和善的信念（Howard，2023 年），出于安全目的实施中央监管反而可能会扩大人工智能技术社区的力量。

反对开源的论点开源模型的批评者从以下观点评估滥用的可能性：

可能被微调为有害实例。目前的研究严格肯定，人工智能系统与其最初的设计意图相矛盾，即减轻化学或生物学中的毒性，现在有可能制造新的化学毒素（Urbina 等人，2022 年）和生物武器（Sandbrink，2023 年）。对此类模型的恶意微调可能会导致严重的安全风险表现。此外，语言模型一旦经过微调，就可以模仿熟练的作家并产生令人信服的虚假信息，这可能会产生相当大的社会政治风险（Goldstein 等人，2023 年）。
无意中鼓励系统越狱。研究表明，不受限制地访问开源模型权重可能会有助于绕过系统安全措施（Seger 等人，2023 年）。这个前提是以 Zou 等人 (2023b) 为代表，他们通过使用 Vicuna7B 和 13B 开发攻击后缀展示了这种潜力。一旦在易于访问的界面（例如 ChatGPT、Bard 和 Claude）中实现，这些就会引发不必要的生成。因此，开源模型可能会无意中破坏未开源模型的保护协议，从而增加模型滥用的可能性。

关于开源治理的初步结论关于 AI 模型开源的争论仍未解决，目前普遍的观点是 AI 模型的披露不会带来重大风险。我们的讨论不仅综合了关于这个主题的现有观点，而且为未来考虑开源更先进的 AI 系统的审慎性奠定了基础。现有的开源高级人工智能系统的指导方针包括通过微调和逐步发布模型来量化滥用的可能性，从而评估风险等措施 (Solaiman 等人，2019 年；Seger 等人，2023 年)。与此同时，政策制定者正在为这些开源模型制定严格的合规协议。例如，欧洲政策制定者坚持认为，这些模型应该“在整个生命周期内具有性能、可预测性、可解释性、可纠正性、安全性和网络安全性”。 (Chavez，2023 年)。

从社会技术角度重新思考人工智能协调

在前面的讨论中，我们主要关注人工智能系统作为人工智能协调的核心。我们研究了在整个生命周期内使系统与人类意图和价值观保持一致的策略，同时考虑了前向和后向协调。未来，人工智能将解决更具挑战性和高风险的决策，例如“如何分配资源以实现公平？”和“哪些药物可以安全批准？”。这些决策不仅需要大量专业知识才能做出明智的答案，而且还涉及价值判断，从而导致知情人士之间基于不同价值观产生强烈分歧。此外，人工智能系统可能会传播错误的价值观、左右舆论、促进文化入侵并加剧社会分裂（Goldstein 等人，2023 年）。新加坡人工智能会议 (SCAI) 曾提出 12 个问题，旨在全面阐述全球人工智能社区应解决的挑战，以使人类繁荣发展 40。在对齐领域，我们更关注以下问题：随着人工智能系统演变为社会技术实体，对齐技术如何减轻它们对人类社会构成的挑战？具体而言，我们探索通过对齐技术将价值观融入人工智能系统，并提供对安全方法的见解。我们还旨在确定解决未来人工智能系统带来的社会技术挑战所需的对齐技术。

将价值观融入人工智能系统

将人工智能系统与人类道德和社会价值观相一致是一致技术的一个关键目标。然而，当前的技术（例如 RLHF）主要融合偏好而不区分具体价值观，仅仅关注人类偏好。人类偏好有效地解决了基本的一致问题：确保模型与人类意图和安全相一致，但不与道德和社会价值观相一致。然而，未来人工智能系统关键问题中的微小错误可能会导致不同观点的人之间的分歧。真正理解人类价值观对于人工智能系统在各种场景和意识形态中进行概括和适应至关重要。将价值观融入人工智能系统通常涉及两个方面：与个人价值观相一致（§4.3）和与集体价值观相一致。

在本部分中，我们主要讨论第二个主题。集体价值观一致的主要挑战在于确定要包括哪些群体。一种流行的方法是定义公平、正义和利他主义等普世价值观，以无知之幕为例。然而，这项工作仍然停留在理论阶段；另一种方法避免定义普世价值观，而是寻求跨文化价值观的最广泛重叠。Bakker 等人（2022 年）通过收集来自不同人口统计数据的偏好、训练语言模型并使用不同的社会福利函数汇总结果，开创了这种方法。同样，模拟协商民主也被提出来增强决策能力（Leike，2022 年）。具体来说，来自不同人口统计数据的个人在人工智能的帮助下就价值观主题达成共识。这些数据为新的模型训练提供了信息，使协商民主的模拟成为可能，从而对新的价值观问题做出更恰当的回应。

此外，集体价值观一致不应向所有用户提供共识答案，而应鼓励人工智能系统根据特定的人口群体量身定制响应。换句话说，什么价值观应该指导模型对特定问题或某些对话的回答？民主微调（MAI，2023 年）使用价值卡和道德图来链接各种价值观，让经过微调的 LLM 在回答之前反思他们的道德背景。

然而，虽然大多数价值观讨论都假设了静态价值观，但社会价值观实际上是动态的和不断发展的。探索价值观一致的人工智能系统如何动态适应不断变化的环境价值观至关重要。未来的技术需要首先解决静态价值观一致性问题，包括对人类群体进行抽样的策略对齐。Bakker 等人（2022）发现，小群体默默建立的共识声明会导致被排除在外的成员产生异议，凸显了共识对个体输入的敏感性。对于国际合作，建立共享数据中心是必要的，但也需要首先确定要纳入哪些文明，以及它们的价值观是否可以对齐。

AI治理的对齐技术

确保人工智能系统的可靠性和可信度至关重要，因为它们会被应用于各种现实世界的决策场景。一方面，语言模型在使用过程中仍会表现出假象，另一方面，系统的可靠性包括两部分：系统在个体测试环境下的可靠性和在人机交互中的可靠性。另一个问题是构建具有可观察和可向用户解释的决策过程的系统。从社会角度来看，人工智能系统跨领域的扩散也带来了潜在的风险。这种风险源于人工智能开发者与人工智能采用者之间的差距，前者往往专注于推进技术而不考虑其下游应用，而后者可能会在没有充分考虑安全或验证可复制成功的情况下将人工智能系统转移到他们的领域 41。因此，建立一个框架至关重要，该框架使人工智能采用者能够准确评估模型的效用和适当性，并允许人工智能监管者快速识别风险并在人工智能系统中发出安全警报。

对齐技术可以促进对人工智能系统的同步、独立和严格的评估。人工智能开发人员应在训练过程中优先考虑适当的偏见处理，承认社会经济、文化和其他差异的重要性。此外，我们应该致力于开发用于审计人工智能系统的稳健而公平的评估方法和数据集。Zhu 等人（2023）提出了第一个用于大型语言模型的动态测试协议，利用有向无环图（DAG）动态生成测试数据，从而降低测试数据记忆和污染的风险。此外，还引入了新的稳健安全协议评估方法：Shlegeris 和 Greenblatt (2023) 建议构建对抗性策略来管理危险的强大和欺骗性模型，而 Greenblatt 等人 (2023) 建议进行 (不) 可信编辑，以根据模型的危害和欺骗性程度对其进行监督。未来的努力还应防止人工智能系统受到奖励黑客评估系统的攻击，并旨在为人工智能监管机构提供可解释、独立和集中的评估系统。

人工智能采用者和行业应分配财务和计算资源，以彻底评估用例并分享展示成功和失败的案例研究。同样重要的是对采用者进行下游应用的培训。

结论

在本次调查中，我们对人工智能对齐进行了广泛的介绍，旨在构建符合人类意图和价值观的人工智能系统。我们将对齐的目标指定为鲁棒性、可解释性、可控性和道德性 (RICE)，并将对齐方法的范围描述为包括前向对齐（通过对齐训练使人工智能系统对齐）和后向对齐（获取系统对齐的证据并对其进行适当管理以避免加剧错位风险）。目前，前向对齐中两个值得注意的研究领域是从反馈中学习和在分布转变下学习，而后向对齐包括保证和治理。

对齐与许多其他领域的区别之一是它的多样性 (Hendrycks, 2022)——它是多个研究方向和方法的紧密组合，由一个共同的目标联系在一起，而不是一个共同的方法。这种多样性带来了好处。它通过让不同的方向相互竞争和冲突来促进创新，从而导致思想的交叉融合。它还使不同的研究方向相互补充，共同服务于协调的目标；这反映在协调循环中（见图 2），其中四大支柱集成到一个自我改进的循环中，不断改善人工智能系统的协调。同时，研究方向的多样性提高了进入该领域的门槛，这要求汇编组织良好的调查材料，以服务于新手和有经验的人。在这项调查中，我们试图通过提供全面和最新的协调概述来满足这一需求。

我们试图通过采用广泛而包容的协调特征来解释该领域内的全部多样性。我们对协调的调查重点关注该领域几乎所有主要研究议程，以及保证和治理方面的实际实践。我们认识到协调的界限往往很模糊，容易引起争论。因此，在提出 RICE 原则时，我们提出了对协调的广泛特征作为一种明确的选择。与此同时，我们认识到，这样的调查需要长期努力，并不断审查和更新。对齐问题和方法都与机器学习的发展密切相关。这种快速的发展意味着新材料和框架可能在短短几年后就过时了。这一事实是我们编写调查以反映最新发展的原因之一，同时也要求不断维护和更新。

对齐周期中的关键挑战

具体而言，我们根据对齐周期概述了关键挑战和潜在的未来方向，即前向对齐和后向对齐。从丰富模态中学习人类意图（前向对齐）真正的人类意图的不明确性，即从二元反馈数据推断出的人类意图的非唯一性，是可扩展监督中的一个关键挑战。

考虑一个人工智能系统，该系统的任务是为一个数学假设提供证明或反驳，而人类评估者可能会被复杂的错误证明所欺骗。我们的目标是构建一个训练过程，诱导人工智能系统输出可靠的证据，而不是看似令人信服的错误证据。由于系统针对人类认可进行了优化，它试图满足令人信服的证明的表面标准，而不是关注准确性，因此可能会用看似合理但错误的证据误导评估者。根本问题源于对二元反馈的依赖，这种二元反馈将响应简单地分为偏好或不喜欢，从而限制了学习算法可用的关于人类真实偏好的信息量，可能导致人们偏爱看似可信的欺骗性证据，而不是真正合理的论据。

为了增强模型与人类真实意图的一致性，研究人员提出了在二元选择之外加入更丰富的人类输入，例如详细的文本反馈（Chen 等人，2024a）和实时交互（HadfieldMenell 等人，2016）。它允许模型使用细致入微的人类评估和庞大的人类书写文本数据库来区分仅仅令人信服的证明和真正合理的证明。更广泛的输入基础有助于构建更准确的人类偏好模型，降低偏爱误导性证明的风险，同时尊重人类意图和推理的复杂性。展望未来，甚至更丰富的模式（如具体化的社会互动）也可能代表诱人的下一步。

值得注意的是，当前的 LLM 已经在互联网规模的人类文本上进行了训练（对于多模态模型，还包括视觉/音频内容）。那么，为什么奖励建模算法还没有具备准确确定人类意图的能力呢？解释是，即使奖励模型是从预训练模型微调而来的，预训练数据也不会以一种使过程偏向真实人类意图的方式输入到奖励建模过程中。例如，代表人类意图的神经回路可能会在 RLHF 期间重新连接以执行操纵行为。从另一个角度来看，对文本进行预训练（例如人类不想被欺骗相信事物）不会诱导奖励模型从这个角度解释后来的人类反馈信号，部分原因是当前 LLM 缺乏脱离上下文的学习能力（Berglund 等人，2023 年）。解决这些问题可能使奖励建模算法能够从大量预训练数据中学习人类意图，这是朝着我们的目标迈出的一大步。

我们总结了从丰富模态中学习人类意图的三个关键问题。它们是从意图模态视角描述对齐方法的关键维度，几乎所有现有的对齐方法都可以根据它们对这三个问题的回答进行分类。

学习算法。如前所述，我们需要从丰富的模态中学习人类意图，以便指导奖励模型对人类输入的后续解释。
先验和归纳偏差。奖励建模过程需要类似人类的先验/归纳偏差来选择正确的人类意图假设，尽管随着允许的人类输入模态的扩展，这一要求大大放宽。
学习者对齐。我们利用意图学习者来对齐人工智能系统，可能将其用作奖励模型。但是，如果意图学习者（本身就是具有强大能力的人工智能系统）对齐不对齐，则不可能做到这一点。这需要采取措施避免或遏制意图学习者的错位。

值得信赖的保证工具（向后对齐）人工智能对齐的一个主要问题是欺骗性对齐，即人工智能系统在大多数情况下追求对齐的目标，但当机会出现时可能会追求其他目标。最近的研究表明，一般的对齐技术（例如 SFT、RLHF、对抗性训练）无法消除某些欺骗性和后门行为，可能会导致误导性的安全感 (Hubinger et al, 2024)。随着人工智能系统获得强大的功能并获得更多资源，构成生存风险的隐藏意图可能会带来难以想象的后果。我们如何检测和消除欺骗性和后门行为？仍然缺乏可靠的工具来解决这个问题。一方面，由于神经元的多义性和可扩展性问题，机械可解释性工具遇到了额外的挑战。另一方面，人们对越狱如何运作以及语言模型对中毒和后门的敏感性的理解有限 (Anwar et al, 2024)。

此外，考虑到人工智能系统在网络攻击、生物战和错误信息中可能被滥用，开发可靠的机制来追踪 LLM 输出的来源至关重要。虽然人工智能系统正在成为融入社会程度越高，社会准备程度就越低。这从人工智能治理工作不足、公众知识不足、政府缺乏必要的科学和技术能力、缺乏能够跟上法学硕士进步的机构以及减轻广泛有害行为的社会影响的挑战中可以看出。因此，必须从社会技术的角度重新考虑人工智能的协调，建立可靠的人工智能保证和治理机制，并开展有效的国际治理合作。

价值引出和价值实施（向后协调）当前从人类反馈中学习的算法，尤其是 RLHF，通常假设反馈来自单一的、整体的人类来源。然而，由于全球在有争议的问题上存在广泛分歧，这种假设是不现实的，这经常导致对人工智能系统输出的判断相冲突（Santurkar 等人，2023 年）。因此，确定从谁那里获得反馈以及了解注入模型的人类价值观的范围和性质是协调领域的关键问题。

价值引出和价值实施旨在定义人工智能系统应编码的价值观和规范，以及如何将它们集成到人工智能系统中。人类的价值观和偏好多种多样，从法律和道德原则等严格规则到社交礼仪和特定领域的偏好（Cahyawijaya 等人，2024 年；Kirk 等人，2024 年）。我们需要可靠的工具来揭示当前人工智能系统中嵌入的价值观和潜在的社会风险，使我们能够更有效地降低这些风险。民主的人力投入是价值引出和实施的主要解决方案之一。这种方法从大量具有人口统计学代表性的个人样本中收集输入，将偏好和价值观汇总为连贯的政策，而不是依赖于单个人的反馈。这种方法深受计算社会选择文献的影响（Brandt 等人，2016 年）。领先的行业（Zaremb 等人，2023 年）和学术（Köpf 等人，2024 年）实验室已为 LLM 采用了民主的人力投入。然而，仍需要研究将其集成到更具代理性的人工智能系统中，例如基于 LLM 的自主代理。

尽管民主的人类输入看似简单，但它面临着重大的实际和根本挑战。获取全球人口的真正随机样本尤其具有挑战性，因为全球 33% 的人无法访问互联网，因此无法参与人工智能系统培训（联合国、国际电联，2023 年）。此外，当人工智能系统的推理能力超越人类时，人类反馈的效果会降低，这使得人类工作者难以评估其输出。为了补充民主的人类输入，替代方法旨在形式化普遍认可的元级道德原则，例如道德一致性、道德反思和道德进步，设计算法来实施这些原则。虽然这些方法仍然依赖于人类数据和输入，但它们并不要求严格的代表性，也不太受人类监督限制的限制。

道德一致性。人们普遍认为，道德原则应该始终如一地应用，这意味着无论涉及的人或当事方如何，类似的案件都应得到类似的处理。已经开发了算法来将这一原则融入人工智能系统的道德决策过程（Jin 等人，2022b）。
道德反思和道德进步。连贯外推意志概念的开发是为了形式化反思在塑造人类道德价值观中的作用（Søvik，2022）。受此启发，随后的算法旨在使人工智能系统能够模仿人类的道德反思，从而影响其行为（Xie 等人，2023）。此外，道德反思的下一个合乎逻辑的步骤是道德进步，人工智能驱动的历史道德趋势分析（Schramowski 等人，2020；Atif 等人，2022）和将持续的道德进步永久融入人工智能系统的努力（Kenward and Sinclair，2021）证明了这一点。

对齐研究的关键特征和未来方向

在调查的最后，我们通过展望未来并展示我们认为应该保留或培养的该领域的关键特征来结束调查。对新挑战和新方法的开放式探索许多对齐话语都建立在经典著作之上，这些著作早于法学硕士的最新发展和大规模深度学习的其他突破。

因此，当这种范式转变发生在机器学习领域时，对齐中的一些挑战可能会变得不那么突出，而其他挑战则变得更加突出；毕竟，科学理论的一个决定性特征是其可证伪性（Popper，2005）。更重要的是，机器学习方法论的这种转变以及人工智能系统与社会日益紧密结合的更广泛趋势（Abbass，2019）带来了以前无法想象的新挑战。这要求我们进行开放式探索，积极寻找以前被忽视的新挑战。此外，这样的探索不必局限于挑战——对于方法和解决方案，应该采取类似的思维方式，从而为问题和答案构建更多样化的组合（Shimi，2022 年）。

结合前瞻性和面向当前的观点协调强调了潜在的先进人工智能系统的危害，这些系统比当前系统拥有更强大的能力（Ngo，2020a）。这些系统可能会在未来很长一段时间内出现，也可能只是几年之后（Stein-Perlman 等人，2022 年）。前一种可能性要求我们研究推断的趋势和假设情景（Carlsmith，2022 年）。相比之下，后一种可能性强调了与当前治理机构合作的实地努力的必要性，并使用当前系统作为更先进系统的原型（Cotra，2021 年）。

强调政策相关性，协调研究不是存在于真空中，而是存在于生态系统43中，研究人员、行业参与者、政府和非政府组织都参与其中。因此，满足人工智能协调和安全生态系统需求的研究将会很有用。这些需求包括解决各种治理方案的关键障碍，例如极端风险评估（Shevlane 等人，2023 年）、计算治理的基础设施以及对人工智能系统提出可验证声明的机制（Brundage 等人，2020 年）。

强调社会复杂性和道德价值观随着人工智能系统越来越多地融入社会（Abbass，2019 年），协调不再只是一个单一智能体的问题，而是一个社会问题。在这里，社会的含义有三重。

多智能体环境中的协调研究，以多个人工智能系统和多个人类之间的交互为特色（Critch 和 Krueger，2020 年；刘等人，2024a 年）。这包括人工智能系统如何从现实的模拟社会中接收细粒度的反馈，确保训练场景和多个实体（即多智能体、多个人工智能系统和多个人类）之间的一致性，这不仅有助于在多实体环境中推广人工智能系统，而且还有助于避免与强化学习相关的问题 (Liu et al, 2024a)。
将人类的道德和社会价值观纳入协调（见§1.2.3 和 §4.3），这与机器伦理和价值观协调领域密切相关（Gabriel, 2020; Gabriel and Ghazavi, 2021）。
对人工智能系统对社会的影响进行建模和预测，这需要方法来处理社会系统的复杂性，包括来自社会科学的方法。潜在有用的方法的例子包括社会模拟（Bonabeau，2002；De Marchi 和 Page，2014；Park 等，2023a）和博弈论（Du 等，2023）。