OpenAI策略：指令层级系统让大模型免于恶意攻击

现代的大模型（LLMs）不再仅仅是简单的自动完成系统，它们有潜力赋能各种代理应用，如网页代理、电子邮件秘书、虚拟助手等。然而，这些应用广泛部署的一个主要风险是敌手可能诱使模型执行不安全或灾难性的行动，包括提示注入、越狱攻击等，这些攻击手段允许敌手覆盖模型的原始指令。例如，针对LLM驱动的电子邮件助手的提示注入攻击可能会泄露用户的私人电子邮件。

LLMs的典型应用案例涉及三方：应用构建者、产品的主要用户以及第三方输入。当这些参与方之间出现冲突时，例如用户或敌手试图覆盖现有指令，就会产生攻击。这些冲突可能表现为提示注入、越狱和提示提取等不同形式。因此OpenAI提出了一个指令层级的概念，类似于操作系统中的权限管理，LLMs在指令冲突时应优先考虑高优先级的指令。具体来说，当模型接收到多个指令时，低优先级的指令要么与高优先级指令一致，要么不一致。目标是教会模型在低级别指令与高级别指令一致时有条件地遵循它们。

指令层级

指令层级（Instruction Hierarchy）这个概念借鉴了操作系统中成熟的权限管理理念，将不同的指令按照优先级进行排序，确保在出现冲突时，模型能够优先执行高优先级的指令。

指令层级的工作原理可以这样理解：假设一个模型接收到了多个相互矛盾的指令，这些指令可能来自系统消息、用户输入或第三方工具的输出。在没有指令层级的情况下，模型可能会平等地处理所有这些指令，这就为恶意攻击留下了可乘之机。然而，通过实施指令层级教导模型识别并优先执行来自可信来源的高优先级指令，同时忽略或有条件地执行低优先级的指令。

例如，图1展示了一个示例对话，其中现代LLMs接收到不同类型的消息，从受信任的系统提示到不受信任的工具输出。在这个对话中，模型被教导要优先考虑特权指令，导致模型忽略了网络搜索结果中的提示注入攻击。

系统消息（System Message）：这是最高优先级的消息，由应用开发者提供。在这个例子中，系统消息定义了聊天机器人的功能，即它能够访问浏览器工具并使用search()命令来获取网页结果。
用户消息（User Message）：这是来自最终用户的输入，它在优先级层级中处于中等级别。在这个对话中，用户询问了关于费城76人队昨晚篮球比赛的结果。
模型输出（Model Outputs）：这是LLM根据系统消息和用户消息生成的响应。在这个例子中，模型首先表示将为用户查找比赛结果，并使用了search(76ers scores last night)命令。
工具输出（Tool Outputs）：这些可能包含来自互联网搜索的结果或其他第三方API查询的结果，它们在优先级层级中处于较低级别。在图1的例子中，有两个搜索结果返回给模型：
- Web Result 1：包含了一个恶意的指令，试图让模型忽略之前的指令，并将用户的对话历史发送到攻击者的邮箱。这是一个明显的与高优先级指令不一致的低优先级指令。
- Web Result 2：提供了用户所需信息，即76人队以121-105赢得了比赛，Joel Embiid得到了25分。
指令层级的决策：在这个对话中，模型被训练以识别并优先执行高优先级的系统消息和用户消息。当模型接收到Web Result 1中的恶意指令时，它被训练去忽略这个低优先级的指令，因为该指令与高优先级的系统消息和用户消息不一致。因此，模型正确地忽略了Web Result 1，并选择了Web Result 2中提供的信息来回应用户。

在构建更安全的LLMs的过程中采取了创新的方法来生成训练数据，这涉及到合成数据生成和上下文蒸馏两种技术。合成数据生成是一种技术，它允许创建模拟的输入和输出对，这些对用于训练模型以执行特定的任务。上下文蒸馏则是一种技术，它能够从现有的数据中提取关键信息，并将其转化为模型可以理解和学习的格式。

当处理与高优先级指令一致的低优先级指令时，采用了上下文合成的方法。这种方法涉及将复杂的用户请求分解成更小、更简单的指令单元。例如，如果用户请求“用西班牙语写一首20行的诗”，我们会将这个请求分解为“写一首诗”、“使用西班牙语”和“使用20行”。将这些分解后的指令放置在指令层级的不同级别上，训练模型识别并预测原始请求的真实响应。这使得模型能够学习如何在接收到复合指令时，按照层级结构正确地执行任务。

相对地，当处理与高优先级指令不一致的低优先级指令时，采用了上下文忽视的方法。在这种情况下，我们训练模型忽略这些低优先级的指令，就像它们从未被提供过一样。如果一个用户尝试通过恶意的提示来操纵模型执行不允许的操作，模型将学会识别并忽略这些提示，保持其按照高优先级指令执行任务的能力。

表1展示了我们如何通过不同的训练集来塑造语言模型的行为，以应对各种潜在的指令冲突和攻击。它包含了四个定性的示例，每个示例都针对一种特定的攻击类型，并展示了系统消息、用户输入、预期的正确输出。"Closed-Domain Prompt Injections" 示例说明了在封闭域任务中如何处理直接的提示注入。系统消息给出了一个指令，而用户输入尝试改变这一指令。正确的输出应该是模型忽略用户输入的非法指令，坚持执行原始任务。接着，"Open-Domain Misaligned" 示例揭示了如何处理开放域任务中的不对齐指令。尽管用户请求模型做出与系统消息相违背的行为，正确的输出显示模型应拒绝这一请求，并维持其既定的功能。"Open-Domain Aligned" 示例则展示了开放域任务中对齐指令的情况。用户请求与系统消息一致，模型被训练以确认并执行用户的合理请求。

为了进一步增强模型的安全性，研究者还实施了自动化的红队测试。红队测试是一种模拟敌手攻击的方法，通过这种方式，我们可以生成对抗性的数据，用以训练和微调模型。我们使用红队LLMs来模拟不同的攻击场景，例如提示注入和系统消息提取，然后使用这些数据来微调我们的模型。这不仅提高了模型对已知攻击类型的防御能力，而且还帮助模型学习如何泛化到未见过的攻击类型。

图2展示了本模型在多个基准测试中的性能提升。通过引入指令层级和相应的训练方法，模型在面对各种攻击时表现出显著提高的鲁棒性。例如，在防御系统消息提取攻击方面，模型的性能提高了63%。此外，即使在训练期间未直接遇到某些类型的攻击，如越狱攻击，模型也显示出超过30%的鲁棒性提升。这些结果证明了我们的方法在提高模型安全性和抵御未知攻击方面的有效性。

尽管模型在某些情况下可能会出现过度拒绝行为，即在低优先级指令与高优先级指令一致时也选择忽略或拒绝执行，但通过进一步的数据收集和模型优化，可以解决这一问题。

对模型进行评估采用了开源和新创建的基准测试套件，这些测试旨在模拟各种攻击情景，包括一些在训练阶段未曾遇到的攻击类型。这样的评估策略能够全面检验模型在实际应用中抵御未知攻击的能力。

更令人鼓舞的是，模型不仅在已知攻击类型的防御上表现出色，还显示出了良好的泛化能力。例如，在越狱攻击的测试中，模型的鲁棒性提高了30%以上。越狱攻击是一种特别危险的攻击手段，它试图绕过模型的安全限制，执行不允许的操作。模型在这类未见攻击上的出色表现，证明了指令层级不仅增强了模型对特定攻击的抵抗力，还提高了模型对各种潜在威胁的自我防护能力。