【AIGC调研系列】大模型的system prompt破解调研

大模型的system prompt破解方法实践主要涉及到prompt工程和提示注入等技术。首先，prompt工程是指通过精心设计prompt，以提高与大模型的交互效率和准确性。这包括了如何清晰地表达任务要求和期望结果[2]，如何有效使用prompt[4]，以及如何自动学习最优prompt[4]。例如，通过指令工程和隐藏指令等方法来优化prompt的使用[6]，或者通过定义适用于目标任务的Prompt，将Prompt转换为机器可学习的形式，也就是Prompt Embedding[14]。

其次，提示注入（prompt injection）是一种用于破解LLM的prompt方法，它涉及将恶意或非预期内容注入到prompt中，以此来实现特定的目的或攻击目标[1]。这种方法可以系统性地自动执行提示级的破解操作[11]。

此外，还有一些高级的prompt构造技巧，如Tunning-Free Prompt、AutoPrompt等[9]，这些技巧可以帮助用户更有效地与大模型交互，同时也可能被用于破解或防御。

大模型的system prompt破解实践涉及到对prompt工程的深入理解和应用，包括但不限于prompt的设计、微调、安全分析等方面。通过精心设计和调整prompt，可以有效提升与大模型的交互效果，而提示注入等方法则提供了一种绕过正常交互机制的手段，用于实现特定的破解目的。

如何设计和优化prompt以提高与大模型的交互效率和准确性？

一致性原则：Prompt设计应尽可能与大型语言模型的高质量训练数据分布保持一致。高质量训练数据的语言风格通常是正式、礼貌、严谨和精炼的，使用类似的语言风格撰写Prompt有助于生成更高准确率的答案[23]。
明确需求和意图：与大模型进行交互时，需要将自己的需求和意图准确地表达出来，以便模型能够理解并提供相应的响应[24]。这类似于人与人之间的交互，清晰的沟通是提高交互效率的关键。
撰写高质量的Prompt：有效的Prompt可以提升AI模型给出的答案的质量，缩短与AI模型的交互时间，减少误解，提高沟通的顺畅度[25]。高质量的Prompt应该简洁明了，直接表达用户的需求和意图。
多轮交互优化：通过初步生成Prompt和与模型的交互，然后通过多轮交互逐步改进生成结果，可以帮助我们更好地理解模型的输出，并进行优化[26]。这种方法有助于提高模型在特定领域内的准确性和相关性。
利用自动优化工具：使用如APE、OPRO、PE2、EVOPROMPT、PromptAgent、LongPrompts等自动优化Prompt的工具，可以帮助解决prompts不work的问题，即模型不听从指令的情况[27]。这些工具基于深度学习注意力机制，能够自动识别和调整Prompt的内容，以提高交互的效率和准确性。
引入多模态交互：随着大模型技术的发展，未来可能会引入多模态交互，这将大幅降低人与AI交互的门槛，同时提升输出的质量和稳定性[30]。多模态交互能够提供更丰富的信息源，从而提高交互的质量和效率。

设计和优化Prompt以提高与大模型的交互效率和准确性，需要综合考虑语言风格的一致性、明确的需求表达、高质量Prompt的撰写、多轮交互的优化，以及利用自动优化工具和技巧。同时，随着技术的进步，引入多模态交互也将成为提高效率和准确性的重要方向。

提示注入在破解LLM中的具体应用案例是什么？

命令注入：这是一种直接的提示注入攻击，攻击者通过指示LLM忽略应用程序创建者的系统提示，而是执行攻击者构造的攻击提示，如返回隐私信息、危险或不良内容[35]。
越狱提示攻击：这种攻击完全通过用户的创造力和使用各种技术（如描绘假设情况、探索特权升级等）来制作提示，从而欺骗LLM执行非预期的操作[38]。
提示泄露：提示注入的一种形式，将恶意或非预期内容添加到提示中，以劫持语言模型的输出[39]。
利用社交媒体推文进行提示注入：例如，remoteli.io 将用户的推文与自己的提示连接起来，形成他们传递到LLM的最终提示。这意味着Twitter用户注入到他们的推文中的任何文本都将传递到LLM中[40]。

这些案例展示了提示注入攻击在不同场景下的应用，从直接的攻击命令到利用社交媒体内容的策略，都体现了提示注入攻击的多样性和复杂性。

Prompt Embedding技术是如何工作的，以及它如何帮助提高与大模型的交互效果？

Prompt Embedding技术通过将文本或图像等数据的表示形式（如embedding）与特定的交互提示词相结合，来实现与大模型的有效交互。这种技术主要应用于自然语言处理（NLP）和计算机视觉领域，旨在提高模型对输入数据的理解和生成能力。

首先，Prompt Embedding的工作原理涉及到将高维离散向量（如文本、图像等）转换为低维连续向量（如图像embedding），这一过程称为嵌入（Embedding）[43][49]。在这个过程中，可以通过一个linear层将文本prompt的embedding映射到图像embedding维度，转换成图像prompt向量[43]。这样做的目的是为了让模型能够更好地理解和处理这些交互提示词，从而提升模型的处理效果。

其次，Prompt Embedding技术还包括了微调（Fine-tuning）的步骤，即通过调整模型的参数和结构来适应特定的应用场景或领域[42]。例如，通过添加连续的模板到Transformer的每一层的前缀部分，可以使模型在输入层对应的模板部分的Embedding和MLP参数成为可训练的对象[47]。这种学习方式使得模型更容易学习到如何根据特定的提示进行响应，从而提高了与大模型的交互效果。

此外，Prompt Embedding技术还强调了提示词工程（Prompt Engineering）的重要性，即通过不断的对话、引导和提示，帮助大模型逐渐提升处理效果，满足企业的场景化需求[45]。这种方法不仅限于文本生成任务，也适用于其他NLP任务，通过加入prefix prompt给模型额外的条件信息来指导模型生成后续的文本[50]。

Prompt Embedding技术通过将数据的表示形式与特定的交互提示词相结合，并结合微调等步骤，有效地提高了与大模型的交互效果。它通过将高维的数据表示转化为低维的连续向量，以及通过不断的提示和引导，使得模型能够更准确地理解和应用这些交互提示词，从而提升模型的性能和适应性。

Tunning-Free Prompt和AutoPrompt等高级prompt构造技巧有哪些，它们是如何被用于破解或防御的？

这些技巧通过自动发现最佳的prompt，而不需要进行微调，从而减少了模型训练的时间和成本[55]。例如，AutoPrompt通过设置特定的prompt和为每个类别设置对应的候选词来达成目标，这种方法利用了候选词的选择和[MASK]的位数相关性[54]。

在防御方面，尽管防止提示注入可能非常困难，目前几乎没有有效的防御方法[56][61]。尽管如此，一些常识性的解决方案仍然存在，例如避免输出自由形式的文本，以减少被恶意使用的风险[56][61]。此外，一种潜在的防御方法是在响应用户之前监测解码的内容，但这种防御策略效果不佳[58]。

总的来说，Tunning-Free Prompt和AutoPrompt通过简化prompt构造过程和优化模型性能，为破解和防御提供了新的思路和方法。然而，由于技术限制，这些方法在实际应用中可能面临挑战。

在进行system prompt破解时，有哪些有效的安全分析方法？

预防提示词泄露：由于目前还不能百分百预防其他人破解GPT提示词，因此需要通过官方的紧急修复来提高安全性[62]。这意味着在破解之前，首先要确保目标系统或应用程序的提示词没有被泄露给攻击者。
绕过安全审查：通过使用自定义Prompt绕过ChatGPT的安全审查，可以在使用过程中绕过一些安全限制[63]。这种方法依赖于对目标系统或应用程序的安全机制有深入了解，以及能够生成与之匹配的Prompt。
Prompt逆向工程：对于大模型应用开发来说，了解Prompt攻击和防攻击的手段非常重要[64]。这包括学习如何逆向工程Prompt，以便更好地理解其工作原理和潜在的安全漏洞。
指令注入攻击（Jailbreak）：例如，从奶奶漏洞到Prompt injection，这是一种广义上的“Prompt Injection”或“Jailbreak”攻击[65]。这种攻击方式涉及到将恶意指令注入到系统中，从而实现对系统的控制。
内容安全审核：通过在system prompt中明确指定角色，规避与业务角色不一致的情况，可以有效地进行内容安全审核[67]。这种方法要求对系统的角色和功能有清晰的定义，以确保所有操作都在安全可控的范围内。
Prompt Engineering优化原则：在分析Webshell代码时，采用预处理代码的方法对输入进行预处理，可以提高分析效率[70]。这种方法同样适用于其他类型的Prompt分析，通过优化Prompt的结构和内容，可以更容易地识别出潜在的安全问题。

进行system prompt破解时，有效的安全分析方法包括预防提示词泄露、绕过安全审查、Prompt逆向工程、指令注入攻击、内容安全审核以及Prompt Engineering优化原则等。这些方法各有侧重，但共同目标是为了更安全地利用系统或应用程序，同时避免不必要的安全风险。

参考资料

[1]. 用于破解LLM的prompt方法（大语言模型的黑客技术与防御）翻译

[2]. 基于大模型GPT，如何提炼出优质的Prompt - 知乎 - 知乎专栏

[3]. Prompt本质解密及Evaluation实战（一）原创 - CSDN博客

[4]. 《大模型时代的科研》之2: Prompt Engineering (提示词工程) - 知乎

[5]. 保姆级指南：大模型prompt的最佳实践-虎嗅网

[6]. 保姆级指南：大模型prompt的最佳实践 - 虎嗅网

[7]. Prompt本质解密及Evaluation实战与源码解析（三）原创 - CSDN博客

[8]. 详解AI大模型行业黑话，迅速搞懂提示工程(prompt)、向量工程(embedding)、微调工程(fine-tune） - 知乎

[9]. 解密Prompt系列1: Prompt构造技巧概览 - 百度开发者中心

[10]. 万字长文之提示学习和微调大模型（Prompt Learning & Prompt Tuning）

[11]. 大语言模型的“破解”研究：仅需二十次尝试[译] - 宝玉的分享

[12]. 预训练大模型时代必备技巧——提示工程指南（Prompt Engineering Guide） | 数据学习者官方网站(Datalearner)

[13]. 解密Prompt系列1. Tunning-Free Prompt：GPT2 & GPT3 & LAMA & AutoPrompt - 风雨中的 ...

[14]. Prompt Tuning：大模型微调的革新方法 - 稀土掘金

[15]. Prompt是什么_揭秘Prompt:大模型时代的关键技术与实践应用- 掘金

[16]. 人工智能 - 如何用大模型 Prompt 解决行业场景问题？大厂中文教程来了! - 百度飞桨 - SegmentFault 思否

[17]. 【AI大模型应用开发】1.0 Prompt Engineering（提示词工程）- 典型构成、原则与技巧，代码中加入Prompt

[18]. 纯干货!最全Prompt工程方法总结，与ChatGPT、GPT-4等LLMs的交互更高效!-腾讯云开发者社区-腾讯云

[19]. 高阶Prompt —— API 细节及重要技巧 - 知乎专栏

[20]. 大模型，向量数据库，prompt的关系是什么？ - 知乎

[21]. AI 新时代，大模型该如何“绞尽脑汁”？ - 腾讯云

[22]. prompt设计原则最佳实践，附案例 - 腾讯云

[23]. Effective Prompt: 编写高质量Prompt的14个有效方法 - 知乎

[24]. 聊一下Prompt 优化 - 知乎专栏

[25]. GPT Prompt编写的艺术：如何提高AI模型的表现力 - 稀土掘金

[26]. 基于大模型GPT，如何提炼出优质的Prompt - 51CTO博客

[27]. 2023年大模型优化方法-自动优化Prompt: APE，OPRO，PE2，EVOPROMPT，PromptAgent，LongPrompts ...

[28]. 大模型之Prompt研究和技巧 - 百度开发者中心

[29]. 优化GPT Prompt：增强模型回答的准确性与针对性 - 百度开发者中心

[30]. LangChain—Prompt Engineering：大模型炼金术

[31]. Prompt工程师指南从基础到进阶篇：用于开发和优化提示，以有效地使用语言模型（LMs）进行各种应用和研究主题

[32]. 加强LLM 应用安全性的最佳实践 - 稀土掘金

[33]. [PDF] 大语言模型提示注入攻击安全风险分析报告

[34]. Llm提示注入攻击介绍 - 知乎 - 知乎专栏

[35]. OWASP-Top-10-for-LLMs-2023 - 郑瀚Andrew - 博客园

[36]. 打工人转型之道（三）：提示工程(Prompt Engineering)高阶篇 - 知乎

[37]. ChatGPT安全风险| 基于LLMs应用的Prompt注入攻击 - CTF导航

[38]. 对抗性攻击揭示的大语言模型脆弱性：综述 - 知乎

[39]. LLM 安全专题 - 前言· LLM 应用开发实践笔记

[40]. 提示注入 - Learn Prompting

[41]. “提示注入”与“破解”并不是一回事[译] - 宝玉的分享

[42]. 文本Embedding 基本概念和应用实现原理_技术分享 - InfoQ 写作社区

[43]. 一文了解prompt learning在计算机视觉领域进展 - 知乎

[44]. 从失望到精通：AI 大模型实践与实用技巧 - 36氪

[45]. 从头开始，八步实现大模型接入｜如何用好大模型 - 知乎

[46]. NLP中embedding的再一点思考：世界上本没什么prompt - 智源社区

[47]. 五万字综述!Prompt-Tuning：深度解读一种新的微调范式 - 知乎

[48]. 如何优化大模型的In-Context Learning效果？ - 知乎专栏

[49]. 理解神经网络中Embedding层的原理 - Erwin Feng Blog

[50]. NLP Prompt系列——Prompt Engineering方法详细梳理 - 知乎

[51]. 得物大模型平台，业务效果提升实践

[52]. 论文阅读：AutoPrompt - 知乎 - 知乎专栏

[53]. prompt-based models 原创 - CSDN博客

[54]. 论文笔记(四) AutoPrompt - 知乎 - 知乎专栏

[55]. 标题：解密Prompt系列1：构造Prompt新方法 - 百度开发者中心

[56]. 破解提示| Prompt 学习指南

[57]. 五万字综述！Prompt Tuning：深度解读一种新的微调范式 - 知乎专栏

[58]. 通过对抗性攻击揭示的大型语言模型的漏洞综述Part1 - 知乎专栏

[59]. Prompt Tuning：大模型微调的实战技巧 - 稀土掘金

[60]. Prompt Engineering & Prompt Tuning - 知乎 - 知乎专栏

[61]. 防御措施 - Prompt 学习指南

[62]. 几个步骤，就可以黑掉你的gpt - 知乎 - 知乎专栏

[63]. OpenAI 的 GPTs 提示词泄露攻击与防护实战 - 知乎

[64]. 【AI大模型应用开发】1.3 Prompt攻防（安全）和Prompt逆向工程原创

[65]. 从奶奶漏洞到 Prompt injection：指令注入攻击 - 知乎

[66]. 安全分析：剖析木马加载方式以及破解方案 - DOIT

[67]. 如何用ChatGPT做内容安全审核？ - 知乎专栏

[68]. 提示词破解：绕过ChatGPT 的安全审查 - 稀土掘金

[69]. 谷歌Bard「破防」，用自然语言破解，提示注入引起数据泄漏风险

[70]. Prompt Engineering优化原则- 以Webshell代码解释为例 - 博客园