1 目标受众和本文档目的
BSI(德国联邦信息安全办公室)通过本出版物面向考虑在其工作流程中使用生成性AI模型的公司和当局,以提高对这些模型的基本安全意识,并促进它们的安全使用。为此,除了机会外,它还突出了与生成性AI模型相关的最显著的当前危险、在规划和开发阶段、运营阶段以及使用生成性AI模型过程中可能出现的风险,以及与整个模型生命周期相关的可能的对策。
2 大型语言模型
大型语言模型是单模态文本到文本(T2T)模型的一个子集。T2T模型是生成性AI模型,它们处理文本输入(称为提示)并基于这些输入生成文本输出。它们的输入和输出可以是不同的文本格式,如自然语言、表格文本甚至程序代码。T2T模型通常依赖于神经网络和其他机器学习方法。
LLMs代表了最先进的技术,并且在性能和语言质量方面超越了其他当前的T2T模型。因此,它们被认为是检查T2T模型的代表。LLMs是强大的神经网络,可以拥有高达万亿个参数。它们在大量文本语料库上进行训练,并专门开发用于处理和生成文本。LLMs的训练通常可以分为两个阶段:首先,进行无监督训练,使LLM对文本有一般性的理解。其次是微调,这使得LLM专门用于特定任务。
2.1 LLMs的机遇
除了严格意义上的文本处理外,LLMs还可以应用于计算机科学、历史、法律或医学等领域,以及在数学领域有限地生成适当的文本和解决各种问题。目前最受欢迎的应用是聊天机器人和个人助理系统,它们的特点是易于访问和使用,提供不同主题的广泛信息。
2.1.1 通用机会
- 文本生成:写作、模仿风格、续写、生成数据等。
- 文本编辑:拼写检查、改写、翻译等。
- 文本处理:分类、实体提取、情感分析、摘要、问答等。
- 程序代码:编程辅助、测试用例生成、代码分析、转换、翻译等。
2.1.2 IT安全机会
- 安全管理支持:解释、配置、评估等。
- 检测不良内容:垃圾邮件、钓鱼邮件、虚假信息、仇恨言论等。
- 文本处理:安全事件报告等。
- 代码分析和加固:漏洞检测、解释、改进建议等。
- 安全代码生成:防火墙规则、YARA规则、日志查询等。
- 数据流量分析:威胁分析、恶意流量检测、日志异常检测等。
2.2 LLMs的风险
2.2.1 正确使用
- 不希望输出、记忆、偏差:LLMs基于大量文本语料库进行训练。由于数据量庞大,通常无法完全验证这些文本的来源和质量。因此,训练集中可能包含个人或受版权保护的数据,以及具有可疑、虚假或歧视性内容的文本(例如,虚假信息、宣传或仇恨信息),在生成输出时,这些内容可能以原样或稍作修改出现在输出中。
- 缺乏质量、事实性和想象力:由于各种原因,LLMs无法保证其输出的事实性、质量和期望格式(例如,特定的代码格式)。一方面,训练数据中可能包含形式上或事实上不正确的内容,或者另一方面,由于LLMs的概率性质,即使使用了正确的训练材料,也会编造内容。在上述两种情况下,生成的输出可能看起来很可信,特别是当它们引用科学出版物或其他可能本身是虚构的来源时。
- 缺乏时效性:无法访问实时数据(例如,互联网上的数据)的LLMs没有任何关于当前事件的信息。它们基于处理过的训练数据生成文本,这必然将内容限制在相应模型训练时已经存在的信息。尽管如此,许多模型处理当前主题的输入,并相应地在生成输出时产生幻觉。
- 缺乏可重复性和可解释性:由于其概率性质和随机组件的使用,LLMs的输出不一定可复制。即使LLM反复接收相同的输入,每次生成的输出在语言和内容上都可能有所不同。文本生成的这种灵活性,加上LLMs内部工作和决策过程的缺乏可解释性(黑箱性质),使得输出控制变得复杂。
- 生成代码的安全性:如果LLMs在程序代码上进行训练,它们也可以生成代码。然而,这意味着在生成的代码中可能包含在训练期间学到的恶意程序代码、漏洞和安全缺陷,无论是已知的还是未知的。
- 对特定输入的响应错误:LLMs对输入的变化非常敏感;即使是微小的偏差也可能导致生成的输出存在显著差异。如果输入与LLM用于训练的文本有偏差,模型通常无法正确处理它们并生成错误的输出。这样的输入可能是无意中产生的(例如,拼写错误多的文本、技术词汇或外语词汇,或模型不熟悉的语言),也可能是有意为之。
- 自动化偏差:过度信任模型输出。
- 易于将文本解释为指令:可能执行超出预期的操作。
- 输入数据的机密性:存在数据泄露风险。
- 自我强化效应和模型崩溃:可能导致输出重复、片面或不一致。
- 对模型开发者和运营者的依赖:使用LLMs的公司可能会在技术方面严重依赖模型的开发者或运营商。
2.2.2 滥用
- 虚假信息:模型输出的高语言质量和通过API的易用访问,以及目前流行的LLMs的响应的极大灵活性,使得犯罪分子更容易滥用这些模型,有针对性地生成错误信息、宣传文本、仇恨信息、产品评论或社交媒体帖子。
- 社会工程:利用人类心理弱点进行欺骗,获取敏感信息。
- 从匿名数据中识别个人:利用数据关联性进行身份识别。
- 网络攻击中的知识收集和处理:获取漏洞信息、分析目标、搜索漏洞等。
- 恶意软件的生成和改进:生成恶意代码,包括多态恶意软件。
- 恶意软件的部署:将恶意代码植入公共程序库。
- 远程代码执行(RCE)攻击:利用模型生成恶意代码,执行攻击。
2.2.3 攻击
2.2.3.1 隐私攻击
隐私攻击,也称为信息提取攻击,旨在重建LLM或其至少部分(例如,神经网络的权重)或有关其训练数据的信息。
- 训练数据重建:从模型中提取训练数据。这种攻击可能特别关键,如果LLM的训练数据是从互联网上自动提取的,而没有进行深入审查,或者如果LLM在敏感数据上进行了微调。在这种情况下,它们可能包含为特定目的发布或非法提供的数据。这可能包括个人数据、公司内部数据、NSFW(“不适合工作”)内容或文献。
- 嵌入逆映射:从嵌入向量中恢复原始文本。
- 模型窃取:攻击者可能会利用现有的LLM,并且故意生成一个受其启发的模型(称为影子或克隆模型),该模型至少在特定任务上模仿原始模型的行为。这样做的可能动机包括节省编制合适训练数据集所需的努力,或为进一步的攻击(如规避攻击)做准备。
- 提取通信数据和存储信息:提取指令、聊天记录、知识库等。
2.2.3.2 逃逸攻击
逃逸攻击旨在通过修改LLM的输入,以使LLM的响应行为被故意操纵或绕过现有的保护机制。这可能导致从开发角度来看不可预测的不当行为,或攻击者生成特定的期望输出。
- 扰动攻击:通过输入微调欺骗模型。
- 提示注入:通过输入修改模型行为。
- 间接提示注入:通过第三方来源修改模型行为。
2.2.3.3 污染攻击
污染攻击旨在通过向目标模型注入恶意数据来引起故障或性能下降。这种故障可能涉及使用触发器训练模型,当输入中存在触发器时,会引发攻击方预定义的错误响应;没有这个触发器,LLM的行为保持不变。这也被称为后门攻击。
- 训练数据污染:在训练数据中植入恶意内容。
- 模型污染:修改模型参数或代码。
- 评估模型污染:通过评价模型操纵输出。
2.3 对策
前面所描述的 LLMs风险可以通过技术和组织措施来解决。一些措施可以由用户(U)、开发者(D)和运营商(O)采取,这些措施也适用于使用LLMs的应用程序。
2.3.1 管理训练和评估数据 (D)
为了更快地响应意外的模型行为,并能够识别相关和不太相关的训练数据,应对训练数据进行良好的管理,并且在应用RLHF的情况下,应对评估数据进行管理。
2.3.2 保证训练数据和模型的完整性 (D)
当从公共来源收集数据以训练LLM时,可以进行变化的时间间隔收集,以应对互联网来源的临时操纵。或者,从互联网收集数据并插入到训练数据集中的顺序随机化也是有帮助的。因此,攻击者将不得不在更长的时间内改变来源,以确保操纵文本包含在训练数据中,这增加了攻击者的工作量,并且同时使操纵的检测更有可能。
每个来源还应该评估其可信度。理想情况下,训练数据应该只来自可信的来源。如果使用预先组装的训练数据集,应尽可能使用签名数据,以确保它们的完整性和来源可以通过密码学追踪。同样适用于RLHF背景下生成的评估数据,其完整性可以通过密码学措施确保。此外,应对训练使用来自不同来源的大量数据,以限制来自个别攻击者操纵数据对训练过程的影响。
2.3.3 保证训练数据的质量 (D)
用于训练的数据显著决定了LLM的功能和输出质量。它们应根据预期的应用领域进行选择,并根据适当的正式标准进行评估。
2.3.4 保护敏感训练数据 (D)
如果必须明确使用敏感信息对LLM进行训练,应探索保持其机密性的方法。差分隐私方法提供了这样的一种方法。它们在反向传播过程中向梯度添加噪声,在前向传递过程中向嵌入向量(添加噪声,或通常向输出概率分布添加噪声。这使得攻击者很难提取特定数据(训练数据提取)、基于嵌入进行重建(嵌入反转)或与训练材料关联(成员资格推断)。相应的隐私审计可以评估系统在多大程度上维护差分隐私保证。
2.3.5 防止模型窃取 (D)
LLMs的开发人员在必要时应实施措施,使窃取他们的模型更加困难。除了旨在检测此类盗窃并使其可见的被动和反应性方法外,例如通过数据集推断和水印,主动方法试图首先防止它们。
2.3.6 进行全面测试 (O, D)
为了避免LLM产生不良输出,应对LLM进行广泛的测试,尽可能覆盖边缘情况。为此,应选择适当的方法和基准来测试和评估LLM。
此外,应考虑进行红队测试以发现潜在的漏洞,必要时可以自动化和基于模型。
2.3.7 提高鲁棒性 (O, D)
通过使用被操纵/更改的文本进行训练或微调,即对抗性训练,LLMs可以对这些文本变得更加鲁棒。
2.3.8 选择模型和运营者 (O, U)
2.3.9 限制模型访问 (O)
应通过限制用户权限和用户组本身尽可能减少对LLM的访问。此外,如果其生成的内容反复被过滤器阻止,可以考虑暂时阻止那些显眼的用户。
2.3.10 通知用户使用风险 (O, D, U)
2.3.11 限制LLM应用程序的权限 (O, U)
2.3.12 谨慎处理敏感数据 (O, U)
2.3.13 验证、清理和格式化输入 (O, D)
2.3.14 验证和清理输出 (O, D)
2.3.15 人工智能对齐 (D, U)
2.3.16 输出审计和后处理 (U)
2.3.17 检测机器生成的文本 (O, D, U)
2.3.18 确保可解释性 (O, D)
3 结论
- 生成性AI模型提供了多样化的机遇和应用,并且目前正在快速发展。因此,关于这些模型的开发、运营和使用也产生了新的安全问题。安全地处理这些模型需要进行系统性的风险分析。应特别关注以下方面:
- 提高用户意识:用户应该全面了解LLMs的机会和风险。他们应对LLMs的安全方面有基本的理解,并意识到潜在的数据泄露或重用、输出质量问题、与错误信息和社会工程相关的滥用可能性,以及攻击途径。如果LLM被用于商业目的,员工应接受全面的告知和密集的培训。
- 测试:在部署之前,应对LLMs和基于它们的应用程序进行广泛的测试。根据其关键性,还应考虑进行红队测试,模拟特定的攻击或滥用场景。在动态的技术环境中,测试应始终与当前的IT安全状态保持一致。
- 处理敏感数据:原则上,应假设LLM在训练或运营期间可以访问的所有信息都可以显示给用户。因此,应在敏感数据上进行微调的模型被视为敏感的,并且在没有仔细考虑的情况下不应与第三方共享。对LLM的系统或应用程序级指令和嵌入文档应以一种方式制定和集成,使得将其中包含的信息输出给用户存在可接受的风险。可以使用RAG等技术来实施权限和角色系统。
- 建立透明度:开发者和运营商应提供足够的信息,使用户能够对模型的适用性做出明智的评估。应清楚地传达关于风险、实施的对策、剩余的残余风险或限制的信息。在技术层面上,提高生成内容和LLM功能可解释性的方法可以确保透明度。
- 审计输入和输出:为了应对有问题和关键的输出并防止意外行动,可以实施适当的、可能是特定于应用程序的清洁输入和输出的过滤器。根据用例,用户应该有机会验证输出,与其他来源进行交叉引用,并在LLM启动行动之前必要时进行编辑。
- 注意(间接)提示注入:提示注入旨在操纵对LLM的指令或其原始预期的行为。目前没有办法完全可靠地防止这种操纵。LLM在处理不安全来源的信息时特别脆弱。如果它们还能访问敏感信息并且存在信息泄露的渠道,后果可能特别严重。在将LLM集成到应用程序中时,应限制应用程序的权限,以减少提示注入的影响。通常,运营商应实施周到的访问和管理权限。采取提高鲁棒性的措施,如对抗性训练或RLHF,也可能有所帮助。
- 选择和管理训练数据:开发者应通过适当选择、获取和预处理训练数据来确保模型的最佳功能。与此同时,应专业管理数据存储,考虑到收集数据的敏感性。
- 发展实际专业知识:LLM提供了广泛的应用,并有潜力推动数字化发展。应该建立起实际专业知识,以便对技术的能力和局限性进行现实评估。这需要对技术本身进行实践试验,例如,通过为较小的(非关键)用例实施概念验证。