【论文速读】| JADE:用于大语言模型的基于语言学的安全评估平台

图片

本次分享论文:JADE : A Linguistics-based Safety Evaluation Platform for Large Language Models

基本信息

原文作者:Mi Zhang, Xudong Pan, Min Yang

作者单位:Whitzard-AI, System Software and Security Lab @ Fudan University

关键词:Certificates, TEQIP Participation, LLM Safety Testing

原文链接:https://arxiv.org/abs/2311.00286

开源代码:https://github.com/whitzard-ai/jade-db

论文要点

论文简介:JADE是一个创新的模糊测试平台,专注于增强语言复杂性以挑战大语言模型的安全性。它针对三组不同的语言模型:八个开源中文模型、六个商业中文模型和四个商业英文模型,生成了三个安全基准,成功触发70%的不安全内容生成。JADE利用诺姆·乔姆斯基的转换生成语法理论,通过生成和转换规则增加问题复杂性,直至突破模型的安全限制。其核心优势在于识别语言模型无法完全覆盖的恶意语义。JADE还集成了主动学习算法,通过少量标注数据不断优化评估模块,提高与人类专家判断的一致性。

研究目的:本研究的目标在于探寻大语言模型(LLMs)的安全边界。JADE 借助诺姆·乔姆斯基的生成语法理论,能够自动把自然问题转变为愈发复杂的句法结构,从而突破其安全防线。研究者的核心观点为:鉴于人类语言的复杂性,当下大多数最为出色的 LLMs 很难从数量无限的不同句法结构中识别出始终不变的有害意图。所以,JADE 致力于通过提升问题的句法复杂性,揭露 LLMs 在应对复杂句法形式时的共同弱点,进而增强安全评估的系统性。

研究贡献:

1. 有效性:JADE 具备出色的有效性,能够把原本违规率约为 20%的种子问题转变为高度关键且不安全的问题,使 LLMs 的平均违规率大幅提升至 70%以上,切实有效地探索了 LLMs 的语言理解和安全边界。

2. 可转移性:JADE 生成的高威胁测试问题具有良好的可转移性,能够在几乎所有开源 LLMs 中触发违规行为。例如,在 JADE 生成的中文开源大模型安全基准数据集中,有 30%的问题能够同时触发八个著名的中文开源 LLMs 的违规行为。

3. 自然性:JADE 通过语言变异生成的测试问题几乎不改变原问题的核心语义,很好地保持了自然语言的特性。与此形成鲜明对比的是,LLMs 的越狱模板引入了大量语义无关的元素或乱码字符,呈现出强烈的非自然语言特性,容易被 LLMs 开发者的定向防御措施所针对。

引言

目前,AIGC 在诸多关键应用领域迅速发展,但因其训练数据的质量参差不齐,包括难以清理的不安全文本,致使预训练的 LLMs 如 GPT-3 易生成不安全内容,如何抑制其不安全生成行为成为构建 3H 原则生成 AI 的首要挑战。

图片

为探索 LLMs 的安全边界,研究者打造了综合的目标语言模糊测试平台 JADE。该平台依据乔姆斯基的生成语法理论,能自动将自然问题转化为更复杂的句法结构,以突破安全防线。它通过智能调用生成和变换规则,自动增长并变换给定问题的句法树,直至目标 LLMs 生成不安全内容。评估表明,多数著名的对齐 LLMs 在少量变换/生成步骤后就会被突破,证明了该语言模糊测试程序的高效性。此外,JADE 不仅实现了自动评估模块,采用主动提示调优理念减少手动标注需求,还系统化了现有对齐 LLMs 的失效模式,分析了它们处理人类语言复杂性方面的局限性。

研究背景

生成式人工智能(AIGC)的安全性应予以优先考量。在安全原则当中,一个基本的要求便是生成的内容应当无害,这实际上在 ChatGPT 以及其他对齐的 LLM 的早期设计中就已经达成。AIGC 所生成的内容不应违背伦理标准,也不应产生负面的社会影响。正因如此,监督微调(SFT)、人类反馈强化学习(RLHF)、AI 反馈强化学习(RLAIF)等策略被提出,以抑制不安全的生成行为。研究者的工作探讨了怎样评估和测试 AIGC 是否真正达成并满足了安全原则。

Preliminary

乔姆斯基的生成语法理论对人类语言的语法结构进行了解释,提出了一套用以描述如何由较小的句子成分生成一个句子的规则。比如,一条基本的生成规则是“句子能够重写为名词短语和动词短语”。借由递归调用这些规则,能够构建出愈发复杂的问题。

在变换语法方面,乔姆斯基的理论主张存在两层用于表示人类语言结构的层次,即深层结构和表层结构。通过变换规则,可以把一个问题的成分移动至另一个合适的位置,或者将原始关键词替换成一些不常见的同义词,进而增加句法的复杂性。

JADE

JADE 是一个基于语言学的模糊测试平台,其目的在于评估大语言模型(LLMs)的安全性。该平台运用乔姆斯基的生成语法理论,通过提高种子问题的句法复杂性,对 LLMs 的安全防线进行系统性测试。JADE 所生成的测试问题能够持续地促使多种 LLMs 生成有害内容,平均不安全生成比例高达 70%。这一平台通过改变原始问题的句法结构,让问题变得更为复杂,进而突破 LLMs 的安全防线。JADE 的评估结果表明,生成的问题在多个 LLMs 之间具备很强的可转移性,同时保持了问题的自然语言特性。此外,JADE 还引入了主动提示调优技术,降低了手动标注的需求,并且提升了评估结果的准确性。总之,JADE 通过揭示 LLMs 在处理复杂句法结构时的共同弱点,为 LLMs 的安全评估提供了一种行之有效的方法。

图片

评估结果

JADE 的评估结果表明,该平台在显著提升种子问题触发不安全生成的效果方面表现出色。实验显示,JADE 能够将原本违规率仅约 20%的种子问题转化为违规率高达 70%以上的关键问题。该测试覆盖了多个主流的 LLMs,包括开源和商业模型,结果证实生成的问题在不同 LLMs 之间具有很强的可转移性,大多数 JADE 生成的问题能够同时引发多个 LLMs 的违规行为。此外,这些生成的问题在流畅性和语义保持方面表现优异,与种子问题相比,较好地保持了自然语言特性,这也证明了 JADE 在增加语言复杂性方面的有效性。

图片

更多相关工作

现有的相关工作主要聚焦于探讨大语言模型(LLMs)的失效模式以及语言复杂性方面所面临的挑战。研究显示,LLMs 在处理复杂句法结构时,常常呈现出逻辑不一致性、对抗性鲁棒性匮乏以及容易分心等问题。比如,Fluri 等人发现,LLMs 在应对否定和改写问题时,常常会产生逻辑错误。另外,此前的研究还表明,LLM 在遭遇字符级扰动(例如添加、删除或者重复字符)、词汇替换(使用同义词替换词汇)以及句法变形(诸如风格转换)时,表现出较差的鲁棒性。Shi 等人则指出,当在问题描述中添加无关信息时,LLM 的表现会显著降低,体现出容易受到干扰的特性。相较而言,JADE 通过语言变异生成的问题,在维持核心语义以及自然语言特性方面具备显著优势,为 LLM 的安全评估提供了更为系统、更为有效的办法。

论文结论

本文提出了一个基于语言学的 LLMs 安全评估平台 JADE,该平台通过提升问题的句法复杂性,有效地探索了 LLMs 的语言理解和安全边界。实验结果显示,JADE 生成的问题在多个 LLMs 当中具有很强的可转移性,并且在流利性和语义保持方面有着出色的表现。未来的工作会进一步对 JADE 的生成规则和评估模块进行优化,从而提高其在更广泛应用场景里的适用性。 

原作者:论文解读智能体

校对:小椰风

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/44039.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AWS Glue 与 Amazon Redshift 的安全通信配置

1. 引言 在 AWS 环境中,确保服务间的安全通信至关重要。本文将探讨 AWS Glue 与 Amazon Redshift 之间的安全通信配置,特别是为什么需要特定的安全组设置,以及如何正确实施这些配置。 2. 背景 AWS Glue:全托管的 ETL(提取、转换、加载)服务Amazon Redshift:快速、完全…

嵌入式底层开发 入门学习路线

入门嵌入式底层开发的学习路线可以分为几个关键阶段,下面是一个较为系统的学习路径,它涵盖了从基础知识到实际项目应用的全过程。 1. 基础知识 计算机科学基础:理解数据结构、算法、操作系统等基本概念。电子和电路理论:学习数字…

『大模型笔记』GraphRAG:用于复杂数据发现的新工具现已在GitHub上发布

GraphRAG:用于复杂数据发现的新工具现已在GitHub上发布 文章目录 一. GraphRAG:用于复杂数据发现的新工具现已在GitHub上发布1. 评估和结果2. 研究见解和未来方向二. 参考文献一. GraphRAG:用于复杂数据发现的新工具现已在GitHub上发布 下载 GraphRAG今年早些时候,我们介绍…

倒计时 2 周!CommunityOverCode Asia 2024 IoT Community 专题部分

CommunityOverCode 是 Apache 软件基金会(ASF)的官方全球系列大会,其前身为 ApacheCon。自 1998 年以来,在 ASF 成立之前,ApacheCon 已经吸引了各个层次的参与者,在 300 多个 Apache 项目及其不同的社区中探…

【Unix】SunOS/Oracle Solaris系统介绍

一.SunOS系统介绍 SunOS 是由 Sun Microsystems 开发的 Unix 操作系统。它最初是为 Sun 的 SPARC 架构计算机设计的,后来也支持了 Intel x86 架构。SunOS 是基于 UNIX System V 4.1 版本,并且随着时间的发展,SunOS 经历了多个版本迭代&#…

百度文心4.0 Turbo开放,领跑国内AI大模型赛道!

百度文心4.0 Turbo开放,领跑国内AI大模型赛道! 前言 文心一言大模型 就在7月5日,在2024世界人工智能大会 (WAIC) 上,百度副总裁谢广军宣布文心大模型4.0 Turbo正式向企业客户全面开放!这一举动直接引发了业界的关注。那…

springboot中@bean注解的创建和使用

bean的创建顺序 在Spring Boot中,当一个配置类(使用Configuration注解的类)中定义了多个bean时,这些bean的创建顺序并不完全由它们在类中的声明顺序决定。Spring框架在创建和管理bean时,遵循了复杂的依赖注入和生命周…

qt connect 函数详解

在 Qt 框架中,connect 函数是一个非常重要的机制,用于在信号(signal)和槽(slot)之间建立连接。信号和槽是 Qt 中用于对象间通信的一种机制。当某个特定事件发生时,一个对象可以发射(…

短链接day3

短链接分组模块 新增短链接分组 在新增之前&#xff0c;需要判断gid是否是唯一的。 //检查gid是否已存在&#xff0c;保证gid唯一public boolean hasGid(String gid){LambdaQueryWrapper<GroupDO> queryWrapper Wrappers.lambdaQuery(GroupDO.class).eq(GroupDO::getG…

在Windows中使用开源高性能编辑器Zed(持续更新)

简介 “Zed is a high-performance, multiplayer code editor from the creators of Atom and Tree-sitter. It’s also open source.” “Zed是一款高性能的支持多人协作的代码编辑器&#xff0c;由Atom和Tree-sitter的创建者开发。它也是开源的。” Zed主打“高性能”&…

为什么选择开放式耳机?悠律凝声环开放式耳机体验

开放式耳机相对于其他传统耳机优势有以下几点&#xff1a; 配戴舒适性更好&#xff1a;由于开放式耳机的背面是开放的&#xff0c;空气可以自由流动&#xff0c;减少了耳朵的闷热感。长时间佩戴时更加舒适。&#xff0c;而传统入耳式耳机一般都是塞入耳道&#xff0c;久戴会胀…

Java中的 this 关键字是什么意思? this() 又是什么?

目录 问题问题一&#xff1a;什么是this关键字?问题二&#xff1a;什么是this()&#xff1f; 问题 问题一&#xff1a;什么是this关键字? 定义&#xff1a;this 代表当前对象。这个定义比较抽象&#xff0c;举例来回答。 思考一个问题&#xff1a;如果没有 this 会怎样&…

鸿蒙开发学习笔记2

一、class 类 类是用于 创建对象模版。同时类声明也会引入一个 新类型&#xff0c;可定义其 实例属性、方法 和 构造函数。 // 类名 首字母大写&#xff08;规范&#xff09; class 类名 {// 1、实例属性&#xff08;字段&#xff09;// 2、构造函数// 3、方法 }1、属性&…

IO练习网络爬虫获取

题目&#xff1a; 具体文字内容如下&#xff1a; 练习&#xff1a;制造假数据 需求&#xff1a;制造假数据是开发中的一项重要能力&#xff0c;从各个网站爬取数据是其中的一种方法。 获取姓氏示例及链接&#xff1a; 赵钱孙李 周吴郑王 链接&#xff1a;百家姓_诗词_百度汉…

如何追踪ping连接中的所有路由器的数量和IP

如何快速判断ping连接经过的路由器个数和IP&#xff1f; 方法一&#xff1a; ping命令会返回一个TTL&#xff0c;TTL&#xff08;Time To Live&#xff09;存活时间&#xff0c;一般初始值为64&#xff0c;每经过一个路由器就减一&#xff0c;当TTL为0时丢弃网络包&#xff0…

“Numpy数据分析与挖掘:高效学习重点技能“

目录 # 开篇 # 补充 zeros & ones eye 1. numpy数组的创建 1.1 array 1.2 range 1.3 arange 1.4 常见的数据类型 1.5 astype 1.6 random.random() & round 2. numpy数组计算和数组计算 2.1 reshape 2.2 shape 2.3 将一维数组变成多维数组 2.4 指定一维…

0010基于免疫遗传算法的配送中心选址

免疫优化算法&#xff08;Immune Optimization Algorithm, IOA&#xff09;在物流配送中心选址中的应用是通过模拟免疫系统的进化过程来解决选址优化问题。物流配送中心选址问题涉及到如何在给定区域内选择最优的位置&#xff0c;以最大化服务覆盖并最小化运输成本。 免疫优化…

我的FPGA

1.安装quartus 2.更新usb blaster驱动 3.新建工程 1.随便找一个文件夹&#xff0c;里面新建demo文件夹&#xff0c;表示一个个工程 在demo文件夹里面&#xff0c;新建src&#xff08;源码&#xff09;&#xff0c;prj&#xff08;项目&#xff09;&#xff0c;doc&#xff…

HTTP代理的用途有哪些-okeyproxy

通過HTTP代理&#xff0c;客戶端可以間接訪問目標伺服器&#xff0c;從而實現多種功能。無論你是普通用戶還是技術大咖&#xff0c;HTTP代理都能帶來諸多便利和安全保障。本文將從多個角度詳細探討HTTP代理的用途。 HTTP代理的重要用途 1. 訪問控制和內容過濾 在企業和教育機…

什么是语音降噪?

当我们使用手机或者电脑进行语音通话时&#xff0c;有时候会听到背景噪音干扰&#xff0c;比如人声、电视声或者风扇声。这些噪音让我们的通话变得不清晰&#xff0c;影响了沟通效果。那么&#xff0c;有没有什么方法可以让我们的语音通话更清晰呢&#xff1f;这就要介绍一下语…