【论文速读】| JADE:用于大语言模型的基于语言学的安全评估平台

图片

本次分享论文:JADE : A Linguistics-based Safety Evaluation Platform for Large Language Models

基本信息

原文作者:Mi Zhang, Xudong Pan, Min Yang

作者单位:Whitzard-AI, System Software and Security Lab @ Fudan University

关键词:Certificates, TEQIP Participation, LLM Safety Testing

原文链接:https://arxiv.org/abs/2311.00286

开源代码:https://github.com/whitzard-ai/jade-db

论文要点

论文简介:JADE是一个创新的模糊测试平台,专注于增强语言复杂性以挑战大语言模型的安全性。它针对三组不同的语言模型:八个开源中文模型、六个商业中文模型和四个商业英文模型,生成了三个安全基准,成功触发70%的不安全内容生成。JADE利用诺姆·乔姆斯基的转换生成语法理论,通过生成和转换规则增加问题复杂性,直至突破模型的安全限制。其核心优势在于识别语言模型无法完全覆盖的恶意语义。JADE还集成了主动学习算法,通过少量标注数据不断优化评估模块,提高与人类专家判断的一致性。

研究目的:本研究的目标在于探寻大语言模型(LLMs)的安全边界。JADE 借助诺姆·乔姆斯基的生成语法理论,能够自动把自然问题转变为愈发复杂的句法结构,从而突破其安全防线。研究者的核心观点为:鉴于人类语言的复杂性,当下大多数最为出色的 LLMs 很难从数量无限的不同句法结构中识别出始终不变的有害意图。所以,JADE 致力于通过提升问题的句法复杂性,揭露 LLMs 在应对复杂句法形式时的共同弱点,进而增强安全评估的系统性。

研究贡献:

1. 有效性:JADE 具备出色的有效性,能够把原本违规率约为 20%的种子问题转变为高度关键且不安全的问题,使 LLMs 的平均违规率大幅提升至 70%以上,切实有效地探索了 LLMs 的语言理解和安全边界。

2. 可转移性:JADE 生成的高威胁测试问题具有良好的可转移性,能够在几乎所有开源 LLMs 中触发违规行为。例如,在 JADE 生成的中文开源大模型安全基准数据集中,有 30%的问题能够同时触发八个著名的中文开源 LLMs 的违规行为。

3. 自然性:JADE 通过语言变异生成的测试问题几乎不改变原问题的核心语义,很好地保持了自然语言的特性。与此形成鲜明对比的是,LLMs 的越狱模板引入了大量语义无关的元素或乱码字符,呈现出强烈的非自然语言特性,容易被 LLMs 开发者的定向防御措施所针对。

引言

目前,AIGC 在诸多关键应用领域迅速发展,但因其训练数据的质量参差不齐,包括难以清理的不安全文本,致使预训练的 LLMs 如 GPT-3 易生成不安全内容,如何抑制其不安全生成行为成为构建 3H 原则生成 AI 的首要挑战。

图片

为探索 LLMs 的安全边界,研究者打造了综合的目标语言模糊测试平台 JADE。该平台依据乔姆斯基的生成语法理论,能自动将自然问题转化为更复杂的句法结构,以突破安全防线。它通过智能调用生成和变换规则,自动增长并变换给定问题的句法树,直至目标 LLMs 生成不安全内容。评估表明,多数著名的对齐 LLMs 在少量变换/生成步骤后就会被突破,证明了该语言模糊测试程序的高效性。此外,JADE 不仅实现了自动评估模块,采用主动提示调优理念减少手动标注需求,还系统化了现有对齐 LLMs 的失效模式,分析了它们处理人类语言复杂性方面的局限性。

研究背景

生成式人工智能(AIGC)的安全性应予以优先考量。在安全原则当中,一个基本的要求便是生成的内容应当无害,这实际上在 ChatGPT 以及其他对齐的 LLM 的早期设计中就已经达成。AIGC 所生成的内容不应违背伦理标准,也不应产生负面的社会影响。正因如此,监督微调(SFT)、人类反馈强化学习(RLHF)、AI 反馈强化学习(RLAIF)等策略被提出,以抑制不安全的生成行为。研究者的工作探讨了怎样评估和测试 AIGC 是否真正达成并满足了安全原则。

Preliminary

乔姆斯基的生成语法理论对人类语言的语法结构进行了解释,提出了一套用以描述如何由较小的句子成分生成一个句子的规则。比如,一条基本的生成规则是“句子能够重写为名词短语和动词短语”。借由递归调用这些规则,能够构建出愈发复杂的问题。

在变换语法方面,乔姆斯基的理论主张存在两层用于表示人类语言结构的层次,即深层结构和表层结构。通过变换规则,可以把一个问题的成分移动至另一个合适的位置,或者将原始关键词替换成一些不常见的同义词,进而增加句法的复杂性。

JADE

JADE 是一个基于语言学的模糊测试平台,其目的在于评估大语言模型(LLMs)的安全性。该平台运用乔姆斯基的生成语法理论,通过提高种子问题的句法复杂性,对 LLMs 的安全防线进行系统性测试。JADE 所生成的测试问题能够持续地促使多种 LLMs 生成有害内容,平均不安全生成比例高达 70%。这一平台通过改变原始问题的句法结构,让问题变得更为复杂,进而突破 LLMs 的安全防线。JADE 的评估结果表明,生成的问题在多个 LLMs 之间具备很强的可转移性,同时保持了问题的自然语言特性。此外,JADE 还引入了主动提示调优技术,降低了手动标注的需求,并且提升了评估结果的准确性。总之,JADE 通过揭示 LLMs 在处理复杂句法结构时的共同弱点,为 LLMs 的安全评估提供了一种行之有效的方法。

图片

评估结果

JADE 的评估结果表明,该平台在显著提升种子问题触发不安全生成的效果方面表现出色。实验显示,JADE 能够将原本违规率仅约 20%的种子问题转化为违规率高达 70%以上的关键问题。该测试覆盖了多个主流的 LLMs,包括开源和商业模型,结果证实生成的问题在不同 LLMs 之间具有很强的可转移性,大多数 JADE 生成的问题能够同时引发多个 LLMs 的违规行为。此外,这些生成的问题在流畅性和语义保持方面表现优异,与种子问题相比,较好地保持了自然语言特性,这也证明了 JADE 在增加语言复杂性方面的有效性。

图片

更多相关工作

现有的相关工作主要聚焦于探讨大语言模型(LLMs)的失效模式以及语言复杂性方面所面临的挑战。研究显示,LLMs 在处理复杂句法结构时,常常呈现出逻辑不一致性、对抗性鲁棒性匮乏以及容易分心等问题。比如,Fluri 等人发现,LLMs 在应对否定和改写问题时,常常会产生逻辑错误。另外,此前的研究还表明,LLM 在遭遇字符级扰动(例如添加、删除或者重复字符)、词汇替换(使用同义词替换词汇)以及句法变形(诸如风格转换)时,表现出较差的鲁棒性。Shi 等人则指出,当在问题描述中添加无关信息时,LLM 的表现会显著降低,体现出容易受到干扰的特性。相较而言,JADE 通过语言变异生成的问题,在维持核心语义以及自然语言特性方面具备显著优势,为 LLM 的安全评估提供了更为系统、更为有效的办法。

论文结论

本文提出了一个基于语言学的 LLMs 安全评估平台 JADE,该平台通过提升问题的句法复杂性,有效地探索了 LLMs 的语言理解和安全边界。实验结果显示,JADE 生成的问题在多个 LLMs 当中具有很强的可转移性,并且在流利性和语义保持方面有着出色的表现。未来的工作会进一步对 JADE 的生成规则和评估模块进行优化,从而提高其在更广泛应用场景里的适用性。 

原作者:论文解读智能体

校对:小椰风

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/44039.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

『大模型笔记』GraphRAG:用于复杂数据发现的新工具现已在GitHub上发布

GraphRAG:用于复杂数据发现的新工具现已在GitHub上发布 文章目录 一. GraphRAG:用于复杂数据发现的新工具现已在GitHub上发布1. 评估和结果2. 研究见解和未来方向二. 参考文献一. GraphRAG:用于复杂数据发现的新工具现已在GitHub上发布 下载 GraphRAG今年早些时候,我们介绍…

倒计时 2 周!CommunityOverCode Asia 2024 IoT Community 专题部分

CommunityOverCode 是 Apache 软件基金会(ASF)的官方全球系列大会,其前身为 ApacheCon。自 1998 年以来,在 ASF 成立之前,ApacheCon 已经吸引了各个层次的参与者,在 300 多个 Apache 项目及其不同的社区中探…

百度文心4.0 Turbo开放,领跑国内AI大模型赛道!

百度文心4.0 Turbo开放,领跑国内AI大模型赛道! 前言 文心一言大模型 就在7月5日,在2024世界人工智能大会 (WAIC) 上,百度副总裁谢广军宣布文心大模型4.0 Turbo正式向企业客户全面开放!这一举动直接引发了业界的关注。那…

springboot中@bean注解的创建和使用

bean的创建顺序 在Spring Boot中,当一个配置类(使用Configuration注解的类)中定义了多个bean时,这些bean的创建顺序并不完全由它们在类中的声明顺序决定。Spring框架在创建和管理bean时,遵循了复杂的依赖注入和生命周…

在Windows中使用开源高性能编辑器Zed(持续更新)

简介 “Zed is a high-performance, multiplayer code editor from the creators of Atom and Tree-sitter. It’s also open source.” “Zed是一款高性能的支持多人协作的代码编辑器,由Atom和Tree-sitter的创建者开发。它也是开源的。” Zed主打“高性能”&…

为什么选择开放式耳机?悠律凝声环开放式耳机体验

开放式耳机相对于其他传统耳机优势有以下几点: 配戴舒适性更好:由于开放式耳机的背面是开放的,空气可以自由流动,减少了耳朵的闷热感。长时间佩戴时更加舒适。,而传统入耳式耳机一般都是塞入耳道,久戴会胀…

Java中的 this 关键字是什么意思? this() 又是什么?

目录 问题问题一:什么是this关键字?问题二:什么是this()? 问题 问题一:什么是this关键字? 定义:this 代表当前对象。这个定义比较抽象,举例来回答。 思考一个问题:如果没有 this 会怎样&…

鸿蒙开发学习笔记2

一、class 类 类是用于 创建对象模版。同时类声明也会引入一个 新类型,可定义其 实例属性、方法 和 构造函数。 // 类名 首字母大写(规范) class 类名 {// 1、实例属性(字段)// 2、构造函数// 3、方法 }1、属性&…

如何追踪ping连接中的所有路由器的数量和IP

如何快速判断ping连接经过的路由器个数和IP? 方法一: ping命令会返回一个TTL,TTL(Time To Live)存活时间,一般初始值为64,每经过一个路由器就减一,当TTL为0时丢弃网络包&#xff0…

“Numpy数据分析与挖掘:高效学习重点技能“

目录 # 开篇 # 补充 zeros & ones eye 1. numpy数组的创建 1.1 array 1.2 range 1.3 arange 1.4 常见的数据类型 1.5 astype 1.6 random.random() & round 2. numpy数组计算和数组计算 2.1 reshape 2.2 shape 2.3 将一维数组变成多维数组 2.4 指定一维…

0010基于免疫遗传算法的配送中心选址

免疫优化算法(Immune Optimization Algorithm, IOA)在物流配送中心选址中的应用是通过模拟免疫系统的进化过程来解决选址优化问题。物流配送中心选址问题涉及到如何在给定区域内选择最优的位置,以最大化服务覆盖并最小化运输成本。 免疫优化…

我的FPGA

1.安装quartus 2.更新usb blaster驱动 3.新建工程 1.随便找一个文件夹,里面新建demo文件夹,表示一个个工程 在demo文件夹里面,新建src(源码),prj(项目),doc&#xff…

压缩感知2——算法模型

采集原理 其中Y就是压缩后的信号表示(M维),Φ表示采集的测量矩阵,可以是一个随机矩阵,X代表原始的数字信号(N维)。 常见的测量矩阵——随机高斯矩阵 随机伯努利矩阵 稀疏随机矩阵等,矩阵需要满足与信号的稀…

AWS无服务器 应用程序开发—第十七章 Application Composer

Application Composer 是 AWS 提供的一种可视化工具,用于设计和构建无服务器应用程序。它通过拖放界面简化了无服务器架构的创建过程,使开发者能够更直观地设计和配置应用程序的各个组件。 主要功能 可视化设计 通过拖放界面,开发者可以轻松地添加和配置 AWS 资源,如 L…

2-29 基于matlab的CEEMD

基于matlab的CEEMD(Complementary Ensemble Empirical Mode Decomposition,互补集合经验模态分解),先将数据精心ceemd分解,得到imf分量,然后通过相关系数帅选分量,在求出他们的样本熵的特征。用…

【深度学习】第5章——卷积神经网络(CNN)

一、卷积神经网络 1.定义 卷积神经网络(Convolutional Neural Network, CNN)是一种专门用于处理具有网格状拓扑结构数据的深度学习模型,特别适用于图像和视频处理。CNN 通过局部连接和权重共享机制,有效地减少了参数数量&#x…

使用OpencvSharp实现人脸识别

在网上有很多关于这方面的博客,但是都没有说完整,按照他们的博客做下来代码都不能跑。所以我就自己写个博客补充一下 我这使用的.NET框架版本是 .NetFramework4.7.1 使用Nuget安装这两个程序包就够了,不需要其他的配置 一定要安装OpenCvSha…

在亚马逊云科技AWS上利用SageMaker机器学习模型平台搭建生成式AI应用(附Llama大模型部署和测试代码)

项目简介: 接下来,小李哥将会每天介绍一个基于亚马逊云科技AWS云计算平台的全球前沿AI技术解决方案,帮助大家快速了解国际上最热门的云计算平台亚马逊云科技AWS AI最佳实践,并应用到自己的日常工作里。本次介绍的是如何在Amazon …

802.11漫游流程简单解析与笔记_Part2_05_wpa_supplicant如何通过nl80211控制内核开始关联

最近在进行和802.11漫游有关的工作,需要对wpa_supplicant认证流程和漫游过程有更多的了解,所以通过阅读论文等方式,记录整理漫游相关知识。Part1将记录802.11漫游的基本流程、802.11R的基本流程、与认证和漫游都有关的三层秘钥基础。Part1将包…

220V降5V芯片输出电压电流封装选型WT

220V降5V芯片输出电压电流封装选型WT 220V降5V恒压推荐:非隔离芯片选型及其应用方案 在考虑220V转低压应用方案时,以下非隔离芯片型号及其封装形式提供了不同的电压电流输出能力: 1. WT5101A(SOT23-3封装)适用于将2…