实战解读:Llama Guard 3 Prompt Guard

a597923822caff02e951438fa44f6fa1.gif

前序研究:实战解读:Llama 3 安全性对抗分析

近日,腾讯朱雀实验室又针对 Llama 3.1 安全性做了进一步解读。

2024年7月23日晚,随着Llama3.1的发布,Meta正式提出了“Llama系统”的概念,通过系统级的安全组件对AI系统进行更好的控制。值得关注的是,去年12月成立的“Purple LLama”项目又新增三大安全组件:Llama Guard 3 、 Prompt Guard、CYBERSECEVAL 3,旨在“保护生成式人工智能时代开放信任和安全”。

da9ebefb4f0de6076940da199e2fa8c1.png

Llama Guard 3‍

Llama Guard 3 是 Llama Guard 2 的升级版本,用于协助开发人员检测各种常见类型的违规内容。它通过微调 Meta-Llama 3.1-8B 模型构建的方式进行优化,可以执行 MLCommons 标准危害分类法的检测。Llama Guard 3 共支持8种语言,相比 Llama Guard 2新增了意大利语、法语等7种语言,同时,其上下文窗口也由 8k 扩展到 128k 。

除此之外,Llama Guard 3 在检测网络攻击方面也进行了优化,并能防止 LLM 输出的恶意代码通过代码解释器在 Llama 系统的托管环境中执行。(这也是为代码解释器的应用场景新增了防护场景

09bad9406ee96e8484e017e3f146fde0.png

风险分类在参考MLCommons AI Safety的基础上,从Guard2的11个风险类别,扩展到14个类别。(绿色为新增类别)

f1c1ec52d220d6ab5547bc09c6566362.png

Prompt Guard

Prompt Guard是用于防止 LLM 集成的应用程序受到恶意提示的侵害,以确保系统安全性和完整性的组件。该组件会对提示内容的安全性进行审查,识别是其否有提示词注入越狱的风险

696b6c2ecf1fc093d986cb8bf3b41bbe.png

CYBERSECEVAL 3

CYBERSECEVAL 3是全新发布的安全基准套件,用于评估各类LLM的网络安全风险和能力。它关注当前LLM的八种不同风险,涵盖对第三方和应用开发者及用户两种场景,并通过模拟网络钓鱼攻击、勒索软件攻击等方法对 LLM 的安全能力进行评估。 

df278607666b1d73ecbca6a2769ecc66.png

与之前的工作相比,CYBERSECEVAL 3增加了全新的评估领域,包括自动化社会工程、扩展手动攻击性网络操作和自动化攻击性网络操作,并测试了全新发布的Llama 3 405B模型。

862891eaa38f4f39e0b2eafb117018c0.png

在自动化社会工程评估方面,CYBERSECEVAL 3考虑了钓鱼攻击场景,尝试让 LLM 说服受害者下载并打开恶意附件,并分别通过大模型及人工对不同模型的说服能力进行评分。结果表明 Llama 3 405B展现了介于“中等”和“差”之间的说服能力,难以成功实现钓鱼攻击。

b4a6721f6d0bbac8fd06ea23b24ea9a8.png

在扩展手动攻击性网络操作方面,CYBERSECEVAL 3聚焦于受测LLM在帮助人类攻击者进行网络攻击方面的帮助。从结果来看,Llama 3 405B不能显著提升攻击者的攻击效率和能力。

d5822f29dad20f79b794e0643a426dce.png

在自动化攻击性网络操作方面,CYBERSECEVAL 3评测了各类LLM对网络服务及端口的侦察和访问、漏洞识别和漏洞利用等能力。结果显示 Llama 3 405B仅能完成部分低复杂度操作,无法在自动化网络攻击方面产生威胁。

实战验证

Cyber Security Guard

腾讯朱雀实验室 Red Team 团队使用自建的安全数据集对 Gemma、Llama 2、Llama 3、Llama3.1的模型安全性进行了测试。结果显示,Llama3.1 + Llama Guard 3的组合较上一个版本在安全性上提升了0.58%,达到了99.04%的拦截率,表现出较高的安全性。

934d5f8c7a120318eaa21aac51d80fc4.png

Prompt Guard‍‍‍‍‍‍‍‍‍‍‍‍

在越狱检测场景中,Prompt Guard的准确率达88.2%,但仍有6.4%的样本未能被成功识别出潜在的恶意意图。对于涉及黑数据场景注入和越狱的标签分类,Prompt Guard的准确率表现可以接受,但仍有提升空间。

值得注意的是,在白样本集的处理中,我们观察到了一个显著的挑战:Prompt Guard的误报率高达86.4%!这一数据凸显了Prompt Guard在处理正常对话时的过度敏感。

下图展示了具体示例。虽然Prompt Guard正确识别了提示注入,但对于正常的问答,其检测结果表现的不尽人意。可见该组件还需要进一步的训练和优化,才可用于下游应用中。

69e09e37b9531b61e7407443d68599f4.png

综合来看,“Llama系统”概念的提出,表明了Meta对“AI Safety & Secuirty”的重视。Meta也通过与NIST和ML Commons等全球组织合作定义了通用标准和最佳实践,进一步提高了AI的安全性。但对于其提出的安全组件是否可以直接集成在LLM上,我们仍需保持谨慎的态度,同时,不同组件间需要通过科学合理的组合,才能在下游应用中更好地规避潜在的安全隐患。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/875601.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

谷粒商城实战笔记-62-商品服务-API-品牌管理-OSS整合测试

文章目录 一,Java中上传文件到阿里云OSS1,整合阿里云OSS2,测试上传文件 二,Java中整合阿里云OSS服务指南引言准备工作1. 注册阿里云账号2. 获取Access Key3. 添加依赖 实现OSS客户端1. 初始化OSSClient2. 创建Bucket3. 上传文件4.…

自定义 RAG 工作流:在 IDE 中结合 RAG 编排,构建可信的编码智能体

构建编码智能体并非一件容易的事。结合我们在 AutoDev、ArchGuard Co-mate、ChocoBuilder 等智能体项目的经验,我们开始思考在 Shire 语言中提供一种新的 RAG 工作流。结合我们先前构建的 IDE 基础设施(代码生成、代码校验、代码执行等接口)&…

基于PaddleClas的人物年龄分类项目

目录 一、任务概述 二、算法研发 2.1 下载数据集 2.2 数据集预处理 2.3 安装PaddleClas套件 2.4 算法训练 2.5 静态图导出 2.6 静态图推理 三、小结 一、任务概述 最近遇到个需求,需要将图像中的人物区分为成人和小孩,这是一个典型的二分类问题…

AI学习指南机器学习篇-SOM在数据聚类和可视化中的应用

AI学习指南机器学习篇 - SOM在数据聚类和可视化中的应用 引言 在机器学习领域,数据聚类和可视化是非常重要的任务。传统的聚类算法如K-means、DBSCAN等在一些场景下表现良好,但对于高维数据的聚类和可视化而言,它们的效果会受到限制。Self-…

Leetcode3219. 切蛋糕的最小总开销 II

Every day a Leetcode 题目来源:3219. 切蛋糕的最小总开销 II 解法1:贪心 谁的开销更大,就先切谁,并且这个先后顺序与切的次数无关。 代码: /** lc appleetcode.cn id3219 langcpp** [3219] 切蛋糕的最小总开销 I…

ubuntu20.04服务器搭建mongodb7

安装参考自mongo官网:在 Ubuntu 上安装 MongoDB Community Edition - MongoDB 手册 v7.0 MongoDB 版本 本教程安装的是 MongoDB 7.0 Community Edition。想要安装不同版本的 MongoDB Community Edition,请移步本页面左上角的版本下拉菜单,选…

ubuntu递归下载deb安装包,解决离线依赖问题

ubuntu递归下载安装包 主要针对离线环境的电脑安装deb包。 将下面的build-essential换成自己需要安装的包,虽然下面代码会递归下载依赖安装包,但是在离线环境下仍然可能会出现依赖包为配置问题。 因此,根据报错,手动递归下载报错…

【SQL 新手教程 1/20】SQL语言MySQL数据库 简介

💗 什么是SQL?⭐ (Structured Query Language) 结构化查询语言,是访问和处理关系数据库的计算机标准语言 无论用什么编程语言(Java、Python、C……)编写程序,只要涉及到操作关系数据库都必须通过SQL来完成 …

4招清洁法,清理电脑无死角,焕然一新效率高

随着时间的积累,电脑内部可能会堆积起大量的垃圾文件、缓存数据和无用程序。因此,定期清理电脑是很有必要的。为了让你的电脑重新焕发生机,提高工作效率,本文将为你介绍4招实用的清洁法,助你轻松清理电脑死角&#xff…

js 数组常用函数总结

目录 1、push 2、unshif 3、pop 4、shift 5、concat 6、slice 7、splice 8、join 9、indexOf 10、lastIndexOf 11、forEach 12、map 13、filter 14、reduce 15、sort 16、reverse 17、includes 18、some 19、every 20、toString 21.、find 22、findLast 23、…

JavaWeb学习——请求响应、分层解耦

目录 一、请求响应学习 1、请求 简单参数 实体参数 数组集合参数 日期参数 Json参数 路径参数 总结 2、响应 ResponseBody&统一响应结果 二、分层解耦 1、三层架构 三层架构含义 架构划分 2、分层解耦 引入概念 容器认识 3、IOC&DI入门 4、IOC详解 …

Cadence23学习笔记(十四)

ARC就是圆弧走线的意思: 仅打开网络的话可以只针对net进行修改走线的属性: 然后现在鼠标左键点那个走线,那个走线就会变为弧形: 添加差分对: 之后,分别点击两条线即可分配差分对: 选完差分对之后…

微服务实践和总结

H5原生组件web Component Web Component 是一种用于构建可复用用户界面组件的技术&#xff0c;开发者可以创建自定义的 HTML 标签&#xff0c;并将其封装为包含逻辑和样式的独立组件&#xff0c;从而在任何 Web 应用中重复使用。 <!DOCTYPE html> <html><head…

css in js 相比较 css modules 有什么好处?

CSS-in-JS 和 CSS Modules 都是用于管理 React 组件样式的流行方案&#xff0c;它们各有优势。相比 CSS Modules&#xff0c;CSS-in-JS 的主要好处包括: 动态样式&#xff1a;CSS-in-JS 可以轻松创建基于 props 或状态的动态样式&#xff0c;更灵活地处理复杂的样式逻辑。 无需…

【vue3|第18期】Vue-Router路由的三种传参方式

日期:2024年7月17日 作者:Commas 签名:(ง •_•)ง 积跬步以致千里,积小流以成江海…… 注释:如果您觉得有所帮助,帮忙点个赞,也可以关注我,我们一起成长;如果有不对的地方,还望各位大佬不吝赐教,谢谢^ - ^ 1.01365 = 37.7834;0.99365 = 0.0255 1.02365 = 1377.408…

EtherNet/IP网络基础

EtherNet/IP&#xff08;Ethernet Industrial Protocol&#xff09;是一种用于工业自动化的通信协议&#xff0c;基于以太网技术。它允许设备和控制系统之间进行高效的数据交换和通信。以下是EtherNet/IP网络的基础知识。 1. 什么是EtherNet/IP&#xff1f; EtherNet/IP是由O…

ctfshow SSTI注入 web369--web372

web369 这把request过滤了&#xff0c;只能自己拼字符了 ""[[__clas,s__]|join] 或者 ""[(__clas,s__)|join] 相当于 ""["__class__"]举个例子&#xff0c;chr(97) 返回的是字符 a&#xff0c;因为 97 是小写字母 a 的 Unicode 编码…

go操作aws s3

v2 官方推荐版本&#xff0c;需要go版本>1.20 安装 go get github.com/aws/aws-sdk-go-v2 go get github.com/aws/aws-sdk-go-v2/config go get github.com/aws/aws-sdk-go-v2/service/s3必要参数 bucket: 存储桶的名称 Region: 存储桶所在区域,例us-east-1 accessKey…

PHP运算符

PHP 运算符是用于执行各种操作&#xff08;如算术运算、比较、逻辑运算、字符串连接等&#xff09;的符号。在 PHP 中&#xff0c;运算符的命名主要是基于它们的功能和用法&#xff0c;而不是像变量或函数那样可以自定义名称。以下是一个关于 PHP 运算符的详细教程&#xff0c;…

unity2D游戏开发01项目搭建

1新建项目 选择2d模板,设置项目名称和存储位置 在Hierarchy面板右击&#xff0c;create Empty 添加组件 在Project视图中右键新建文件夹 将图片资源拖进来&#xff08;图片资源在我的下载里面&#xff09; 点击Player 修改属性&#xff0c;修好如下 点击Sprite Editor 选择第二…