人工智能:大语言模型提示注入攻击安全风险分析报告下载

大语言模型提示注入攻击安全风险分析报告下载

今天分享的是人工智能AI研究报告:大语言模型提示注入攻击安全风险分析报告》。(报告出品方:大数据协同安全技术国家工程研究中心安全大脑国家新一代人工智能开放创新平台)

研究报告内容摘如下

近期,基于Transformer的大语言模型(Large Language Model,LLM)研究取得了一系列突破性进展,模型参数量已经突破千亿级别,并在人类语言相似文本生成方面有了卓越的表现。目前已有多个商业化大模型发布,如OpenAI推出的GPT系列、Google推出的T5和PaLM,以及Meta推出的OPT等大语言模型等。特别是OpenAI推出ChatGPT,由于其强大的理解与生成能力,在短短2个月内突破了1亿用户量,成为史上用户增长速度最快的消费级应用程序。

为了应对市场冲击,谷歌也推出了BARD聊天机器人,Meta则开源了LLaMA模型。国内各大企业、高校和研究机构也纷纷进入大模型领域,推出了一系列对话大模型,包括百度文心一言、360智脑、讯飞星火、商汤商量、阿里通义千问、智源悟道、复旦MOSS、清华ChatGLM等。

大语言模型正在各个应用领域引起巨大的变革,并已经在搜索、金融、办公、安全、教育、游戏、电商、社交媒体等领域迅速普及和应用。例如微软将GPT4应用于必应搜索引擎和Office办公软件,而谷歌把PaLM2等模型应用在Workspace办公套件、Android以及Bard聊天机器人。

然而,伴随着大语言模型广泛应用的同时,也衍生出一系列严重的安全风险,并引发了多起安全事件。如OpenAI曾经默认将用户输入的内容用于模型训练,从而导致了多起隐私数据泄漏事件。据媒体报道,亚马逊公司发现ChatGPT生成的内容中发现与公司机密非常相似的文本。韩国媒体报道称,三星公司在引入ChatGPT不到20天内就发生3起涉及机密数据泄漏的事故,其中2起与半导体设备有关,1起与会议内容有关。据网络安全公司Cyberhaven的调查,至少有4%的员工将企业敏感数据输入ChatGPT,而敏感数据占输入内容的11%。

此外,大模型系统近期也被相继爆出多个安全漏洞。例如,ChatGPT的Redis客户端开源库的一个错误,导致1.2%的ChatGPT付费用户个人信息泄露,包括聊天记录、姓名、电子邮箱和支付地址等敏感信息。随后,OpenAI网站又被爆出Web缓存欺骗漏洞,攻击者可以接管他人的账户,查看账户聊天记录并访问账单信息,而被攻击者察觉不到。360AI安全实验室近期还发现大模型软件LangChain存在任意代码执行的严重漏洞。

总体而言,目前大语言模型面临的风险类型包括提示注入攻击、对抗攻击、后门攻击、数据污染、软件漏洞、隐私滥用等,这些风险可能导致生成不良有害内容、泄露隐私数据、任意代码执行等危害。在这些安全威胁中,恶意用户利用有害提示覆盖大语言模型的原始指令实现的提示注入攻击,具有极高的危害性,最近也被OWASP列为大语言模型十大安全威胁之首。

本报告对面向大语言模型的提示注入攻击和防御技术展开研究,并通过构建数据集对大语言模型的提示注入攻击安全风险进行了测评。

首先,系统分析了面向大语言模型的提示注入攻击和防御技术,并验证了相关技术的有效性。在提示注入攻击方面,对直接注入攻击和间接注入攻击两种方式进行了分类,涉及目标劫持攻击、提示泄露攻击、越狱攻击等。在提示注入攻击防御方面,从大语言模型输入侧、输出侧两端对相关技术进行分析,涉及提示过滤、提示增强等。

其次,构建了包含36000条的提示注入攻击验证数据的数据集,覆盖了3类典型攻击方法和6类安全场景,用于对大语言模型的提示注入攻击风险测评。

然后,对OpenAIGPT-3.5-turbo、谷歌PaLM2以及UCBerkeley等高校团队开源的Vicuna-13B共3个典型的大语言模型进行了测评,测评结果显示,本文构造的数据集能分别以79.54%、75.41%、67.24%的成功率实现3类模型的攻击。这3类大语言模型一定程度上代表了目前商业和开源大语言模型的最先进水平,因此测评结果具有代表性。

最后,对本报告工作进行总结,并对未来工作进行了展望,在大语言模型安全测评、安全防御、安全监测预警方面给出相关建议。

本报告可以为大语言模型厂商、相关开发者以及研究人员提供参考,以构建更加安全可信的大语言模型。另外,基于本报告形成测评能力,大数据协同安全技术国家工程研究中心AI安全实验室将通过“安全大脑国家新一代人工智能开放创新平台”对外提供大语言模型提示注入攻击风险安全测评服务。

报告原文内容节选如下:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/49065.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

stats 监控 macOS 系统

Stats 监控 macOS 系统 CPU 利用率GPU 利用率内存使用情况磁盘利用率网络使用情况电池电量 brew install stats参考 stats github

59、mysql存储过程

存储过程 一、存储过程: 1.1、存储过程的概念 概念:完成特定功能的sql语句的集合。把定义好的sql集合在一个特定的sql的函数当中 每次执行调用函数即可。还可以实现传参的调用。 1.2、存储过程的语法: delimiter $$ ##delimiter开始和结…

支持4K高分辨率,PixArt-Sigma最新文生图落地经验

PixArt-Sigma是由华为诺亚方舟实验室、大连理工大学和香港大学的研究人员共同开发的一个先进的文本到图像(Text-to-Image,T2I)生成模型。 PixArt-Sigma是在PixArt-alpha的基础上进一步改进的模型,旨在生成高质量的4K分辨率图像。…

2024牛客暑期多校第四场

A-LCT 带权并查集&#xff0c;维护一下每个点在当前树的深度和以它为根能找到的最深的深度。‘ #include<bits/stdc.h>using namespace std; typedef long long ll; const int N 1e6 100;int fa[N],ans[N],val[N];int find(int x){if(fa[x]x)return x;int tfa[x];fa[x…

C++初学(3)

面向对象编程&#xff08;OOP&#xff09;的本质是设计并拓展自己的数据类型&#xff0c;设计自己的数据类型就是让类型与数据匹配。内置的C类型分为两组&#xff1a;基本类型和复合类型。这里我们将介绍基本类型的整数和浮点数 3.1、简单变量 3.1.1、变量名 C必须遵循几种简…

场外期权如何报价?名义本金是什么?

今天带你了解场外期权如何报价&#xff1f;名义本金是什么&#xff1f;投资者首先需要挑选自己想要进行期权交易的沪深上市公司股票。选出股票后&#xff0c;需要将股票信息、预期的操作时间&#xff08;如期限&#xff09;、看涨或看跌的选择以及预计的交易金额等信息报给场外…

计算机网络(四)数字签名和CA认证

什么是数字签名和CA认证&#xff1f; 数字签名 数字签名的过程通常涉及以下几个步骤&#xff1a; 信息哈希&#xff1a;首先&#xff0c;发送方使用一个哈希函数&#xff08;如SHA-256&#xff09;对要发送的信息&#xff08;如电子邮件、文件等&#xff09;生成一个固定长度…

全链路追踪 性能监控,GO 应用可观测全面升级

作者&#xff1a;古琦 01 介绍 随着 Kubernetes 和容器化技术的普及&#xff0c;Go 语言不仅在云原生基础组件领域广泛应用&#xff0c;也在各类业务场景中占据了重要地位。如今&#xff0c;越来越多的新兴业务选择 Golang 作为首选编程语言。得益于丰富的 RPC 框架&#xff…

Golang实现Word模板内容填充导出

这里我们使用一个广泛使用且免费处理 .docx 文件的库&#xff0c;github.com/nguyenthenguyen/docx. 安装 github.com/nguyenthenguyen/docx 库 首先&#xff0c;确保你已经安装了 docx 库&#xff1a; go get github.com/nguyenthenguyen/docx使用 docx 库处理 Word 模板 …

ubuntu实践

目录 扩容 本机上ping不通新建立的虚拟机 ssh连接 装sshd ssh客户端版本较低&#xff0c;会报key exchange算法不匹配问题 ubuntun上装docker 将centos7下的安装包改造成适配 ubuntu的包 参考文章 扩容 Hyper-V 管理器安装的ubutun扩容磁盘空间说明_hype-v磁盘扩容-…

复现open-mmlab的mmsegmentation详细细节

复现open-mmlab的mmsegmentation详细细节 1.配置环境2.数据处理3.训练 1.配置环境 stage1&#xff1a;创建python环境 conda create --name openmmlab python3.8 -y conda activate openmmlabstage2&#xff1a;安装pytorch&#xff08;这里我是以torch1.10.0为例&#xff09…

VINS-Fusion 回环检测pose_graph_node

VINS-Fusion回环检测,在节点pose_graph_node中启动。 pose_graph_node总体流程如下: 重点看process线程。 process线程中,将订阅的图像、点云、位姿时间戳对齐,对齐后分别存入image_msg、point_msg、pose_msg。pose_msg为VIO后端优化发布的位姿。 一、创建关键帧keyFram…

mac|安装PostgreSQL

1、官网下载&#xff1a;EDB: Open-Source, Enterprise Postgres Database Management 选择需要的版本&#xff1a; 双击得到的.dmg文件 双击&#xff0c;弹窗选择打开&#xff0c;一路next&#xff0c;然后输入你要设置的密码&#xff0c;默认账号名字为&#xff1a;postgres…

项目一缓存商品

文章目录 概要整体架构流程技术细节小结 概要 因为商品是经常被浏览的,所以数据库的访问量就问大大增加,造成负载过大影响性能,所以我们需要把商品缓存到redis当中,因为redis是存在内存中的,所以效率会比MySQL的快. 整体架构流程 技术细节 我们在缓存时需要保持数据的一致性所…

面试场景题系列--(2)短 URL 生成器设计:百亿短 URL 怎样做到无冲突?--xunznux

文章目录 面试场景题&#xff1a;短 URL 生成器设计&#xff1a;百亿短 URL 怎样做到无冲突&#xff1f;1. 需求分析2. 短链接生成算法2.1 自增法2.2 散列函数法2.3 预生成法 3. 部署模型3.1 其他部署方案 4. 设计4.1 重定向响应码4.2 短 URL 预生成文件及预加载4.3 用户自定义…

个人百度百科怎么创建?

百度百科词条分为企业词条、品牌词条、人物词条等&#xff0c;个人百度百科创建的需求量很大&#xff0c;各式各样的人物需求都有。现在凡是要推广个人的人&#xff0c;创建百度百科都是其中一个必要的步骤。 作为一个有知名度的人物&#xff0c;拥有一个百度百科从侧面也证明了…

基于微信小程序+SpringBoot+Vue的自习室选座与门禁系统(带1w+文档)

基于微信小程序SpringBootVue的自习室选座与门禁系统(带1w文档) 基于微信小程序SpringBootVue的自习室选座与门禁系统(带1w文档) 本课题研究的研学自习室选座与门禁系统让用户在小程序端查看座位&#xff0c;预定座位&#xff0c;支付座位价格&#xff0c;该系统让用户预定座位…

CentOS搭建Apache服务器

安装对应的软件包 [roothds ~]# yum install httpd mod_ssl -y 查看防火墙的状态和selinux [roothds ~]# systemctl status firewalld [roothds ~]# cat /etc/selinux/config 若未关闭&#xff0c;则关闭防火墙和selinux [roothds ~]# systemctl stop firewalld [roothds ~]# …

ARM功耗管理之autosleep和睡眠锁实验

安全之安全(security)博客目录导读 ARM功耗管理精讲与实战汇总参见&#xff1a;Arm功耗管理精讲与实战 思考&#xff1a;睡眠唤醒实验&#xff1f;压力测试&#xff1f;Suspend-to-Idle/RAM/Disk演示&#xff1f; 1、实验环境准备 2、软件代码准备 3、唤醒源 4、Suspend-…

18.jdk源码阅读之CopyOnWriteArrayList

1. 写在前面 CopyOnWriteArrayList 是 Java 中的一种线程安全的 List 实现&#xff0c;基于“写时复制”&#xff08;Copy-On-Write&#xff09;机制。下面几个问题大家可以先思考下&#xff0c;在阅读源码的过程中都会解答&#xff1a; CopyOnWriteArrayList 适用于哪些场景…