碎片笔记 | 大模型攻防简报

前言:与传统的AI攻防(后门攻击、对抗样本、投毒攻击等)不同,如今的大模型攻防涉及以下多个方面的内容:

在这里插入图片描述

目录

  • 一、大模型的可信问题
    • 1.1 虚假内容生成
    • 1.2 隐私泄露
  • 二、大模型的模型安全问题(传统AI攻防)
    • 2.2 数据窃取攻击
    • 2.3 Prompt攻击
    • 2.4 对抗样本攻击
    • 2.5 后门攻击
    • 2.6 数据投毒
  • 三、基于大模型的隐蔽通信(大模型隐写)
  • 四、大模型的产权问题
  • 五、 大模型的伦理问题
    • 5.1 意识形态
    • 5.2 偏见歧视
    • 5.3 政治斗争
    • 5.4 就业公平
    • 5.5 信息茧房


一、大模型的可信问题

1.1 虚假内容生成

攻击:大模型可能会进行虚假内容的生成和传播,诱导和操控用户的观点和行为。(AI的幻觉问题)。

防御:对大模型进行可信输出度量。类似于一般模型的置信度,大模型可在训练过程中添加对输出内容的可行性评估,将置信度同时提供给用户作为参考。

1.2 隐私泄露

攻击:大模型导致的隐私泄露分为两种:

(1)显式隐私泄露:大模型将用户的指令作为训练数据,不经意间会将训练数据转换为生成内容,而这些训练数据可能包含用户敏感信息。大模型会将对话框的内容存储,包括而不限于用户个人信息如姓名,电子邮箱账户等。

(2)隐式隐私泄露:通过对对话框内容的收集,大模型能够推断出潜在的敏感信息如用户的偏好、兴趣、行为等,基于此进行精准的广告推荐。

防御:对输入输出数据进行隐私保护

二、大模型的模型安全问题(传统AI攻防)

ChatGPT等生成式大模型本质上是基于深度学习的一个大型模型,也面临着人工智能安全方面的诸多威胁,包括模型窃取,以及各种传统攻击(对抗样本攻击,后门攻击,prompt攻击,数据投毒等)来引起输出的错误。 2.1 模型窃取攻击

攻击:模型窃取指的是攻击者依靠有限次数的模型询问,从而得到一个和目标模型 的功能和效果一致的本地模型。攻击者尝试通过分析模型的输入输出和内部结构来还原模型的设计和参数。这可能导致模型的知识产权泄露,带来安全风险。

防御:为防止模型窃取,可采取如下技术保护模型参数:
(1) 模型加密:对模型的参数进行加密。
(2) 模型水印:对大模型进行溯源和验证,以确保其来源和合法性。
(3) 模型集成:通过将多个模型集成在一起,可以提高模型的鲁棒性和安全性。集成学习技术可以通过组合多个模型的预测结果来提高模型的性能和安全性。
(4) 模型蒸馏:降低模型规模,小模型对于噪音和扰动的容忍能力更强。
(5) 访问控制:确保大模型在部署和使用过程中的安全性,包括访问控制、身份认证、权限管理和数据保护等方面。这有助于防止未经授权的访问和滥用。

2.2 数据窃取攻击

攻击:大模型通常需要处理大量的敏感数据,攻击者可能试图通过访问模型或截获模型的输入输出来获取训练过程中使用过的数据的分布,从而获取敏感信息[1]。
防御:(1)设立相应机制判断用户是否在进行以窃取为目的的查询。(2)对用户敏感信息进行加密上传。

2.3 Prompt攻击

Prompt的构建使得预训练大模型能够输出更加符合人类语言和理解的结果,但是不同的prompt的模板依旧有可能会导致一些安全问题和隐私问题的出现。

2.4 对抗样本攻击

攻击者通过对输入样本进行微小的修改,使其能够欺骗模型,导致错误的预测结果。这可能会对模型的可靠性和安全性产生负面影响。

2.5 后门攻击

攻击者在模型中插入后门,使其在特定条件下产生错误的输出结果或泄露敏感信息。这可能导致模型被滥用或被攻击者控制。

2.6 数据投毒

……

三、基于大模型的隐蔽通信(大模型隐写)

攻击:由于训练数据的规模庞大,大模型在隐蔽通信中具有天然优势——其能够更加合理地模拟真实数据分布,一定程度上提升生成载密文本的统计不可感知性。攻击者通过使用大模型生成流畅的载密文本,在公共信道中进行传输。目前,跨模态隐写逐渐引起研究人员关注,结合大模型完成跨模态隐写值得尝试。
防御:针对生成式大模型的隐写分析算法有待提出。

四、大模型的产权问题

问题:大模型生成作品的版权归属如今尚不明朗。
措施
(1)在大模型的训练过程中,除原始输入本身,还需要将数据来源以及产权信息作为训练数据。这将使得在使用大模型进行创作任务时,能够准确查询是否涉及到某些产权,而需要引用和付费等。这一功能的实现将能够极大提升数据价值,避免产权纠纷,也能够让ChatGPT更好地辅助科研和创作。
(2)使用区块链技术对数据源版权进行记录保护,区块链技术的使用也方便于之后产权纠纷处理中的溯源分析。
(3)使用电子水印技术保护数据源的版权和实用模型的版权。

五、 大模型的伦理问题

5.1 意识形态

5.2 偏见歧视

5.3 政治斗争

5.4 就业公平

5.5 信息茧房

针对大模型存在的伦理问题,需要建立各类信息的检测机制,设立实时监管系统,对大模型的违规行为进行记录。

以上是大模型攻防的一些常见内容,个人感觉大模型攻防与传统AI攻防的主要区别在于程度的差异——大模型由于其广泛被用于各个场景,对人类社会的影响自然要大于普通模型,也正因此,大模型的攻防研究颇为关键,亟待开展。


参考资料

  1. 微软ChatGPT版必应被黑掉了:全部Prompt泄露 - 安全内参 | 决策者的网络安全知识库 (secrss.com)
  2. 2023生成式大模型安全与隐私白皮书, 之江实验室, 2023.
  3. Survey of Hallucination in Natural Language Generation (acm.org)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/77988.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

交叉编译poco-1.9.2

目录 一、文件下载二、编译三、可能遇到的问题和解决方法3.1 error "Unknown Hardware Architecture."3.2 error Target architecture was not detected as supported by Double-Conversion一、文件下载 下载地址:poco-1.9.2 二、编译 解压目录后打开build/config/…

Mybatis-Genertor逆向工程

1、导入mybaties插件 <build><plugins><plugin><groupId>org.mybatis.generator</groupId><artifactId>mybatis-generator-maven-plugin</artifactId><version>1.4.2</version><dependencies><dependency>…

亲手实现:全方位解析SpringCloud Alibaba,这份全彩笔记送给你

SpringCloud Aliababa简介 大家好&#xff0c;这次我们来分享一个实用的开源项目—SpringCloud Alibaba。 SpringCloud是国内外微服务开发的首选框架&#xff0c;而SpringCloud Alibaba则是阿里巴巴为微服务架构而开发的组件&#xff0c;它支持SpringCloud原生组件&#xff0…

并联电容器交流耐压试验方法

对被试并联电容器两极进行充分放电。 检查电容器外观、 污秽等情况, 判断电容器是否满足试验要求状态。 用端接线将并联电容器两极短接连接湖北众拓高试工频耐压装置高压端, 外壳接地。 接线完成后经检查确认无误, 人员退出试验范围。 接入符合测试设备的工作电源&#xff0c;…

PHP8中获取并删除数组中第一个元素-PHP8知识详解

我在上一节关于数组的教程&#xff0c;讲的是在php8中获取并删除数组中最后一个元素&#xff0c;今天分享的是相反的&#xff1a;PHP8中获取并删除数组中第一个元素。 回顾一下昨天的知识&#xff0c;array_pop()函数将返回数组的最后一个元素&#xff0c;今天学习的是使用arr…

STM32--蓝牙

本文主要介绍基于STM32F103C8T6和蓝牙模块实现的交互控制 简介 蓝牙&#xff08;Bluetooth&#xff09;是一种用于无线通信的技术标准&#xff0c;允许设备在短距离内进行数据交换和通信。它是由爱立信&#xff08;Ericsson&#xff09;公司在1994年推出的&#xff0c;以取代…

软件架构之前后端分离架构服务器端高并发演进之路

软件架构之前后端分离架构&服务器端高并发演进之路 前后端分离架构从业务角度从质量属性从性能角度 服务器端关于不同并发量的演进之路1. 单体架构2. 第一次演进&#xff1a;应用服务器和数据库服务器分开部署3. 第二次演进&#xff1a;引入本地缓存和分部署缓存4. 第三次演…

Dajngo06_Template模板

Dajngo06_Template模板 6.1 Template模板概述 模板引擎是一种可以让开发者把服务端数据填充到html网页中完成渲染效果的技术 静态网页&#xff1a;页面上的数据都是写死的&#xff0c;万年不变 动态网页&#xff1a;页面上的数据是从后端动态获取的&#xff08;后端获取数据库…

车载网络扫盲

目录 车载以太网发展技术 车载网络通信架构与拓扑 车载网络的车载网关 车载网络通信协议 二层确定性以太网协议 二层车载网络扩展协议 三层安全加密协议 四层应用通信协议 车载网络通信架构的网络安全 车载以太网发展技术 车载网络技术包括车载影音娱乐和车载导航需要的MOST&am…

Java多线程篇(1)——深入分析synchronized

文章目录 synchronized原理概述锁升级 初始状态偏向锁偏向锁获取/重入偏向锁的撤销/重偏向和升级批量重偏向和批量偏向撤销偏向锁的释放 轻量级锁轻量级锁获取/重入轻量级锁膨胀轻量级锁释放 重量级锁重量级锁获取/重入重量级锁释放重量级锁的降级 其他锁粗化、锁消除调用hashc…

IDEA(2023)修改默认缓存目录

&#x1f607;作者介绍&#xff1a;一个有梦想、有理想、有目标的&#xff0c;且渴望能够学有所成的追梦人。 &#x1f386;学习格言&#xff1a;不读书的人,思想就会停止。——狄德罗 ⛪️个人主页&#xff1a;进入博主主页 &#x1f5fc;专栏系列&#xff1a;无 &#x1f33c…

OSCP系列靶场-Esay-Vegeta1保姆级

OSCP系列靶场-Esay-Vegeta1保姆级 目录 OSCP系列靶场-Esay-Vegeta1保姆级总结准备工作信息收集-端口扫描目标开放端口收集目标端口对应服务探测 信息收集-端口测试22-SSH端口的信息收集22-SSH端口版本信息与MSF利用22-SSH协议支持的登录方式22-SSH手动登录尝试(无)22-SSH弱口令…

二叉树顺序存储结构

目录 1.二叉树顺序存储结构 2.堆的概念及结构 3.堆的相关接口实现 3.1 堆的插入及向上调整算法 3.1.1 向上调整算法 3.1.2 堆的插入 3.2 堆的删除及向下调整算法 3.2.1 向下调整算法 3.2.2 堆的删除 3.3 其它接口和代码实现 4.建堆或数组调堆的两种方式及复杂度分析…

使用 Python 来创建一个基本的命令行密码管理器

&#x1f482; 个人网站:【工具大全】【游戏大全】【神级源码资源网】&#x1f91f; 前端学习课程&#xff1a;&#x1f449;【28个案例趣学前端】【400个JS面试题】&#x1f485; 寻找学习交流、摸鱼划水的小伙伴&#xff0c;请点击【摸鱼学习交流群】 目录 密码管理器项目简介…

长亭雷池社区版本安装与使用

0x01 雷池介绍 一款足够简单、足够好用、足够强的免费 WAF。基于业界领先的语义引擎检测技术&#xff0c;作为反向代理接入&#xff0c;保护你的网站不受黑客攻击。核心检测能力由智能语义分析算法驱动&#xff0c;专为社区而生&#xff0c;不让黑客越雷池半步。 官方网址&…

【Linux】多线程互斥与同步

文章目录 一、线程互斥1. 线程互斥的引出2. 互斥量3. 互斥锁的实现原理 二、可重入和线程安全三、线程和互斥锁的封装1. 线程封装1. 互斥锁封装 四、死锁1. 死锁的概念2. 死锁的四个必要条件3. 避免死锁 五、线程同步1. 线程同步的理解2. 条件变量 一、线程互斥 1. 线程互斥的…

卷积网络:实现手写数字是识别50轮准确率97.3%

卷积网络&#xff1a;实现手写数字是识别50轮准确率 1 导入必备库2 torchvision内置了常用数据集和最常见的模型3 数据批量加载4 绘制样例5 创建模型7 设置是否使用GPU8 设置损失函数和优化器9 定义训练函数10 定义测试函数11 开始训练12 绘制损失曲线并保存13 绘制准确率曲线并…

机器人连续位姿同步插值轨迹规划—对数四元数、b样条曲线、c2连续位姿同步规划

简介&#xff1a;Smooth orientation planning is benefificial for the working performance and service life of industrial robots, keeping robots from violent impacts and shocks caused by discontinuous orientation planning. Nevertheless, the popular used quate…

学习记忆——方法篇——连锁拍照、情景故事和逻辑故事法

三大方法速记这些内容 1、连锁拍照法速记重要事件 2、情景故事速记速记购物信息 3、逻辑故事法速记客户档案 一、连锁拍照法速记重要事件 例&#xff1a;女朋友在出差之前嘱咐男朋友几件事 1、把房间收拾干净&#xff0c;最重要的是要把书架整理了&#xff0c;垃圾倒了 2、记…

Spring+MyBatis使用collection标签的两种使用方法

目录 项目场景&#xff1a; 实战操作&#xff1a; 1.创建菜单表 2.创建实体 3.创建Mapper 4.创建xml 属性描述&#xff1a; 效率比较&#xff1a; 项目场景&#xff1a; 本文说明了Spring BootMyBatis使用collection标签的两种使用方法 1. 方法一: 关联查询 2. 方法…