第44期 | GPTSecurity周报

图片

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。

Security Papers

1.安全人工智能系统开发指南

简介:该指南提供了针对AI系统开发生命周期中设计阶段的指导,着重于理解风险、进行威胁建模,以及在系统与模型设计时需权衡的关键因素。指南涉及四个主要领域:提升员工对安全威胁和风险的意识、对系统潜在威胁进行细致建模、确保系统设计兼顾安全性、功能性与性能,以及在选择AI模型时评估安全性与其他因素之间的权衡。

链接:

https://www.ncsc.gov.uk/files/Guidelines-for-secure-AI-system-development.pdf

2.评估人工智能系统的挑战

简介:围绕人工智能对社会影响的讨论通常归结为其系统特质的探讨,如真实性和公平性,但许多人未意识到若想构建完善的模型评估方式是极具挑战性的工作,现有评估工具在准确性上存在局限。本文分享了研究人员在模型评估实践中的挑战,旨在为AI治理和评估工作的相关人员提供参考。

链接:

https://www.anthropic.com/index/evaluating-ai-systems

3.对人工智能安全的观点:时间(When)、原因(Why)、对象(What)以及方法(How)

简介:人工智能在未来十年可能引发深远变革,得益于计算能力的指数增长,其能力预计将显著提升,有可能超越人类智慧。尽管如此,如何培养出既强大又可靠的AI系统仍是一个未解之谜,快速的技术进步可能引发社会动荡和不安全的竞争。研究者正在采取以经验为导向的 AI 安全方法,积极探索工人工智能系统的运作本质,研究可扩展的人工智能系统监督和审查技术,尝试创建透明和可解释的人工智能系统,并分析人工智能的潜在风险点及如何预防它们,旨在构建出能够稳健应对各种挑战的安全系统

链接:

https://www.anthropic.com/index/core-views-on-ai-safety

4.用“Spotlighting”防御间接提示注入攻击

简介:大语言模型(LLMs)是为处理单一文本输入而设计的强大工具。在实际应用中,通常将多个输入合并为一个文本流来同时处理,但这样做LLM无法识别不同输入的来源。这就导致了一种安全漏洞,即间接提示注入攻击,攻击者会在数据中嵌入恶意指令,而模型可能会将这些指令误认为是用户的命令。为了解决这个问题,研究者提出了一种名为“Spotlighting”的技术,它通过对输入进行特定的转换,帮助模型可靠地识别输入的来源。实验证明,Spotlighting技术能有效防御间接提示注入攻击,将攻击成功率从50%以上降低到不到2%,同时对自然语言处理任务的性能影响极小。

链接:

https://arxiv.org/pdf/2403.14720.pdf

5.大语言模型中的风险和响应:评估关键威胁类别

简介:本论文研究了随着大语言模型(LLMs)得到广泛应用所带来的风险评估问题。文章集中讨论了奖励模型在微调LLMs以符合人类价值观时,如何识别和处理各种风险,以及个性化训练数据的主观性所引发的挑战。通过分析Anthropic Red-team数据集,研究者发现LLMs往往低估了信息危害的风险,这一点通过回归模型得到了验证。相比其他风险,LLMs对信息危害的反应也相对宽松。研究还揭示了LLMs在信息危害情况下对越狱攻击的高度脆弱性,突显了风险评估中的安全隐患,并强调了加强AI安全措施的必要性。

链接:

https://arxiv.org/pdf/2403.14988.pdf

6.BadEdit:通过模型编辑对大语言模型进行后门攻击

简介:传统的后门攻击方法在大语言模型(LLMs)上的应用受限于需要大量数据进行“投毒”,这不仅影响实用性,还可能损害模型的整体性能。针对这一问题,研究者首次提出了BadEdit攻击框架,将后门注入视为轻量级知识编辑任务,通过直接修改LLM参数来高效植入后门。BadEdit的优势在于:仅需要极少的样本(15个)进行注入,大幅减少调整参数的时间消耗,确保模型性能不受影响,并且在后续的微调或指令调整后后门依然稳定。实验显示,BadEdit能以100%的成功率高效攻击预训练的LLMs,同时保持对正常输入的处理性能。

链接:

https://arxiv.org/pdf/2403.13355.pdf

编辑:Fancy

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/773081.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MT6762_联发科MTK6762安卓核心板规格参数

MTK6762核心板是一款集成了蓝牙、fm、wlan和gps模块的高度集成基带平台,为LTE/LTE-A和C2K智能手机应用程序提供支持。该安卓核心板集成了ARM Cortex-A53处理器,工作频率可达2.0GHz,并且还集成了功能强大的多标准视频编解码器。除此之外&#…

汽车电子行业知识:智能汽车电子架构

文章目录 3.智能汽车电子架构3.1.汽车电子概念及发展3.2.汽车电子架构类型3.2.1.博世汽车电子架构3.2.2.联合电子未来汽车电子架构3.2.3.安波福汽车电子架构3.2.4.丰田汽车电子架构3.2.5.华为汽车电子架构 3.智能汽车电子架构 3.1.汽车电子概念及发展 汽车电子是车体汽车电子…

负氧离子监测站:创造健康生活环境

TH-FZ5在蓝天白云之下,那一座座高耸的全彩屏负氧离子监测站,如同一支支科技的绿芽,静静破土而出,为这片土地带来了新的生命力。这些现代化的设备不仅美化了环境,更是我们呼吸健康守护者,它们的存在让我们的…

【排序算法】深入解析快速排序(霍尔法三指针法挖坑法优化随机选key中位数法小区间法非递归版本)

文章目录 📝快速排序🌠霍尔法🌉三指针法🌠挖坑法✏️优化快速排序 🌠随机选key🌉三位数取中 🌠小区间选择走插入,可以减少90%左右的递归🌉 快速排序改非递归版本&#x1…

【笔记】OpenHarmony设备开发:搭建开发环境(Ubuntu 20.04,VirtualBox 7.0.14)

参考:搭建开发环境(HarmonyOS Device) Note:Windows系统虚拟机中Ubuntu系统安装完成后,根据指导完成Ubuntu20.04基础环境配置(HarmonyOS Connect 开发工具系列课) 系统要求 Windows系统要求&…

OC 技术 苹果内购

一直觉得自己写的不是技术,而是情怀,一个个的教程是自己这一路走来的痕迹。靠专业技能的成功是最具可复制性的,希望我的这条路能让你们少走弯路,希望我能帮你们抹去知识的蒙尘,希望我能帮你们理清知识的脉络&#xff0…

Linux文件和文件夹操作

一、文件操作 功能项命令实例作用文件创建vi /opt/learn/hello.txt 在目录/opt/learn下创建文件hello.txt并进入vi编辑界面 touch /opt/learn/test在目录/opt/learn下创建空白文件testcat > /opt/catfile创建文件catfile并在屏幕上输入内容,最后按 Ctrl D 退出…

【学习心得】神经网络知识中的符号解释

这里我对我学到的神经网络知识中,常见的符号做一下记录和总结,方便自己在后面学习中复习。下图二分类识别图像识别猫为例。为了保存一张图片,需要三个矩阵,它们分别对应图片中的红、绿、蓝三种颜色通道,如果图片大小为…

Django路由

Router介绍 在实际开发过程中,一个Django项目会包含很多的app,这时候如果我们只在主路由里进行配置就会显得杂乱无章,所以通常会在每个app里,创建各自的urls.py路由模块,然后从根路由出发,将app所属的url请求&#xff…

类与对象上C++

文章目录 一、1.面向过程和面向对象初步认识二、类的定义1.类的两种定义方式 三、类的访问限定符及封装1.访问限定符2.面试题3.封装 四、类对象模型1. 类对象的存储方式猜测2. 结构体内存对齐规则 五、this指针1.this指针的引出2.this指针的特性 六、 C语言和C实现Stack的对比 …

如何快速进行城市内涝模拟?HTWATER软件

原文链接:如何快速进行城市内涝模拟?HTWATER软件https://mp.weixin.qq.com/s?__bizMzUzNTczMDMxMg&mid2247599079&idx2&sndc6f3da8b17c5587cf5b7766e7019729&chksmfa820200cdf58b16658983ecfbf2b369bff39813302942d6f7eb7b71428c68da71…

在Windows上交叉编译STM32(环境搭建)

在Windows上交叉编译STM32 Keil 虽然好用,但是是收费的,不想破解怎么办~ 使用交叉编译工具! 交叉编译工具下载 官方交叉编译工具下载连接 下载解压好后将 bin 目录写入 PATH, 使用命令行检测是否安装成功。 Windows 安装 make …

未解决的问题:使用fgets循环读取字符串总是少一行

一、使用fgets循环读取字符串总是少一行 代码 #include<stdio.h> int main() {int n, i;scanf("%d", &n);char line[n][1000];for (i 0; i < n; i) {fgets(line[i], 1000, stdin);}for (i 0; i < n; i) {printf("%s", line[i]);}retur…

纳斯达克大屏媒体尺寸与投放费用:一次投放需要多少钱?

纳斯达克大屏媒体尺寸与投放费用&#xff1a;一次投放需要多少钱&#xff1f; 1. 纳斯达克图片要求 1.1 像素要求 高度&#xff1a;2336 像素宽度&#xff1a;1832 像素 1.2 分辨率要求 像素比率&#xff1a;1.0 px 72 dpi 1.3 文件格式要求 静态图片格式&#xff1a;.…

Django 仿博客园练习

数据库搭建 部分功能介绍 【一】注册 &#xff08;1&#xff09;效果显示、简单简介 主要亮点 结合了layui和forms组件默认头像可以随着性别的选择发生改变自定义头像可以实时更新显示forms组件报错信息可以局部刷新显示在对应框体下面 没有直接使用layui的前端验证后端验证…

unity中手势识别开源代码——HandPoseBarracuda

HandPoseBarracuda是一个使用单目彩色摄像头工作的神经网络手/手指追踪器的概念验证实现。 基本上,HandPoseBarracuda是MediaPipe Hands管道的一个部分端口。尽管它并不是原始包的直接端口,但它使用了相同的基本设计和相同的预训练模型。 请注意,这只是一个概念验证实现。…

SQLite数据库成为内存中数据库(三)

返回&#xff1a;SQLite—系列文章目录 上一篇&#xff1a;SQLite使用的临时文件&#xff08;二&#xff09; 下一篇&#xff1a;SQLite中的原子提交&#xff08;四) ​​ SQLite数据库通常存储在单个普通磁盘中文件。但是&#xff0c;在某些情况下&#xff0c;数据库可能…

Dockerfile和Docker-compose

一、概述 Dockerfile和Docker Compose是用于构建和管理 Docker 容器的两个工具&#xff0c;但它们的作用和使用方式不同。 Dockerfile Dockerfile 是一个文本文件&#xff0c;用于定义 Docker 镜像的构建规则。它包含一系列指令&#xff0c;如 FROM&#xff08;指定基础镜像…

excel统计分析——协方差分析基本原理

参考资料&#xff1a;生物统计学 方差分析中&#xff0c;要求除试验因素外的其他条件保持在相同水平上才能对实验结果的差异显著性进行比较&#xff0c;然而有些非试验因素很难或不可能人为控制&#xff0c;此时如果使用方差分析法推断处理其差异显著性&#xff0c;往往会导致错…

Linux进程的管理和进程的状态

进程的基本概念&#xff1a; 程序的一个执行实例 &#xff0c;正在执行的程序等等 ——— 课本概念 担当分配系统资源的实体&#xff0c;例如cpu时间&#xff0c;内存 -----内核的观点 一、进程的管理 processbar 存储在磁盘中的可执行文件 可执行文件在启动/运行的同时&…