第58期 | GPTSecurity周报

图片

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。

Security Papers

1. 你的AI生成的代码真的安全吗?通过CodeSecEval评估大语言模型在安全代码生成方面的表现

简介:大语言模型(LLMs)在代码生成和修复方面取得显著进展,但其训练数据源自未经过滤的开源代码库(如GitHub),存在传播安全漏洞的风险。尽管有研究关注代码LLM的安全性,但对其安全特性的全面评估尚不足。为此,研究者提出了CodeSecEval,一个包含44种关键漏洞类型和180个样本的数据集,用于自动评估代码模型在生成和修复代码中的安全表现。实验发现现有模型常忽视安全问题,导致生成易受攻击的代码。为解决这一问题,研究者提出了利用漏洞感知信息和不安全代码解释的策略。研究进一步强调了某些漏洞类型对模型性能的特别挑战,期望这项工作能促进软件工程社区改进LLM的训练和应用方法,实现更安全可靠的模型部署。

链接:https://arxiv.org/pdf/2407.02395

2. SOS!针对开源大语言模型的软提示攻击

简介:开源大语言模型(LLMs)因其可定制性、微调性和自由使用性,深受公众和工业界欢迎。然而,一些开源的LLMs在使用前需要获得批准,促使第三方发布更易获取的版本,这些版本虽受用户青睐,却增加了训练时间攻击的风险。研究者提出了一种新的训练时间攻击SOS,其计算需求低,无需干净数据或修改模型权重,保持了模型的实用性完整。SOS攻击解决了后门、越狱和提示窃取等安全问题。实验结果表明,SOS攻击在所有评估目标上都表现出有效性。此外,研究者还提出了版权令牌技术,允许用户标记其受版权保护的内容,以防止模型使用这些内容。

链接:https://arxiv.org/pdf/2407.03160

3. DART:用于大语言模型安全性的深度对抗自动红队测试

简介:手动红队测试用于识别大语言模型(LLMs)的漏洞,但成本高且难以扩展。相比之下,自动红队测试利用红队LLM生成对抗性提示,提供了可扩展的安全漏洞检测方法。然而,目标LLM的安全漏洞动态变化,构建强大的自动红队LLM具有挑战性。为解决这一问题,研究者提出了DART框架,通过迭代方式使红队LLM和目标LLM深度动态交互。红队LLM根据目标LLM的响应和攻击多样性调整攻击方向,目标LLM通过主动学习数据选择机制增强安全性。实验结果显示,DART显著降低了目标LLM的安全风险。在Anthropic Harmless数据集上的评估中,DART将违规风险减少了53.4%。

链接:https://arxiv.org/pdf/2407.03876

4. 保护多轮对话语言模型免受分布式后门触发器攻击

简介:尽管多轮对话大型语言模型(LLMs)是最受欢迎的LLM应用之一,但其安全性研究却相对不足。LLMs容易受到数据污染后门攻击的影响,攻击者通过操控训练数据使模型在预设触发条件下输出恶意响应。在多轮对话中,LLMs面临更隐蔽和有害的后门攻击风险,后门触发器可能跨越多个对话环节,增加了上下文驱动攻击的潜在威胁。研究者探索了一种新型的分布式后门触发器攻击,作为对手工具箱的额外工具,并揭示其对现有防御策略的挑战。为应对这一问题,研究者提出了基于对比解码的新型防御方法,能够有效降低后门攻击的影响,且计算成本相对较低。

链接:https://arxiv.org/pdf/2407.04151

5. 使用标记替换防御语法文本后门攻击

简介:文本后门攻击对大语言模型(LLM)的安全性构成重大威胁。它在训练阶段向受害模型嵌入精心选择的触发器,导致模型误将包含这些触发器的输入预测为特定类别。先前的后门防御方法主要针对特殊标记的触发器,而对基于语法的触发器处理不足。为此,本文提出了一种新的在线防御算法,用完全不同的词替换句子中语义有意义的词,但保留句法模板或特殊标记,然后比较预测标签来判断是否存在触发器。实验结果显示,该算法有效对抗这两种类型的触发器,为保障模型完整性提供了全面的防御策略。

链接:https://arxiv.org/pdf/2407.04179

6. 大语言模型的越狱攻击及防御:一项调查

简介:大语言模型(LLMs)在多种文本生成任务中表现出色,但其过度辅助特性引发了“越狱”挑战,即通过对抗性提示设计诱使模型生成违反政策和社会伦理的恶意响应。随着利用LLMs不同漏洞的越狱攻击方法的出现,相应的安全对齐措施不断演进。本文提出了详尽的越狱攻击与防御方法分类体系,将攻击分为黑盒和白盒两类,防御则分为提示级和模型级两种。研究者进一步细分了这些方法的子类,并通过图示展示它们之间的关系。通过调查和比较当前的评估方法,研究者的研究旨在推动保护LLMs免受对抗攻击的未来研究和实际应用,提升对该领域的理解并促进更安全的LLMs开发。

链接:https://arxiv.org/pdf/2407.04295

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/43952.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络编程:TCP

一、tcp编程 注意 1.数据本身有顺序 2.发送和接收次数不需要对应 3. 1. C/S 模式 》服务器/客户端模型 server:socket()-->bind()--->listen()-->accept()-->recv()-->close() client:socket()-->connect()-->send()-->close(); int on 1; setso…

常用的设计模式和使用案例汇总

常用的设计模式和使用案例汇总 【一】常用的设计模式介绍【1】设计模式分类【2】软件设计七大原则(OOP原则) 【二】单例模式【1】介绍【2】饿汉式单例【3】懒汉式单例【4】静态内部类单例【5】枚举(懒汉式) 【三】工厂方法模式【1】简单工厂模式&#xf…

GuLi商城-商品服务-API-品牌管理-OSS获取服务端签名

新建第三方服务: 引入common 把common中oss的依赖都拿到第三方服务中来 配置文件: 加上nacos注解:<

HTML 标签简写和全称及其对应的中文说明和实例

<!DOCTYPE html> <html lang"zh-CN"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>HTML 标签简写及全称</title><style>…

Android 通知访问权限

问题背景 客户反馈手机扫描三方运动手表&#xff0c;下载app安装后&#xff0c;通知访问权限打不开。 点击提示“受限设置” “出于安全考虑&#xff0c;此设置目前不可用”。 问题分析 1、setting界面搜“授予通知访问权限”&#xff0c;此按钮灰色不可点击&#xff0c;点…

大小端详解

引例 我们知道整形(int)是4个字节&#xff0c;例如随便举个例子&#xff1a;0x01020304&#xff0c;它一共占了四个地址位&#xff0c;01,02,03,04分别占了一个字节&#xff08;一个字节就对应了一个地址&#xff09;。 那么就会有个问题&#xff1a;我们的01到底是存储在高地…

mysql 5.7.44 32位 zip安装

前言 因为研究别人代码&#xff0c;他使用了5.7的 32位 mysql &#xff0c;同时最新的 8.4 64位 mysql 不能用官方lib连接。所以安装这个版本使用&#xff0c;期间有些坑&#xff0c;在这里记录一下。 下载路径 mysql官方路径&#xff1a;https://downloads.mysql.com/archi…

Linux——多线程(五)

1.线程池 1.1初期框架 thread.hpp #include<iostream> #include <string> #include <unistd.h> #include <functional> #include <pthread.h>namespace ThreadModule {using func_t std::function<void()>;class Thread{public:void E…

Redis 7.x 系列【21】主从复制

有道无术&#xff0c;术尚可求&#xff0c;有术无道&#xff0c;止于术。 本系列Redis 版本 7.2.5 源码地址&#xff1a;https://gitee.com/pearl-organization/study-redis-demo 文章目录 1. 概述2. 工作原理2.1 建立连接2.2 全量复制2.3 命令传播2.4 增量复制 3. 拓扑架构3.…

Uniapp表单提交

template中&#xff1a; <template><view class""><button class"tianjia" click"tianjia">添加</button><view class"divOne" v-show"a"><text class"guanbi" click"gua…

本地 HTTP 文件服务器的简单搭建 (deno/std)

首发日期 2024-06-30, 以下为原文内容: 在本地局域网搭建一个文件服务器, 有很多种方式. 本文介绍的是窝觉得比较简单的一种. 文件直接存储在 btrfs 文件系统之中, 底层使用 LVM 管理磁盘, 方便扩容. 使用 btrfs RAID 1 进行镜像备份 (一个文件在 2 块硬盘分别存储一份), 防止…

网络通信、BIO、NIO

1. 涉及的网络基础知识 Socket&#xff1a; 操作系统提供的api&#xff0c;介于应用层和tcp/ip层之间的软件层&#xff0c;封装服务器客户端之间网络通信相关内容&#xff0c;方便调用 IO多路复用&#xff1a; &#xff08;I/O Multiplexing&#xff09;是一种IO操作模式&a…

Python 的 metaclass

文章目录 先说结论1. metaclass 的作用2. 主要的执行过程 1. metaclass.__new__2. metaclass.__call__关于 metaclass.__init__ 3. metaclass.__prepare__4. 自动创建 __slots__ 属性4.1 metaclass 的接口类4.2 metaclass conflict 5. Class metaprogramming 先说结论 1. meta…

Java技术栈总结:JVM虚拟机篇

一、Java的四种引用类型 1、强引用 最常见的引用&#xff0c;类似Object obj new Object()、String str “hello”。如果一个对象具有强引用&#xff0c;垃圾回收器绝对不会回收它。即使抛出“OutOfMemoryError”错误&#xff0c;程序终止&#xff0c;也不会随意回收具有强引…

20240710 每日AI必读资讯

&#x1f916;微软&#xff1a;不会像 OpenAI 一样阻止中国访问 AI 模型 - OpenAI 将于周二&#xff08;7 月 9 日&#xff09;开始阻止中国用户访问其 API。 - 微软发言人表示&#xff1a;Azure OpenAI API服务在中国的提供方式没有变化。 - 公司仍然通过部署在中国以外地区…

妙笔生词智能写歌词软件:创新助力还是艺术之殇?

在音乐创作日益普及和多样化的当下&#xff0c;各种辅助工具层出不穷&#xff0c;妙笔生词智能写歌词软件便是其中之一。那么&#xff0c;它到底表现如何呢&#xff1f; 妙笔生词智能写歌词软件&#xff08;veve522&#xff09;的突出优点在于其便捷性和高效性。对于那些灵感稍…

c/c++:牛客小白月赛93

比赛链接 A 生不逢七 题目描述(题目链接添加链接描述)&#xff1a; 睡前游戏中最简单又最好玩的游戏就是这个啦&#xff01; 该游戏规则为&#xff1a;多名玩家轮流报数&#xff0c;当要报的数字中含有 7 或者是 7 的倍数时&#xff08;例如 37&#xff0c;49&#xff09;&…

腾讯又一平台即将停止运营

随着腾讯公司业务和战略的调整&#xff0c;某些业务逐渐退出历史舞台&#xff0c;如“腾讯直播平台NOW”&#xff0c;以及“QQ签到”&#xff0c;“腾讯待办”&#xff0c;“企鹅FM音频平台”等&#xff0c;最近又有一则重磅消息&#xff0c;那就是“腾讯课堂”也即将停止运营。…

类似评论、省市区这种具有层次结构的数据表怎么设计?

业务功能模块 评论、回复模块省市区表 设置一个给每个数据设置一个parent_id 例如&#xff1a; 某个视频下a写了条评论&#xff0c;那a的parent_id就是0;b回复了a&#xff0c;那b的parent_id就是a的id;c回复了b&#xff0c;那c的parent_id就是b的id; 这样&#xff0c;所有评论…

Mosh|初学者 SQL 教程

sql文件链接&#xff1a;链接: https://pan.baidu.com/s/1okjsgssdxMkfKf8FEos7DA?pwdf9a9 提取码: f9a9 在mysql workbench 导入 create_databases.sql 文件&#xff0c;下面是运行成功的界面 快捷方式&#xff1a;全部运行可以同时按下controlcommandenter &#xff0c;或者…