第44期 | GPTSecurity周报

图片

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。

Security Papers

1.安全人工智能系统开发指南

简介:该指南提供了针对AI系统开发生命周期中设计阶段的指导,着重于理解风险、进行威胁建模,以及在系统与模型设计时需权衡的关键因素。指南涉及四个主要领域:提升员工对安全威胁和风险的意识、对系统潜在威胁进行细致建模、确保系统设计兼顾安全性、功能性与性能,以及在选择AI模型时评估安全性与其他因素之间的权衡。

链接:

https://www.ncsc.gov.uk/files/Guidelines-for-secure-AI-system-development.pdf

2.评估人工智能系统的挑战

简介:围绕人工智能对社会影响的讨论通常归结为其系统特质的探讨,如真实性和公平性,但许多人未意识到若想构建完善的模型评估方式是极具挑战性的工作,现有评估工具在准确性上存在局限。本文分享了研究人员在模型评估实践中的挑战,旨在为AI治理和评估工作的相关人员提供参考。

链接:

https://www.anthropic.com/index/evaluating-ai-systems

3.对人工智能安全的观点:时间(When)、原因(Why)、对象(What)以及方法(How)

简介:人工智能在未来十年可能引发深远变革,得益于计算能力的指数增长,其能力预计将显著提升,有可能超越人类智慧。尽管如此,如何培养出既强大又可靠的AI系统仍是一个未解之谜,快速的技术进步可能引发社会动荡和不安全的竞争。研究者正在采取以经验为导向的 AI 安全方法,积极探索工人工智能系统的运作本质,研究可扩展的人工智能系统监督和审查技术,尝试创建透明和可解释的人工智能系统,并分析人工智能的潜在风险点及如何预防它们,旨在构建出能够稳健应对各种挑战的安全系统

链接:

https://www.anthropic.com/index/core-views-on-ai-safety

4.用“Spotlighting”防御间接提示注入攻击

简介:大语言模型(LLMs)是为处理单一文本输入而设计的强大工具。在实际应用中,通常将多个输入合并为一个文本流来同时处理,但这样做LLM无法识别不同输入的来源。这就导致了一种安全漏洞,即间接提示注入攻击,攻击者会在数据中嵌入恶意指令,而模型可能会将这些指令误认为是用户的命令。为了解决这个问题,研究者提出了一种名为“Spotlighting”的技术,它通过对输入进行特定的转换,帮助模型可靠地识别输入的来源。实验证明,Spotlighting技术能有效防御间接提示注入攻击,将攻击成功率从50%以上降低到不到2%,同时对自然语言处理任务的性能影响极小。

链接:

https://arxiv.org/pdf/2403.14720.pdf

5.大语言模型中的风险和响应:评估关键威胁类别

简介:本论文研究了随着大语言模型(LLMs)得到广泛应用所带来的风险评估问题。文章集中讨论了奖励模型在微调LLMs以符合人类价值观时,如何识别和处理各种风险,以及个性化训练数据的主观性所引发的挑战。通过分析Anthropic Red-team数据集,研究者发现LLMs往往低估了信息危害的风险,这一点通过回归模型得到了验证。相比其他风险,LLMs对信息危害的反应也相对宽松。研究还揭示了LLMs在信息危害情况下对越狱攻击的高度脆弱性,突显了风险评估中的安全隐患,并强调了加强AI安全措施的必要性。

链接:

https://arxiv.org/pdf/2403.14988.pdf

6.BadEdit:通过模型编辑对大语言模型进行后门攻击

简介:传统的后门攻击方法在大语言模型(LLMs)上的应用受限于需要大量数据进行“投毒”,这不仅影响实用性,还可能损害模型的整体性能。针对这一问题,研究者首次提出了BadEdit攻击框架,将后门注入视为轻量级知识编辑任务,通过直接修改LLM参数来高效植入后门。BadEdit的优势在于:仅需要极少的样本(15个)进行注入,大幅减少调整参数的时间消耗,确保模型性能不受影响,并且在后续的微调或指令调整后后门依然稳定。实验显示,BadEdit能以100%的成功率高效攻击预训练的LLMs,同时保持对正常输入的处理性能。

链接:

https://arxiv.org/pdf/2403.13355.pdf

编辑:Fancy

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/773081.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MT6762_联发科MTK6762安卓核心板规格参数

MTK6762核心板是一款集成了蓝牙、fm、wlan和gps模块的高度集成基带平台,为LTE/LTE-A和C2K智能手机应用程序提供支持。该安卓核心板集成了ARM Cortex-A53处理器,工作频率可达2.0GHz,并且还集成了功能强大的多标准视频编解码器。除此之外&#…

汽车电子行业知识:智能汽车电子架构

文章目录 3.智能汽车电子架构3.1.汽车电子概念及发展3.2.汽车电子架构类型3.2.1.博世汽车电子架构3.2.2.联合电子未来汽车电子架构3.2.3.安波福汽车电子架构3.2.4.丰田汽车电子架构3.2.5.华为汽车电子架构 3.智能汽车电子架构 3.1.汽车电子概念及发展 汽车电子是车体汽车电子…

负氧离子监测站:创造健康生活环境

TH-FZ5在蓝天白云之下,那一座座高耸的全彩屏负氧离子监测站,如同一支支科技的绿芽,静静破土而出,为这片土地带来了新的生命力。这些现代化的设备不仅美化了环境,更是我们呼吸健康守护者,它们的存在让我们的…

【排序算法】深入解析快速排序(霍尔法三指针法挖坑法优化随机选key中位数法小区间法非递归版本)

文章目录 📝快速排序🌠霍尔法🌉三指针法🌠挖坑法✏️优化快速排序 🌠随机选key🌉三位数取中 🌠小区间选择走插入,可以减少90%左右的递归🌉 快速排序改非递归版本&#x1…

【笔记】OpenHarmony设备开发:搭建开发环境(Ubuntu 20.04,VirtualBox 7.0.14)

参考:搭建开发环境(HarmonyOS Device) Note:Windows系统虚拟机中Ubuntu系统安装完成后,根据指导完成Ubuntu20.04基础环境配置(HarmonyOS Connect 开发工具系列课) 系统要求 Windows系统要求&…

OC 技术 苹果内购

一直觉得自己写的不是技术,而是情怀,一个个的教程是自己这一路走来的痕迹。靠专业技能的成功是最具可复制性的,希望我的这条路能让你们少走弯路,希望我能帮你们抹去知识的蒙尘,希望我能帮你们理清知识的脉络&#xff0…

Springboot 3中,使用jacoco插件生成单元测试覆盖率报告

流水线部署中,单元测试覆盖率是一项考量的基本指标.本文介绍,在springboot3项目中,如何集成jacoco插件,以便在流水线SonarQube 中展示单元测试覆盖率报告. 主要注意的问题: 1.在引用依赖的时候,jmokit的依…

Python基于 BaseHTTPRequestHandler 创建简单Web服务

启动一个最基础的 WEB 服务 创建文件 server.py # Python 3 server example from http.server import BaseHTTPRequestHandler, HTTPServerhostName "localhost" serverPort 8080class MyServer(BaseHTTPRequestHandler):def do_GET(self):self.send_response(20…

哈佛毕业生考公,大材小用?

阅读本文大概需要 1.25 分钟 前段时间一张杭州市余杭区公务员录用名单的截图在网络上疯传,进入公示名单的人中,不乏许多毕业于名校的学生,甚至有些是哈佛毕业的。。。许多人对此感到惊讶,认为连哈佛毕业生都参加公务员考试&#x…

Linux文件和文件夹操作

一、文件操作 功能项命令实例作用文件创建vi /opt/learn/hello.txt 在目录/opt/learn下创建文件hello.txt并进入vi编辑界面 touch /opt/learn/test在目录/opt/learn下创建空白文件testcat > /opt/catfile创建文件catfile并在屏幕上输入内容,最后按 Ctrl D 退出…

压力测试(QPS)及测试工具Locust

压力测试: 通常指的是确定接口或服务能够处理的最大请求量(吞吐量)和并发用户数,同时保持合理的响应时间和稳定性。 性能目标 最大吞吐量:系统每秒可以处理的请求数。最大并发用户数:系统可以同时支持的…

【学习心得】神经网络知识中的符号解释

这里我对我学到的神经网络知识中,常见的符号做一下记录和总结,方便自己在后面学习中复习。下图二分类识别图像识别猫为例。为了保存一张图片,需要三个矩阵,它们分别对应图片中的红、绿、蓝三种颜色通道,如果图片大小为…

【0278】checkpointer 共享内存(CheckpointerShmem)初始化(3)

0. 关于checkpointer 检查指针是Postgres 9.2的新特性。它处理所有检查点。自上次检查点以来,检查点在经过一定时间后自动分发,并且还可以发出信号来执行请求的检查点。(GUC参数要求每隔这么多WAL段就有一个检查点,这是通过后端在填充WAL段时发出信号来实现的; checkpointer…

ubuntu22.04安装k3s, kuboard

直接安装方式 更新系统包列表 sudo apt update安装所需的依赖 sudo apt install -y curl下载k3s安装脚本 curl -sfL https://get.k3s.io | sh -验证k3s安装 sudo systemctl status k3s获取k3s的token sudo cat /var/lib/rancher/k3s/server/node-token设置kubectl配置 mkdir -p…

Django路由

Router介绍 在实际开发过程中,一个Django项目会包含很多的app,这时候如果我们只在主路由里进行配置就会显得杂乱无章,所以通常会在每个app里,创建各自的urls.py路由模块,然后从根路由出发,将app所属的url请求&#xff…

类与对象上C++

文章目录 一、1.面向过程和面向对象初步认识二、类的定义1.类的两种定义方式 三、类的访问限定符及封装1.访问限定符2.面试题3.封装 四、类对象模型1. 类对象的存储方式猜测2. 结构体内存对齐规则 五、this指针1.this指针的引出2.this指针的特性 六、 C语言和C实现Stack的对比 …

【蓝桥杯3.23小白赛】(详解)

第一题签到题不多说 【二进制王国】 #include <iostream> #include <vector> #include <algorithm> using namespace std;//int Cmp(string s1, string s2)测试了一下时间差确实很明显&#xff0c;还是用下面的内个 int Cmp(const string &s1,const st…

如何快速进行城市内涝模拟?HTWATER软件

原文链接&#xff1a;如何快速进行城市内涝模拟&#xff1f;HTWATER软件https://mp.weixin.qq.com/s?__bizMzUzNTczMDMxMg&mid2247599079&idx2&sndc6f3da8b17c5587cf5b7766e7019729&chksmfa820200cdf58b16658983ecfbf2b369bff39813302942d6f7eb7b71428c68da71…

在 ubuntu server 22 上安装 Docker 引擎

在 ubuntu server 22 上安装 Docker 引擎 在开始之前&#xff0c;请确保你的系统满足以下条件&#xff1a; 64 位版本的 Ubuntu Mantic 23.10、Ubuntu Jammy 22.04 (LTS) 或 Ubuntu Focal 20.04 (LTS)使用 sudo 或 root 权限 安装步骤 1. 设置 Docker 的 apt 仓库 首先&am…

在Windows上交叉编译STM32(环境搭建)

在Windows上交叉编译STM32 Keil 虽然好用&#xff0c;但是是收费的&#xff0c;不想破解怎么办~ 使用交叉编译工具&#xff01; 交叉编译工具下载 官方交叉编译工具下载连接 下载解压好后将 bin 目录写入 PATH&#xff0c; 使用命令行检测是否安装成功。 Windows 安装 make …