OpenAI发布AGI安全风险框架!董事会可随时叫停GPT-5等模型发布,奥特曼也得乖乖听话

OpenAI 再次强调模型安全性!AGI 安全团队 Preparedness 发布模型安全评估与监控框架!

这两天关注 AI 圈新闻的小伙伴们可能也有发现,近期的 OpenAI 可谓进行了一系列动作反复强调模型的“安全性”

前有 OpenAI 安全系统(Safety Systems)负责人长文梳理针对 LLM 的对抗攻击类型与防御方法,后有 Ilya Sutskever 领衔的“超级对齐”团队(Superalignment)发布论文探索使用小模型监督对齐大模型,这些工作无一例外都在开头强调“伴随着模型正在逼近 AGI……”

图片

而就在今天,OpenAI 又官宣了一项安全性工作,由 OpenAI 负责 AGI 安全性的新团队 Preparedness 推出了“Preparedness 框架”——一个负责对模型安全性进行评估与监控的系统文件,详细介绍了目前 OpenAI 针对模型安全评估监控的工作思路:

图片

Preparedness 框架提出的背景

Preparedness 框架的提出主要基于 OpenAI 的两个判断:

(1)我们的系统正在逐渐逼近 AGI; 

(2)目前针对前沿 AI 的风险研究还远远不足

图片

图片

在这个背景下,OpenAI 针对不同风险构建了强大的“安全团队”,分别是负责大模型系统安全的 Safety Systems,负责大模型与人类价值观对齐的 Superalignment 以及直接对标模型风险监控的 Preparedness 团队。

图片

Preparedness 作为在十月份 OpenAI 新成立的团队,由 MIT 教授 Aleksander Madry 直接领导(OpenAI 组建安全 AGI 新团队!应对AI“潘多拉魔盒”),其目标旨在:

  1. 在现在以及未来,前沿的 AI 系统被滥用,它们会有多危险?

  2. 如何构建一个强大的框架来监控、评估、预测与防御前沿 AI 系统可能的风险?

  3. 如果前沿的 AI 系统被盗用,恶意行为者可能会如何使用它们?

Preparedness 内容

今天发布的 Preparedness 框架主要目标在于通过评估与监测来确定何时以及如何进行 AI 大模型的开发与部署才能确保“安全”,“预备”框架主要包含:

  1. 实时监控与评估,建立模型风险检测与评估体系,跟踪模型风险水平,并对未来可能风险做出预测与预警;

  2. 挖掘与寻找 AGI 可能会带来的未知风险;

  3. 建立模型开发与部署的“安全红线”,确保仅有低风险模型才能部署,中风险模型才能继续研发,高风险模型进行必要调整;

  4. 开展实地工作,定期发布模型安全性评估综述与报告,协调相关团队贯彻安全性思想;

  5. 创建跨职能咨询小组,对突发安全风险进行紧急处理。

具体而言,在安全评估与检测之上,Preparedness 团队提到:“We bring a builder’s mindset to safety”,要将建筑师的思维带入到模型的安全评估之中,把模型安全视为一项科学与工程紧密结合的工作

图片

此外,Preparedness 将以“计分卡”的形式,评估目前所有的前沿模型:

图片

目前主要跟踪的风险有网络安全、CBRN(化学、生物、辐射、核威胁)、信仰以及模型自主性。

且OpenAI未来的模型:

  • 必须确保高风险以下,模型才能继续研发;

  • 必须确保中低风险以下,模型才能部署;

  • 高风险模型需要进行必要调整并采取相应安全措施;

    图片

董事会有权随时阻止发布AI模型

OpenAI正在创建一个跨职能跨部门的安全咨询小组来审查所有报告并将其同时发送给领导层和董事会。虽然领导层是决策者,但董事会拥有推翻决定的权利。

这意味着董事会有权利随时阻止OpenAI发布他们认为对人类安全造成威胁的AI模型(假如GPT-5足够强大可能不会被发布),哪怕是Sam Altman也要听从董事会的安排(Sam Altman目前不在董事会席位)。

图片

除了上述这些,预备框架还提到 Preparedness 团队将会定期进行安全演习,对紧急安全问题进行快速响应,与第三方审计团队合作,帮助评估前沿模型等等……

对于 OpenAI 最近反复强调的 Safty,除了暗自揣测一下 AGI 是否将来以外,许多网友却似乎并不对“安全”买账,不少网友都认为这种安全审查似乎只是为了避免“承担责任”

图片

甚至这样“严苛”的安全审查让大家联想起《1984》

图片

当然,还有网友非常接地气的吐槽:你们安全审查的连问 GPT 如何杀死一个进程都不敢说了……

图片

另外有网友吐槽:这就是GPT写代码变得懒惰的原因吗?

图片

图片

还有网友认为安全措施既耗时又昂贵,会限制模型的能力,降低其对各种任务的效用。

图片

当然,技术风险与技术进步似乎永远都处在一个博弈与"trade-off"的状态,到底是矫枉过正还是防患未然,可能只有时间能告诉我们答案。

最后,Preparedness 框架的全文链接如下:

https://cdn.openai.com/openai-preparedness-framework-beta.pdf

感兴趣的朋友也可以关注网友整理的思维导图~

图片

最后插播一条消息,据The Information报道,为了应对明年的美国大选,OpenAI 改革了内容审核工作,主要是为了防止从 ChatGPT 等产品中根除虚假信息和攻击性内容的。

图片

看来,OpenAI的AGI安全野心就算再大,还是要从这些内容审核的“小事”做起啊。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/233167.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

工业镜头常见的类型

在机器视觉中,工业镜头作为机器视觉系统的核心部件,常常需要和工业相机搭配使用。工业镜头,属于一种光学系统。光学系统是指由透镜、反射镜、棱镜和光阑等多种光学元件按一定次序组合成的系统。那么工业镜头都有哪些类型? 一、按照…

搭建APP应用程序如何选择服务器

Hello,各位同学们好!我是咕噜铁蛋,我经常收到许多关于如何搭建APP的询问。其中,如何选择服务器是许多初创企业和开发者经常面临的问题。带着这些问题我也通过一些科技手段收集整理了些知识,今天我就和大家来来探讨如何…

BKP 备份寄存器 RTC 实时时钟-stm32入门

这一章节我们要讲的主要内容是 RTC 实时时钟,对应手册,是第 16 章的位置。 实时时钟这个东西,本质上是一个定时器,但是这个定时器,是专门用来产生年月日时分秒,这种日期和时间信息的。所以学会了 STM32 的…

HTML + JavaScript 实现网页录制音频与下载

HTML JavaScript 实现网页录制音频与下载 HTML JavaScript 实现网页录制音频与下载简介getUserMediaMediaRecorder获取和处理音频流实现音频的录制和播放音频效果的处理实时语音通话的应用兼容性和 Latency 问题 项目代码运行实例参考源码下载 HTML JavaScript 实现网页录制…

银行测试:第三方支付平台业务流,功能/性能/安全测试方法

1、第三方支付平台的功能和结构特点 在信用方面,第三方支付平台作为中介,在网上交易的商家和消费者之间作一个信用的中转,通过改造支付流程来约束双方的行为,从而在一定程度上缓解彼此对双方信用的猜疑,增加对网上购物…

【lesson18】MySQL内置函数(1)日期函数和字符串函数

文章目录 日期函数函数使用具体使用案例建表插入数据建表插入数据 字符串函数函数使用具体使用案例建表插入数据测试 日期函数 函数使用 获得年月日: 获得时分秒: 获得时间戳: 获得现在的时间: 在日期的基础上加日期&#xf…

C++ Qt开发:TableWidget表格组件

Qt 是一个跨平台C图形界面开发库,利用Qt可以快速开发跨平台窗体应用程序,在Qt中我们可以通过拖拽的方式将不同组件放到指定的位置,实现图形化开发极大的方便了开发效率,本章将重点介绍TableWidget表格组件的常用方法及灵活运用。 …

基于python的leetcode算法介绍之递归

文章目录 零 算法介绍一 简单示例 辗转相除法Leetcode例题与思路[509. 斐波那契数](https://leetcode.cn/problems/fibonacci-number/)解题思路:题解: [206. 反转链表](https://leetcode.cn/problems/reverse-linked-list/)解题思路:题解&…

Jmeter中使用py插件

-安装插件 1、下载插件jython-standalone-2.7.0.jar到jmeter的lib\ext目录下 链接: https://pan.baidu.com/s/13ZXtUwoQEV62M98GaIR26w 提取码:ioyk 2、重启jmeter,查看是否生效,如果这个语言有python的选项说明可以了&#xf…

VMware虚拟机安装Linux操作系统

1.CentOS 7安装 软件选择,安装桌面系统 2.配置虚拟机网卡 3.连接Xshell

测试用例评审流程优化

测试用例评审是QA日常工作流程中的关键一环,是QA同学完善测试用例、交流测试经验的好机会。 负责组内测试用例建设以来,作者对于评审流程做了一些优化工作。本文作者将整个优化过程中的心得体会做了一个总结,希望能给大家带来帮助。 01 原始流…

Model-based value iteration and policy iteration pseudocode

Note that the symbols used in the pseudocode below have the following meanings: MDP: Markov Decision Process;V(s): Value function, the avg reture of one state;π(s): Policy, in the sense that for a given state s, π(s)represents the action that the agent …

【MySQL】 表的操作

// 创建表 create table 表名();// 查看表结构 desc 表名;// 新增一列表信息 alter table 表名 add 字段名 字段类型 (after 原表某一字段名);// 删除一列表信息 alter table 表名 drop 字段名;// 修改表字段名字 alter table 表名 change 原字段名 新字段名 类型; // 新字…

企业微信自动登录自定义系统

方法一:企业微信构造OAuth2链接跳转登录到自定义系统 企业微信自定义应用配置 构造网页授权链接 如果企业需要在打开的网页里面携带用户的身份信息,第一步需要构造如下的链接来获取code参数: https://open.weixin.qq.com/connect/oauth2/…

数据可视化---饼图、环形图、雷达图

类别内容导航机器学习机器学习算法应用场景与评价指标机器学习算法—分类机器学习算法—回归机器学习算法—聚类机器学习算法—异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱…

【微服务】springboot整合minio详解

目录 一、前言 二、Minio 概述 2.1 Minio简介 2.1 Minio特点 三、Minio 环境搭建 3.1 部署过程 3.1.1 拉取镜像 3.1.2 启动容器 3.1.3 访问web页面 四、Minio基本使用 4.1 基本概念 4.2 上传文件演示 4.3 用户管理 4.4 Java操作Minio 4.4.1 导入依赖 4.4.2 上传…

MATLAB 平面拟合并可视化(34)

MATLAB 平面拟合并可视化(34) 一、效果二、代码一、效果 二、代码 % 生成三维点数据 x = rand(100, 1); y = rand(100, 1

Express及mongoose搭建数据库(增删改查)

express是什么? Express.js 是一个基于 Node.js 平台的 Web 应用程序框架,它旨在帮助开发者轻松构建和管理 Web 服务和应用程序。Express 提供了许多强大的功能,使得创建可扩展、灵活且高性能的 Web 应用变得相对容易。 安装Express步骤 确保…

棋牌的电脑计时计费管理系统教程,棋牌灯控管理软件操作教程

一、前言 有的棋牌室在计时的时候,需要使用灯控管理,在开始计时的时候打开灯,在结账后关闭灯,也有的不需要用灯控,只用来计时。 下面以 佳易王棋牌计时计费管理系统软件为例说明: 软件试用版下载或技术支…

LVS+Keepalived集群的介绍和搭建

目录 LVSKeepalived集群的介绍 Keepalived及其工作原理 Keepalived体系主要模块及其作用 一个合格的集群应该具备的特性 健康检查(探针)的方式 实验:搭建LVSKeepalived集群 实验准备 实验步骤 LVS 部署 配置节点服务器 实验验证 实…