[AI OpenAI] OpenAI 安全更新

AI 首尔峰会中分享我们的实践

safety-blog-cover-02

我们自豪地构建并发布了在能力和安全性方面都处于行业领先地位的模型。

超过一亿用户和数百万开发者依赖于我们安全团队的工作。我们将安全视为我们必须在多个时间范围内投资并取得成功的事项,从使今天的模型与我们未来预期的更具能力的系统保持一致。这项工作一直在 OpenAI 中开展,我们的投资将随着时间的推移而增加。

我们信奉一种平衡、科学的方法,其中安全措施从一开始就被整合到开发过程中。这确保了我们的人工智能系统既具有创新性又可靠,并且能够为社会带来好处。

在今天的 AI 首尔峰会上,我们将与行业领袖、政府官员和公民社会成员一起讨论 AI 安全问题。虽然还有更多工作要做,但我们对 OpenAI 和其他公司今天达成的额外前沿 AI 安全承诺感到鼓舞。这些承诺呼吁公司在安全开发和部署前沿 AI 模型的同时,分享有关其风险缓解措施的信息,与我们已经采取的步骤保持一致。其中包括承诺发布安全框架,例如我们去年制定并采纳的“准备框架”。

我们分享了我们积极使用和改进的 10 项实践。

  1. **发布前的经验模型红队测试:**我们在发布前根据我们的“准备框架”和自愿承诺在内部和外部对模型安全性进行经验评估。如果新模型超过了我们“准备框架”中的“中等”风险阈值,我们将不会发布该模型,直到实施足够的安全干预措施将后处理评分恢复到“中等”水平。超过 70 名外部专家通过我们的外部红队测试工作帮助评估了与 GPT-4o 相关的风险,我们利用这些经验构建了基于早期检查点中弱点的评估,以更好地了解后期检查点。
  2. **一致性和安全研究:**随着时间的推移,我们的模型变得越来越安全。这归因于构建更智能的模型,这些模型通常会减少事实错误,并且在逆境条件下(如越狱)更不可能输出有害内容。这也归因于我们专注于实际一致性、安全系统和训练后研究的投资。这些努力旨在改善人类生成的微调数据的质量,并且在未来,改善我们的模型被训练遵循的指令。我们还正在进行并发布旨在大幅提高我们系统对越狱等攻击的鲁棒性的基础研究。
  3. **滥用监控:**随着我们通过我们的 API 和 ChatGPT 部署越来越强大的语言模型,我们利用了广泛的工具范围,包括专用的审核模型和我们自己的模型来监控安全风险和滥用情况。我们沿途分享了一些关键发现,包括与微软联合披露我们技术被国家行为者滥用的情况,以便其他人可以更好地防范类似风险。我们还使用 GPT-4 进行内容政策制定和内容审核决策,为政策的细化提供更快的反馈循环,并减少暴露给人工审核者的滥用材料。
  4. **安全系统化方法:**我们在模型的整个生命周期的每个阶段实施一系列安全措施,从预训练到部署。随着我们在开发更安全、更一致的模型行为方面取得进展,我们还投资于预训练数据安全、系统级模型行为引导、数据飞轮以持续改进安全和健壮的监控基础设施。
  5. **保护儿童:**我们安全工作的一个关键重点是保护儿童。我们在 ChatGPT 和 DALL·E 中构建了强大的默认防护栏和安全措施,以减轻对儿童的潜在危害。在 2023 年,我们与 Thorn 的 Safer 合作,以检测、审核和报告用户试图将儿童性虐待材料上传到我们的图像工具时,将其报告给国家儿童失踪和被剥削中心。我们继续与 Thorn、技术联盟、All Tech is Human、Commonsense Media 和更广泛的科技社区合作,以维护安全设计原则。
  6. **选举公正:**我们正在与政府和利益相关者合作,以防止滥用,确保 AI 生成内容的透明度,并改善准确选民信息的获取。为此,我们引入了一项用于识别由 DALL·E 3 创建的图像的工具,加入了内容真实性倡议(C2PA)的指导委员会,并在 DALL·E 3 中包含了 C2PA 元数据,以帮助人们了解他们在网上找到的媒体的来源。ChatGPT 现在将用户引导至美国和欧洲的官方选民信息来源。此外,我们支持美国参议院提出的两党“保护选举免受欺诈 AI 法案”,该法案将禁止在政治广告中使用误导性 AI 生成内容。
  7. **投资于影响评估和政策分析:**我们的影响评估工作在研究、行业规范和政策方面产生了广泛影响,包括我们早期在测量与 AI 系统相关的化学、生物、放射和核(CBRN)风险方面的工作,以及我们估算不同职业和行业可能受到语言模型影响程度的研究。我们还发布了关于社会如何最好地管理相关风险的开创性工作,例如与外部专家合作评估语言模型对影响运作的影响的工作。
  8. **安全和访问控制措施:**我们优先保护我们的客户、知识产权和数据。我们将我们的 AI 模型部署到世界各地作为服务,并通过 API 控制访问,从而实现政策执行。我们的网络安全工作包括根据需要限制对训练环境和高价值算法秘密的访问、内部和外部渗透测试、漏洞赏金计划等。我们相信保护先进的 AI 系统将受益于基础设施安全的演变,正在探索诸如 GPU 的保密计算和将 AI 应用于网络防御的新颖控制措施。为了加强网络防御,我们正在通过我们的网络安全资助计划资助第三方安全研究人员。
  9. **与政府合作伙伴关系:**我们与世界各地的政府合作,以制定有效和适应性强的 AI 安全政策。这包括展示我们的工作和分享我们的经验,与政府和其他第三方合作进行试点保证,并参与公众对新标准和法律的辩论。
  10. **安全决策和董事会监督:**作为我们“准备框架”的一部分,我们有一个安全决策的运营结构。我们的跨职能安全咨询小组在部署前审核模型能力报告,并在部署前提出建议。公司领导层做出最终决定,董事会对这些决定进行监督。

这种方法使我们能够在当前能力水平上构建和部署安全而有能力的模型。

随着我们迈向下一个前沿模型,我们意识到我们将需要改进我们的实践,特别是提高我们的安全姿态,以最终能够抵御复杂的国家行为者攻击,并确保我们在主要发布之前为安全测试增加额外的时间。我们和这个领域都有一个难题需要解决,以便安全和有益地提供日益强大的人工智能。我们计划在未来几周分享更多关于这些不断发展的实践的信息。


  • 原文
  • 本文
    • 博客 - 从零开始学AI
    • 公众号 - 从零开始学AI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/16792.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

谷歌浏览器使用vue插件查看表单提交的数据

1.查看组件: 对应代码里主页面引用的组件名: 表单名称,对应组件里form表单名: 左边的层次结构: 右边层次结构:

Excel/WPS《超级处理器》同类项处理,合并同类项与拆分同类项目

在工作中处理表格数据,经常会遇到同类项处理的问题,合并同类项或者拆分同类项,接下来介绍使用超级处理器工具如何完成。 合并同类项 将同一列中的相同内容合并为一个单元格。 1)用分隔符号隔开 将AB列表格,合并后为…

Spring中@Component注解

Component注解 在Spring框架中,Component是一个通用的注解,用于标识一个类作为Spring容器管理的组件。当Spring扫描到被Component注解的类时,会自动创建一个该类的实例并将其纳入Spring容器中管理。 使用方式 1、基本用法: Co…

企业微信hook接口协议,ipad协议http,已读消息

已读消息 参数名必选类型说明uuid是String每个实例的唯一标识,根据uuid操作具体企业微信send_userid是long要发送的人idisRoom是bool是否是群消息 请求示例 {"uuid":"1753cdff-0501-42fe-bb5a-2a4b9629f7fb","send_userid":788130255…

Unity学习日志

目录 获取相机可视范围的世界坐标(2D) 视口转世界坐标和屏幕转世界坐标的区别: 屏幕转世界坐标 视口转屏幕坐标 视口转屏幕结合3D数学实现可视范围的怪物生成 transform.up游戏对象的方向问题 其实还有一种不用Translate的写法: 修改 transform.up 的行为和影响 C#抽象…

全国各城市间驾车耗时和距离矩阵数据集(更新至2022年)

数据简介:城市之间距离越远,耗时越长。经济发达地区的交通状况较好。各城市之间的驾车耗时和距离存在差异。有些城市之间的交通非常便捷,而有些城市之间的交通则较为不便。这表明中国的交通网络发展尚不平衡,需进一步优化。特别是…

Excel如何统计非数值内容行数

需要用到sum函数,具体公式如下: SUM(IF(ISNONTEXT(G4:G199),0,1))

Go 语言简介 -- 高效、简洁与现代化编程的完美结合

在现代软件开发领域,选择合适的编程语言对于项目的成功至关重要。Go 语言(又称 Golang )自 2009 年由Google发布以来,以其简洁的语法、高效的并发模型以及强大的性能,迅速成为开发者们的新宠。Go语言不仅融合了传统编译…

icloud照片怎么恢复到相册?2个方法,轻松解决烦恼

在现代生活中,照片承载着我们的回忆和珍贵的时刻,而iCloud提供了便捷的云存储服务,让用户可以方便地备份和同步手机上的照片、视频等文件。 然而,有时候我们可能会不小心删除了在iCloud上的照片,或者想要将iCloud照片…

使用B2M 算法批量将可执行文件转为灰度图像

参考论文 基于二进制文件的 C 语言编译器特征提取及识别 本实验使用 B2M 算法将可执行文件转为灰度图像,可执行文件转为灰度图的流程如图 4-3 所示。将 可执行文件每 8 位读取为一个无符号的的整型常量,一个可执行文件得到一个一维向量, …

基于51单片机多功能太阳能充电器设计

1 绪论1.1 本课题研究背景及现状 当代社会随着一些不可再生资源如煤炭,石油等日益减少,使得各国社会经济越来越受能源问题的约制,因此许多国家开始逐渐的实行“阳光计划”,开发洁净的能源如太阳能,用以成为本国经济发…

ANOVA方差分析是什么?优思学院教你如何正确使用

ANOVA(方差分析)是一种统计方法,用来研究三个或三个以上样本平均数的差异是否显著。它可以帮助研究者判断不同组间的均值是否存在统计学上的显著差异。简单来说,如果我们想比较多个不同处理或条件对某个变量的影响,ANO…

【网络层】网络攻击 ARP 欺骗

文章目录 ARP 欺骗原理实战体验 ARP 欺骗原理 ARP(地址解析协议)欺骗是一种网络攻击技术,它利用了ARP协议的工作机制来欺骗网络中的主机。ARP协议用于将IP地址转换为物理MAC地址,以便在局域网内部进行数据包的传输。ARP欺骗的基本…

微信小程序毕业设计-跑腿系统项目开发实战(附源码+演示视频+LW)

大家好!我是程序猿老A,感谢您阅读本文,欢迎一键三连哦。 💞当前专栏:微信小程序毕业设计 精彩专栏推荐👇🏻👇🏻👇🏻 🎀 Python毕业设计…

可监测的到手价范围

在品牌进行电商价格监测时,对优惠信息范围的关注至关重要。优惠促销的形式多样,会直接影响到消费者最终的到手价。因此,为了更准确地计算到手价,品牌需要确保监测的促销信息尽可能全面。 不同的电商平台,其优惠形式可…

揭秘APP广告变现的高效秘诀:如何让你的APP更赚钱?

在数字化时代,APP已成为人们获取信息、娱乐休闲的重要平台。对于许多内容创作者来说,如何通过APP实现盈利,是一个亟待解决的问题。而APP广告变现项目,正是其中一种备受关注的盈利模式。那么,如何有效地利用APP广告变现…

python数据分析:爬取某东商城商品评论数据并做词云展示(含完整源码及详细注解)

python数据分析,爬取某东商城商品评论数据并做词云展示。 一、明确爬取的网页及结构 找到要爬取的网页地址,发现有一个获取json格式评论数据的接口: url = "https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=217…

基于图鸟UI的圈子商圈:一个全栈前端模板的探索与应用

摘要: 本文介绍了一个基于图鸟UI的纯前端模板——圈子商圈,它支持微信小程序、APP和H5等多平台开发。该模板不仅包含丰富的UI组件和页面模板,还提供了详尽的使用文档,旨在帮助开发者快速构建出酷炫且功能齐全的前端应用。本文将从…

MySQL 8窗口函数详解:高效数据处理的必备技能

欢迎来到我的博客,代码的世界里,每一行都是一个故事 MySQL 8窗口函数详解:高效数据处理的必备技能 前言窗口函数概述窗口函数的基本语法常用窗口函数类型窗口帧的定义与使用性能优化与注意事项 前言 你是否曾经遇到过需要对数据进行复杂统计…

windows Oracle 11g服务器端和客户端安装 SQLark连接ORACLE

1 从ORACLE官网下载数据库安装包 https://edelivery.oracle.com/osdc/faces/SoftwareDelivery 2:安装数据库 注意:在加载组件的这一步,如果你的电脑里面有杀毒软件,首先把安装目录加入白名单,要不然可能会一直加载组件失败。…