OpenAI发表研究论文 介绍了一种逆向工程AI模型工作原理的方法

ChatGPT 开发商 OpenAI 构建人工智能的方法本周遭到了前员工的抨击,他们指责该公司利用可能有害的技术冒不必要的风险。今天,OpenAI 发布了一篇新的研究论文,目的显然是为了表明它在通过提高模型的可解释性来应对人工智能风险方面的认真态度。

在这里插入图片描述
在论文中,该公司的研究人员提出了一种窥探为 ChatGPT 提供动力的人工智能模型内部的方法。他们设计了一种方法来识别模型如何存储某些概念–包括那些可能导致人工智能系统行为失常的概念。

虽然这项研究使 OpenAI 在控制人工智能方面的工作更加引人注目,但也凸显了该公司最近的动荡。新研究由 OpenAI最近解散的"超对齐"团队完成,该团队致力于研究技术的长期风险。

前小组的共同负责人伊利亚-苏茨克沃(Ilya Sutskever)和扬-莱克(Jan Leike)均已离开OpenAI,并被列为共同作者。苏茨克沃是OpenAI的创始人之一,曾任首席科学家,去年11月,董事会成员投票解雇了首席执行官山姆-奥特曼(Sam Altman),引发了几天的混乱,最终奥特曼重返领导岗位。

ChatGPT 由一个名为 GPT 的大型语言模型系列提供支持,该模型基于一种被称为人工神经网络的机器学习方法。这些数学网络通过分析示例数据显示出了学习有用任务的强大能力,但它们的工作原理无法像传统计算机程序那样被轻易检查。人工神经网络中各层"神经元"之间复杂的相互作用,使得逆向分析 ChatGPT 这样的系统为何会得出特定的反应极具挑战性。

这项工作背后的研究人员在一篇随附的博文中写道:“与大多数人类创造物不同,我们并不真正了解神经网络的内部运作。一些著名的人工智能研究人员认为,包括 ChatGPT 在内的最强大的人工智能模型或许可以用来设计生化武器和协调网络攻击。一个更长期的担忧是,人工智能模型可能会选择隐藏信息或以有害的方式行事,以实现它们的目标。”

OpenAI 的这篇新论文概述了一种技术,该技术借助额外的机器学习模型,识别代表机器学习系统内部特定概念的模式,从而稍稍降低了神秘感。创新的关键在于通过识别概念来完善用于窥探系统内部的网络,从而提高效率。

OpenAI 通过在其最大的人工智能模型之一 GPT-4 中识别代表概念的模式证明了这种方法。该公司发布了与可解释性工作相关的代码,以及一个可视化工具,用于查看不同句子中的单词如何激活 GPT-4 和另一个模型中的概念,包括亵渎和色情内容。了解一个模型是如何表现某些概念的,这将有助于减少与不受欢迎的行为相关的概念,使人工智能系统保持正常运行。它还可以调整人工智能系统,使其偏向于某些主题或想法。

尽管 LLM 无法被轻易解读,但越来越多的研究表明,它们可以被穿透,从而揭示出有用的信息。由亚马逊和Google支持的 OpenAI 竞争对手 Anthropic 上个月也发表了类似的人工智能可解释性研究成果。为了演示如何调整人工智能系统的行为,该公司的研究人员创造了一个痴迷于旧金山金门大桥的聊天机器人。有时,只需让人工只能机器人解释其推理过程,就能获得深刻的见解。

东北大学从事人工智能可解释性研究的教授大卫-鲍(David Bau)在谈到 OpenAI 的新研究时说:"这是令人兴奋的进展。“作为一个领域,我们需要学习如何更好地理解和审视这些大型模型。”

鲍说,OpenAI 团队的主要创新在于展示了一种配置小型神经网络的更有效方法,该网络可用于理解大型神经网络的组成部分。但他也指出,这项技术还需要改进,以使其更加可靠。要利用这些方法创造出完全可以理解的解释,还有很多工作要做。"

鲍是美国政府资助的一项名为"国家深度推理结构"(National Deep Inference Fabric)的工作的一部分,这项工作将向学术研究人员提供云计算资源,以便他们也能探索特别强大的人工智能模型。他说:“我们需要想办法让科学家即使不在这些大公司工作,也能从事这项工作。”

OpenAI 的研究人员在论文中承认,要改进他们的方法还需要进一步的工作,但他们也表示,希望这种方法能带来控制人工智能模型的实用方法。他们写道:“我们希望有一天,可解释性能为我们提供推理模型安全性和鲁棒性的新方法,并通过为强大的人工智能模型的行为提供强有力的保证,大大增加我们对它们的信任。”

阅读论文全文:

https://cdn.openai.com/papers/sparse-autoencoders.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/24444.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

hot100 -- 二分查找

目录 前言 🎂搜索插入位置 🌼搜索二维矩阵 🌼排序数组元素第一和最后一个位置 🌼旋转排序数组 💪旋转排序数组中的最小值 💪两个正序数组的中位数 前言 二分算法学习_时间超限ac:0%-CSDN博客 &#…

2024年【起重机械指挥】考试及起重机械指挥新版试题

题库来源:安全生产模拟考试一点通公众号小程序 起重机械指挥考试考前必练!安全生产模拟考试一点通每个月更新起重机械指挥新版试题题目及答案!多做几遍,其实通过起重机械指挥试题及解析很简单。 1、【多选题】《中华人民共和国特…

【Androi】安卓发展历程详解

人不走空 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌赋:斯是陋室,惟吾德馨 目录 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌…

git推送代码到github拒绝推送的解决方案

这里描述一下本地推送的场景,首先我在码云上建立了一个前端项目,进行了自己的个性化开发,后期在github上创建了一个一样的项目仓库存放代码。使用webstorm进行代码开发。在下面这个位置可以选择推送的代码位置。 选择推送github仓库之后&…

Python深度学习基于Tensorflow(16)基于Tensorflow的对话实例

文章目录 基础数据清洗数据生成词汇表定义分词器并制作数据集构建Transformer模型并训练模型推理 Tensorflow 的核心就是注意力机制,在之前详细的介绍过,具体可以看这个:Python深度学习基于Tensorflow(9)注意力机制_te…

什么情况下需要配戴助听器

以下几种情况需要考虑配戴助听器: 1、听力无波动3个月以上的感音神经性听力障碍。如:先天性听力障碍、老年性听力障碍、噪声性听力障碍、突聋的稳定期等,均可选配合适的助听器。 2、年龄方面。使用助听器没有严格的年龄限制,从出生数周的婴…

深度学习Week16——数据增强

文章目录 深度学习Week16——数据增强 一、前言 二、我的环境 三、前期工作 1、配置环境 2、导入数据 2.1 加载数据 2.2 配置数据集 2.3 数据可视化 四、数据增强 五、增强方式 1、将其嵌入model中 2、在Dataset数据集中进行数据增强 六、训练模型 七、自定义增强函数 一、前言…

Geoserver源码解读一(环境搭建)

一、Github地址 https://github.com/geoserver/geoserver 1.1 克隆代码 git clone https://github.com/geoserver/geoserver.git 1.2 选择版本 版本选择参考我的上一篇文章 Geoserver 以及 Geotools各版本和jdk版本对照表 此处我选择的是兼容jdk8的最后一个版本 git che…

netty+springboot+vue聊天室(需要了解netty)

先看看这个使用websocket实现的聊天室,因为前端是使用websocket,和下面的demo的前端差不多就不解释实现原理,所以建议还是看看(要是会websocket的大佬请忽略) springbootwebsocketvue聊天室 目录 一、实现内容二、代码实现1.后端2.前端源码…

html+CSS+js部分基础运用17

在图书列表中,为书名“零基础学JavaScript”和“HTML5CSS3精彩编程200例”添加颜色。(请用class或style属性实现),效果如下图1所示: 图1 图书列表 Class和style的综合应用。(1)应用class的对象、…

命令行打包最简单的android项目从零开始到最终apk文件

准备好需要的工具 AndroidDevTools - Android开发工具 Android SDK下载 Android Studio下载 Gradle下载 SDK Tools下载 jdk的链接我就不发出来,自己选择,我接下来用的是8版本的jdk和android10的sdk sdk的安装和环境变量的配置 sdk tool压缩包打开后是这样子,打开sdk mana…

高防CDN是如何应对DDoS和CC攻击的

高防CDN(内容分发网络)主要通过分布式的网络架构来帮助网站抵御DDoS(分布式拒绝服务)和CC(挑战碰撞)攻击。 下面是高防CDN如何应对这些攻击的详细描述: 1. DDoS攻击防护 DDoS攻击通过大量的恶…

【动态规划-BM71 最长上升子序列(一)】

题目 BM71 最长上升子序列(一) 分析 dp[i] 考虑到下标i&#xff0c;其组成的最长上升子序列长度 可以用动态规划的原因&#xff1a; 到i的结果可以由到j &#xff08;j<i) 的结果推出&#xff0c;只需要判断下标j对应的数字是否比下标i 对应的字母小即可 注意&#xf…

vs2013 - 打包

文章目录 vs2013 - 打包概述installshield2013limitededitionMicrosoft Visual Studio 2013 Installer Projects选择哪种来打包? 笔记VS2013打包和VS2019打包的区别打包工程选择view打包工程中单击工程名称节点&#xff0c;就可以在属性框中看到要改的属性(e.g. 默认是x86, 要…

Linux安装RocketMQ教程【带图文命令巨详细】

巨详细Linux安装Nacos教程RocketMQ教程 1、检查残留版本2、上传压缩包至服务器2.1压缩包获取2.2创建相关目录 3、安装RocketMQ4、配置RocketMQ4.1修改runserver.sh和runbroker.sh启动脚本4.2新增broker.conf配置信息4.3启动关闭rocketmq4.4配置开机自启动&#xff08;扩展项&am…

AI Agentic Design Patterns with AutoGen(下):工具使用、代码编写、多代理群聊

文章目录 四、工具使用: 国际象棋游戏4.1 准备工具4.2 创建两个棋手代理和棋盘代理4.3 注册工具到代理4.4 创建对话流程&#xff0c;开始对话4.5 增加趣味性&#xff1a;加入闲聊 五、代码编写&#xff1a;财务分析5.1导入和配置代码执行器5.2 创建 代码执行/编写 代理5.3 定义…

win10重装系统?电脑系统重装一键清晰,干货分享!

在电脑的使用过程中&#xff0c;由于各种原因&#xff0c;我们可能会遇到系统崩溃、运行缓慢或者出现各种难以解决的问题。这时&#xff0c;重装系统往往是一个有效的解决方案。今天&#xff0c;我们就来详细介绍一下如何在Win10环境下进行系统的重装&#xff0c;帮助大家轻松解…

【三十三】springboot+序列化实现返回值脱敏和返回值字符串时间格式化问题

互相交流入口地址 整体目录&#xff1a; 【一】springboot整合swagger 【二】springboot整合自定义swagger 【三】springboot整合token 【四】springboot整合mybatis-plus 【五】springboot整合mybatis-plus 【六】springboot整合redis 【七】springboot整合AOP实现日志操作 【…

Java学习-JDBC(一)

JDBC 概念 JDBC(Java Database Connectivity)Java数据库连接JDBC提供了一组独立于任何数据库管理系统的APIJava提供接口规范&#xff0c;由各个数据库厂商提供接口的实现&#xff0c;厂商提供的实现类封装成jar文件&#xff0c;也就是我们俗称的数据库驱动jar包JDBC充分体现了…

什么是虚拟局域网?快解析有哪些的虚拟化应用功能?

什么是虚拟局域网&#xff1f;从字面上理解就是不是真实存在的局域网。虚拟局域网是将网络用户和设备集中在一起&#xff0c;从而可以对不同地域和商业的需要有一定的支持性。虚拟局域网有它的优点&#xff0c;在使用过程中可以为企业提供更安全、更稳定、更灵活的服务保障体系…