OpenAI新研究破解GPT-4大脑,分解1600万个特征打开“黑匣子”,Ilya 、Jan Leike也参与了!

6月7日凌晨,OpenAI在官网发布了一个新的研究成果,首次破解GPT-4的神经网络活动。通过改进大规模训练稀疏自动编码器将GPT-4的内部表示分解为 1600 万个特征。而且,前段时间离职的Ilya Sutskever、Jan Leike也是作者之一!

图片

这不是破译了GPT-4的大脑吗!

听起来好像很有意思,于是奶茶赶紧搬运来,让我们一起来看下!

 3.5研究测试:
hujiaoai.cn
4研究测试:
askmanyai.cn
Claude-3研究测试:
hiclaude3.com

图片

稀疏自编码器

神经网络一直被视为人工智能领域的“黑匣子”,其运作机制复杂难懂,与机械设备不同,神经网络的设计和训练充满了未知。在设计和训练神经网络时,对最终结果的理解非常有限。

为了揭开这个“黑匣子”,OpenAI的研究人员一直在寻找神经计算的基本构建块。然而,语言模型内部的神经激活模式复杂多变,似乎同时代表了多个概念,并且这些激活是密集的,每次输入都会触发多个激活。这与现实世界中遇到的稀疏概念形成鲜明对比,在任何给定情境中,只有少数几个概念是相关的。

于是,OpenAI研究团队开始了关于从语言模型中提取可解释特征的研究:

论文标题
Scaling and evaluating sparse autoencoders

论文链接:
https://cdn.openai.com/papers/sparse-autoencoders.pdf

开源地址:
https://github.com/openai/sparse_autoencoder

图片

论文首先指出,虽然稀疏自编码器在提取语言模型中的可解释特征方面表现优异,但其极端稀疏性使得训练过程非常困难。传统方法难以处理大型语言模型中的复杂特征。因此,研究团队使用了TopK稀疏自编码器N2G等方法进行了大规模的训练,训练后能够识别出神经网络中对生成特定输出至关重要的少量特征,将GPT-4的内部表示分解为1600万个通常可解释的模式,这些模式被称为“特征”,展示了GPT-4如何处理和理解各种信息。

这种方法提高了大语言模型的透明度和可解释性,能够识别与特定概念相关的特征,例如人类不完美、价格上涨、修辞问题等。

大家如果感兴趣这篇论文的话,可以在评论区告诉我们~我们速速安排论文解读!

有趣的样例

OpenAI制作了一个在线的Demo查看器,允许用户分析GPT-4内部表示的特定特征,从而理解这些特征在模型内部的作用和解释:

图片

▲SAE查看器Demo

Demo地址:
https://openai.com/index/extracting-concepts-from-gpt-4/

而且OpenAI在官网展示了一些可视化界面,让我们打开其中一个《人类的不完美》的例子来看下:

图片

我们点进去【完整的可视化】可以看到对应主题文本的激活函数权重的完整可视化界面:

图片

绿色高亮的文字是已经准备好的标识点,当鼠标挪到对应的文字上可以看到其对应的真实的激活的权重:

图片

界面上还显示了一些宏观上的数值:

  • 直方图:展示了特征激活值的分布情况,X轴表示激活值的大小,Y轴表示对应激活值的频次。大多数激活值集中在较低的范围内,随着激活值的增加,频次逐渐减少。

  • Density:5.54e-5,表示特征激活的密度。

  • Mean:8.40e-5,表示激活值的平均值。

  • Variance:1.64e-4,表示激活值的方差。

  • Skew:2.08e+2,表示激活值分布的偏度。

  • Kurtosis:6.00e+4,表示激活值分布的峰度。

看起来真的很酷哎!大家感兴趣的话可以看看官网其他的例子:

https://openai.com/index/extracting-concepts-from-gpt-4/

仍存在限制

研究团队表示很高兴可解释性最终能够提高模型的可信度和可操作性。然而,这仍处于早期阶段,存在许多局限性:

  • 与之前的研究一样,许多发现的特征仍然难以解释,许多特征的激活没有明确的模式,或者表现出与它们通常编码的概念无关的虚假激活。此外,我们也没有很好的方法来检查解释的有效性。

  • 稀疏自动编码器无法捕获原始模型的所有行为。目前,将 GPT-4 的激活通过稀疏自动编码器可获得与使用大约 10 倍计算量训练的模型相当的性能。为了完全映射前沿 LLM 中的概念,我们可能需要扩展到数十亿或数万亿个特征,即使使用改进的扩展技术,这也具有挑战性。

  • 稀疏自动编码器可以在模型的某一点找到特征,但这只是解释模型的一步。还需要做更多的工作来了解模型如何计算这些特征,以及这些特征如何在模型的其余部分中下游使用。

小结

虽然稀疏自动编码器研究令人兴奋,但前路漫漫,还有许多未解决的挑战。OpenAI希望发现的特征能够实际用于监控和控制语言模型行为,并计划在更前沿模型中测试这一点。希望有一天,可解释性可以为推理模型的安全性和稳健性作出贡献,并通过对它们的行为提供强有力的保证,显著提高人类对强大语言模型的信任。

此外,6月6日凌晨,OpenAI还在官网公开了名为 AccessManager 的服务,作为管理内部授权和实现最小权限授权的可扩展机制。这也是OpenAI首次系统性地公布大模型开发安全方面的高级细节。再结合今天的大语言模型可解释性的研究,OpenAI似乎也在开始展示自己在安全方面的一些努力!让我们一起期待吧~

图片

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/25611.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

公式面试题总结(三)

13.说说你对 BOM 的理解,常见的 BOM 对象你了解哪些? BOM (Browser Object Model),浏览器对象模型, ⚫ 提供了独立于内容与浏览器窗口进行交互的对象 ⚫ 其作用就是跟浏览器做一些交互效果 ⚫ 比如如何进行页面的后退&…

“螺丝钉“好,还是“杂役“好

本篇中,螺丝钉指代大厂工作,杂役则代表小公司工作。这无疑是一个见仁见智且颇为棘手的问题,需结合自身年龄、所处环境等实际状况来做出抉择。倘若一定要给出个人观点:“刚毕业应选择大厂螺丝钉,这对自身眼界的开阔以及…

将AIRNet集成到yolov8中,实现端到端训练与推理

AIRNet是一个图像修复网络,支持对图像进行去雾、去雨、去噪声的修复。其基于对比的退化编码器(CBDE),将各种退化类型统一到同一嵌入空间;然后,基于退化引导恢复网络(DGRN)将嵌入空间修复为目标图像。可以将AIRNet的输出与yolov8进行端到端集成,实现部署上的简化。 本博…

关于 Redis 中集群

哨兵机制中总结到,它并不能解决存储容量不够的问题,但是集群能。 广义的集群:只要有多个机器,构成了分布式系统,都可以称之为一个“集群”,例如主从结构中的哨兵模式。 狭义的集群:redis 提供的…

java面试题:什么时候使用抽象类?什么时候使用接口

**使用抽象类的情景:** 1. **需要共享实现:** 当你想要为一组相关类提供一些通用的实现代码时,可以使用抽象类。抽象类可以包含具体的方法实现,这些实现可以被其子类继承和复用。 2. **代码复用:** 抽象类有助于消除代…

Django学习二:配置mysql,创建model实例,自动创建数据库表,对mysql数据库表已经创建好的进行直接操作和实验。

文章目录 前言一、项目初始化搭建1、创建项目:test_models_django2、创建应用app01 二、配置mysql三、创建model实例,自动创建数据库表1、创建对象User类2、执行命令 四、思考问题(****)1、是否会生成新表呢(答案报错&…

力扣第197题:上升的温度

关注微信公众号 数据分析螺丝钉 免费领取价值万元的python/java/商业分析/数据结构与算法学习资料 在本篇文章中,我们将详细解读力扣第197题“上升的温度”。通过学习本篇文章,读者将掌握如何使用SQL语句来解决这一问题,并了解相关的复杂度分…

React保姆级教学

React保姆级教学 一、创建第一个react项目二、JSX基本语法与react基础知识1、 插值语法:2、 循环一个简单列表3、 实现简单条件渲染4、 实现复杂的条件渲染5、 事件绑定6、 基础组件(函数组件)7、 使用useState8、 基础样式控制9、 动态类名1…

Dubbo的Cluster策略与Directory实现

Dubbo是一个高性能的Java RPC框架,它提供了丰富的集群容错机制和灵活的路由策略。在Dubbo中,Cluster和Directory是两个核心概念,它们共同工作以实现服务的负载均衡和集群管理。 Cluster 策略 Cluster策略负责将多个服务提供者组合成一个逻辑…

好书推荐之《生成式 AI 入门与亚马逊云科技AWS实战》

最近小李哥在亚马逊云科技峰会领到了一本关于如何在云计算平台上设计、开发GenAI应用的书,名字叫:《生成式 AI 入门与亚马逊云科技AWS实战》,今天仔细看了下,发现这本书讲的真的很好!他涵盖了当下AI领域所有热门的技术…

《软件定义安全》之四:什么是软件定义安全

第4章 什么是软件定义安全 1.软件定义安全的含义 1.1 软件定义安全的提出 虚拟化、云计算、软件定义架构的出现,对安全体系提出了新的挑战。如果要跟上网络演进的步伐和业务快速创新的速度,安全体系应该朝以下方向演变。 𝟭 安全机制软件…

牛客周赛Round 36

链接:登录—专业IT笔试面试备考平台_牛客网 来源:牛客网 A 吃冰 Rana喜欢所有抹茶食品,但是她不喜欢吃热的,她在吃完一份热的抹茶食品后必须至少连续吃两份冰的抹茶食品来降温。 现在有 a 份冰的抹茶食品和 b 份热的抹茶食品&…

设计软件有哪些?照明工具篇,渲染100邀请码1a12

阴影和照明涉及到图片的真实感和氛围,所以熟练使用照明工具是设计师的必备能力,这次我们介绍一些照明工具。 1、VRaySun VRaySun是VRay渲染器中的一个功能,用于模拟太阳光源。它是一种方便易用的光源类型,能够产生逼真的日光效果…

解密Spring Boot:深入理解条件装配与条件注解

文章目录 一、条件装配概述1.1 条件装配的基本原理1.2 条件装配的作用 二、常用注解2.1 ConditionalOnClass2.2 ConditionalOnBean2.3 ConditionalOnProperty2.4 ConditionalOnExpression2.5 ConditionalOnMissingBean 三、条件装配的实现原理四、实际案例 一、条件装配概述 1…

Wireshark TS | 应用传输丢包问题

问题背景 仍然是来自于朋友分享的一个案例,实际案例不难,原因也就是互联网线路丢包产生的重传问题。但从一开始只看到数据包截图的判断结果,和最后拿到实际数据包的分析结果,却不是一个结论,方向有点跑偏,…

spring:基于SimpleModule实现动态管理jackson的序列化器(JsonSerializer)和反序列化器(JsonDeserializer)

Module jackson的(com.fasterxml.jackson.databind.Module)设计作为一个扩展的接口,可以注册到ObjectMapper实例(ObjectMapper.registerModule),为默认ObjectMapper实例提供功能扩展;比如用于定义为数据类型指定序列化和反序列化。 jackson为…

MySQL: 索引与事务

文章目录 1. 索引 (Index)1.1 概念1.2 作用1.3 使用场景1.4 索引的使用1.5 索引的使用案例 (不要轻易尝试)1.6 索引背后的数据结构1.7 重点总结 2.事务2.1 为什么要使用事务2.2 事务的概念2.3 事务的使用2.4 对事务的理解2.5 事务的基本特性 1. 索引 (Index) 1.1 概念 索引是…

深入STL之 栈与队列:数据结构探索之旅

📝个人主页🌹:Eternity._ ⏩收录专栏⏪:C “ 登神长阶 ” 🤡往期回顾🤡:模拟实现list与迭代器 🌹🌹期待您的关注 🌹🌹 ❀stack和queue &#x1f4…

探索软件工程师在新能源汽车研发中的角色与贡献

随着全球对可持续发展的关注不断增加,新能源汽车的研发与应用成为了汽车行业的一个重要方向。作为软件工程师,参与新能源汽车研发不仅能够推动科技创新,还能为环保事业贡献力量。本文将深入探讨软件工程师在新能源汽车研发中的具体贡献、所需…

C#操作MySQL从入门到精通(20)——更新数据

前言: 谈到数据库,大家最容易脱口而出的就是增删改查,本文所说的更新数据就是增删改查的改,改变数据的意思。 本文测试使用的数据库如下: 1、更新一列 所谓更新一列的意思就是只更改一列数据,并且通常要使用where条件,因为不加这个条件的话会导致将所有行的数据进行…