OpenAI发布GPT-4思维破解新策略,Ilya亦有贡献!



OpenAI正在研究如何破解GPT-4的思维,并公开了超级对齐团队的工作,Ilya Sutskever也在作者名单中。

  • 论文地址:https://cdn.openai.com/papers/sparse-autoencoders.pdf

  • 代码:https://github.com/openai/sparse_autoencoder

  • 特征可视化:https://openaipublic.blob.core.windows.net/sparse-autoencoder/sae-viewer/index.html

GPT-4o是否具备记忆能力?DeepMind和开源社区解开LLM记忆的谜团 !_

GPT-4o深夜发布!Plus免费可用!icon-default.png?t=N7T8https://www.zhihu.com/pin/1773645611381747712
没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:

升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

该研究提出了一种改进大规模训练稀疏自编码器的方法,并成功将GPT-4的内部表征解构为1600万个可理解的特征。

这使得复杂语言模型的内部工作变得更加透明。



目前,语言模型神经网络的内部工作原理仍是一个“黑盒”,无法完全理解。

为了理解和解释神经网络,首先需要找到对神经计算有用的基本构件。

然而,神经网络中的激活通常表现出不可预测和复杂的模式,每次输入几乎总会引发密集的激活。

而现实世界中其实很稀疏,在任何给定的情境中,人脑只有一小部分相关神经元会被激活。



在OpenAI超级对齐团队的这项研究中,他们推出了一种基于TopK激活函数的新稀疏自编码器(SAE)训练技术栈,消除了特征缩小问题,能够直接设定L0(直接控制网络中非零激活的数量)。

该方法在均方误差(MSE)与L0评估指标上表现优异,即使在1600万规模的训练中,几乎不产生失活的潜在单元(latent)。

具体来说,他们使用GPT-2 small和GPT-4系列模型的残差流作为自编码器的输入,选取网络深层(接近输出层)的残差流,如GPT-4的5/6层、GPT-2 small的第8层。



并使用之前工作中提出的基线ReLU自编码器架构,编码器通过ReLU激活获得稀疏latent z,解码器从z中重建残差流。

损失函数包括重建MSE损失和L1正则项,用于促进latent稀疏性。



此外,自编码器训练时容易出现大量latent永远不被激活(失活)的情况,导致计算资源浪费。
团队的解决方案包括两个关键技术:
1. 将编码器权重初始化为解码器权重的转置,使latent在初始化时可激活。

2. 添加辅助重建损失项,模拟用top-kaux个失活latent进行重建的损失。

通过这些方法,即使是1600万latent的大规模自编码器,失活率也只有7%。



团队还提出了多重TopK损失函数的改进方案,提高了高稀疏情况下的泛化能力,并且探讨了两种不同的训练策略对latent数量的影响,这里就不过多展开了。

 



推荐阅读:

GPT-4o是否具备记忆能力?DeepMind和开源社区解开LLM记忆的谜团 !

如何免费使用GPT-4o?如何升级GPT...

更强大Mamba-2正式发布啦!!!

黎曼猜想取得重大进展!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/849586.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Unity游戏制作】地精寻宝Gnome‘s Well That Ends Well卷轴动作游戏【一】场景搭建

👨‍💻个人主页:元宇宙-秩沅 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 秩沅 原创 👨‍💻 专栏交流🧧&…

Redisson分布式锁原理解析

前言 首先Redis执行命令是单线程的,所以可以利用Redis实现分布式锁,而对于Redis单线程的问题,是其线程模型的问题,本篇重点是对目前流行的工具Redisson怎么去实现的分布式锁进行深入理解;开始之前,我们可以…

MyBatis Plus<=3.5.6 存在 SQL 注入漏洞

MyBatis Plus<3.5.6 存在 SQL 注入漏洞 漏洞描述 MyBatis Plus 属于 MyBatis 的增强工具&#xff0c;目的时用于简化数据库开发&#xff0c;并提高开发效率。 收到 SQL 注入漏洞影响的版本&#xff0c;由于 UpdateWrapper 类未对用户可控的参数进行过滤导致存在 SQL 注入漏…

什么情况下要配置DNS服务

什么是DNS 一、DNS就是域名解析 我们上网的方式通常都由ip地址组成&#xff0c;但是为了有个规范&#xff0c;而且我们也不可能去记住那么多一串Ip数字&#xff0c;首先域名就会比ip好记很多&#xff0c;其次固定性&#xff0c;一旦服务器换了&#xff0c;只要重新绑定域名对…

汇编指令——ARM Cortex-M指令分析

cpsid i 这条指令 cpsid i 是 ARM Cortex-M 处理器的汇编语言指令&#xff0c;用于关闭全局中断。在 ARM Cortex-M 处理器中&#xff0c;cpsid i 指令的作用是将处理器的中断&#xff08;IRQ&#xff09;禁用&#xff0c;以防止中断干扰当前的执行流程。这意味着在执行这条指令…

Mac - Node/Java 配置安装全流程

Mac - Node/Java 配置安装全流程 一. Git 安装二. Java 相关安装2.1 jenv 版本控制工具2.2 JDK1.8 和 JDK21的安装2.3 maven 安装 三. Node 相关安装3.1 nvm 版本控制工具3.2 Node 版本安装 一. Git 安装 1.我们首先安装一下Homebrew&#xff0c;这个工具很有用&#xff0c;能…

LLM的基础模型7:Positional Encoding

大模型技术论文不断&#xff0c;每个月总会新增上千篇。本专栏精选论文重点解读&#xff0c;主题还是围绕着行业实践和工程量产。若在某个环节出现卡点&#xff0c;可以回到大模型必备腔调或者LLM背后的基础模型新阅读。而最新科技&#xff08;Mamba,xLSTM,KAN&#xff09;则提…

单列集合.java

单列集合 为了存储不同类型的多个对象&#xff0c;Java提供了一些特殊系列的类&#xff0c;这些类可以存储任意类型的对象&#xff0c;并且存储的长度可变&#xff0c;这些类统称为集合。可以简单的理解为一个长度可变&#xff0c;可以存储不同数据类型的动态数组。集合都位于j…

【机器学习】原理与应用场景 Python代码展现

机器学习&#xff1a;原理、应用与实例深度解析 引言一、机器学习的基本原理二、机器学习的应用范围三、机器学习实例解析四、机器学习部分讲解五、机器学习的挑战与未来 引言 随着大数据和计算能力的飞速发展&#xff0c;机器学习&#xff08;Machine Learning, ML&#xff0…

【UML用户指南】-10-对高级结构建模-高级类

目录 1、类目 2、高级类 3、可见性 4、实例范围和静态范围 5、抽象元素、叶子元素和多态性元素 6、多重性 7、属性 8、操作 9、模板类 10、标准元素 1、类目 类目 &#xff08;classifier&#xff09;是描述结构特征和行为特征的机制。类目包括类、关联、接口、数据类…

补充SimGNN

补充SimGNN 理解Test函数&#xff1a; 理解Test函数&#xff1a; 理解test&#xff08;&#xff09;函数中部分代码&#xff1a; 假设数据&#xff1a; test_dataset [ {“norm_ged”: 0.1, “edge_index_1”: …, “edge_index_2”: …, “features_1”: …, “features_2”:…

常见硬件工程师面试题(一)

大家好&#xff0c;我是山羊君Goat。 对于硬件工程师&#xff0c;学习的东西主要和电路硬件相关&#xff0c;所以在硬件工程师的面试中&#xff0c;对于经验是十分看重的&#xff0c;像PCB设计&#xff0c;电路设计原理&#xff0c;模拟电路&#xff0c;数字电路等等相关的知识…

人工智能治理国内外政策与标准分析

文│阿里巴巴标准化部 朱红儒、彭骏涛、孙勇&#xff1b;中国信息通信研究院安全研究所 静静 人工智能&#xff08;AI&#xff09;作为新一轮科技革命的重要驱动力量&#xff0c;正在有效推动着数字化转型&#xff0c;其带来巨大机遇的同时&#xff0c;也伴随着新的风险和挑战…

数据库设计步骤、E-R图转关系模式、E-R图的画法

一、数据库设计步骤 ①需求分析阶段 准确了解与分析用户需求。 ②概念结构设计阶段 通过对用户需求进行综合、归纳与抽象&#xff0c;形成一个独立于具体数据库管理系统的概念模型。 ③逻辑结构设计阶段 将概念结构转换为某个数据库管理系统所支持的数据模型&am…

“安全生产月”专题报道:AI智能监控技术如何助力安全生产

今年6月是第23个全国“安全生产月”&#xff0c;6月16日为全国“安全宣传咨询日”。今年全国“安全生产月”活动主题为“人人讲安全、个个会应急——畅通生命通道”。近日&#xff0c;国务院安委会办公室、应急管理部对开展好2024年全国“安全生产月”活动作出安排部署。 随着科…

SpringBoot的maven项目自定义打包结构

文章目录 1. 背景2. 自定义打包结构3. 打包结果 1. 背景 加入新团队&#xff0c;发现项目打包后只有一个大大的jar包&#xff0c;每次修改了一个模块的代码&#xff0c;都要整个上传。效率低还浪费流量呢&#xff0c;哈哈。假如每次修改一个模块的一点代码&#xff0c;单独打包…

RLHF(从人类反馈中进行强化学习)详解(三)

在经过了前两节的内容学习之后&#xff0c;我们对于RLHF&#xff08;从人类反馈中进行强化学习&#xff09;有了比较深入的认知&#xff0c;并且初步了解了RLHF中偏好数据集的引入&#xff0c;奖励模型的设置以及baseLLM的训练过程。在本节的学习中&#xff0c;我们将深入LLM的…

【ssh命令】ssh登录远程服务器

命令格式&#xff1a;ssh 用户名主机IP # 使用非默认端口: -p 端口号 ssh changxianrui192.168.100.100 -p 1022 # 使用默认端口 22 ssh changxianrui192.168.100.100 然后输入密码&#xff0c;就可以登录进去了。

进位(bit)

进位 题目描述 给定两个整数 a 与 b&#xff0c;请计算在十进制加法过程中&#xff0c;ab 产生了多少次进位。 输入格式 第一行&#xff1a;单个整数表示 a。 第二行&#xff1a;单个整数表示 b。 输出格式 单个整数&#xff1a;表示发生进位的次数。 样例 #1 样例输入…

Java使用GDAL来解析KMZ及KML实战

目录 前言 一、在GQIS中浏览数据 1、关于空间参考 2、属性表格 二、GDAL的相关驱动及解析实战 1、GDAL中的KMZ驱动 2、GDAL实际解析 三、数据解析成果 1、KML解析结果 2、KMZ文件入库 四、总结 前言 在前面的博客中讲过纯Java实现Google地图的KMZ和KML文件的解析&…