Backpack Language Models

本文是LLM系列的文章,针对《Backpack Language Models》的翻译。

背包语言模型

  • 摘要
  • 1 引言
  • 2 背包架构
  • 3 带有背包的语言模型
  • 4 实验训练背包LM
  • 5 感知向量中的涌现结构
  • 6 用于控制的感知向量
  • 7 相关工作
  • 8 讨论
  • 9 结论
  • 11 不足
  • 12

摘要

我们介绍了Backpacks:一种新的神经架构,它将强大的建模性能与可解释性和控制性的接口结合在一起。背包为词汇表中的每个单词学习多个非上下文意义向量,并将序列中的一个单词表示为该序列中意义向量的上下文相关、非负线性组合。我们发现,经过训练后,感觉向量会发生专门化,每个向量都会编码单词的不同方面。我们可以通过检查感向量在输出空间上的(非上下文、线性)投影来解释感向量,并干预这些可解释的挂钩,以可预测的方式改变模型的行为。我们在OpenWebText上训练了一个170M参数的Backpack语言模型,匹配GPT-2小型(124M参数)Transformer的损失。在词汇相似性评估中,我们发现Backpack感觉向量甚至优于6B参数Transformer LM的单词嵌入。最后,我们提出了一些简单的算法,这些算法对感觉向量进行干预,以执行可控的文本生成和去偏。例如,我们可以编辑意义词汇,使其更倾向于某个主题,或者将性别偏见的来源定位为意义向量,并在全球范围内抑制这种意义。

1 引言

2 背包架构

3 带有背包的语言模型

4 实验训练背包LM

5 感知向量中的涌现结构

6 用于控制的感知向量

7 相关工作

8 讨论

9 结论

非上下文word2vec嵌入开创了NLP的现代深度学习研究,并具有迷人的几何结构。现在,研究主要转向了单片表示,首先来自RNN,现在来自Transformers。我们的工作表明,在一个单一的模型中,我们可以拥有丰富的词汇结构和干预,以及强大的上下文表现。

11 不足

Backpack语言模型是否会继续随着参数和数据进行扩展,并在更大的模型规模上成为Transformers的可行替代品,这是一个根本的不确定性。在这项研究中,我们无法扩大规模,希望未来的工作将测试更大的模型规模。类似地,我们没有验证Backpack语言模型在多种语言中表现良好。我们也不考虑,例如,在其他任务中微调Backpack,或屏蔽语言建模——还有很多可能的用途有待验证。
我们没有研究使用Backpack的一个潜在障碍是,在形态结构比英语丰富的语言中,标记化的影响——Backpack结构是否适合为这些语言建模?这可能很困难,因为直观地说,背包的可解释性和控制与单个token的语义有关。即使在英语中,不代表一个单词的小单词也很难解释。我们希望提供的是一组足够的实验来激励对背包的进一步探索。

12

本文描述并发布了一个在文本互联网的大部分未经过滤的部分(主要是英语部分)上训练的开放域语言模型,并描述了解释和控制该模型的方法。任何可以用来帮助理解和指导模型生成的控制方法都可以用来更有效地生成有毒或非法内容。尽管如此,我们确实希望,总的来说,深入了解Backpack语言模型的好处是朝着正确的方向迈出的一步。特别是,基于背包结构的解释可能能够深入了解模型行为背后的机制,从而提高透明度。
我们将发布的具体模型,包括170M个参数,在生成文本方面比目前许多公开和商业可用的语言模型要小得多,性能也较差,因此我们预计这些工件的发布不会产生相当大的负面影响。然而,我们发布的代码可以被公司或政府用来或复制来训练更大的背包LMs。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/52079.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT给普通人带来的l0个赚钱机会

ChatGPT给普通人带来的l0个赚钱机会 1.内容创作:使用AI辅助创作高质量的文章、博客和广告文案,通过在线平台出售或者接受定制订单。 2.社交媒体管理:利用AI分析趋势,为客户制定社交媒体策略并管理账户,提高在线影响力…

Android12之ABuffer数据处理(三十四)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 人生格言: 人生从来没有捷径,只有行动才是治疗恐惧和懒惰的唯一良药. 更多原创,欢迎关注:Android…

Ubuntu20.04安装软件报错:The following packages have unmet dependencies

Ubuntu20.04更换阿里云源后安装软件都会报错:The following packages have unmet dependencies 查看资料,大概是ubuntu本身的源比较版本较老,而阿里云的源比较新,因此版本不匹配造成依赖的库不匹配,所以只要将阿里云的…

【网络】HTTPS的加密

目录 第一组,非对称加密第二组,非对称加密第三组,对称加密证书签名 HTTPS使用的是非对称加密加对称加密的方案 (非对称加密:公钥加/解密,私钥解/加密) (对称加密:一组对称…

debian12网络静态ip配置-OSSIM 安全漏洞扫描系统平台

本配置适合于服务器上的静态ip配置,该方法简单可靠。 1 临时配置 ifconfig eth0 192.168.1.97 netmask 255.255.255.0 broadcast 192.168.1.255 ip route add default via 192.168.1.1 2 主要的网络配置文件 /etc/network/interfaces /etc/resolv.conf 3 配置…

什么是响应式设计(Responsive Design)?如何实现一个响应式网页?

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ 响应式设计(Responsive Design)⭐ 如何实现一个响应式网页?1. 弹性网格布局2. 媒体查询3. 弹性图像和媒体4. 流式布局5. 优化导航6. 测试和调整7. 图片优化8. 字体优化9. 渐进增强10. 面向移动优先11. …

go、java、.net、C#、nodejs、vue、react、python程序问题进群咨询

1、面试辅导 2、程序辅导 3、一对一腾讯会议辅导 3、业务逻辑辅导 4、各种bug帮你解决。 5、培训小白 6、顺利拿到offer

【优选算法】—— 字符串匹配算法

在本期的字符串匹配算法中,我将给大家带来常见的两种经典的示例: 1、暴力匹配(BF)算法 2、KMP算法 目录 (一)暴力匹配(BF)算法 1、思想 2、演示 3、代码展示 (二&…

基于Roop视频换脸

Roop 是一个强大的一键换脸工具,允许用户在视频中替换面部,只需要目标面部的一张图片,无需数据集,无需训练。 相对于之前的 Simswap 来说效果要好很多,不过需要注意的是没有授权不要商用。 文章目录 环境搭建使用方法…

Java之AbstractQueuedSynchronizer

要让你写一个java版的并发同步库,你会怎么思考设计???先思考三五分钟 请先拜读下老外的paperhttp://gee.cs.oswego.edu/dl/papers/aqs.pdf 1. 简介 AbstractQueuedSynchronizer,简称AQS,中文翻译为抽象队…

Git 原理与使用

1.版本控制器 所谓的版本控制器,就是能让你了解到⼀个⽂件的历史,以及它的发展过程的系统。通俗的讲就是⼀个可以记录⼯程的每⼀次改动和版本迭代的⼀个管理系统,同时也⽅便多⼈协同作业。 ⽬前最主流的版本控制器就是 Git 。Git 可以控制电脑…

vue 简单实验 v-bind 变量与html属性绑定

1.代码 <script src"https://unpkg.com/vuenext" rel"external nofollow" ></script> <div id"bind-attribute"><span v-bind:title"message">鼠标悬停几秒钟查看此处动态绑定的提示信息&#xff01;</sp…

实现一个简单的C++线程池

C线程池的优势与劣势 C线程池是指在程序中预先创建一组线程&#xff0c;然后在需要执行任务时&#xff0c;将任务分配给这些线程执行。线程池具有以下优势&#xff1a; 减少创建和销毁线程的开销&#xff1a;创建和销毁线程是需要消耗系统资源的&#xff0c;而线程池中的线程…

Java进阶篇--IO流的第二篇《多样的流》

目录 Java缓冲流 BufferedReader和BufferedWriter类 Java随机流 Java数组流 字节数组流 ByteArrayInputStream流的构造方法&#xff1a; ByteArrayOutputStream流的构造方法&#xff1a; 字符数组流 Java数据流 Java对象流 Java序列化与对象克隆 扩展小知识&#x…

【附安装包】CIMCO Edit 8安装教程|数控编程必备

软件下载 软件&#xff1a;CIMCO Edit版本&#xff1a;8语言&#xff1a;简体中文大小&#xff1a;249.18M安装环境&#xff1a;Win11/Win10/Win8/Win7硬件要求&#xff1a;CPU2.0GHz 内存4G(或更高&#xff09;下载通道①百度网盘丨64位下载链接&#xff1a;https://pan.baid…

学习JAVA打卡第四十一天

字符串与字符数组、字节数组 ⑴字符串与字符数组 String类的构造方法String&#xff08;char a[]&#xff09;和String&#xff08;char a[]&#xff09;,int offset,int length,分别用数组a中的全部字符和部分字符创建string对象。 String类也提供将string对象的字符序列存…

Docker常见配置实验

1、使用mysql:5.6和 owncloud 镜像&#xff0c;构建一个个人网盘。 1、拉取mysql5.6与owncloud的镜像 docker pull mysql:5.6 docker pull mysql:5.6 2、生成容器实例&#xff0c;构建个人网盘 docker run -d --name mydb1 --env MYSQL_ROOT_PASSWORD123456 mysql:5.6 docker …

关于Java中@Transient主键的作用的一些介绍

Transient主下面是关于Transient主键的使用方法、代码案例以及与transient关键字的区别&#xff0c;以及一些实用场景的详细介绍。 1. Transient主键的作用 在实体类中&#xff0c;通常需要将某些字段标记为主键&#xff0c;并将其映射到数据库中的主键字段。但是&#xff0c…

mybatisplus查询报Invalid bound statement (not found)

问题描述 在复现一个老项目时&#xff0c;使用了mybatisplus&#xff0c;其版本为3.1.1。 结果项目启动成功&#xff0c;但是在使用mapper查询时&#xff0c;报了如下错误&#xff1a;Invalid bound statement (not found) 项目的mapper的xml文件是放在resources/mapper目录下…

mac清理磁盘空间软件有哪些 mac清理磁盘空间怎么清理

随着时间的推移&#xff0c;Mac电脑上的文件会越来越多&#xff0c;很快就会占满磁盘空间。这时候&#xff0c;我们需要一个好的Mac清理磁盘空间软件来释放空间&#xff0c;保持电脑的良好性能。那么&#xff0c;mac清理磁盘空间软件有哪些呢&#xff1f;接下来&#xff0c;我将…