【论文解读】通过多标记预测建立更好更快的大型语言模型

Meta 的这篇多标记预测论文显示,与当前的下一标记预测器相比,多头预测器内存效率高、性能更好、训练速度更快。

https://arxiv.org/pdf/2404.19737

在这里插入图片描述

主要收获:

  • 多标记预测是对 LLM 训练的一种简单而强大的修改,可提高样本效率和各种任务的性能。
  • 这种方法在大规模应用中尤为有效,大型模型在 MBPP 和 HumanEval 等编码基准测试中表现出显著优势。
  • 多标记预测可通过自指定解码加快推理速度,与下一个标记预测相比,速度可能提高 3 倍。
  • 该技术促进了全局模式的学习,提高了 LLM 的算法推理能力
  • 虽然该技术对生成任务很有效,但在基于多选题的基准测试中,论文发现结果好坏参半。

FAIR(Facebook 人工智能研究团队)的研究人员撰写了这篇论文,结果看起来很有希望。我很希望这篇论文能成为实际产品。我认为这篇论文具备了成为像《专家混合物》(Mixture of Experts)那样的开创性论文的所有要素,而《专家混合物》已被证明是当前一代模型的开创性论文。

导言:

论文首先强调了目前基于下一个标记预测的 LLM 训练方法的局限性。尽管这些模型的能力令人印象深刻,但与人类相比,它们需要大量数据才能达到类似的流畅度。作者认为,next-token 预测过于关注局部模式,忽略了 "困难 "决策,导致学习效率低下。他们提出了多标记词预测作为克服这些局限性的解决方案。

在这里插入图片描述

背景:

传统的语言模型使用下一个标记预测损失进行训练,即模型根据前面的上下文预测序列中的下一个标记。本文提出了一种更通用的方法,即模型使用连接到共享模型主干的 n 个独立输出头同时预测 n 个未来标记。这就迫使模型考虑文本中的长期依赖关系和全局模式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/34749.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从 Hadoop 迁移,无需淘汰和替换

我们仍然惊讶于有如此多的客户来找我们,希望从HDFS迁移到现代对象存储,如MinIO。我们现在以为每个人都已经完成了过渡,但每周,我们都会与一个决定进行过渡的主要、高技术性组织交谈。 很多时候,在这些讨论中&#xff…

安卓 jetpack compose

以下是 Jetpack Compose 中常用的一些组件的列表: 组件名称描述Text用于显示文本内容。Button可点击的按钮组件,常用于触发事件。TextField用于输入文本的文本框组件。Image用于展示图片。Column垂直布局容器,可以在其中垂直排列子组件。Row…

Mac环境 aab包转apks,并安装apks

一、下载下载bundletool工具 Releases google/bundletool GitHub 二、将下载bundletool.jar包、aab、keystore文件全部放到同一个目录下 例如我全部放到download目录下 转换命令行: java -jar bundletool-all-1.16.0.jar build-apks --modeuniversal --bundle…

java运维交接项目逆向工程

​ 背景 有承接过Java项目运维的团队估计都处理过的一件事情,就是同步生产代码跟本地代码,条件再差些甚至要直接基于生产部署包逆向本地源码工程。而哪怕是原运维团队交接了源码,往往也会历史久远的原因,给了一份不太可靠的源码…

MySQL连接

MySQL工具包 MySQL实现简单链接 一 引入工具包 JBDCUtils,无需更改,直接使用即可。 import java.io.IOException; import java.io.InputStream; import java.sql.*; import java.util.Properties;public class JDBCUtil {private static String URL;p…

基于PHP+MySQL组合开发的在线客服小程序源码系统 带完整的安装代码包以及搭建教程

系统概述 源码系统是专门为满足企业在线客服需求而设计的,它集成了多种功能,能够帮助企业实现与用户的实时沟通、问题解答、信息反馈等。通过该系统,企业可以更好地了解用户需求,提升用户体验,增强用户对企业的信任感…

Java面试题:解释观察者模式的工作原理,并通过实例展示如何在Java中实现

观察者模式(Observer Pattern)是一种行为设计模式,它定义了一种一对多的依赖关系,让多个观察者对象同时监听某一个主题对象。当主题对象发生变化时,它的所有依赖者(观察者)都会收到通知并自动更…

Linux[高级管理]——Squid代理服务器的部署和应用(传统模式详解)

🏡作者主页:点击! 👨‍💻Linux高级管理专栏:点击! ⏰️创作时间:2024年6月24日11点11分 🀄️文章质量:95分 目录 ————前言———— Squid功能 Squ…

LabelEncoder 类属性类方法及用法

类 LabelEncoder类属性及类方法示例用法用于大型数据集 类 LabelEncoder LabelEncoder 是 scikit-learn 中的一个预处理工具,用于将类别变量(例如字符串标签或离散的整数标签)转换为整数。 类 LabelEncoder 在包 sklearn.preprocessing.Lab…

【JavaEE精炼宝库】多线程进阶(1)常见锁策略 | CAS | ABA问题

目录 一、常见的锁策略: 1.1 悲观锁 | 乐观锁: 1.2 重量级锁 | 轻量级锁: 1.3 自旋锁 | 挂起等待锁: 1.4 公平锁 | 非公平锁: 1.5 可重入锁 | 不可重入锁: 1.6 互斥锁 | 读写锁: 1.7 面…

Spring Boot 集成 MinIO 实现文件上传

Spring Boot 集成 MinIO 实现文件上传 一、 Minio 服务准备 MinIO的搭建过程参考 Docker 搭建 MinIO 对象存储。 登录MinIO控制台&#xff0c;新建一个 Bucket&#xff0c;修改 Bucket 权限为公开。 二、MinIO 集成 添加 MinIO 依赖 <!-- https://mvnrepository.com/ar…

【工具测评】ONLYOFFICE——你的下一款桌面编辑器

文章目录 前言一、安装1.1 跳转官网下载安装包1.2 安装步骤 二、功能介绍2.1 功能全面的 PDF 编辑器2.2 PDF 表单2.3 文本文档编辑器的更新2.4 电子表格编辑器的更新2.5 演示文稿编辑器有哪些更新2.6 所有编辑器中的改进内容2.7 从右至左显示 & 新的本地化选项2.8 可用性提…

查找一个有向网络的头节点和尾节点 (70%用例)C卷(JavaPythonC++Node.jsC语言)

给定一个有向图,图中可能包含有环,有向边用两个节点表示。第一个整数表示起始节点,第二个整数表示终止节点,如0 1表示存在从0到1的路径。每个节点用正整数表示,求这个数据的头节点与尾节点,题目给的用例会是一个头节点,但可能存在多个尾节点。同时,图中可能含有环,如果…

重生奇迹MU整理装备技巧

除了注意一些基本的事项外&#xff0c;还有一些技巧可以帮助我们更快更好地整理装备&#xff0c;提升自己在游戏中的表现。 1. 理性地管理装备是取得胜利的关键。在整理装备时&#xff0c;根据不同的属性和需求&#xff0c;可以将装备分类&#xff0c;比如攻击型、防御型、辅助…

CRMEB 多门店后台登录入口地址修改(默认admin)

一、>2.4版本 1、修改后端 config/admin.php 配置文件,为自定义的后缀 2、修改 平台后台前端源码中 view/admin/src/settings.js 文件,修改为和上面一样的配置 3、修改后重新打包前端代码,并且覆盖到后端的 public 目录下&#xff1a;打包方法 4、重启swoole 二、<2.4版…

深度神经网络中的“深度”概念解析

引言 深度神经网络&#xff08;Deep Neural Networks, DNNs&#xff09;是机器学习领域的一大突破&#xff0c;它们在图像识别、自然语言处理、游戏等领域取得了革命性的进展。DNNs的核心特性之一就是其“深度”&#xff0c;这通常指的是网络中层的数量。本文将深入探讨深度神…

云函数-uniapp + uniCloud 订阅消息实战教程(二)

一、创建uniCloud项目 在 HBuilderX 新建项目界面&#xff0c;选择 uni-app项目&#xff0c;输入项目名称&#xff0c;选择默认模板即可&#xff0c;根据个人需要选择 vue版本&#xff0c;并勾选 启用uniCloud&#xff0c;在右侧选择服务供应商&#xff08;支付宝云、阿里云、…

人机交互中的“测不准原理”

谈及人机交互中的“测不准原理”时&#xff0c;我们所指的并非物理学中量子力学的测不准原理&#xff0c;而是一种借用该概念来描述在人机交互领域中出现的不确定性和不可预测性现象。这种不确定性主要表现在以下几个方面&#xff1a; 用户在与系统交互时的行为和反应可能是难以…

Spring Cloud:构建高可用、分布式系统的现代架构

Spring Cloud是一个开源的微服务框架&#xff0c;旨在帮助开发者快速构建在分布式系统环境中运行的服务。它提供了一系列工具&#xff0c;用于在分布式系统中配置、服务发现、断路器、智能路由、微代理、控制总线、一次性令牌、全局锁、领导选举、分布式会话、集群状态等领域的…

再不挖掘就晚了!本周三分之二二区以上 | GBD数据库周报(6.12~6.18)

全球疾病负担&#xff08;GBD&#xff09;是迄今为止规模最大、最全面的一项研究&#xff0c;旨在量化不同地区和不同时期的健康损失&#xff0c;从而改善卫生系统并消除差异。 该研究由华盛顿大学健康指标与评估研究所 (IHME) 牵头&#xff0c;是一项真正的全球性研究&#xf…