创建一个针对单个问题的GPT风格语言模型

标题:为单一问题创建类似GPT的语言模型

正文:

中国的研究人员开发了一种经济高效的方法,用于创建类似GPT-3的自然语言处理系统,同时避免了训练大规模数据集所需的时间和金钱成本——这一趋势日益增长,否则可能会将这一AI领域最终限制在FAANG玩家和高水平投资者手中。

该框架被称为任务驱动的语言建模(TLM)。与在数十亿单词和数千个标签和类别的大型语料库上训练庞大而复杂的模型不同,TLM训练了一个更小的模型,实际上将查询直接嵌入到模型中。

左图是典型的高规模方法,用于大规模语言模型;右图是TLM的精简方法,用于按主题或按问题探索大型语言语料库。来源:https://arxiv.org/pdf/2111.04130.pdf

实际上,为了回答一个单一问题,产生了一个独特的NLP算法或模型,而不是创建一个庞大而笨拙的通用语言模型,该模型可以回答更广泛的问题。

在测试TLM时,研究人员发现,新方法在分类数据集上的表现与预训练语言模型(如RoBERTa-Large)和高规模NLP系统(如OpenAI的GPT-3、Google的万亿参数开关变压器模型、韩国的HyperClover、AI21实验室的Jurassic 1和微软的Megatron-Turing NLG 530B)相似或更好。

在四个领域的八个分类数据集上对TLM进行的试验中,作者还发现,该系统将训练所需的FLOPs(每秒浮点运算次数)减少了两个数量级。研究人员希望TLM能够“民主化”一个日益精英化的领域,因为NLP模型如此之大,以至于它们实际上无法在本地安装,而是位于OpenAI(现在还有微软Azure)昂贵且访问受限的API后面。

作者表示,将训练时间减少两个数量级,可以将1000个GPU一天的训练成本降低到仅8个GPU 48小时。

这篇新报告的标题是《无需大规模预训练的自然语言处理:一个简单高效的框架》,来自北京清华大学的三位研究人员和中国AI开发公司Recurrent AI的一位研究人员。

难以负担的答案

训练有效、通用的语言模型的成本日益被视为对NLP在文化中真正扩散的潜在“热极限”的表征。

从2020年A121实验室的报告中对NLP模型架构方面的增长统计。来源:https://arxiv.org/pdf/2004.08900.pdf

2019年,一位研究人员计算出,在512个核心的64台设备上训练2.5天,训练XLNet模型(当时报道称在NLP任务中击败BERT)的成本为61,440美元,而GPT-3的训练成本估计为1200万美元——是其前代GPT-2的200倍(尽管最近的重新估计声称现在可以在最低价的云GPU上以460万美元的价格进行训练)。

基于查询需求的数据子集

相反,新的提议架构试图通过使用查询作为过滤器来定义大型语言数据库中的信息子集,以进行训练,以提供有限主题的答案。

作者表示:

“TLM是由两个关键想法驱动的。首先,人类通过使用世界上很小一部分知识来完成一个任务(例如,学生只需要复习世界上所有书籍中的几章,就可以为考试死记硬背)。

我们假设对于特定任务,大型语料库中存在很多冗余。其次,与在无标签数据上优化语言建模目标相比,在监督标签数据上进行训练对下游性能的数据效率要高得多。基于这些动机,TLM使用任务数据作为查询来检索通用语料库的一小部分。然后,使用检索到的数据和任务数据共同优化监督任务目标和语言建模目标。”

除了使高效的NLP模型训练变得负担得起之外,作者还看到了使用任务驱动NLP模型的许多优点。例如,研究人员可以享受更大的灵活性,包括序列长度、标记化、超参数调整和数据表示的自定义策略。

研究人员还预见到了未来混合系统的开发,这些系统在有限的预训练PLM(这在当前实现中并不预期)与更大的灵活性和泛化能力之间进行权衡,以换取训练时间。他们认为该系统是域内零样本泛化方法的进步。

测试和结果

TLM在四个领域的八个任务上进行了分类挑战的测试——生物医学科学、新闻、评论和计算机科学。任务被分为高资源任务和低资源任务。高资源任务包括5000多个任务数据,如AGNews和RCT等;低资源任务包括ChemProt和ACL-ARC,以及HyperPartisan新闻检测数据集。

研究人员开发了两个训练集,分别命名为Corpus-BERT和Corpus-RoBERTa,后者是前者的十倍大小。实验比较了通用预训练语言模型BERT(来自Google)和RoBERTa(来自Facebook)与新的架构。

论文观察到,尽管TLM是一种通用方法,并且其范围和适用性应该比更广泛和更高容量的最先进模型更有限,但它能够接近域自适应微调方法的性能。

比较TLM与BERT和RoBERTa基于集的表现结果。结果列出了三种不同训练规模的平均F1分数,并列出了参数数量、总训练计算(FLOPs)和训练语料库的大小。

作者得出结论,TLM能够实现与PLMs相当或更好的结果,同时大大减少了所需的FLOPs,并且只需要1/16的训练语料库。在中型和大型规模下,TLM显然可以平均提高0.59和0.24个点的性能,同时将训练数据大小减少两个数量级。

“这些结果证实,TLM的准确度非常高,而且比PLMs更高效。此外,TLM在更大规模下获得更多的效率优势。这表明,更大规模的PLMs可能已经训练了更多的不特定任务的一般知识。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/756838.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

51单片机学习笔记7 串转并操作方法

51单片机学习笔记7 串转并操作方法 一、串转并操作简介二、74HC595介绍1. **功能**:2. **引脚**:3. **工作原理**:4. 开发板原理图(1)8*8 LED点阵:(2)74HC595 串转并: 三…

Android Kotlin版封装EventBus

文章目录 Android Kotlin版封装EventBus代码封装添加依赖库定义消息类定义常量值定义注解定义工具类 使用在Activity中在Fragment中发送事件 源码下载 Android Kotlin版封装EventBus 代码封装 添加依赖库 implementation("org.greenrobot:eventbus:3.3.1")定义消息…

AIGC从入门到精通

目录 1. 概述 2. 一键起飞 2.1 webui 2.2 基础用法​​​ 2.3 必装插件 2.4 Stable Diffusion WebUI Forge 2.5 ComfyUI 2.6 Fooocus 2.7 diffusers 3 LoRA 3.1 原理 3.2 训练流程和准备 3.3 上手训练 4. 深入原理 4.1 使用教程 4.2 原理 4.3 训练阶段 4.4 …

蓝桥杯刷题|03普及-真题

[蓝桥杯 2017 省 B] k 倍区间 题目描述 给定一个长度为 N 的数列,​,,⋯,如果其中一段连续的子序列 ​,,⋯ (i≤j) 之和是 K 的倍数,我们就称这个区间 [i,j] 是 K 倍区间。 你能求出数列中总共有多少个 K 倍区间吗? 输入格式 …

Unix运维_FreeBSD-13.1临时环境变量设置(bin和include以及lib)

Unix运维_FreeBSD-13.1临时环境变量设置(bin和include以及lib) 在 FreeBSD 系统上设置用户环境变量可以通过编辑用户的 Shell配置文件 来实现。 cshrc 与 csh_profile 的区别: cshrc: 每个脚本执行前都执行一遍这个脚本。 csh_profile: 根据不同使用者用户名, 会先去其 home…

unity专题(1)背景图片的设置

众所周知,游戏是需要背景图片的。 假如说,我们下载了一个标准的1920*1080的背景图片,现在我们需要把他放游戏里并填满窗口,怎么做呢? 第一步、导入图片 直接将图片拖到Project窗口下的Assets目录,就算成…

Spark 3.5.0 特性速览

介绍 Spark 3系列已经发布了第六版3.5.0,目前最新3.5.1。 使用最广泛的大数据可扩展计算引擎。数以千计的公司,包括 80% 的财富 500 强企业,都在使用 Apache Spark。来自业界和学术界的 2000 多名开源项目贡献者。 Apache Spark 3.5.0 是…

抖音视频爬虫提取工具界面|视频批量下载软件

抖音视频爬虫界面解析 一:概述 抖音视频爬虫是一款功能强大的工具,主要提供关键词批量提取视频和单独视频提取的功能,并支持提取后的视频下载操作。 二:功能解析 2.1:关键词批量提取视频的解析 用户可以通过输入关键…

c++分数计算器

定制魏:QTWZPW,获取更多源码等 目录 题目与要求 类声明 构造函数 核心算法实现说明 效果测试 加法测试 减法测试 乘法测试 ​编辑 除法测试 总结 完整代码 题目与要求 定义一个整数类。 定义一个分数类,由整数类派生。能对分数进行各种计算和输入/输出。 (1)定…

压敏电阻的工艺结构原理及选型参数总结

🏡《总目录》 目录 1,概述2,工作原理3,结构特点3.1,材料特性3.2,芯片结构3.3,封装结构4,工艺流程4.1,材料准备4.2,制备电极4.3,陶瓷材料涂布4.4,高温烧结5,选型参数5.1

Kotlin中单例模式和Java的对比浅析

前言 单例模式,一直以来是我们在日常开发中最常用的一种设计模式,更是面试中非常重要,也非常容易被问到的问题。在日常开发中,大家常用的语言还是Java,但今天我给大家带来的是在Kotlin语言中,单例模式是怎…

计算机服务器中了faust勒索病毒怎么办?Faust勒索病毒解密工具流程

在科技技术飞速发展的今天,网络计算机技术也得到了极大发展,为企业的生产运营提供了极大便利,越来越多的企业利用网络开展各项工作业务,许多企业离开了网络几乎很难运转,这也导致了企业越来越重视网络安全问题。近日&a…

第二证券策略:股指预计维持震荡格局 关注汽车、半导体等板块

第二证券指出,方针组合拳齐下,商场蓄势待起,短期指数或向上挑战3100点,低位业绩板块、叠加AI或是3月商场主要出资主线,尽管商场情绪高涨,但不主张情绪化追涨,究竟上方还有压制,放量打…

2024.3.19

1.哈希表 代码: #include"hash.h"//申请结点 node_p create_node(int data) {node_p new (node_p)malloc(sizeof(node));new->data data;return new; } //存入哈希表 void insert(node_p H[],int key) {//数据要存入哈希表中指定下标的位置int i …

【Mysql数据库基础03】分组函数(聚合函数)、分组查询

分组函数(聚合函数)、分组查询 1 分组函数1.1 简单的使用1.2 是否忽略null值1.3 和关键字搭配使用1.4 count函数的详细介绍1.5 练习 2 分组查询Group by2.1 简单的分组查询2.2 练习 3 格式投票:yum: 1 分组函数 1.1 简单的使用 COUNT(expression):计算符…

《C++新经典对象模型》之第6章 对象构造语义学

《C新经典对象模型》之第6章 对象构造语义 6.1 继承体系下的对象构造6.1.1 对象的构造顺序6.1.2 虚函数6.1.3 构造函数中对虚函数的调用06.01.cpp 6.2 对象复制语义学与析构函数语义学6.2.1 对象的默认复制行为6.2.2 拷贝赋值运算符与拷贝构造函数6.2.3 禁止对象的拷贝构造和赋…

一维小波包的分解与重构程序深入学习——Matlab

绘制上述图的matlab程序为: clear all; close all; load noisdopp; xnoisdopp; wptwpdec(x,3,db1,shannon) %返回小波包树,设置采用的熵为shannon plot(wpt); %% 学习目标:一维小波包的分解和重构深入学习 %% 获取小波树上某个节点的小…

代码随想录day21(1)二叉树:平衡二叉树(leetcode110)

题目要求:判断一棵树是否为平衡二叉树 思路:递归地比较左右子树,只要有一棵子树不满足条件就说明这棵树不是平衡二叉树。本题采用迭代法较为复杂。 leetcode实战: 代码实现: 递归: 迭代:

python失物招领系统-安卓-flask-django-nodejs-php

对于本失物招领 的设计来说, 它是应用mysql数据库、安卓等技术动态编程以及数据库进行努力学习和大量实践,并运用到了 建设中在整个系统的设计当中,具体根据网上失物招领的现状来进行开发的,具体根据用户需求实现网上失物招领网络…

Java 设计模式系列:行为型-状态模式

简介 状态模式(State Pattern)是一种行为型设计模式,允许一个对象在其内部状态改变时改变其行为。状态模式中类的行为是由状态决定的,在不同的状态下有不同的行为。 状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂…