【T5中的激活函数】GLU Variants Improve Transformer

【mT5中的激活函数】GLU Variants Improve Transformer

  • 论文信息
    • 阅读评价
  • Abstract
  • Introduction
  • Gated Linear Units (GLU) and Variants
  • Experiments on Text-to-Text Transfer Transformer (T5)
  • Conclusion

论文信息

名称内容
论文标题GLU Variants Improve Transformer
论文地址https://arxiv.org/abs/2002.05202
发表时间2020-02-12
研究领域NLP, 激活函数, FNN
提出方法GEGLU(激活函数)

阅读评价

  论文在各种激活函数之间做了对比实验,探究应用不同激活函数的FNN对T5模型的影响。最终GEGLU效果最好。

  个人感受:只能说太细了!真是不给其他人一点活路,连激活函数他都要做个实验取个最好的。


  以下是对论文每个部分的简单介绍。

Abstract

  门控线性单元(Gated Linear Units, GLU)由两个线性投影的分量乘积组成,其中一个投影首先通过sigmoid函数。对于GLU中的激活函数,也是调参中的一个点。论文在FFN中应用了GLU的一些变体,发现其中一些变体的质量优于通常使用的ReLUGELU激活。

Introduction

  介绍了四种基于不同激活函数的FFN。

  Transformer 论文中提出的前馈网络(Feed-Forward Network, FNN)是一个两层的全连接神经网络,它在 Transformer 模型中起到了重要的作用。这个网络的结构是:

F F N ( x , W 1 , W 2 , b 1 , b 2 ) = m a x ( 0 , x W 1 + b 1 ) W 2 + b 2 FFN(x, W_1, W_2, b_1, b_2) = max(0, xW_1 + b_1)W_2 + b_2 FFN(x,W1,W2,b1,b2)=max(0,xW1+b1)W2+b2

  其中, x x x 是输入, W 1 W_1 W1 W 2 W_2 W2 是权重矩阵, b 1 b_1 b1 b 2 b_2 b2 是偏置向量。这个公式首先通过一个线性变换 x W 1 + b 1 xW_1 + b_1 xW1+b1,然后通过ReLU激活函数,最后再通过另一个线性变换 W 2 W_2 W2 和偏置 b 2 b_2 b2

  在 T5 论文中,作者对前馈网络进行了一些调整,取消了偏置项。这样做的目的是为了简化模型和提高训练效率。调整后的前馈网络结构是:

F F N R e L U ( x , W 1 , W 2 ) = m a x ( 0 , x W 1 ) W 2 FFN_{ReLU}(x, W_1, W_2) = max(0, xW_1)W_2 FFNReLU(x,W1,W2)=max(0,xW1)W2

  这个公式中,去掉了偏置项 b 1 b_1 b1 b 2 b_2 b2,只保留了ReLU激活函数和两个权重矩阵。

  除了ReLU激活函数,还有一些其他的激活函数被用于前馈网络中。例如,基于高斯误差函数的激活函数GELU可以用于前馈网络,其结构是:

F F N G E L U ( x , W 1 , W 2 ) = G E L U ( x W 1 ) W 2 FFN_{GELU}(x, W_1, W_2) = GELU(xW_1)W_2 FFNGELU(x,W1,W2)=GELU(xW1)W2

  GELU激活函数可以更好地模拟神经网络的随机正则化行为,从而提高模型的性能。

  另一个被用于前馈网络的激活函数是SwishSwish激活函数是一个自门控的激活函数,它可以自动调节每个神经元的输出。基于Swish激活函数的前馈网络结构是:
F F N S w i s h ( x , W 1 , W 2 ) = S w i s h ( x W 1 ) W 2 FFN_{Swish}(x, W_1, W_2) = Swish(xW_1)W_2 FFNSwish(x,W1,W2)=Swish(xW1)W2

  Swish激活函数在某些情况下可以提高神经网络的性能,因此在设计前馈网络时,可以根据具体的应用场景选择合适的激活函数。

【注】为什么FNN里面要有激活函数?
————————————
答:1)提供非线性拟合能力,没有激活函数的模型只是线性层的累加。2)部分激活函数如ReLU能够缓解梯度消失问题,加快模型速度。

Gated Linear Units (GLU) and Variants

  GLU的公式为:

G L U ( x , W , V , b , c ) = σ ( x W + b ) ⊗ ( x V + c ) GLU(x, W, V, b, c) = σ(xW + b) ⊗ (xV + c) GLU(x,W,V,b,c)=σ(xW+b)(xV+c)

  在GLU的基础上,取消激活函数,称之为BilinearBilinear公式为:

B i l i n e a r ( x , W , V , b , c ) = ( x W + b ) ⊗ ( x V + c ) Bilinear(x, W, V, b, c) = (xW + b) ⊗ (xV + c) Bilinear(x,W,V,b,c)=(xW+b)(xV+c)

  因此在GLU的基础上,作者认为可以产生以下变体:

R e G L U ( x , W , V , b , c ) = m a x ( 0 , x W + b ) ⊗ ( x V + c ) G E G L U ( x , W , V , b , c ) = G E L U ( x W + b ) ⊗ ( x V + c ) S w i G L U ( x , W , V , b , c , β ) = S w i s h β ( x W + b ) ⊗ ( x V + c ) ReGLU(x, W, V, b, c) = max(0, xW + b) ⊗ (xV + c) \\ GEGLU(x, W, V, b, c) = GELU(xW + b) ⊗ (xV + c) \\ SwiGLU(x, W, V, b, c, β) = Swishβ(xW + b) ⊗ (xV + c) ReGLU(x,W,V,b,c)=max(0,xW+b)(xV+c)GEGLU(x,W,V,b,c)=GELU(xW+b)(xV+c)SwiGLU(x,W,V,b,c,β)=Swishβ(xW+b)(xV+c)

  基于上述的激活函数,产生以下FNN变体:

F F N G L U ( x , W , V , W 2 ) = ( σ ( x W ) ⊗ x V ) W 2 F F N B i l i n e a r ( x , W , V , W 2 ) = ( x W ⊗ x V ) W 2 F F N R e G L U ( x , W , V , W 2 ) = ( m a x ( 0 , x W ) ⊗ x V ) W 2 F F N G E G L U ( x , W , V , W 2 ) = ( G E L U ( x W ) ⊗ x V ) W 2 F F N S w i G L U ( x , W , V , W 2 ) = ( S w i s h 1 ( x W ) ⊗ x V ) W 2 FFN_{GLU}(x, W, V, W_2) = (σ(xW ) ⊗ xV )W_2\\ FFN_{Bilinear}(x, W, V, W_2) = (xW ⊗ xV )W_2\\ FFN_{ReGLU}(x, W, V, W_2) = (max(0, xW ) ⊗ xV )W_2\\ FFN_{GEGLU}(x, W, V, W_2) = (GELU(xW ) ⊗ xV )W_2\\ FFN_{SwiGLU}(x, W, V, W_2) = (Swish_1(xW ) ⊗ xV )W_2 FFNGLU(x,W,V,W2)=(σ(xW)xV)W2FFNBilinear(x,W,V,W2)=(xWxV)W2FFNReGLU(x,W,V,W2)=(max(0,xW)xV)W2FFNGEGLU(x,W,V,W2)=(GELU(xW)xV)W2FFNSwiGLU(x,W,V,W2)=(Swish1(xW)xV)W2

Experiments on Text-to-Text Transfer Transformer (T5)

在这里插入图片描述

图1 基于不同FNN的T5模型在段落填充任务上的困惑度

  如图1,GEGLUSwiGLU表现最好。

在这里插入图片描述

图2 基于不同FNN的T5模型在GLUE任务上的结果

  如图2,GLU家族表现最好。

在这里插入图片描述

图3 基于不同FNN的T5模型在SuperGLUE任务上的结果

  如图3,GLU家族表现最好。

Conclusion

【注】建议读下这部分的原文,乐死。以下是原段落:

We have extended the GLU family of layers and proposed their use in Transformer. In a transfer-learning setup, the new variants seem to produce better perplexities for the de-noising objective used in pre-training, as well as better results on many downstream language-understanding tasks. These architectures are simple to implement, and have no apparent computational drawbacks. We offer no explanation as to why these architectures seem to work; we attribute their success, as all else, to divine benevolence(上帝的仁慈).

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/792258.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

flutter获取手机中的系统路径信息

https://www.bilibili.com/video/BV1wE421g7sw获取系统中的路径 获取系统中的路径,并在这个路径中创建一个文本文件【str.txt】 然后进行写入【str.txt】 再读取这个文件【str.txt】 手机没有开通root权限无法看到写入到【应用程序文档目录】路径中的文件 用来…

MySQL故障排查与优化

一、MySQL故障排查 1.1 故障现象与解决方法 1.1.1 故障1 1.1.2 故障2 1.1.3 故障3 1.1.4 故障4 1.1.5 故障5 1.1.6 故障6 1.1.7 故障7​ 1.1.8 故障8 1.1.9 MySQL 主从故障排查 二、MySQL优化 2.1 硬件方面 2.2 查询优化 一、MySQL故障排查 1.1 故障现象与解决方…

【考研经验贴】24考研860软件工程佛系上岸经验分享【丰富简历、初复试攻略、导师志愿、资料汇总】

😊你好,我是小航,一个正在变秃、变强的文艺倾年。 🔔本文讲解24考研860软件工程佛系上岸经验分享【丰富简历、初复试攻略、导师志愿、资料汇总】,期待与你一同探索、学习、进步,一起卷起来叭! 目…

玩转C语言——文件操作、预处理、编译、链接

前言: 经过前面的学习,我们已经对C语言的语法学习完毕了,今天,我们这节内容是为了修炼内功,为以后的学习打下一个坚实基础。话不多说,开始我们今天的学习吧! 一、文件操作 1.⼆进制⽂件和⽂本⽂…

一文了解低功耗蓝牙BLE

低功耗蓝牙技术可以构建两种类型的设备:双模设备和单模设备。双模设备既支持经典蓝牙又支持低功耗蓝牙。单模设备只支持低功耗蓝牙。还有仅支持经典蓝牙的设备。 在链路层,设备被分为广播者、扫描者、从设备和主设备。广播者是传输数据包的设备,扫描者是接收广播者的数据包…

C语言 | Leetcode C语言题解之第10题正则表达式匹配

题目: 题解: bool isMatch(char* s, char* p) {int m strlen(s);int n strlen(p);// dp[i][j] 表示 s 的前 i 个字符和 p 的前 j 个字符是否匹配bool dp[m 1][n 1];memset(dp, false, sizeof(dp));dp[0][0] true; // 空字符串和空模式匹配// 处理 …

00-JAVA基础-javassist字节码操作

字节码操作 什么是字节码 Java字节码(Java bytecode)是Java虚拟机(JVM)执行的一种虚拟指令格式。它是由Java编译器生成的,基于栈的指令集,用于在Java虚拟机上执行。字节码文件包含了JVM能够识别的指令&am…

【JSON2WEB】 12基于Amis-admin的动态导航菜单树

【JSON2WEB】01 WEB管理信息系统架构设计 【JSON2WEB】02 JSON2WEB初步UI设计 【JSON2WEB】03 go的模板包html/template的使用 【JSON2WEB】04 amis低代码前端框架介绍 【JSON2WEB】05 前端开发三件套 HTML CSS JavaScript 速成 【JSON2WEB】06 JSON2WEB前端框架搭建 【J…

Flume 拦截器概念及自定义拦截器的运用

文章目录 Flume 拦截器拦截器的作用拦截器运用1.创建项目2.实现拦截器接口3.编写事件处理逻辑4.拦截器构建5.打包与上传6.编写配置文件7.测试运行 Flume 拦截器 在 Flume 中,拦截器(Interceptors)是一种可以在事件传输过程中拦截、处理和修改…

FreeRtos入门-4 事件组与同步点

事件组 事件组 同步点 创建 xEventGroupCalc xEventGroupCreate();//1&#xff0c;创建事件组 xEventGroupSyc xEventGroupCreate() 设置 xEventGroupSetBits(xEventGroupCalc,(1<<0));//设置事件组bit0 位 xEventGroupSync(xEventGroupSyc,BUSYING,ALL,portMAX…

VB 通过COM接口解析PSD文件

最近有PS测评的需求&#xff0c;故而想到了解析psd文件&#xff0c;目的就是为了获取文档信息和图层信息&#xff1b;获取PS的图像信息有很多方式&#xff0c;有过程性的&#xff0c;比如监听PS的各种操作事件&#xff1b;有结果性的&#xff0c;比如本文写的解析PSD文件。 0.…

使用pip安装geopandas(24.4更新)

geopandas是我们用Python进行地理分析常用的库&#xff0c;在数据处理、分析、制图等场景中有着极为广泛的应用&#xff0c;但是在安装过程中会出现各种问题。​geopandas的安装方式有很多&#xff0c;今天我们选取较为简单的pip来进行geopandas的安装。 ​首先&#xff0c;我…

内部类(InnerClass)

概述 什么是内部类 将一个类A定义在另一个类B里面&#xff0c;里面的那个类A就称为内部类&#xff08;InnerClass&#xff09;&#xff0c;类B则称为外部类&#xff08;OuterClass&#xff09;。 为什么要声明内部类呢 具体来说&#xff0c;当一个事物A的内部&#xff0c;还有…

Java web第一次作业

1.学会用记事本编写jsp文件&#xff0c;并放进tomcat的相关目录下&#xff0c;运行。 源代码&#xff1a; <% page contentType"text/html;charsetUTF-8" language"java" %> <html> <head> <title>我的第一个JSP页面</ti…

JavaSE——运算符

1. 概念 运算符是一种用于执行特定操作的符号或关键字。在编程中&#xff0c;运算符用于对变量、常量和表达式进行操作&#xff0c;以产生一个结果。 作为一门计算机语言&#xff0c; Java 也提供了一套丰富的运算符来操纵变量。 Java 中运算符可分为以下&#xff1a;算术运算…

电商系列之促销

> 插&#xff1a;AI时代&#xff0c;程序员或多或少要了解些人工智能&#xff0c;前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到网站。 坚持不懈&#xff0c;越努力越幸运&#xff0c;大家…

算法沉淀——动态规划篇(子数组系列问题(下))

算法沉淀——动态规划篇&#xff08;子数组系列问题&#xff08;下&#xff09;&#xff09; 前言一、等差数列划分二、最长湍流子数组三、单词拆分四、环绕字符串中唯一的子字符串 前言 几乎所有的动态规划问题大致可分为以下5个步骤&#xff0c;后续所有问题分析都将基于此 …

CSS之第一个CSS样式和CSS选择符

前端这些博客&#xff0c;我觉得都是固定的语法&#xff0c;故而不会以过多的文字进行描述&#xff0c;本系列博文均以实例和代码介绍的方式进行&#xff0c;主要按照代码进行。不会以过多的文字描述。 第一个CSS样式 <!DOCTYPE html> <html lang"en">…

【JavaEE初阶系列】——文件操作 IO 之 文件系统操作

目录 &#x1f4dd;认识文件 &#x1f6a9;树型结构组织 和 目录 &#x1f388;绝对路径和相对路径 &#x1f6a9;文件类型 &#x1f4dd;文件系统操作 &#x1f388;File 概述 &#x1f388;File类的使用 1. 绝对路径 vs 相对路径 2. 路径分隔符 3. 静态成员变量 4…