一、说明
DeFINE,是华盛顿大学和艾伦人工智能开发的自然语言处理工具,可以处理的范围是:NLP、语言模型、LM、神经机器翻译、NMT、变压器、变压器-XL等;本文对token-bedding进行生成。
借助DeFINE,Transformer-XL可以在低n维空间而不是高m维空间中学习输入(嵌入)和输出(分类)表示,从而显着减少参数,同时对性能的影响最小。
DeFINE:用于神经序列建模的深度分解输入令牌嵌入,
- 提出了一种具有新型跳跃连接的分层结构,允许使用低维输入和输出层,减少总参数和训练时间,同时提供与现有方法相似或更好的性能。
- DeFINE可以很容易地整合到新的或现有的序列模型中。
二、分层组转换(HGT)
使用N = 3的不同转换层学习令牌表示。(a) 线性变换 (b) 组线性变换 (GLT) (c) HGT
2.1. 动机和整体想法
- 大多数NLP研究使用浅层网络来学习令牌嵌入的良好近似。
- DeFINE,一种在高维空间中学习深度令牌表示的有效方法,只需最少的附加参数。
- 该方法基于Map-Expand-Reduce(MER)原理,首先将输入令牌映射到低维嵌入向量,然后使用计算高效的分层组变换(HGT)将其转换为高维空间。
- 然后将生成的向量转换为低维空间。
- 通过使用在输入层和输出层之间建立直接链接的新连接模式,促进要素重用并改进梯度流。
2.2. 映射-扩展-缩减 (MER)
- MER的第一步,Map,类似于标准序列模型。 词汇表V中的每个输入标记都映射到大小为n×1的固定维度向量ei。然而,在本文中,n的值很小(比如64或128,而典型的尺寸为400或更大)。
- 下一步 Expand,将 ei 作为输入并应用分层群变换 (HGT) 来生成大小为 k×1 的非常高维向量 ^ei,其中 k>>n。
- 最后一步Reduce将向量^ei投影到较低维空间,以生成给定输入令牌大小为m×1的最终嵌入向量eo。
- eo的尺寸可以与上下文表示模型(例如LSTM或变压器)相匹配,从而使DeFINE可以作为这些模型的输入层。
2.3. 分层组转换 (HGT)
- HGT由N层的堆栈组成。
- HGT 从第一层的 gmax 组开始,然后在每个级别将组数减少 2 倍。
- (群线性变换(GLT)最初是为了提高LSTM的效率而引入的,也稀疏了全连接层中的连接,如上所示。然而,某个组的输出仅来自输入的一小部分,因此学习弱表示。
- 形式上,在 HGT 中,第 l 层从 ei 到 ^ei 的转换为:
- 哪里:
- Wl 是在第 l 层学习的权重,FG 是群变换函数。
- 组变换将输入拆分为 g 组,每个组都使用线性变换独立处理。然后将这些组的输出连接起来以产生最终输出。
三. DeFINE的单元
N = 2 的 DeFINE 单元,它使用 HGT 有效地学习输入令牌表示,并与输入直接连接以最大化信息流。
- DeFINE单元由HGT变换组成。
- 使用一个简单的新跳过连接,在 HGT 中的任何层与输入 ei 之间建立直接链接,如上所述。
- 输入和输出使用拆分层分块到 gl 组中。然后混合分块的输入和输出向量。
此机制可有效地促进输入要素重用。此外,它还与输入 ei 建立直接链接,允许梯度通过多条路径回流到输入,从而提高性能。
- 输入令牌和 DeFINE 单元 (eo) 输出之间的映射可以使用查找表进行缓存,从而产生一种允许在推理时跳过 DeFINE 单元计算的机制。
堆叠转换层 FG(第 A.1 节)的不同方法,用于学习深度令牌表示。
- 此图总结了具有不同设置的不同体系结构。
四、 结果
4.1. LSTM 模型
基于RNN的语言模型在WT-103和PTB数据集上的性能。
- (a):所提出的方法进一步提高了约3分的性能,同时只学习了1.25%(或0万个)的参数。
(b):DeFINE的深度从3层缩放到11层。性能进一步提高了 6 个百分点,为具有更少参数的现有基于 RNN 的方法提供了有竞争力的性能(例如,参数是 Merity 等人 (1a) 的 3/2018)。
- (c):所提出的方法将AWD-LSTM的性能提高了4个百分点,同时减少了4万个参数。
4.2. 变压器模型
Transformer-XL在Wikitext-103数据集上的性能。DeFINE 用于 N = 3、k = 4096 和 m = 384。
- 所提出的方法能够获得与Dai等人(2019)相似的性能,同时学习的参数减少了10M。
带有DeFINE的变压器XL能够实现与具有投影嵌入的标准变压器-XL相当的困惑度,同时使用的参数明显更少。
4.3. 机器翻译
基于变压器的模型(有和没有DeFINE)在神经机器翻译任务上的结果。
不同因子分解方法的不同序列模型的性能比较。 对于语言建模,性能是通过困惑来衡量的;对于机器翻译,使用 BLEU。
- OpenNMT用于变压器模型训练。
DeFINE将无检查点平均值的变压器模型的性能提高了2%,同时将参数总数减少了26%,这表明DeFINE是有效的。
4.4. 进一步分析和消融
Transformer-XL中使用的不同嵌入层的相关图(m×m),在WikiText-128上n = 384和m = 103。
DeFINE能够有效地近似标准嵌入矩阵。
Transformer-XL使用 不同分解方法的性能,有和没有Shu&Nakayama(2017)的压缩方法。
DeFINE 嵌入可以像标准嵌入一样压缩,而不会损失性能。
WikiText-103数据集上不同变换之间的比较。
左:HGT将困惑度提高了约5分,同时学习了与GLT相似数量的参数。
右:此外,当使用直接连接时,性能进一步提高了 2.9 点。
缩放深度和宽度对WT-103的影响。
对于相同的 k 值,语言模型的性能随着深度 N 的增加而提高。但是,当我们缩放深度 N 的固定值的宽度 k 时,性能并没有提高。
WT-103上的不同设置:(a)不同跳跃连接的影响。(b) 减少市面汇率作业的影响
左图:提议的跳过连接更有效。
右:有和没有这个归约步骤的性能是相似的,但是,没有归约步骤的模型会学习更多的参数。
作者认为,ELMo和BERT等预训练语言模型架构可以从整合DeFINE中受益,以提高效率和性能。