文 | ????????????????

自然语言处理实在是太难啦！中文尤其难！

相比于英文，中文是以词作为语义的基本单位的，因此传统的中文 NLP 都需要先进行分词。分词这步就劝退了很多人，比如“研究生活很充实”，怎么让模型分出“研究|生活”，而不是“研究生”呢？

随着预训练模型的到来，中文模型通常直接用字作为输入。甚至 19 年的一篇 ACL[1] 给出结论：基于“字”的模型要好于基于“词”的模型。但是，中文是以词作为语义的基本单位的呀，忽略这种粗粒度的信息，真的合理吗？

今天这篇发表在 NAACL 2021 的文章就让 BERT 在预训练中学到了字和词的信息，在自然语言理解的多个任务上，相对字级别的模型取得了性能提升，轻松摘得 SOTA。以后做中文任务想要刷分，可以直接拿来换掉自己的 BERT。

这篇文章为了让 BERT 学到字和词的信息，解决了三个问题：

怎么将字和词的信息融合，送入 BERT？
字和词有重叠，位置编码怎么设计？
在 MLM 任务上，怎么才能同时将字和词的信息都 mask 掉？

下面就来看看这篇文章的解决办法吧~

论文题目:
Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models
论文链接:
http://arxiv-download.xixiaoyao.cn/pdf/2104.07204v1.pdf
代码地址：
https://github.com/alibaba/AliceMind/tree/main/LatticeBERT

方法

词格输入

为了解决问题 1，本文是将词格（word lattice）输入 BERT。

中文的词格图（lattice graph）是一个有向无环图，包含了句子里字和词的所有信息。以“研究生活很充实”这句话为例，词格如下图所示：

读到这里可能会有人疑惑了：BERT 只能处理序列呀？这样的有向无环图该怎么被 BERT 处理呢？简单！这篇文章直接将词格图中各粒度的信息“拍平”，得到一个线性序列，作为 BERT 的输入。其中的每一项无论是字还是词，我们都称为 token：

词格注意力机制

“拍平”词格的输入，就会造成不可避免的重复和冗余，那么对于位置编码，该怎么适应呢？另外，在“拍平”之后，原先二维的复杂图结构信息就会有所损失，怎样避免图结构的损失呢？为了解决问题 2，这篇文章又设计了新的词格注意力机制。

对于字级别的 BERT，计算 attention map 可以表达为两个字向量的内积：

其中分别是第和个字在第层的表示。字级别 BERT 中，位置编码是在输入时，直接加到字的表示中的：

然而，很多工作 [2] 表明，这种在输入中混合位置编码的方式比较粗糙。在计算 attention map 时，将位置编码与字的表示解耦，专门设计一个位置编码的函数，会是一个更好的选择：

这里就是关于两个字的位置编码的函数。本文也采取了这一类方法。具体地，attention map 可以通过四项相加的方式得到：

第一项是字的表示得到的 attention score，后面三项都是与位置编码相关的，下面我就来一一介绍~

绝对位置编码

绝对位置编码表示了 token 在句子中的位置。式子里的表示当前输入 token 的开始位置，表示结束的位置。这个式子就表示将 token 的起始位置的绝对位置编码拼接，进行 attention 操作。

这一项可以说是对原始 BERT 中的位置编码的复刻，并适应了词格的输入。因为词格输入的每一项长度是不固定的，引入头尾位置也是自然的想法。

然而，绝对位置编码是有缺陷的：在理论上，我们对绝对位置编码的限制只有一点，即不同位置的编码不同。但这样就忽略了很多信息，比如，位置 1 和 2 的距离与位置 5 和 6 的距离应该一样，位置 1 和 3 的距离比位置 4 和 10 的距离要小，等等。在绝对位置编码的设计里，我们只能让 BERT 隐式地“学习”。

相对位置编码

因此，这篇文章也引入了相对位置编码，来表示 token 之间的相对距离。式子右边每一项都代表两个 token 的起始位置之间的相对距离，例如，表示两个 token 的起始位置之间的相对距离的表示。引入了相对位置编码，模型就可以建模更长的文本。

层叠关系编码

表示两个 token 之间的层叠关系。根据这两个 token 起始相对位置的不同，两个 token 可以分成下列七种关系：

具体来说，这七种关系为：

自身
在左边，且无重叠
在左边，且有重叠
包含关系
被包含关系
在右边，且有重叠
在右边，且无重叠

将 token 之间的关系分成以上七种，就可以显式地表示词格图中的复杂的二维关系。之前“拍平”词格图时削弱的信息，在这里又找回来了。

预训练任务：整段预测

最后一个问题：原来的 MLM 任务在词格输入的形式上，似乎并不适用。

还是用“研究生活很充实”来举个例子。这句话的词格输入将是这样：

研究生活研究研究生生活很充实充实

词格的输入带来了冗余，在 MLM 任务中，我们随机 mask 掉一些 token，是希望通过其上下文预测这些 token。但是在词格输入里，比如我们随机 mask 掉了“研究”，但是模型会直接通过前面的“研”“究”和后面的“研究生”来预测这个 mask token，这样走捷径，最终一定得不到好结果。

于是，这篇文章设计了整段预测任务（masked segment prediction）：在词格图中，一句话将被切成多个段（segment），每个段之间不会有重叠的 token，同时也要使段的长度最小。“研究生活很充实”这句话就可以切成下图的三段：

在整段预测任务中，直接 mask 掉一段里的所有 token，并预测这些 token。这样就可以避免输入的冗余让模型“作弊”。

实验

这篇文章使用句子里所有可能的词来构建词格图，这样尽管会带来错误的分词，但是让模型自己学习降噪，还能提升模型的鲁棒性。

这篇文章在 11 个任务上进行了实验，11 个任务包括:

6 个文本分类任务：长文本分类、短文本分类、关键词提取、指代消解、自然语言推断和文本匹配；
2 个序列标注任务：分词和命名实体识别；
3 个问答任务：机器阅读理解（答案段选取）、选择题、完形填空。

总体性能如下图所示：

其中，RoBERTa 是哈工大的 roberta-base-wwm-ext；NEZHA 是最好的字级别中文预训练模型，来自华为诺亚方舟研究院；AMBERT 是曾经多粒度中文预训练模型的 SOTA，是字节跳动李航组的工作；BERT-word 是使用词作为输入的 BERT；LBERT 是本文的方法；BERT-our 是本文使用相同语料重新预训练的 BERT。

可以发现，LBERT 优于所有字级别的预训练模型，并在 7/11 个任务上取得 SOTA。

LBERT 在哪里强于字级别的 BERT 呢？作者对预测结果进行分析，得到如下结论：

在短文本分类任务上，LBERT 在更短的样本上有更大的性能提升，作者认为，词格输入的冗余信息为短文本提供了更丰富的语义信息；
在关键词提取任务上，LBERT 在词级别的关键词上性能提升更高，作者认为 LBERT 从词格输入中，理解了关键词的语义；
在命名实体识别任务上，LBERT 在重叠实体的样本上减少了 25% 的错误，这是词格输入带来的天然优势；

LBERT 是怎么运用多粒度的信息呢？作者对注意力分数进行了可视化，还用“研究生活很充实”这句话为例：

图中的三行分别为：

在预训练结束后，模型会关注句子的各个部分；
在命名实体识别任务上 fine-tune 之后，模型更关注“研究”“生活”“很”“充实”，这与正确的分词结果是一致的，对命名实体识别任务也是非常关键；错误分词的“研究生”就没有得到注意力；
在文本分类任务上 fine-tune 之后，模型更关注“研究生”“生活”“充实”，尽管这些词不能在一套分词中同时存在，但是对分类都是有用的。

总结

这篇文章解决了三个问题：

怎么输入？使用词格（lattice）作为 BERT 的输入；
位置编码？设计了词格注意力机制（lattice position attention），使模型真正习得词格整张图的信息；
MLM？设计了整段掩码预测任务（masked segment prediction），避免模型从词格的多粒度输入中使用捷径。

这样一来，就能在 BERT 中融合字和词信息，也在多个任务上拿到 SOTA。

另外，这种词格的输入看上去也是优点多多：对于短文本的任务，词格输入可以作为一种信息的增强；对于和词相关的任务，输入的词能让模型更好的理解语义；对于抽取的任务，词格能帮助定位抽取的边界。

这里还延伸出一个问题：英文是不是也可以利用多粒度的信息呢？中文的预训练模型可以使用字和词的信息，相似地，英文就可以使用 subword 和 word 信息，这样是不是有效呢？

萌屋作者：????????????????
在北大读研，目前做信息抽取，对低资源、图网络都非常感兴趣。希望大家在卖萌屋玩得开心ヾ(=･ω･=)o
作品推荐
老板让我用少量样本 finetune 模型，我还有救吗？急急急，在线等！
谷歌：CNN击败Transformer，有望成为预训练界新霸主！LeCun却沉默了...

寻求报道、约稿、文案投放：
添加微信xixiaoyao-1，备注“商务合作”

后台回复关键词【入群】
加入卖萌屋NLP/IR/Rec与求职讨论群
后台回复关键词【顶会】
获取ACL、CIKM等各大顶会论文集！

[1] Yuxian Meng, et al., "Is Word Segmentation Necessary for Deep Learning of Chinese Representations?", ACL 2019, http://arxiv-download.xixiaoyao.cn/pdf/1905.05526.pdf