如何计算给定一个unigram语言模型_CS224n笔记[5]:语言模型（LM）和循环神经网络（RNNs）...

CS224n笔记[5]:语言模型（LM）和循环神经网络（RNNs）

作者：郭必扬

许久没更新了，十分惭愧，翻了翻之前的笔记，才之前上一期我们讲的是“依存分析”。本期，我们介绍一下语言模型（Language Model）和循环神经网络（RNNs）的基本知识。

语言模型

语言模型（language models）是NLP的基础技术之一，这个名字听起来总是很玄乎，又因为其不想文本分类、实体识别这些技术这么常用，导致包括我在内的很多人一直对这个玩意儿一知半解。所以今天我们就来一起跟着CS224N网课把这个概念搞清楚。

理解玄乎的理论的最佳方法，就是记住它的一些经典的具体应用。语言模型最典型的应用就是“输入法联想”。比如我在搜狗输入法里写一个“我”，输入法会给我推荐几个词：“女朋友”、“刚刚”、“的”等等。

为啥会推荐这些词呢，可能是搜狗对我曾经输入过的成百上千句话训练过语言模型，知道了我输入“我”之后，很大概率会接着输入“女朋友”，也有很大概率输入“刚刚”，因此输入法就把这些词给排到了前面。在一些社交平台上，我们也会经常玩一个游戏：“给定一个初始词，不断通过自己输入法的联想词来造句，看看会造出什么句子来”，往往我们发现可以构成一个完整的说得通的句子，甚至还能暴露出我们个人的一些习惯。

这些我们每天都在使用的功能，实际上都在默默地使用语言模型的技术。下面我们来给语言模型下一个定义。

语言模型其实可以从两个角度去理解，因此我们给出两种定义：

❝ 定义一：语言模型（LM）的任务就是预测一段文字接下来会出现什么词。
❞

即一个语言模型应该有能力计算下面这个公式的值：

翻译过来就是，在已知一句话的前t个词的基础上，通过LM可以计算出下一个词是某个词的概率。

❝ 定义二：语言模型（LM）给一段文本赋予一个概率。
❞

即对于一段文字

，LM可可以计算出这句话出现的概率：

其中

就是LM可以计算出来的。

所以回头看，这两种定义是一回事儿。

如何学习语言模型

首先再介绍一个概念：N-gram。所谓的N-gram，就是指一堆连续的词，根据这一堆词的个数，我们可以分为unigram,bigram,trigram等等。

如果我们需要得到一个N-gram的LM，它的意思就是希望我们可以通过N-1个词预测第N个词的概率。

那么如何学习得到一个N-gram的LM呢？一个直接的思路就是，我们可以收集关于语料中的各个N-gram出现的频率信息。

对于一个N-gram的LM，我们需要做一个假设：

❝ Assumption：某个词出现的概率只由其前N-1个词决定。
❞

比如我们想得到一个3-gram的LM，那么就是说想预测一段文本的下一个词是什么的话，只用看这个词前面2个词即可。

还是用输入法联想中的例子：

要根据“罗永浩是什么”的下一个字是什么，如果我们设定的是3-gram，则我们只使用图中蓝色的“什么”二字来预测，而不看前面黑色的字。

N-gram的LM用公式表达即为：

公式的第一个等式，就是使用了我们前面的假设，第二个等式就是条件概率的计算方法。 (2)式的分子就是代表这个由N个词构成的N-gram出现的概率，分母则是一个(N-1)-gram出现的概率。

如何计算得到这些概率值呢？————数它就完事儿了！我们就在语料中去count，用频率来估计这些概率。

「显然，由于这是一个分式，会有分母分子为0的可能，这些特殊情况是我们需要考虑的：」

比如分子，它为0的可能性其实很大，因为随机给定一个N-gram，它真的会在语料中出现的概率其实很小，多数可能都不存在，这个时候，我们就需要使用一个很小的数来补到分子上。

分母是一个(N-1)-gram，也很有可能不存在，导致分母为0，这个时候，我们就采用回退（back-off）的策略，转而统计(N-2)-gram的个数，N越小，其出现的概率实际上越大，所以不断回退，总可以找到不为0的情况。

通过上面的说明，我们发现学习一个N-gram的LM其实很简单，就是数数问题。数完了这些数儿，就得到了LM。但是从上面的分析过程，我们也不难发现这样得到的LM的一些严重问题：

「稀疏性问题」。我们前面提到过分子分母很容易为0，就是由于N-gram的稀疏性造成的，N越大，这种稀疏性的问题就越严重，很可能你统计的大多数N-gram都不存在。
「存储问题」。虽然这种基于计数的LM的很简单，但是我们必须穷举出预料中所有可能的N-gram，并逐一去计数、保存，N一旦大起来的话，模型的大小就会陡增。
N太大了会有过于稀疏、难以保存的问题，相反，N太小了，模型的预测「准确率」就会明显降低。

我们知道，语言模型最直接的用途，就是文本联想，和文本生成了。对于文本联想，这种基于计数的LM也不是不能用，毕竟联想出来的词确实在统计意义上是更加频繁的，所以用户直接感受不出它的缺点。

但对于文本生成来说，这种基于计数的LM则有很大问题了。这里拿CS224N的PPT上的一个例子来说明：

这段文字中高亮的"today the"是预先给定的文本，后面则是通过LM一个字一个字预测出来形成的文本。这段文本，牛逼之处在于，它的语法基本没啥错，可以我们读完之后，完全不知道在讲啥，因为它说着说着就说偏了，再说一会又偏了，导致整个文本没有一个清晰的主题。很明显，这里训练的LM采用的N-gram一定不大。但是N一大起来，训练起来又很困难。这就是基于计数的LM的困境。

不过，这玩意儿来做一个bullshit-generator还是挺不错的！

RNN和基于RNN的语言模型

前面讲到的基于计数的LM的缺点，主要就是由它的N-gram的N不能太大又不能太小的限制造成的。如果能有一个结构，可以处理任意长度的输入，而不是要固定一长度的话，那就可以解决这个问题了。

在这样的启发下，RNN被提出了。

一个经典的RNN结构可以这样表示：

RNN即循环神经网络，为何叫循环呢？因为不管RNN有多长，它实际上都是在「同一个神经网络中不断循环」，例如图中话的4个隐层神经网络，实际上都是同一个，因此他们的「权重都是一样」的，只是根据输入的不同，而产生不同的输出。

有了这样的结构，使得RNN具有以下这些优点：

可以处理任意长度的输入
模型的大小不随输入长度的增加而增大
后面步骤的处理过程可以利用到前面的信息
每一步具有相同的权重矩阵，使得网络可以利用不同输入的相似性

然而，RNN也有其缺点：

计算慢。这是由于它必须在处理完上一步后才能进行下一步的计算。
当输入过长的时候，难以捕捉长距离依赖。

当然，这些问题都是后话了，后面我们学习的GRU，LSTM乃至Transformer都是在不断改进RNN的种种缺点。

如何训练一个基于RNN的LM呢？

首先，我们收集一大批语料，这些语料是由很多个序列（句子、短语等等）组成的。我们把序列作为输入，输入到RNN网络中，每一步都可以得到一个输出，这个输出即为当前步的下一个词的概率分布。我们使用这个概率分布可以和真实的概率分布（其实就是一个one-hot向量）计算一个损失。明确了损失函数，我们就很容易去训练了。CS224N中的一张图描绘地很清晰：

一图胜前言，这里就不再赘述了。

训练好RNN了之后，如何进行文本生成呢？

输入一个词，每一步的输出都作为下一步的输入，这样就可以通过一个词不断进行文本生成了。

如何评价一个语言模型呢？

使用「Perplexity」(困惑度)：

这个公式计算出来的结果越大，就说明你这个模型越让人“困惑”，也就是不好了。

通过公式的变形，我们可以发现这个困惑度，等价于交叉熵损失函数：

所以，我们在优化RNN LM的时候，就是在使劲降低perplexity。

为何语言模型很重要

语言模型（LM）对于许多学习NLP的同学来说，是一个熟悉的陌生人，因为很多时候我们并不会去专门做一个语言模型，不像文本分类这种任务，任何学习NLP的同学都会去通过文本分类来练手。

但语言模型依然是十分重要的，主要体现在下面两个方面：

它是检测NLP模型是否理解了语言的一个基准任务（benchmark task）；
它是很多NLP任务的基础子模块，尤其是涉及到文本生成、文本联想的任务。例如输入法预测、拼写检查、语音识别、手写文字识别、机器翻译、摘要生成、写作风格鉴定等等。随着NLP学习的深入，我们会越来越发现LM的重要性。

>欢迎订阅我的Hello NLP系列文章（不断更新中）：

CS224n笔记[1]:Word2Vec从何而来
CS224n笔记[2]:Word2Vec算法推导&实现
CS224n笔记[3]:共现矩阵、SVD与GloVe词向量
CS224n笔记[4]:自然语言中的依存分析（Dependency Parsing）
CS224n笔记[5]:语言模型（LM）和循环神经网络（RNNs）
CS224n笔记[6]:更好的我们，更好的RNNs
CS224n笔记[7]:机器翻译和seq2seq>我的其他高赞文章，总有一款是你的菜：

何时能懂你的心——图卷积神经网络（GCN）
GraphSAGE：我寻思GCN也没我牛逼
【DL笔记8】如果你愿意一层一层剥开CNN的心
【DL笔记6】从此明白了卷积神经网络（CNN）
一条龙搞定情感分析：文本预处理、加载词向量、搭建RNN
Docker，救你于「深度学习环境配置」的苦海>更多精彩，欢迎订阅我的公众号：SimpleAI