神经网络语言模型
- 使用神经网络的方法,去完成语言模型的两个问题,下图为两层感知机的神经网络语言模型:
- 假设词典V内有五个词:
“判断”、“这个”、“词”、“的”、“词性”
,且要输出P(w_next | “判断”、“这个”、“词”、“的”)的概率,即要解决哪一个词放在这句话后面的概率最大的问题。 - 输入为:W1、W2、W3、W4(前四个单词的独热编码),分别乘随机矩阵,再将结果拼接起来得到C,如下:
- 再经过两层隐藏层,最后通过一个softmax函数,得到输出结果为词库中所有词,分别填在这个位置的概率。得出最大概率的就是最后一个词“词性”,如下:
词向量
- 用一个向量表示一个单词,独热编码也属于词向量,但是独热编码有两个缺点:尺寸大,不好计算相似度。
- 但是词向量通过随机矩阵Q可以解决这两个缺点。
- 获得词向量的过程如下:
- 假设c1的计算过程如下:
- 由于之前我们拿独热编码来表示单词,但是我们将独热编码乘Q(随机矩阵)得到的一个向量,也可以表示这个单词
- 且由于我们的Q矩阵是一个参数,可以学习,即随着模型训练的越来越好,通过Q得到的向量也就越能准确的代表这个单词。
- 同时我们可以通过矩阵Q来控制输出向量的大小
- 如上图,c1就是“判断”这个词的词向量
- 同时,由于两个词的独热编码之间不好计算相似度(有很多0),如采用余弦相似度,结果也为0。但是我们转换成词向量后,结果不再是0,那么就可以一定程度上描述两个词之间的相似度,例如下图:
以下为预备知识
单层感知机
- 单层感知机是一个线性模型,可以用下图来表示:输入经过全连接层(可以有一层或多层,但是多层线性函数最后可以看作是一层线性函数)得到输出,即Y=Wx+b
- 线性层 / 全连接层 / 稠密层:最好叫他为全连接层,因为有时层内会包含非线性函数
- 假设输入有n个,输出有m个,则w、b、y的个数如下:
多层感知机
- 多层感知机使用了隐藏层和激活函数,是非线性模型
- 隐藏层是对于输出层来说的,只有最后一层全连接层对于输出层是可见的,且最后一层的全连接层一般不带激活函数,所以其他全连接层叫隐藏层
- 激活函数是放在隐藏层中,用来拟合非线性的,常用的激活函数是Sigmoid,Tanh,ReLU,下图为有一层隐藏层的多层感知机:
独热编码
- 目的是让计算机认识单词
- 用矩阵的形式,存储所有单词。且在矩阵中,每一个元素都代表一个单词,这就要求矩阵的行列等于单词数,如下图:
- 独热编码有两个缺点:
- 矩阵的尺寸很容易过大,因为他需要行列等于单词数
- 相似单词之间的独热编码没有任何关联,通常使用余弦相似度来计算文本之间的相似度,但是现实世界中相似单词之间是有关联的
参考文献
- 05 神经网络语言模型(独热编码+词向量的起源)