神经网络语言模型 使用神经网络的方法,去完成语言模型的两个问题,下图为两层感知机的神经网络语言模型: 以下为预备概念 感知机 线性模型可以用下图来表示:输入经过线性层得到输出 线性层 / 全连接层 / 稠密层:假设输入有n个,输出有m个,则w、b、y的个数如下: 独热编码 目的是让计算机认识单词用矩阵的形式,存储所有单词。且在矩阵中,每一个元素都代表一个单词,这就要求矩阵的行列等于单词数,如下图: 独热编码有两个缺点: 矩阵的尺寸很容易过大,因为他需要行列等于单词数相似单词之间的独热编码没有任何关联,通常使用余弦相似度来计算文本之间的相似度,但是现实世界中相似单词之间是有关联的