第六课从词向量到NLP分类问题

文章目录

1 nlp的常见任务
2 词向量表示
- 2.1 离散表示
- 2.2 分布式表示
- 2.3 NNLM(2013年)
- - 2.3.1模型
  - 2.3.2特点
- 2.4 Word2Vector：CBOW连续词袋
- - 2.4.1 样本处理
  - 2.4.2 结构
  - 2.4.3 CBOW：层次softmax
  - 2.4.4 CBOW：负例采样
  - 2.4.5 Word2Vec：skip-gram模型
  - 2.4.6 word2vec存在的问题
  - 2.4.6 word2vec优点

1 nlp的常见任务

分词
词性标注
自动摘要
指代消解
机器翻译
主题识别
文本分类

2 词向量表示

文本不同于图片与视频。图片与视频天然是以二进制形式表示的，计算机能够处理。
文本是人造的，只有人可以懂，怎么让计算机读懂，需要使用词向量

表示方式要能够解决：
1 需要保证词的相似性
例如 frog toad rana 相似

2 向量空间分布的相似性
英语中的1 2 3 4 要和西班牙语的 1 2 3 4 分布相似

3 向量空间子结构
向量是可以用于运算的

2.1 离散表示

1 one-hot
2 bag of words
文档的向量可以直接将各词的词向量表示加和。
在这里插入图片描述

3 tf-idf
4 bi-gram和n-gram

离散表示的问题：
1 没有办法衡量词向量之间的关系
2 词表维度随着语料库膨胀
3 n-gram 随着语料库膨胀更快
4 数据稀疏问题

2.2 分布式表示

用一个词附近的词表示这个词。
局域窗中的word-word共现矩阵可以挖掘语法和语义信息。
例如：
I like deep learning.
I like NLP.
I enjoy flying.
如果窗口为1（一般在5-10之间），那么可以得到这样的矩阵。
在这里插入图片描述

这是一个对角阵。
I和like 出现2次
I和enjoy出现1次…

存在的问题：

•向量维数随着词典大小线性增长
• 存储整个词典的空间消耗非常大
• 一些模型如文本分类模型会面临稀疏性问题
• 模型会欠稳定

SVD降维

2.3 NNLM(2013年)

NNLM=Neural Network Language Model
以下内容转载自CSDN博主「马飞飞」的原创文章。

NNLM是从语言模型出发(即计算概率角度)，构建神经网络针对目标函数对模型进行最优化，训练的起点是使用神经网络去搭建语言模型实现词的预测任务，并且在优化过程后模型的副产品就是词向量。

进行神经网络模型的训练时，目标是进行词的概率预测，就是在词环境下，预测下一个该是什么词，目标函数如下式, 通过对网络训练一定程度后，最后的模型参数就可当成词向量使用.
在这里插入图片描述

2.3.1模型

NNLM的网络结构（四层神经网络）如右图，主要参数有：

  [1]词库大小(假定有8W个词)            [2]转化的词向量大小(假定为300维长度)            [3]输入层神经元数(即词的滑动窗口容量，假定滑窗大小为4)            [4]隐层神经元数量(假定为100个)            [5]输出层神经元数(对应词容量，有8W个)[6]由输入层到投影层的矩阵C（一个大的矩阵，大小为8W*300,是最后求解的目的，开始时随机初始化）          [7]从投影层到隐层的权值矩阵H和偏置矩阵B          [8]从隐层到输出层的权值矩阵U和偏置矩阵D

在这里插入图片描述
现在咱们针对NNLM模型，由下往上进行分析：