1 传统方法的局限

1.1 传统方法的套路

传统方法的处理流程简单来说就是：特征提取+传统机器学习模型训练；
特征提取：
使用了特征模板、TF-IDF、词袋向量等特征提取方法；
常用的机器学习模型：
HMM、perceptron、CRF、NBM、SVM；
这些方法属于普遍规律，要解决具体的nlp问题还需要具体问题具体分析（特殊规律），nlp难就难在这个地方，你找不到稍微普适一点公式可以套用很多问题。就好比韩寒说过的一句话，懂得很多道理，但还是过不好这一生。所以学习人工智能也没有什么捷径，就是keep your hands dirty，让你的手沾满数据，不断在真实的问题中踩坑，坑踩多了就有经验了。

1.2 局限性

数据稀疏
统计机器学习的前提假设是随机现象是大量发生、具有某种平均特性，如果发生一次两次，就不适合概率统计框架。
首先，传统的机器学习方法不善于处理数据稀疏问题，这在自然语言处理领域显得尤为突出，语言是离散的符号系统，每个字符、单词都是离散型随机变量。我们通常使用独热向量(one-hot)来将文本转化为向量表示，指的是只有一个元素为1，其他元素全部为 0 的二进制向量。
特征模板
一方面特征模板同样会带来数据稀疏，另一方面高级的NLP任务需要更复杂的特征，这对手工设计特征模板是个很大的挑战。
误差传播
现实世界中的项目，往往涉及多个自然语言处理模块的组合。比如在情感分析中，需要先进行分词，然后进行词性标注，根据词性标注过滤掉一些不重要的词，最后送入到朴素贝叶斯或者支持向量机等机器学习模块进行分类预测。这种流水线式的作业方式存在严重的误差传播问题。

2 深度学习的优势

2.1 深度学习的精髓

深度学习(Deep Leaming, DL )属于表示学习( Representation Learning )的范畴，指的是利用具有一定“深度”的模型来自动学习事物的向量表示(vectorial rpresenation)的一种学习范式。目前，深度学习所采用的模型主要是层数在一层以上的神经网络。如果说在传统机器学习中，事物的向量表示是利用手工特征模板来提取稀疏的二进制向量的话，那么在深度学习中，特征模板被多层感知机替代。而一旦问题被表达为向量，接下来的分类器一样可以使用单层感知机等模型，此刻深度学习与传统手法毫无二致，殊途同归。所以说深度学习并不神秘，通过多层感知机提取向量才是深度学习的精髓。

2.2 用稠密向量解决数据稀疏

神经网络的输出为样本 x 的一个特征向量 h。由于我们可以自由控制神经网络隐藏层的大小，所以在隐藏层得到的 h 的长度也可以控制。即便输人层是词表大小的独热向量、维度高达数十万，隐藏层得到的特征向量依然可以控制在很小的体积，比如100维。

这样的 100 维向量是对词语乃至其他样本的抽象表示，含有高度浓缩的信息。相较于独热向量，h的每一维不再对应特征模板中的某个特征，而可能代表某些特征的组合强度。

正因为通过多层学习得到的稠密向量短小精悍，其对应了低微空间中的一个点。无论数据所处的原始空间的维数有多高、数据的分布有多稀疏，将其映射到低维空间后，彼此的距离就会缩小，相似度就体现出来了。

2.3 用多层网络自动提取特征表示

神经网络两层之间一般全部连接(全连接层),并不需要人们根据具体问题具体设计连接方式。这些隐藏层会根据损失函数的梯度自动调整多层感知机的权重矩阵，从而自动学习到隐陬层的特征表示。

该过程完全不需要人工干预，也就是说深度学习从理论上剥夺了特征模板的用武之地。

2.4 端到端的设计

由于神经网络各层之间、各个神经网络之间的“交流语言”为向量，所以深度学习工程师可以轻松地将多个神经网络组合起来，形成一种端到端的设计。比如之前谈到的情感分析案例中，一种最简单的方案是将文档的每个字符的独热向量按顺序输入到神经网络中，得到整个文档的特征向量。然后将该特征向量输入到多项逻辑斯谛回归分类器中，就可以分类出文档的情感极性了。

整个过程既不需要中文分词，也不需要停用词过滤。因为神经网络按照字符顺序模拟了人类阅读整篇文章的过程，已经获取到了全部的输人。