七、决策树算法和集成算法

一、决策树算法

Ⅰ，树模型

决策树：从根节点开始一步步走到叶子节点（决策）
所有的数据最终都会落到叶子节点，既可以做分类也可以做回归
对于分类：是由众数决定的，例如爷爷奶奶妈妈都是负数，狗蛋儿是正数
对于回归：主要是利用方差来进行计算的，例如按照年龄划分，不同年龄划分到一块，优劣主要看方差的大小数值进行判断。节点的值就是每个划分到一块的年龄的平均值。

举个例子：若要判断谁喜欢打王者农药，如何判断？
首先很容易明白，一般喜欢打农药都是青少年，所以先通过年龄划分，接着，男孩子多数喜欢，然后通过性别划分，最后找到狗蛋儿。这里的年龄和性别判决的先后顺序，能互换吗？不能！换了之后结果可能会大变。在这个案例中，这里的年龄为主要判定决策，其分类效果最强，性别是次要的判定决策。那么问题又来了，凭什么年龄是主要判定决策？凭啥？这就是树模型中主要解决的问题。
在这里插入图片描述

Ⅱ，树的组成

根节点：第一个选择点（age<15）
非叶子节点与分支：中间过程（is male?）
叶子节点：最终的决策结果（狗蛋儿、小红、爷爷奶奶妈妈）
学过数据结构的童鞋理解起来很容易，当然光看字面意思也比较容易，这里就不再过多赘述了。

Ⅲ，决策树的训练和测试

训练阶段：从给定的训练集构造出来一棵树（从跟节点开始选择特征，如何进行特征切分）
测试阶段：根据构造出来的树模型从上到下去走一遍就好了
一旦构造好了决策树，那么分类或者预测任务就很简单了，只需要走一遍就可以了，那么难点就在于如何构造出来一颗树，这就没那么容易了，需要考虑的问题还有很多的！

Ⅳ，如何切分特征，选择节点

根节点的选择该用哪个特征呢？接下来呢？如何切分呢？

我们的目标应该是根节点就像一个老大似的能更好的切分数据（分类的效果更好），根节点下面的节点自然就是二当家了。

通过一种衡量标准，来计算通过不同特征进行分支选择后的分类情况，找出来最好的那个当成根节点，以此类推。

Ⅴ，衡量标准：熵

熵是表示随机变量不确定性的度量。说白了，越混乱熵越大。
公式：H(X)=- ∑ (pi * log pi), i=1,2, … , n，其中p为概率取值在0-1之间。为啥捏？主要是对数函数的功劳，对数函数，当取值趋向于1的时候，值趋向于0，公式中前面有负号，故不需要考虑对数的负号问题。也就是说，概率越趋于1，对应的熵越小，越稳定。
在分类任务中我们希望通过节点分支后数据类别的熵值小。熵越小越稳定，表示对象都是一类。

概率对熵值的影响：在这里插入图片描述
很明显，概率值越模糊，熵值越混乱。越趋于中间，越不好判断，熵值越高。

信息增益：表示特征X使得类Y的不确定性减少的程度。（分类后的专一性，希望分类后的结果是同类在一起）也就是说分类完之后，熵变小了。信息增益就是分类前后熵的变化值。

Ⅵ，决策树构造实例

这里有狗蛋儿14天的打王者农药情况，看看是什么元素影响狗蛋儿打游戏。如何构建决策树？
在这里插入图片描述

①选哪个因素当根节点？

在这里插入图片描述

②初始熵值

14天内，有9天打农药，5天不打农药。根据上述的熵的计算公式可得：在这里插入图片描述
初始的熵为0.940。

③outlook

开始对四个因素进行逐一分析，先从outlook开始：
在这里插入图片描述

Outlook = sunny时，熵值为0.971。- ((2/5 * log 2/5) + (3/5 * log 3/5)）
Outlook = overcast时，熵值为0。
Outlook = rainy时，熵值为0.971。- ( (3/5 * log 3/5) + (2/5 * log 2/5)）

根据数据统计，outlook取值分别为sunny,overcast,rainy的概率分别为：5/14, 4/14, 5/14
由于sunny、overcast、rainy出现的天数不一样，故需要在加权求和一下：5/14 * 0.971 + 4/14 * 0 + 5/14 * 0.971 = 0.693
系统的熵值从原始的0.940下降到了0.693，增益为0.247

④temperature

同样的道理可得：gain(temperature)=0.029

⑤humidity

同样的道理可得：gain(humidity)=0.152

⑥windy

同样的道理可得：gain(windy)=0.048

选择最大的那个Outlook ，相当于是遍历了一遍特征，找出来了大当家，然后再其余的中继续通过信息增益找二当家！

Ⅶ，决策树版本

ID3：信息增益
C4.5：信息增益率（解决ID3问题，考虑自身熵）
CART：使用GINI系数来当做衡量标准
GINI系数：在这里插入图片描述（和熵的衡量标准类似，计算方式不相同）

Ⅷ，连续值的解决

贪婪算法：例如 60 70 80 90 110 220 300 400，分别依次划分
60、70 80 90 110 220 300 400
60 70、80 90 110 220 300 400
60 70 80、90 110 220 300 400
60 70 80 90、110 220 300 400
60 70 80 90 110、 220 300 400
60 70 80 90 110 220、300 400
60 70 80 90 110 220 300、400
然后依次去计算信息增益，挑选大当家的。实际上就是离散化的过程。