机器学习之决策树与随机森林

目录
1、了解熵、条件熵、互信息的概念及公式
- 1.1、熵
- 1.2、条件熵
- 1.3、信息增益/互信息
2、了解决策树
- 2.1、了解决策树的概念和特点以及和熵的关系
- 2.2、了解树生成的过程
- 2.3、了解决策树三种算法的区别
- 2.4、了解决策树的损失函数
- 2.5、了解解决决策树过拟合的方法
- 2.6、了解后剪枝的过程
3、了解Bagging和随机森林
4、掌握样本不均衡常用的处理方法
5、随机森林算法常用参数详解

1、了解熵、条件熵、互信息的概念及公式

1.1、熵

熵本身是描述事物的混乱程度的
决策树乃至随机森林最关键的一点就是如何来划分一个节点分裂数据让结果达到最好。
信息熵的作用（即判定特征分裂的好坏）
了解信息熵的表示形式（负号代表x发生的概率越大对应的熵值越小）：
这里写图片描述

知道这个信息熵的概念（x发生的概率越大，结果越稳定对应的熵值也就越小；P(X,Y)=H(X)+H(Y)代表X、Y发生的事件的熵相加）

1.2、条件熵

知道条件熵的概念：H（Y|X）表示在X发生的前提下，Y发生新带来的熵。
这里写图片描述

1.3、信息增益/互信息

信息增益即为互信息，信息增益即为相关系数（计算一个特征对类X是否有影响）
信息增益：度量特征A对数据集D的不确定性的减小程度（即不确定减小也就是D发生概率增加）。
这里写图片描述

信息增益即为互信息，信息增益即为相关系数（计算一个特征对类X的影响程度）
信息增益：度量特征A对数据集D的不确定性的减小程度（即不确定减小也就是D发生概率增加）。
这里写图片描述

2、了解决策树

2.1、了解决策树的概念和特点以及和熵的关系

这里写图片描述

信息熵又称为经验熵，重点注意下面选取分裂特征的过程。

2.2、了解树生成的过程

树的生成过程：首先你能得到对应的数据集D的经验熵（即根节点的信息熵），之后遍历所有的特征，进行以下步骤：（前提条件是你肯定能得到数据集D的经验熵H(D)公式如下图）。
一、计算特征A对于数据集D的条件熵即H(D|A);
二、计算特征A的信息增益g(D,A)=H(D)-H(D|A)；
三、选择信息增益最大的特征作为当前的分裂特征。（信息增益越大，也就说明D在A特征下发生的概率越大，也就说明D对应的信息熵越小。而树生成的过程即是从信息熵大的根节点到信息熵为0的叶子节点）
这里写图片描述

2.3、了解决策树三种算法的区别

这里写图片描述

知道gini系数（同信息增益一样也可以作为特征分析的依据）

2.4、了解决策树的损失函数

了解评价函数的意义：实际上就是每个叶子结点的熵值和对应的叶子结点上的数据量做一个乘积的加和（这里的N其实就是对H(t)做一个加权处理）
掌握损失函数（又称为评价函数）的表达式以及对应的含义（可不可以理解为：因为叶子节点代表分类的最终结果，那么叶子节点的熵值也就代表分类的好坏的程度，那么所有叶子节点的熵值的加权和也就代表整棵树分类的好坏程度）。
结论：损失函数越小即代表整体的熵值越小，整棵树越稳定，分类的效果越好。
这里写图片描述

2.5、了解解决决策树过拟合的方法

1、剪枝（过程见下文）
2、随机森林
了解剪枝的思路：即如何从Ti到Ti+1
这里写图片描述
了解修正后的损失函数的含义：实质上就是添加了叶子节点的影响权重值
了解α的公式（C(r):单个根节点的评价函数值。C(R)：子树的评价函数值。如下图所示）以及对应的求解过程

2.6、了解后剪枝的过程

一、先求出各个内部节点的α值，
二、然后将α值从小到大进行排列得到对应得树T0、T1…
三、按照这个顺序依次进行剪枝的操作直到剪到最后的根节点为止。
四、最终利用test集合去测试看那棵树的损失函数最小就选取哪棵树。

3、了解Bagging和随机森林

知道这个Bagging是什么
这里写图片描述

了解随机森林的建立过程

4、掌握样本不均衡常用的处理方法

1、A类随机欠采样：A类样本过多，可以通过随机采取A中的少部分（如20%）样本来和B中的样本汇总作为总的样本。
2、基于聚类的A类的分割：将A类样本进行一个聚类操作，然后随机的选取A中的任何一个类族和B一起构成一个总的样本。
3、B类过采样：B类数据太少，可以不断的复制B类的样本从而使B样本的数量增加满足A样本的要求。
4、B类数据合成：在空间中将两个B样本连接，随机在连线上选取某些点用于生成样本以达到增加样本B的数量的目的。（如下图所示）
5、代价敏感学习（降低A类权值，提高B类权值）
总结：1-4为对样本的处理，5对算法的处理。