【常见决策树算法逻辑理解以及代码实现（2）】C4.5 逻辑理解(增益率)

这个是全部文档目录实例数据和前文请看上一篇

增益率:排除子集数量对信息增益的影响

上文中求信息增益中,我们是忽略掉编号这一列的,因为按照编号属性进行计算信息增益,会划分17个子集,每个子集的信息熵Ent均为0,则信息增益Gain就是D的信息熵Ent
$Gain(D,{编号}) = Ent(D) - (0 + 0 + .... +0) = Ent(D) = 0.998$
显然,这个信息增益非常高,单却是没有意义的,按照编号建立决策树,将会建立一个一层17分支的决策树.
故,我们需要找到一个方法,解决信息增益对数数目校多的属性偏好这一个问题
如使用Gain直接除V的数量(V是D按照属性a分组的所有子集,即D的子集数量),好像可以处理掉数目较多属性偏好的这个问题
$\frac {Gain(D,{编号})}{V} = \frac{0.998}{17} = 0.058$
但是更适合的方法是除以IV(a),称为属性a的’固有值’（Intrinsic Value，IV）,也称’ 分离信息 ’ (Split information):算法如下:
$-\sum\limits _{v=1}^{V}\frac {|D^v|}{|D|}log_2\frac{|D^v|}{|D|}$
故增益率定义为
$Gain\_ratio(D,a) = \frac{Gain(D,a)}{IV(D,a)}$
但是会带来一个新的问题,这个增益率会对数目较少的属性,有更强的偏好.(正好与信息增益的偏好相反)
故C4.5决策树算法,不是直接取增益率最高的属性,而是使用了一个启发式: 从候选划分属性中选出信息增益大于平均水平的属性,再选增益率最高的.