一、引言
决策树构建过程中的特征选择是非常重要的一步。特征选择是决定用哪个特征来划分特征空间,特征选择是要选出对训练数据集具有分类能力的特征,这样可以提高决策树的学习效率。如果利用某一个特征进行分类与随机分类的结果没有很大的差别,则称这个特征是没有分类能力的。这样的特征可以丢弃。常用的特征选择的准则是信息增益和信息增益比。
二、信息增益
要了解信息增益,我们要先知道熵与条件熵的定义。
2.1 熵
熵是无序度的度量,在信息论和统计中,熵表示随机变量不确定性的度量。假设X是一个取有限值的离散型随机变量,它的概率分布如下:
则随机变量X的熵定义为:
若pi=0,定义0log0=0,从上式中可以看到,熵只依赖于X的分布,而与
H(p)=−∑i=1npilogpi
2.2 条件熵
设有随机变量(X,Y),其联合概率分布为:
P(X=xi,Y=yj)=pij,i=1,2,…,n;j=i=1,2,…,m
条件熵 H(Y|X)表示在已知随机变量 X的条件下随机变量
当熵和条件熵中的概率由数据估计得来时,所对应的熵和条件熵称为经验熵和经验条件熵。
2.3 信息增益
信息增益表示得知特征X的信息而使得类
信息增益
特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差:
g(D,A)=H(D)−H(D|A)
信息增益大的特征具有更强的分类能力。
根据信息增益准则进行特征选择的方法是:对训练数据集 D,计算其每个特征的信息增益,并比较它们的大小,选择最大的特征。
三、信息增益比
通过信息增益选取特征的时候,存在偏向于选择取值较多的特征的问题。使用信息增益比可以纠正这一问题。
信息增益比
gR(D,A)=g(D,A)HA(D)HA(D)=−∑i=1n|Di||D|log2|Di||D|
n 是特征A取值的个数。