学习视频:第4章-决策树_哔哩哔哩_bilibili
西瓜书对应章节: 第四章 4.1;4.2
文章目录
- 决策树算法原理
- - 逻辑角度
- - 几何角度
- ID3 决策树
- - 自信息
- - 信息熵 (自信息的期望)
- - 条件熵 ( Y 的信息熵关于概率分布 X 的期望)
- - 信息增益
- - ID3 决策树
- - 问题
- C4.5决策树
- - 增益率
- -- 属性固有值
- - 缺点
- CART 决策树
- - 基尼值
- - 属性的基尼指数
- - CART 决策树的实际构造算法
决策树算法原理
- 逻辑角度
if...else..
语句的组合,不断的选择
- 几何角度
根据某种准则划分特征空间
最终目的
:提高分类样本的纯度
ID3 决策树
- 自信息
- 信息熵 (自信息的期望)
其中 X 作为随机变量,假设可能有 a, b, c 3种可能的状态:
- p(a|b|c)=1 是最确定的,信息熵最小
- p(a) = p(b) = p© 时可能性相同, X是最不确定的,信息熵最大
将样本类别标记视作随机变量,各个类别在样本集合中的占比视作各类别取值的概率,此时信息熵的 不确定性 可以转化为 集合内样本的纯度
- 条件熵 ( Y 的信息熵关于概率分布 X 的期望)
在已知 X 后 Y 的不确定性
- 信息增益
已知属性特征 a 的取值后, y 的不确定减少的量
- ID3 决策树
以 信息增益 为准则选择划分属性的 决策树
- 问题
信息增益 可能对取值数目多的属性有偏好 (比如 编号)
C4.5决策树
- 增益率
– 属性固有值
a
可能取值的个数 V 越多,则 通常其固有值 IV(a)越大
- 缺点
增益率可能对 取值数目少的属性有偏好
C45算法
并未完全使用 “增益率”替代 “信息增益”。采用启发式算法:先选出信息增益高出平均水平 的属性,然后从中选择增益率最高的。
CART 决策树
- 基尼值
从样本集合D中随机抽取两个样本,其类别标记不一致的概率