目录
一、定义与背景
二、基本组成
三、构建过程(以分类问题为例)
四、剪枝处理
五、算法与应用
一、定义与背景
决策树是一种基于树形结构的监督学习算法,主要用于分类和回归问题。它通过构建一棵树来模拟人类进行决策的过程,其中每个内部节点表示一个特征或属性,每个分支代表该特征的一个可能取值,每个叶子节点代表一个类别标签(对于分类问题)或具体数值(对于回归问题)。
二、基本组成
- 根节点:它是整棵树的开始,包含所有样本的集合。
- 内部节点:也称为决策节点或特征节点,表示基于某个特征的测试条件。
- 分支:从内部节点引出,代表该节点特征的某个取值。
- 叶节点:也称为终端节点或类别节点,代表决策的结果,即样本所属的类别或回归值。
三、构建过程(以分类问题为例)
- 特征选择:
- 从训练数据集中选择一个最优特征作为当前节点的分裂标准。最优特征的选择基于某种评估准则,如信息增益、增益率(C4.5算法使用)、基尼指数(CART算法使用)等。
- 信息增益:基于信息熵的概念,衡量划分数据集前后信息不确定性减少的程度。
- 增益率:在信息增益的基础上,加入了对特征取值数量的考虑,以克服信息增益偏向选择取值数量多的特征的缺点。
- 基尼指数:在CART算法中用于分类树,表示从数据集中随机抽取两个样本,其类别标记不一致的概率。
- 基尼不纯度(Gini Impurity):用于度量分类问题中数据集的混乱程度。选择使得基尼不纯度最小的属性作为分割点。
- 数据分割:
- 根据选定的最优特征和其取值,将训练数据集划分为若干个子集,每个子集对应一个分支。
- 递归构建:
- 对每个子集递归地执行步骤1和2,直到满足停止条件。
- 停止条件可能包括:
- 所有样本属于同一类别。
- 当前节点包含的样本数小于某个阈值。
- 没有剩余特征可供选择。
- 达到预设的树的最大深度。
四、剪枝处理
为防止过拟合,通常需要对决策树进行剪枝处理。剪枝分为预剪枝和后剪枝两种:
- 预剪枝:在构建决策树的过程中,当某个节点的划分不能带来模型泛化性能的提升时,停止对该节点的进一步划分,并将其标记为叶节点。
- 后剪枝:先构建完整的决策树,然后从底向上对非叶节点进行考察,若将该节点及其子树替换为叶节点能带来泛化性能的提升,则进行替换。
五、算法与应用
- 算法:
- ID3算法:基于信息增益选择特征,但无法处理连续特征和缺失值。
- C4.5算法:是ID3算法的改进版,可以处理连续特征和缺失值,并使用增益率作为特征选择准则。
- CART算法:使用基尼指数作为特征选择准则,既可以用于分类问题,也可以用于回归问题。
- 应用:
- 决策树在多个领域有着广泛的应用,如金融风险评估、医疗诊断、电商推荐、天气预测等。
- 决策树模型直观易懂,易于解释,对于非专业用户来说也具有较高的可理解性。