1.什么是决策树 用于解决分类问题的一种算法。 左边是属性,右边是标签。 属性选择时用什么度量,分别是信息熵和基尼系数。 这里能够做出来特征的区分。 下图为基尼系数为例进行计算。 下面两张图是对婚姻和年收入的详细计算过程(为GINI系数为例。)决策树连接一是以信息熵为例进行计算的。 这里需要声明一下,可能作者计算的分类方式为(0-60k)(60k-80k)(80k-300k) 最终建立好的决策树模型如下。