- 树形结构分类器,通过顺序询问分类点的属性决定分类点的最终类别。通常根据特征的信息增益或其他指标。构建棵决策树,在分类时,只需要按照决策树中的结点一次顺序判断,即可得到样本所属的类别。
- sklearn库:可以使用sklearn.treeDecision.DecisionTreeClassifier,参数如下:
- criterion:用于属性选择的准则,可以传入基尼系数‘gini’(默认)或者entropy代表信息增益。
- max_features:表示在决策树结点分裂时,从多少个特征中选择最优特征,可设置固定数目,百分比或其他标准。它默认值是使用所有特征个数。
from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import cross_val_score#交叉验证函数clf=DecisionTreeClassifier() iris=load_iris()#使用决策树分类器作为评估模型,iris.data鸢尾花数据作为特征,iris.target鸢尾花分类标签作为目标结果,设定cv为10,使用10折交叉验证,得到最终的交叉验证得分。print(cross_val_score(clf,iris.data,iris.target,cv=10)) print(clf.fit(iris.data,iris.target)) print(clf.predict(iris.data))