随机森林原理sklearn实现

原理

定义
随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，
而它的本质属于机器学习的一大分支——集成学习（Ensemble Learning）方法。
随机森林的名称中有两个关键词，一个是“随机”，一个就是“森林”。

随机森林应该是机器学习算法时最先接触到的集成算法，集成学习的家族：
Bagging：  个体评估器之间不存在强依赖关系，一系列个体学习器可以并行生成。代表算法：随机森林（Random Forest）
Boosting：个体学习器之间存在强依赖关系，一系列个体学习器基本都需要串行生成。代表算法：AdaBoost、GBDT、XGBoost、LightGBM

随机森林的生成
　每棵树的按照如下规则生成：
1）如果训练集大小为N，对于每棵树而言，
随机且有放回地从训练集中的抽取N个训练样本（这种采样方式称为bootstrap sample方法），作为该树的训练集；
2）如果每个样本的特征维度为M，指定一个常数m<<M，
随机地从M个特征中选取m个特征子集，每次树进行分裂时，从这m个特征中选择最优的；
3）每棵树都尽最大程度的生长，并且没有剪枝过程。
随机森林分类效果（错误率）与两个因素有关

森林中任意两棵树的相关性：相关性越大，错误率越大；
森林中每棵树的分类能力：每棵树的分类能力越强，整个森林的错误率越低。

减小**特征选择个数m**，树的相关性和分类能力也会相应的降低；
增大m，两者也会随之增大。
所以关键问题是**如何选择最优的m**（或者是范围），这也是随机森林唯一的一个参数。

随机森林的优点:
1)模型随机性强，不易overfit
抗噪性强，表示对异常点不敏感
2）处理高维数据相对更快（相对于决策树）
3）树状结构，模型可解释性高，可以告诉你每个特征的重要性
缺点：
1）模型往往过于General，不具备处理过于困难样本的能力
打个比方：三个学渣放在一起可能有所进步，但是对于过于困难的问题可能也无法解决

实例

# 参考：  https://blog.csdn.net/HRMEMEDA/article/details/125678213import pandas as pd
import numpy as np
import seaborn as snsfrom sklearn.model_selection import train_test_split
from sklearn.preprocessing import OrdinalEncoder
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn import ensemble
from sklearn.model_selection import cross_val_score
from sklearn.metrics import roc_curve, aucimport matplotlib.pyplot as plt# %matplotlib inline
plt.rcParams['font.size'] = 24# 数据准备
data = sns.load_dataset('titanic')  # 导入泰坦尼克号生还数据
# data# 数据预处理
data.replace(to_replace=r'^\s*$', value=np.nan, regex=True, inplace=True)  # 把各类缺失类型统一改为NaN的形式
data.isnull().mean()
del data['deck']  # 删除‘deck’列
del data['who']
del data['adult_male']
del data['class']
del data['alone']data['age'].fillna(np.mean(data.age), inplace=True)  # 年龄特征使用均值对缺失值进行填补
data['embarked'].fillna(data['embarked'].mode(dropna=False)[0], inplace=True)  # 文本型特征视同众数进行缺失值填补x = data.drop(['alive', 'survived', 'embark_town'], axis=1)  # 取出用于建模的特征列X
label = data['survived']  # 取出标签列Yoe = OrdinalEncoder()  # 定义特征转化函数
# 把需要转化的特征都写进去
x[['sex', 'embarked']] = oe.fit_transform(x[['sex', 'embarked']])
x.head()# 划分训练集、测试集
xtrain, xtest, ytrain, ytest = train_test_split(x, label, test_size=0.3)
xtrain.head()"""
随机森林所有超参数
sklearn.ensemble.RandomForestClassifier (n_estimators=100, criterion=’gini’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, random_state=None, bootstrap=True, oob_score=False, n_jobs=None, verbose=0, warm_start=False)
"""# 下面把随机森林与单个决策树的拟合效果放在一起对比# 单颗决策树
clf = DecisionTreeClassifier(class_weight='balanced', random_state=37)
clf = clf.fit(xtrain, ytrain)  # 拟合训练集
score_c = clf.score(xtest, ytest)  # 输出测试集准确率# 随机森林
rfc = RandomForestClassifier(class_weight='balanced', random_state=37)
rfc = rfc.fit(xtrain, ytrain)
score_r = rfc.score(xtest, ytest)# 决策树 预测测试集
y_test_proba_clf = clf.predict_proba(xtest)
false_positive_rate_clf, recall_clf, thresholds_clf = roc_curve(ytest, y_test_proba_clf[:, 1])
# 决策树 AUC指标
roc_auc_clf = auc(false_positive_rate_clf, recall_clf)# 模型效果# 随机森林 预测测试集
y_test_proba_rfc = rfc.predict_proba(xtest)
false_positive_rate_rfc, recall_rfc, thresholds_rfc = roc_curve(ytest, y_test_proba_rfc[:, 1])
# 随机森林 AUC指标
roc_auc_rfc = auc(false_positive_rate_rfc, recall_rfc)# 画图 画出俩模型的ROC曲线
plt.plot(false_positive_rate_clf, recall_clf, color='blue', label='AUC_clf=%0.3f' % roc_auc_clf)
plt.plot(false_positive_rate_rfc, recall_rfc, color='orange', label='AUC_rfc=%0.3f' % roc_auc_rfc)
plt.legend(loc='best', fontsize=15, frameon=False)
plt.plot([0, 1], [0, 1], 'r--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.0])
plt.ylabel('Recall')
plt.xlabel('Fall-out')
plt.show()# 调参
# 定义空列表，用来存放每一个基学习器数量所对应的AUC值
superpa = []
# 循环200次
for i in range(200):rfc = ensemble.RandomForestClassifier(n_estimators=i + 1, class_weight='balanced', random_state=37, n_jobs=10)rfc = rfc.fit(xtrain, ytrain)  # 拟合模型y_test_proba_rfc = rfc.predict_proba(xtest)  # 预测测试集false_positive_rate_rfc, recall_rfc, thresholds_rfc = roc_curve(ytest, y_test_proba_rfc[:, 1])roc_auc_rfc = auc(false_positive_rate_rfc, recall_rfc)  # 计算模型AUCsuperpa.append(roc_auc_rfc)  # 记录每一轮的AUC值print(max(superpa), superpa.index(max(superpa)))  # 输出最大的AUC值和其对应的轮数
plt.figure(figsize=[20, 5])
plt.plot(range(1, 201), superpa)
plt.show()