sklearn.model_selection.cross_val_score(estimator,X,y=None,*,groups=None,scoring=None,cv=None,n_jobs=None,verbose=0,fit_params=None,pre_dispatch='2*n_jobs',error_score=nan)
前面我们提到了4种分割数据集的方法,在分割完数据集后,我们训练模型,那模型的表现到底如何呢?我们可以使用这个函数来看模型的评分。estimator:estimator object implementing ‘fit’
我们的算法模型X:array-like of shape (n_samples, n_features)
y:array-like of shape (n_samples,) or (n_samples, n_outputs), default=None
我们的数据集cv:int, cross-validation generator or an iterable, default=None
我们要进行的交叉验证的方法
几个常用的参数如上所示,下面,我们举几个小栗子。
KFold
关于KFold参考:橘猫吃不胖:sklearn函数:KFold(分割训练集和测试集)zhuanlan.zhihu.com
对于K折交叉验证, K的取值,通常为3、5、10
import pandas as pd
import numpy as np
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
df = pd.read_csv('data/pima-indians-diabetes.csv' , names=names)
df.head(10)
X = df.values[:,:8]
y = df.values[:,8]
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
kfold = KFold(n_splits=10)
model = LogisticRegression()
result = cross_val_score(model , X , y , cv=kfold)
最后的result,就是我们每一次模型的得分(准确率)
这里,我们调用KFold,设置K=10,也就是会分割为10分子集,然后去遍历调用模型
这里,我们使用的是逻辑回归模型
2. LeaveOneOut
关于LeaveOneOut,参考:橘猫吃不胖:sklearn函数:LeaveOneOut(分割训练集和测试集)zhuanlan.zhihu.com
同样使用上面的数据集
from sklearn.model_selection import LeaveOneOut
loocv = LeaveOneOut()
model = LogisticRegression(max_iter=1000)
result = cross_val_score(model , X , y , cv=loocv)
result
result.mean()
这个跑起来的确很慢,一开始结果都是0,1我还以为错了,啥情况,一想,因为留一法,就是遍历N次,每次的结果要么是对的,要么就是不对的,所以,可以看个平均的得分