sklearn 简易使用教程
- 1.scikit-learn的数据集
- 2.scikit-learn 的训练和预测
scikit-learn 是在Numpy,SciPy,Matplotlib三个模块上编写的,数据挖掘和数据分析的一个简单有效的工具。scikit-learn包括6大功能:分类,回归,聚类,降维,模型选择和预处理。
此前写过决策树,PCA,LDA简单实践:
机器学习(5)-决策树基础+sklearn.DecisionTreeClassifier简单实践:https://blog.csdn.net/sinat_40624829/article/details/108411253
机器学习(6)–PCA,LDA基础+sklearn 简单实践:https://blog.csdn.net/sinat_40624829/article/details/108600427
1.scikit-learn的数据集
scikit-learn 常用数据集合
分类数据集:iris, digits(8*8像素数组)
回归数据集:波士顿房价
数据集类似于字典对象 ,数据被存在.data的成员内,是一个n_samples*n_features的数组;在有监督学习的情形下.target成员中存储一个或多个因变量(目标值)
2.scikit-learn 的训练和预测
在scikit-learn 中,预测器是一个Python对象,具有fit(X,y)方法和predict(test)方法。依据不同的机器学习算法,可以构成相应的预测器。如SVM分类器、决策树分类器等。不同的预测器使用fit(X,y)方法进行学习,而predict(test)方法进行预测。
from sklearn import datasets
from sklearn import svmdigits = datasets.load_digits()
print(digits.data[:2])
print(digits.target[:2])# 选择模型参数
clf = svm.SVC(gamma=0.0001, C=100)# 进行训练
clf.fit(digits.data[:-1], digits.target[:-1])# 进行预测
print(clf.predict(digits.data[-1:]))