文章来源:https://blog.csdn.net/algorithmPro/article/details/103045824
Sklearn (全称 Scikit-Learn) 是基于 Python 语言的机器学习工具。它建立在 NumPy, SciPy, Pandas 和 Matplotlib 之上,里面的 API 的设计非常好,所有对象的接口简单,很适合新手上路。
在 Sklearn 里面有六大任务模块:分别是分类、回归、聚类、降维、模型选择和预处理,如下图从其官网的截屏。
要使用上述六大模块的方法,可以用以下的伪代码,注意 import 后面我用的都是一些通用名称,如 SomeClassifier, SomeRegressor, SomeModel,具体化的名称由具体问题而定,比如
-
SomeClassifier = RandomForestClassifier
-
SomeRegressor = LinearRegression
-
SomeModel = KMeans, PCA
-
SomeModel = GridSearchCV, OneHotEncoder
上面具体化的例子分别是随机森林分类器、线性回归器、K 均值聚类、主成分分析、网格追踪法、独热编码。
1.分类 (Classification)
-
from sklearn import SomeClassifier
-
from sklearn.linear_model import SomeClassifier
-
from sklearn.ensemble import SomeClassifier
2.回归 (Regression)
-
from sklearn import SomeRegressor
-
from sklearn.linear_model import SomeRegressor
-
from sklearn.ensemble import SomeRegressor
3.聚类 (Clustering)
from sklearn.cluster import SomeModel
4.降维 (Dimensionality Reduction)
from sklearn.decomposition import SomeModel
5.模型选择 (Model Selection)
from sklearn.model_selection import SomeModel
6.预处理 (Preprocessing)
from sklearn.preprocessing import SomeModel
SomeClassifier, SomeRegressor, SomeModel 其实都叫做估计器 (estimator),就像 Python 里「万物皆对象」那样,Sklearn 里「万物皆估计器」。
此外,Sklearn 里面还有很多自带数据集供,引入它们的伪代码如下。
7.数据集 (Dataset)
from sklearn.datasets import SomeData