文章目录
1.Sklearn简介
2.Sklean安装
2.1.pip安装
2.2.conda安装
1.Sklearn简介
Scikit learn 也简称 sklearn, 是机器学习领域当中最知名的 python 模块之一.
Sklearn 包含了很多种机器学习的方式:
Classification 分类
Regression 回归
Clustering 非监督分类
Dimensionality reduction 数据降维
Model Selection 模型选择
Preprocessing 数据预处理
我们总能够从这些方法中挑选出一个适合于自己问题的, 然后解决自己的问题.
从 START 开始,首先看数据的样本是否 >50,小于则需要收集更多的数据。
由图中,可以看到算法有四类,分类,回归,聚类,降维。
其中 分类和回归是监督式学习,即每个数据对应一个 label。 聚类 是非监督式学习,即没有 label。 另外一类是 降维,当数据集有很多很多属性的时候,可以通过 降维 算法把属性归纳起来。例如 20 个属性只变成 2 个,注意,这不是挑出 2 个,而是压缩成为 2 个,它们集合了 20 个属性的所有特征,相当于把重要的信息提取的更好,不重要的信息就不要了。
然后看问题属于哪一类问题,是分类还是回归,还是聚类,就选择相应的算法。 当然还要考虑数据的大小,例如 100K 是一个阈值。
可以发现有些方法是既可以作为分类,也可以作为回归,例如 SGD。
Sklearn流程图
2.Sklean安装
2.1.pip安装
安装 Scikit-learn (sklearn) 最简单的方法就是使用 pip 安装它.
找到你的 Terminal (MacOS or Linux), 或者 CMD (Windows). 输入以下语句:
pip install -U scikit-learn #python 2+
pip3 install -U scikit-learn # python 3+
2.2.conda安装
也可以选择使用 Anaconda 来安装所有 python 的科学计算模块,前提是在你的电脑中已经安装了Anaconda。
conda install scikit-learn