机器学习
sklearn基础功能:
- 主要使用python的sklearn库:sklearn库共分为6大部分,分别用于完成分类任务、回归任务、聚类任务、降维任务、模型选择以及数据的预处理。
- 各模块功能介绍
分类任务 分类模型 加载模块 最近邻算法 neighbors.NearestNeighbors 支持向量机 svw.SVC 朴素贝叶斯 naive_bayes.GaussianNB 决策树 tree.DecisionTreeClassifier 集成方法 ensemble.BaggingClassifier 神经网络 neural_network.MLPClassifier 回归任务 回归模型 加载模块 岭回归 linear_model.Ridge Lasso回归
linear_model.Lasso 弹性网络 linear_model.ElasticNet 最小角回归 linear_model.Lars 贝叶斯回归 linear_model.BayesianRidge 逻辑回归 linear_model.LogisticRegression 多项式回归 preprocessing.PolynomialFeatures 聚类任务 聚类方法 加载模块 K-means cluster.KMeans AP聚类 cluster.AffinityPropagation 均值漂移 cluster.MeanShift 层次聚类 cluster.AgglomerativeClustering DBSCAN cluster.DBSCAN BIRCH cluster.Birch 谱聚类 cluster.SpectralClustering 降维任务 降维方法 加载模块 主成分分析 decomposition.PCA 截断SVD和LSA decomposition.TruncatedSVD 字典学习 decomposition.SparseCoder 因子分析 decomposition.FactorAnalysis 独立成分分析 decomposition.FastICA 非负矩阵分解 decomposition.NMF LDA decomposition.LatentDirichletAllocation - 通过sklearn库自带的数据集学习模拟应用
- 手写数字数据集
#手写数字数据集 from sklearn.datasets import load_digits digits=load_digits() ''' #加载数据集, #参数:return_X_y:若为True,则以(data,target)形式返回,默认为False,表示以字典形式返回数据全部信息(data和target)n_class:表示返回数据的类别数, ''' print(digits.data.shape) #打印数据维度 print(digits.target.shape) print(digits.images.shape) import matplotlib.pyplot as plt#显示图片 plt.matshow(digits.images[0]) plt.show()
- 鸢尾花数据集
''' 鸢尾花数据集1.数据为鸢尾花的测量数据及其所属的类别,包括萼片长度,萼片宽度花瓣长度,花瓣宽度,共分为三类,Iris Setosa,Iris Versicolour,Iris Virginica,可用于多分类问题。2.load_iris()函数参数:return_X_y:若为True,则以(data,target)形式返回is默认为False,表示以字典形式返回数据全部信息(data和target)n_class:表示返回数据的类别数 ''' from sklearn.datasets import load_iris iris=load_iris() print(iris.data.shape)print(iris.data.shape) print(iris.target.shape) print(list(iris.target_names))
- 波士顿房价数据集,可以应用到回归问题上。
#波斯顿房价数据集 from sklearn.datasets import load_boston '''2.load_boston()函数参数:return_X_y:若为True,则以(data,target)形式返回is默认为False,表示以字典形式返回数据全部信息(data和target) ''' boston=load_boston() print(boston.data.shape)bostondata,bostontarget=load_boston(return_X_y=True) print(bostondata.shape) print(bostontarget.shape)
- 手写数字数据集
- 数据集总览
总览 数据集名称 调用方式 适用算法 数据规模 小
数
据
集
波士顿房价数据集 load_boston() 回归 506*13 鸢尾花数据集 load_iris() 分类 150*4 糖尿病数据集 load_diabetes() 回归 442*10 手写数字数据集 load_digits() 分类 5620*64 小
数
据
集
Olivetti脸部图像数据 fetch_olivetti_faces() 降维 400*64*64 新闻分类数据集 fetch_20newsgroups() 分类 - 带标签的人脸数据集 fetch_lfw_people() 分类;降维 - 路透社新闻语料数据集 fetch_rcvl() 分类 804414*47236