机器学习

机器学习

sklearn基础功能

  1. 主要使用python的sklearn库:sklearn库共分为6大部分,分别用于完成分类任务、回归任务、聚类任务、降维任务、模型选择以及数据的预处理。
  2. 各模块功能介绍
    分类任务
    分类模型加载模块
    最近邻算法neighbors.NearestNeighbors
    支持向量机svw.SVC
    朴素贝叶斯naive_bayes.GaussianNB
    决策树tree.DecisionTreeClassifier
    集成方法ensemble.BaggingClassifier
    神经网络neural_network.MLPClassifier
    回归任务
    回归模型加载模块
    岭回归linear_model.Ridge

    Lasso回归

    linear_model.Lasso
    弹性网络linear_model.ElasticNet
    最小角回归linear_model.Lars
    贝叶斯回归linear_model.BayesianRidge
    逻辑回归linear_model.LogisticRegression
    多项式回归preprocessing.PolynomialFeatures
    聚类任务
    聚类方法加载模块
    K-meanscluster.KMeans
    AP聚类cluster.AffinityPropagation
    均值漂移cluster.MeanShift
    层次聚类cluster.AgglomerativeClustering
    DBSCANcluster.DBSCAN
    BIRCHcluster.Birch
    谱聚类cluster.SpectralClustering
    降维任务
    降维方法加载模块
    主成分分析decomposition.PCA
    截断SVD和LSAdecomposition.TruncatedSVD
    字典学习decomposition.SparseCoder
    因子分析decomposition.FactorAnalysis
    独立成分分析decomposition.FastICA
    非负矩阵分解decomposition.NMF
    LDAdecomposition.LatentDirichletAllocation
  3. 通过sklearn库自带的数据集学习模拟应用
    1. 手写数字数据集
      #手写数字数据集
      from sklearn.datasets import load_digits
      digits=load_digits()
      '''
      #加载数据集,
      #参数:return_X_y:若为True,则以(data,target)形式返回,默认为False,表示以字典形式返回数据全部信息(data和target)n_class:表示返回数据的类别数,
      '''
      print(digits.data.shape)    #打印数据维度
      print(digits.target.shape)
      print(digits.images.shape)  import matplotlib.pyplot as plt#显示图片
      plt.matshow(digits.images[0])
      plt.show()

    2. 鸢尾花数据集
      '''
      鸢尾花数据集1.数据为鸢尾花的测量数据及其所属的类别,包括萼片长度,萼片宽度花瓣长度,花瓣宽度,共分为三类,Iris Setosa,Iris Versicolour,Iris Virginica,可用于多分类问题。2.load_iris()函数参数:return_X_y:若为True,则以(data,target)形式返回is默认为False,表示以字典形式返回数据全部信息(data和target)n_class:表示返回数据的类别数
      '''
      from sklearn.datasets import load_iris
      iris=load_iris()
      print(iris.data.shape)print(iris.data.shape)
      print(iris.target.shape)
      print(list(iris.target_names))

       

    3. 波士顿房价数据集,可以应用到回归问题上。
      #波斯顿房价数据集
      from sklearn.datasets import load_boston
      '''2.load_boston()函数参数:return_X_y:若为True,则以(data,target)形式返回is默认为False,表示以字典形式返回数据全部信息(data和target)
      '''
      boston=load_boston()
      print(boston.data.shape)bostondata,bostontarget=load_boston(return_X_y=True)
      print(bostondata.shape)
      print(bostontarget.shape)
       
  4.  数据集总览
    总览
     数据集名称调用方式适用算法数据规模

    波士顿房价数据集load_boston()回归506*13
    鸢尾花数据集load_iris()分类150*4
    糖尿病数据集load_diabetes()回归442*10
    手写数字数据集load_digits()分类5620*64

    Olivetti脸部图像数据fetch_olivetti_faces()降维400*64*64
    新闻分类数据集fetch_20newsgroups()分类-
    带标签的人脸数据集fetch_lfw_people()分类;降维-
    路透社新闻语料数据集fetch_rcvl()分类804414*47236

     

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/484411.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

费米悖论的三十种解释

© David B. Mattingly来源:利维坦 文:Ella Alderson译:Rachel校对:Yord原文:/medium.com/predict/30-solutions-to-the-fermi-paradox-aaabfce56280利维坦按:我个人现阶段觉得,与其说接受宇…

无监督学习

目标 利用无标签的数据学习数据的分布或数据与数据之间的关系被称作无监督学习。 有监督学习与无监督学习的最大去区别在于数据是否有标签。 无监督学习最常见的应用场景是聚类和降维。 聚类 聚类,就是根据数据的“相似性”将数据分为多类的过程。相似性评估&am…

重磅!三星宣布3nm成功流片!

来源:世界先进制造技术论坛(AMT)编辑:小艾 6月29日,据外媒最新报道,三星宣布,3nm制程技术已经正式流片! 据悉,三星的3nm制程采用的是GAA架构,性能上完胜台积电的3nm FinFET架构!据报导&#xff…

前端实战:仿写小米官网第一天

前端实战的第一天 小米官网 目前效果: 实现功能: 导航栏,首页切换,无淡入淡出效果的轮播图,搜索功能,产品展示栏下滑 代码(便于记录,将js、css和html糅合在了一起)&…

ubuntuxu双系统安装+git/g++/vim+pytorch+opencv+yolo+sitl相关学习

multirotor The first day ——12.10 1.install vmware-workstation and ubuntu swap sources and 换输入法 2.learn git github关联远程仓库 3.install and use Typora Git codemeaningmkdir test创建目录cd test进入目录git init初始化仓库ls ;ls -ah查看目…

MySQL日志详细说明

这片博文我们会详细说明MySQL本身的日志,不包含重做日志和undo日志(这两个日志是innodb存储引擎的日志)。 MySQL本身的日志有以下几种(MySQL5.7版本): 错误日志慢查询日志通用日志二进制日志错误日志 默认情…

python-DBSCAN密度聚类

1.DBSCAN 算法是一种基于密度的聚类算法: 聚类的时候不需要预先指定簇的个数。最终的簇的个数不定。 2.DBSCAN 算法将数据点分为三类: 核心点:在半径Eps内含有超过MinPts数目的点边界点:在半径Eps内点的数量小于MinPts&#xff…

院士报告 | 李德仁:基于数字孪生的智慧城市(PPT)

来源:转自智慧城市大讲堂,微信编辑:邱峰、罗兵,张钦煜微信审核:张祥、吴斌、数字理政研究院、中通协大数据分会本文为首届川渝住房城乡建设博览会——川渝数智城市BIM/CIM高峰论坛上,中国科学院院士、中国工…

Hanlp的安装和配置

Hanlp简介 HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。 HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 HanLP 提供下列功能: 中文分词最短路分词N-最短路分词CRF分词索引分词极…

python-主成分分析-降维-PCA

PCA算法及其应用 主成分分析(PCA) 主城成分分析(PCA):常见的降维方法,用于高维数据集的探索与可视化,还可以用作数据压缩和预处理。 PCA 可以把具有相关性的高维变量合成为线性无关的低维变量,成为主成分&…

5个基本概念,从统计学到机器学习

来源:CSDN作者:George Seif本文讲述了数据分析师应当了解的五个统计基本概念:统计特征、概率分布、降维、过采样/欠采样、贝叶斯统计方法。从高的角度来看,统计学是一种利用数学理论来进行数据分析的技术。象柱状图这种基本的可视…

Ubuntu安装与配置(简要)

学校的实验课任务,一看没有写过Ubuntu的安装,现在顺便上传上来;

python-非负矩阵分解-NMF

非负矩阵分解 非负矩阵分解是矩阵中所有元素均为非负数约束条件下的矩阵分解,其基本思想:给定一个非负矩阵V,NMF能够找到一个非负矩阵W和一个非负矩阵H,使得矩阵W和矩阵H的乘积近似等于矩阵V中的值。 矩阵:被称为基础…

OpenAI与GitHub联手推出AI代码生成工具,比GPT-3更强大

来源:AI科技评论作者:琰琰、青暮比GPT-3更强大!昨日,微软与OpenAI共同推出了一款AI编程工具GitHub Copilot,这款工具基于GitHub及其他网站的源代码,可根据上文提示为程序员自动编写下文代码!Git…

Hanlp之理解用户自定义词典(java版本)

首先说明,由于本人水平有限,文章纰漏以及不妥之处还请指出,不胜感激; 理解hanlp中用户自定义词典(java) 什么是hanlp用户自定义字典?为什么要有用户自定义词典? 在Hanlp分词中&…

python-聚类图像分割

K-Means聚类图像分割 图像分割: 利用图像的灰度,颜色,纹理,形状等特征,把图像分成若干个互不重叠的区域,并使这些特征在同一区域内呈现相似性,在不同区域之间存在明显的差异性。然后&#xff0c…

科学家揭秘大脑靠“旋转”区分过去和现在,还给了个AI架构设计新思路 | Nature子刊...

来源:量子位 过去和现在的边界,到底在哪里?人类,又是如何在时间混沌中区分出过往与当下的?注意,这不是一个哲学问题。(手动狗头)而是科学家们的最新研究。两个普林斯顿的神经学家&am…

Hanlp中自定义词典的配置、引用以及问题解决

文章目录如何阅读本文?Hanlp用户自定义词典引用简介操作步骤环境创建编辑词典文件将用户自定义词典路径加入配置文件删除缓存文件如何阅读本文? 首先我们对Hanlp用户词典进行简介,推荐首先阅读链接文章,它是本文的第一来源&#…

有监督学习

有监督学习 利用一组带有标签的数据,学习从输入到输出的映射,然后将这种映射关系应用到未知数据上,达到分类或回归的目的。 分类:当输出为离散的,学习任务为分类任务。回归:当输出为连续的,学习…