炼数成金数据分析课程---16、机器学习中的分类算法(交叉内容,后面要重点看)...

炼数成金数据分析课程---16、机器学习中的分类算法(交叉内容,后面要重点看)

一、总结

一句话总结:

大纲+实例快速学习法
主要讲解常用分类算法(如Knn、决策树、贝叶斯分类器等)的原理及python代码实现

 

1、什么是分类?

分类模型:输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别

 

2、常用分类算法?

-Knn算法
-决策树
-贝叶斯分类器
-神经网络
-Knn算法
-决策树
-贝叶斯分类器
-支持向量机
-神经网络

 

 

 

3、分类算法中的决策树的主要思想是什么?

空间划分:看图

 

 

4、分类算法中的决策树的介绍?

树中每一个非叶节点表示一个决策,该决策的值导致不同的决策结果(叶节点)或者影响后面的决策选择。
根据给定的未知分类的元组X,根据其属性值跟踪一条由根节点到叶节点的路径,该叶节点就是该元组的分类结果预测。

 

5、构建决策树的算法的本质是什么?

贪心:在构建决策树时,这两类算法的流程基本一样,都采用贪心方法,自顶而下递归构建决 策树

 

6、贪心算法如何构建决策树?

1.创建一个结点N。如果D中的元组都在同一个类别C中,则N作为叶结点,以C标记;如果属性列表为空,则N作为叶节点,以D中最多的类别C作为标记。
2.根据分裂准则找出“最好”的分裂属性A,并用该分裂属性标记N。1)A是离散的,则A的每个已知值都产生一个分支;2)A是连续的,则产生Ass和A>s两个分支;3)若A是连续的,并且必须产生二叉树,则产生AEA1和AEA2两个分支,其中A1,A2非空且A1UA2=A
3.若给定的分支中的元组非空,对于D的每一个分支Dj,重复步骤1,2

 

7、分类算法中的决策树的 属性选择 如何度量?

如果我们根据分裂准则把D划分为较小的分区,最好的情况是每个分区都是纯的,即落在一个给定分区的所有元组都是相同的类。最好的分裂准则就是令到每个分区尽量的纯。
属性选择度量给学习集中的每个属性提供了评定。具有最好度量得分的属性被选为分裂属性。

 

8、决策树的剪枝的两种常用方法是什么?

先剪枝:通过设定一定的阀值来停止树的生长例如,在构建树模型时,使用信息增益、基尼指数来度量划分的优劣。可以预先设定一个阀值,当划分一个结点的元组到时低于预设的阀值时,停止改子集的划分
后剪枝:等树完全生成后再通过删除结点去修剪决策树。由于先剪枝中,选择合适的阀值存在一定的困难,所以后剪枝更加常用

 

9、python中使用决策分类算法常需要借助哪些包?

主要是python的sklearn库
import numpy as np
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import precision_recall_curve
from sklearn.metrics import classification_report
from sklearn.naive_bayes import BernoulliNB
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cross_validation import train_test_split
import matplotlib.pyplot as plt
import pandas as pd

 

 

二、内容在总结中

决策树--空间分割

 

week13

 

 

 

 

 

 

转载于:https://www.cnblogs.com/Renyi-Fan/p/10989866.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/277549.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NFS配置详解

1、NFS服务介绍1.1 什么是NFS?NFS是Network File System的缩写。中文意思是网络文件系统。它的主要功能是通过网络(一般是局域网)让不同的主机系统之间可以共享文件或者目录。NFS客户端(一般为应用服务器,例如web&…

idea用法

更新gradle的依赖后,刷新项目引入jar包的方法: view--Tool Buttons 在右侧 Gradle 点刷新 转载于:https://www.cnblogs.com/z360519549/p/10994897.html

免费下载!5本阿里技术好书,带你看更大的世界

共享、开源是互联网技术发展的重要精神。在过去,25000多万名阿里工程师,撰写了一系列精品技术丛书,从算法、研发到职业人生随笔,应有尽有。目前该系列丛书已全部开放下载,供技术人免费阅读。 今天小编整理了其中的五本…

乌班图系统16.04安装

本例jiyu基于Ubuntu16.04 64位版本为例进行安装,安装的方式有多种,本文使用光盘进行安装安装前应准备好,将Ubuntu的镜像文件刻成光盘,然后将光盘放入光驱,并设置服务器从光盘启动,开机到如下界面:按Enter键到下一步,如…

使用maven构建项目候,jar包错误的解决办法

1、删除架包,重新下载,右键项目点击"run as"中的“maven clean”,然后再maven中找到Update Project 2、可以在代码中,把鼠标放到报错的架包上 点击划红线部分,进行安装 转载于:https://www.cnblogs.com/qingqian/p/1099…

模拟输入(ADC-A0)

ESP8266具有内置的10位ADC,只有一个ADC通道(A0引脚),即只有一个ADC输入引脚可读取来自外部器件的模拟电压 ESP8266上的ADC通道和芯片供电电压复用,也就是说我们可以将其设置为测量系统电压或者外部电压 测量外部电压: analogRead(…

个人作业-Alpha项目测试

这个作业属于哪个课程https://edu.cnblogs.com/campus/xnsy/SoftwareEngineeringClass2作业地址https://edu.cnblogs.com/campus/xnsy/SoftwareEngineeringClass2/homework/3340团队名称脑阔疼https://www.cnblogs.com/chaserFF/p/10994338.html这个作业的目标完成班级项目互评…

Jenkins的Pipeline脚本在美团餐饮SaaS中的实践

2019独角兽企业重金招聘Python工程师标准>>> 一、背景 在日常开发中,我们经常会有发布需求,而且还会遇到各种环境,比如:线上环境(Online),模拟环境(Staging)&…

【springboot+easypoi】一行代码搞定excel导入导出

原文:https://www.jianshu.com/p/5d67fb720ece 开发中经常会遇到excel的处理,导入导出解析等等,java中比较流行的用poi,但是每次都要写大段工具类来搞定这事儿,此处推荐一个别人造好的轮子【easypoi】,下面…

用java编写一个计算器_用java程序编写一个计算器

展开全部给你一个参考,希望不62616964757a686964616fe58685e5aeb931333330343261要被百度吞了当晚餐import java.awt.BorderLayout;import java.awt.GridLayout;import java.awt.event.MouseEvent;import java.awt.event.MouseListener;import java.text.DecimalFor…

jquery中的ajax方法(备忘)

参考:https://www.cnblogs.com/tylerdonet/p/3520862.html w3school:http://www.w3school.com.cn/jquery/ajax_ajax.asp 1.url: 要求为String类型的参数,(默认为当前页地址)发送请求的地址。 2.type: 要求为String类型的参数&…

第4次作业

转载于:https://www.cnblogs.com/wzh2920330283/p/11027254.html

多核学习方法介绍

通过上篇文章的学习,我们知道,相比于单个核函数,多核模型可以具有更高的灵活性。经过多个核函数映射后的高维空间是由多个特征空间组合而成的组合空间,而显然组合空间可以组合各个子空间不同的特征映射能力,能够将异构…

linux go环境安装和基本项目结构

最近项目中要用到Go语言,所以简单总结一下安装和配置,Go这个语言本身就限定了很多规范,比如项目设置,编程风格等,开发中就不需要再因为各种规范问题纠结了,直接用官方规定的能避免很多坑,下面直…

运输层

运输层-TCP 简介 通俗点来说,运输层是连接底层和用户层的,运输层向它上面的应用层提供通信服务,它属于通信部分的最高层,同时也是用户功能的最低层。 运输层重要功能是复用和分用。复用:发送方不同应用进程可以使用同一…

phpStudy

很多朋友在学习php的过程中会看到phpstudy这个东西,那么phpstudy是做什么的呢?有什么用?接下来的这篇文章将个大家来详细的介绍一下phpstudy的内容。 首先在百度百科上对于phpstudy的定义是一个PHP调试环境的程序集成包。 该程序包集成最新的…

厉害了!Intel第九代酷睿参数曝光

2019独角兽企业重金招聘Python工程师标准>>> 导读上周有消息称,Intel第九代酷睿处理器最快于8月1日发布,共有三款主打产品,分别是i9-9900K、i7-9700K和i5-9600K。其中,i9-9900K设计为8核16线程,基础主频3.6…

Web应用性能分析工具—HAR文件

Web应用性能分析工具—HAR文件 来源 https://raynorli.com/2018/06/11/web-performance-analysis-har-file/ 客户经常有的一个问题就是,我的网页服务通过你的设备之后,访问变慢了,这类直观感受的故障很不好量化,而且基于Web应用的…

【mybatis】mybatis多表联查,存在一对多关系的,实体中使用List作为字段接收查询结果的写法...

实体如下: IntegralGoods  积分商品 IntegralGoodsImg  积分商品图片 ShelfLog    积分商品自动上架记录 IntegralGoods :IntegralGoodsImg:ShelfLog   1:n:1 1:1的多表联查或者m:n的多表联查 很简…

mac java tomcat_mac idea 配置tomcat

mac idea 配置tomcat一、下载安装tomcat二、有一个 javaWeb项目创建一个javaWeb项目 ,参考第一条,只是在第二步的时候选中java Web就行三、完善web项目在WEB-INF 下新建两个文件夹,lib(存放jar包)和classes(存放编译后的文件)打开项目结构设置配置classe…