机器学习笔记(七)——决策树模型

引言

决策树(Decision Tree)是一种基本的分类和回归方法。它的扩展方法有GBDT和GBRT 等。决策树模型的学习过程主要有特征选择、决策树生成和剪枝。主要算法有ID3、C4.5和CART等。

一、决策树模型

决策树首先是一个树形结构,它包括两种类型的节点:内部节点和叶节点。内部节点是属性,叶节点是具体的分类。当决策树根据一些学习方法建立好之后,就可以进行实例的预测了,首先从根节点开始,对应决策树的属性进行实例的划分,直至叶节点,那么这个实例的类就被分出来了。一个简单的决策树模型如下图所示:

决策树模型

其实,可以将决策树看成是IF-THEN 规则的集合。决策树还表示给定特征条件下类的条件概率分布。

二、决策树的学习

给定一个数据集合D,每一个实例都有特征和类标签。要生成一颗决策树,使得它能对数据集合D有很好的拟合,同时还要求对未知数据可以进行预测。决策树的学习同样是最小化损失函数。损失函数是正则化的极大似然估计。

决策树的构造如下:
1. 开始构造根节点,将所有数据都放入根节点
2. 选择一个最有特征,按照这一特征将训练数据分割成子集,使得各个子集在当前条件下有一个是最好的分类,如果这些子集都能被正确分类,那么构造叶节点,否则,重复步骤2。直到所有的训练数据都被正确分类,或者没有合适的特征。

这就生成了一棵决策树。上述方法构造的决策树对训练数据集有着很好的拟合,但是对于未知数据的预测却不一定有很好的分类能力,即上述过程可能导致过拟合的问题。解决这一问题的方法是对决策树进行剪枝。另外,如果特征过多,在决策树开始建立之前就可以对特征进行选择。

下边的内容会围绕决策树学习的一些算法展开讨论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/576649.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ElasticSearch获取多个文档Multi GET API介绍

#■同时获取多个文档信息 #■例子:获职index:bank和shakespeare下面 #. I0为1.2.3.4.15.6.28的文档信息 GET /bank/bank_account/1 GET /bank/bank_account/2 GET /shakespcare/line/3 GET /bank/bank_account/4 GET /shakespeare/line/15 #日数组[] GET /_mget {"docs&qu…

机器学习笔记(八)——决策树模型的特征选择

一、引言 决策树构建过程中的特征选择是非常重要的一步。特征选择是决定用哪个特征来划分特征空间,特征选择是要选出对训练数据集具有分类能力的特征,这样可以提高决策树的学习效率。如果利用某一个特征进行分类与随机分类的结果没有很大的差别&#xf…

Bulk批量操作API的介绍

#多重模式 #批量操作bulk POST /library/books/_bulk {"index": {"_id": 1}} {"title":"Elasticsearch: The Definitive Guide","price":5} {"index": {"_id": 2}} {"title":"The Elast…

[转】:Android调试工具及方法

http://www.cnblogs.com/feisky/archive/2010/01/01/1637566.html--LogcatDump一份系统消息的日志。这些消息包括模拟器抛出错误时的堆栈跟踪。Android Log一个记录日志的类,用来将消息写入模拟器上的日志文件中。如果你在DDMS上运行logcat的话你可以就实时查看消息…

机器学习笔记(九)——决策树的生成与剪枝

一、决策树的生成算法 基本的决策树生成算法主要有ID3和C4.5, 它们生成树的过程大致相似,ID3是采用的信息增益作为特征选择的度量,而C4.5采用信息增益比。构建过程如下: 从根节点开始,计算所有可能的特征的信息增益(信…

apache+webdav的安装配置

原始资料:http://www.howtoforge.com/setting-up-webdav-with-apache2-on-debian-etch apachewebdav的安装配置 需求:1.开启一个web服务,使得客户端能够像操作本地磁盘一样操作服务端某个文件目录下的文件在服务器上安装配置apachewebdav模块…

最优化学习笔记(二)——二分法

二分法是一种一维搜索方法。它讨论的是求解一元单值函数f:R→R在区间[a0,b0]的极小点问题。同时要求函数f在区间[a0,b0]上为单调函数,并且是连续可微的,这里将使用f的一阶导数f′。 二分法的计算过程比较简单,它主要是利用一阶导数来连…

elasticsearch内部版本控制

现在我将这个price价格改为10,看下版本有什么变化? 获取一下 返回结果我们知道价格price已经修改为10,_version已经变成2 我们把参数version改成2试试 我们从执行结果可知,我们已经修改成功,并且版本自增为3

JAVA每个初学者都应该搞懂的问题 还可以比较基础

还可以比较基础 转自http://blog.csdn.net/devillyd/article/details/2486520 对于这个系列里的问题,每个学Java的人都应该搞懂。当然,如果只是学Java玩玩就无所谓了。如果你认为自己已经超越初学者了,却不很懂这些问题,请将你自己…

最优化学习笔记(三)——梯度下降法

本来这周计划写下逻辑回归的学习笔记&#xff0c;但是其中用到了最优化对数似然函数&#xff0c;因此决定先复习下梯度方法和拟牛顿法。本节先从纯数学的角度总结下梯度下降法。 一、柯西-施瓦茨不等式 对于 Rn中的任意两个向量 x和y&#xff0c; 有&#xff1a; |<x,y&g…

ElasticSearch外部版本控制

#外部版本控制机制| PUT /library/books/1?version5&version_typeexternal {"title": "Elosticsearch: The Definitive Guide" ,"name":{"first" : "Zachary","last" : "Tong"},"publish_dat…

最优化学习笔记(四)——最速下降法

一、最速下降法的理念 最速下降法是梯度方法的一种实现&#xff0c;它的理念是在每次的迭代过程中&#xff0c;选取一个合适的步长αk&#xff0c;使得目标函数的值能够最大程度的减小。αk可以认为是函数ϕk(α)f(x(k)−α∇f(x(k)))的极小值点&#xff1a; αkargminf(x(k)−…

关于 win7 远程桌面的多用户问题

关于 win7 远程桌面的多用户问题 [转]系统是 64位WIN7 旗舰版 每当我用其它机器连WIN7的3389远程桌面时&#xff0c;WIN7那台机子就会退出到注销用户后的状态了&#xff0c;后来我新建了个用户&#xff0c;用不同用户登陆还是退出&#xff0c;也就是说不能同时2个人操作电脑&am…

ElasticSearch映射Mapping

1.1 什么是映射 (1) 映射(mapping): 定义index的元数据, 指定要索引并存储的文档的字段类型. 也就是说映射决定了Elasticsearch在建立倒排索引、进行检索时对文档采取的相关策略, 如数字类型、日期类型、文本类型等等. 需要注意的是: 检索时用到的分析策略, 要和建立索引时的分…

机器学习笔记(十)——Logistic Function AND Softmax Function

一、说明 在逻辑回归和一些机器学习算法中&#xff0c; Logistic函数和Softmax函数是常用到的&#xff0c;今天就先讨论下这两个函数。 二、Logistic Function Logistic function一般用于二分类问题&#xff0c;它的函数定义如下&#xff1a; f(x)11e−x(1)f(x) = \frac{1}{1…

2012开博

2012是一个新的开始&#xff0c;希望学习更多的新技术&#xff0c;结交更多的新朋友。也将自己的技术博客转到博客园来!转载于:https://www.cnblogs.com/yangjun1120/archive/2012/01/30/2332111.html

kibana客户端工具操作ElasticSearch(增删改查三)

之前一直我们讲的是添加文档和查看文档&#xff0c;下面我们看下怎么修改文档&#xff0c; 第一种方式PUT 覆盖原来的文档 修改文档&#xff08;覆盖原来的&#xff09;&#xff1a; PUT /lib/user/1 {"first_name":"Jane","last_name":"…

Word2Vec学习笔记(一)

目录 Word2Vec基本数学内容语言模型Hierarchical Softmax 模型Negative Sampling 模型 一、Word2Vec基本数学内容 1. Sigmod 函数 &absp;&absp;&absp;&absp;Sigmod函数通常在二分类中应用。它将样本映射后投影在[0, 1]范围内&#xff0c;对应样本所属的类的…

SQL Tuning Advisor简单使用

SQL Tuning Advision是Oracle提供的一个功能包&#xff0c;可以针对有性能问题的SQL给出优化建议。可以作为调优的辅助手段。 建立测试表和索引create table t_1 as select * from dba_objects;create table t_2 as select * from dba_tables;create index idx_t_2_ts on t_2(t…