机器学习笔记（八）——决策树模型的特征选择

机器学习笔记（八）——决策树模型的特征选择

news/2025/4/27 16:46:53/文章来源:https://blog.csdn.net/chunyun0716/article/details/51289940

一、引言

决策树构建过程中的特征选择是非常重要的一步。特征选择是决定用哪个特征来划分特征空间，特征选择是要选出对训练数据集具有分类能力的特征，这样可以提高决策树的学习效率。如果利用某一个特征进行分类与随机分类的结果没有很大的差别，则称这个特征是没有分类能力的。这样的特征可以丢弃。常用的特征选择的准则是信息增益和信息增益比。

二、信息增益

要了解信息增益，我们要先知道熵与条件熵的定义。

2.1 熵

熵是无序度的度量，在信息论和统计中，熵表示随机变量不确定性的度量。假设 $X$ 是一个取有限值的离散型随机变量，它的概率分布如下：

P (X = x i) = p i, i = 1, 2, \dots, n

$P(X=x_i)=p_i, i = 1,2,\dots,n$
则随机变量

X $X$ 的熵定义为：

H (X) = - \sum i = 1 n p i log p i

$H(X) = -\sum_{i=1}^{n}p_i\log p_i$

若pi=0，定义0log0=0 $若p_i=0，定义0 \log 0 = 0$ ,从上式中可以看到，熵只依赖于

X $X$ 的分布，而与

X $X$ 的取值没有关系。熵越大，随机变量的不确定性就越大。故可以将

X的熵记作H(p): $X的熵记作H(p):$

H (p) = - \sum i = 1 n p i log p i

$H(p) = -\sum_{i=1}^{n}p_i\log p_i$

2.2 条件熵

设有随机变量 $(X,Y)$ ,其联合概率分布为：

P (X = x i, Y = y j) = p i j, i = 1, 2, \dots, n; j = i = 1, 2, \dots, m

$P(X=x_i, Y= y_j)=p_{ij}, i = 1,2, \dots, n; j = i = 1,2, \dots, m$
条件熵

H(Y|X) $H(Y|X)$ 表示在已知随机变量

X $X$ 的条件下随机变量

Y $Y$ 的不确定性。随机变量

X $X$ 给定的条件下随机变量

Y $Y$ 的条件熵

H(Y|X) $H(Y|X)$ 定义为

X $X$ 给定条件下

Y $Y$ 的条件概率分布的熵对

X $X$ 的数学期望：

H (Y | X) = \sum i = 1 n p i H (Y | X = x i), p i = P (X = x i), i = 1, 2, \dots, n

$H(Y|X)=\sum_{i=1}^{n}p_iH(Y|X=x_i), \\ p_i=P(X=x_i), i = 1,2,\dots,n$
当熵和条件熵中的概率由数据估计得来时，所对应的熵和条件熵称为经验熵和经验条件熵。

2.3 信息增益

信息增益表示得知特征 $X$ 的信息而使得类 $Y$ 的信息不确定性减少的程度。
信息增益
$特征A对训练数据集D的信息增益g(D,A)，定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差：$

g (D, A) = H (D) - H (D | A)

$g(D,A) = H(D) - H(D|A)$
信息增益大的特征具有更强的分类能力。
根据信息增益准则进行特征选择的方法是：对训练数据集

D $D$ ，计算其每个特征的信息增益，并比较它们的大小，选择最大的特征。

三、信息增益比

通过信息增益选取特征的时候，存在偏向于选择取值较多的特征的问题。使用信息增益比可以纠正这一问题。

信息增益比
$特征A对训练数据集D的信息增益比g_R(D,A)定义为其信息增益g(D,A)与训练数据集D关于特征A的值的熵H_A(D)之比，即:$

g R (D, A) = g ( D , A ) H A ( D ) H A (D) = - \sum i = 1 n | D i | | D | log 2 | D i | | D |

$g_R(D,A) = \frac{g(D,A)}{H_A(D)} \\ H_A(D) = -\sum_{i=1}^{n}\frac{|D_i|}{|D|} \log_2 \frac{|D_i|}{|D|}$
n 是特征A取值的个数。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/576647.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Bulk批量操作API的介绍

Bulk批量操作API的介绍

#多重模式 #批量操作bulk POST /library/books/_bulk {"index": {"_id": 1}} {"title":"Elasticsearch: The Definitive Guide","price":5} {"index": {"_id": 2}} {"title":"The Elast…

阅读更多...

[转】：Android调试工具及方法

[转】：Android调试工具及方法

http://www.cnblogs.com/feisky/archive/2010/01/01/1637566.html--LogcatDump一份系统消息的日志。这些消息包括模拟器抛出错误时的堆栈跟踪。Android Log一个记录日志的类，用来将消息写入模拟器上的日志文件中。如果你在DDMS上运行logcat的话你可以就实时查看消息…

阅读更多...

机器学习笔记（九）——决策树的生成与剪枝

机器学习笔记（九）——决策树的生成与剪枝

一、决策树的生成算法基本的决策树生成算法主要有ID3和C4.5, 它们生成树的过程大致相似，ID3是采用的信息增益作为特征选择的度量，而C4.5采用信息增益比。构建过程如下： 从根节点开始，计算所有可能的特征的信息增益（信…

阅读更多...

Bulk处理文档大小的最佳值

Bulk处理文档大小的最佳值

阅读更多...

apache+webdav的安装配置

apache+webdav的安装配置

原始资料：http://www.howtoforge.com/setting-up-webdav-with-apache2-on-debian-etch apachewebdav的安装配置需求：1.开启一个web服务，使得客户端能够像操作本地磁盘一样操作服务端某个文件目录下的文件在服务器上安装配置apachewebdav模块…

阅读更多...

最优化学习笔记（二）——二分法

最优化学习笔记（二）——二分法

二分法是一种一维搜索方法。它讨论的是求解一元单值函数f:R→R在区间[a0,b0]的极小点问题。同时要求函数f在区间[a0,b0]上为单调函数，并且是连续可微的，这里将使用f的一阶导数f′。二分法的计算过程比较简单，它主要是利用一阶导数来连…

阅读更多...

elasticsearch内部版本控制

elasticsearch内部版本控制

现在我将这个price价格改为10，看下版本有什么变化？ 获取一下返回结果我们知道价格price已经修改为10，_version已经变成2 我们把参数version改成2试试我们从执行结果可知，我们已经修改成功，并且版本自增为3

阅读更多...

JAVA每个初学者都应该搞懂的问题还可以比较基础

JAVA每个初学者都应该搞懂的问题还可以比较基础

还可以比较基础转自http://blog.csdn.net/devillyd/article/details/2486520 对于这个系列里的问题，每个学Java的人都应该搞懂。当然，如果只是学Java玩玩就无所谓了。如果你认为自己已经超越初学者了，却不很懂这些问题，请将你自己…

阅读更多...

最优化学习笔记（三）——梯度下降法

最优化学习笔记（三）——梯度下降法

本来这周计划写下逻辑回归的学习笔记，但是其中用到了最优化对数似然函数，因此决定先复习下梯度方法和拟牛顿法。本节先从纯数学的角度总结下梯度下降法。一、柯西-施瓦茨不等式对于 Rn中的任意两个向量 x和y， 有： |<x,y&g…

阅读更多...

ElasticSearch外部版本控制

ElasticSearch外部版本控制

#外部版本控制机制| PUT /library/books/1?version5&version_typeexternal {"title": "Elosticsearch: The Definitive Guide" ,"name":{"first" : "Zachary","last" : "Tong"},"publish_dat…

阅读更多...

最优化学习笔记（四）——最速下降法

最优化学习笔记（四）——最速下降法

一、最速下降法的理念最速下降法是梯度方法的一种实现，它的理念是在每次的迭代过程中，选取一个合适的步长αk，使得目标函数的值能够最大程度的减小。αk可以认为是函数ϕk(α)f(x(k)−α∇f(x(k)))的极小值点： αkargminf(x(k)−…

阅读更多...

关于 win7 远程桌面的多用户问题

关于 win7 远程桌面的多用户问题

关于 win7 远程桌面的多用户问题 [转]系统是 64位WIN7 旗舰版每当我用其它机器连WIN7的3389远程桌面时，WIN7那台机子就会退出到注销用户后的状态了，后来我新建了个用户，用不同用户登陆还是退出，也就是说不能同时2个人操作电脑&am…

阅读更多...

ElasticSearch映射Mapping

ElasticSearch映射Mapping

1.1 什么是映射 (1) 映射(mapping): 定义index的元数据, 指定要索引并存储的文档的字段类型. 也就是说映射决定了Elasticsearch在建立倒排索引、进行检索时对文档采取的相关策略, 如数字类型、日期类型、文本类型等等. 需要注意的是: 检索时用到的分析策略, 要和建立索引时的分…

阅读更多...

机器学习笔记（十）——Logistic Function AND Softmax Function

机器学习笔记（十）——Logistic Function AND Softmax Function

一、说明在逻辑回归和一些机器学习算法中， Logistic函数和Softmax函数是常用到的，今天就先讨论下这两个函数。二、Logistic Function Logistic function一般用于二分类问题，它的函数定义如下： f(x)11e−x(1)f(x) = \frac{1}{1…

阅读更多...

2012开博

2012开博

2012是一个新的开始，希望学习更多的新技术，结交更多的新朋友。也将自己的技术博客转到博客园来!转载于:https://www.cnblogs.com/yangjun1120/archive/2012/01/30/2332111.html

阅读更多...

kibana客户端工具操作ElasticSearch（增删改查三）

kibana客户端工具操作ElasticSearch（增删改查三）

之前一直我们讲的是添加文档和查看文档，下面我们看下怎么修改文档， 第一种方式PUT 覆盖原来的文档修改文档（覆盖原来的）： PUT /lib/user/1 {"first_name":"Jane","last_name":"…

阅读更多...

Word2Vec学习笔记(一)

Word2Vec学习笔记(一)

目录 Word2Vec基本数学内容语言模型Hierarchical Softmax 模型Negative Sampling 模型一、Word2Vec基本数学内容 1. Sigmod 函数 &absp;&absp;&absp;&absp;Sigmod函数通常在二分类中应用。它将样本映射后投影在[0, 1]范围内，对应样本所属的类的…

阅读更多...

SQL Tuning Advisor简单使用

SQL Tuning Advisor简单使用

SQL Tuning Advision是Oracle提供的一个功能包，可以针对有性能问题的SQL给出优化建议。可以作为调优的辅助手段。建立测试表和索引create table t_1 as select * from dba_objects;create table t_2 as select * from dba_tables;create index idx_t_2_ts on t_2(t…

阅读更多...

Multi GET API介绍

Multi GET API介绍

#先添加几个文档 PUT /lib/user/1 {"first_name":"Jane","last_name":"Smith","age":36,"about":"I like to collect rock albums","interests":["music"] }PUT /lib/user/2 {&qu…

阅读更多...

Word2Vec学习笔记(二)

Word2Vec学习笔记(二)

二、语言模型语言模型可以分为文法型模型和统计语言模型。在实际应用中语言识别、手写体文字识别、机器翻译、键盘输入、信息检索等研究领域都用到了语言模型。文法型语言模型是人工编制的语言学文法，文法规则来源于语言学家掌握的语言学知识和领域知识&#xff0c…

阅读更多...

最新文章