史上最简单的决策树模型讲解

从前

从前,小夕种了一棵树,种在了小夕的小屋后面~

为什么要种这棵树呢?因为呀,它可以帮小夕总结历史经验,然后帮小夕对当前的局势做出决策~这样小夕就可以安心给大家写文章啦~

这棵树是这样的。

一开始,小夕买了一颗小树苗,把它栽到地上。

 

v2-9492bef9d4104cb6addeaa3fe69bf6f1_b.png

然后呢,小夕不给它浇水,也不给他浇肥料,而是让他吃历史经验。比如呢,今天,小夕让它帮小夕识别出图片中的生物是喵还是驴。所以呢,这里的历史经验就是一大堆喵和驴的图片,并且小夕给它标注好了每张图片是喵还是驴。

 

v2-0f46acfc788a21e9d0eeea062d3d808c_b.png

 

 

v2-abd1b147ab0e70867ede473b66a62bb2_b.png可是由于树没有眼睛呀,不能直接观察图片。所以呢,小夕帮它把图片转化成了特征,也就是用几个特征来描述每张图片。

小夕选了如下几个特征来描述每张图片:

1、头是否是长条形
2、身上有没有毛
3、有没有发现胡须
4、丑不丑
5、萌不萌

所以,比如小夕就会对下面这张图片:

 

v2-56492f2fe4b3a4f55f539e839ee19062_b.png

转化为[False True False False True]特征向量(即,不是长条头、有毛、没发现胡须、不丑、萌)

然后小夕一口气给上千张图片提取完了特征,当然,这些图片都是标注好类别的。

小夕就把它们丢给小夕心爱的小树苗啦~

快快长大

诶?那小树苗要怎么生长呢?

小夕问小树苗:“小树小树,你接下来要怎么长呢?”

小树苗喝了口水,说:“我每一步的生长都是非常慎重的,我从不会多长个枝丫或者少长个枝丫。每个样本这不是有五个特征嘛,我呢,就会从中挑选出最有价值的一个特征,来作为我第一次生长的分支。”

小夕接着问:“那你要怎么挑选特征呢?”

小树苗说:“你看啊,比如你挑出来的第二个特征,“身上有没有毛”,这就是很糟糕的特征。为什么呢?我们就来看“有没有毛”这个特征。我数了一下,在所有有毛的动物中,50%的动物是喵,50%的动物是驴。而在所有没有毛的动物中,也是50%的动物是喵,50%的动物是驴。所以“有没有毛”这个特征的任何一个取值下,所有类别的样本数一样,是完全等概率的,这样的特征完全无法用来做分类啊。因为不管这个特征的值是什么,它所映射的各个类别都是等概率的。所以这个类别是最糟糕的。”

小树苗喝了口水,接着说:“但是你用的第三个特征,“有没有胡须”,就非常棒。我统计了一下,有胡须的动物中,喵占了92%,驴占了8%。而没有胡须的动物中,喵占了20%,驴占了80%。这样,如果给我一张未知类别的样本,只需要看“有没有胡须”这个特征的话,基本就可以判断出这个样本的类别是什么了!比如说这个样本的这个特征的值恰好是“没有胡须”,那么我就有80%的把握说这是一头驴!当然,如果恰好这个样本的特征的值是“有胡须”,我就有92%的把握说这个样本时一只喵!这么棒的特征,当然是首选的啦!所以,我下面要长的枝丫就是叫做“有没有胡须枝丫”!”

 

v2-d9fa437cd138885028c16fc707fdc180_b.png

小夕:

 

v2-09b07a6b164a4dc52adc90eab5f517e2_b.png

“我可能买了一棵假树。

我。。。懂你的意思了。你说的选择最优特征的方法实际就是计算条件熵的过程。对于你说的“有没有毛”这个很糟糕的特征,由于这个特征的每个取值下,各个类别都是完全等概率分布的,所以是最无序的,最随机的特征,我们称为“条件熵最大的特征”。熵最大就是1,所以计算出的“有没有毛”这个特征的条件熵肯定是1。

而你说的“有没有胡须”这个特征,它的每个取值下,类别分布很随机,也就是说很有序(想象一下,最有序的状态就是每个取值下,所有样本都是同一个类别,多么有序啊。而类别等概率分布的时候,就是每个特征下鱼龙混杂的时候,啥类别都有,乱糟糟的),这种很有序的特征,计算出的条件熵肯定很小。最有序的情况下,条件熵就是0啦。”

小树:“好了。但是,我的分类目标是达到100%的准确率。所以,我要进一步挑选特征了!

基于有胡须的那个分支,我会将这个分支里的样本重新计算各个特征的条件熵(当然胡须这个特征除外),像之前一样选择条件熵最大的特征作为下一个枝丫!

一直重复这个过程,直到哪一个枝丫下的全部样本都是同一个类别了,这个枝丫就不再继续分裂了。”

最终,小树长成了大树。

 

v2-23ba276b7606a0e3ea26eeb450d3ef26_b.png

这时,小夕忙着给大家写文章呢,但是小夕的一个好闺蜜小娅拿着一张图片过来了,她想让小夕帮她看看这是驴还是喵。

 

v2-0a23fe0dd17f5fba70a6f09a708e3317_b.png

但是小夕很忙呀,没空理她,就让她拿着图片问后院的决策树啦~

然后小娅去问决策树这是啥,决策树说:“它有胡须吗?”

小娅说:“有!”

树:“它萌吗?”

小娅:“一点也不萌!”

树:“它是长脸吗?”

小娅:“是长脸!”

树:“那这就是只驴!”

留下一脸懵逼的小娅在树下凌乱( ̄∇ ̄)

这棵神奇的树叫什么呢?

这棵树的专业说法叫“ID3决策树”,为什么是ID3呢?因为它是通过计算条件熵来选择最优特征的。其他经典决策树如C4.5决策树、CART决策树等与ID3的区别仅在于最优特征选择的算法。

总结

然后对本文总结一下,本文经过了如下步骤,这也是一个简单的机器学习/数据挖掘任务的经典流程。

1、对已标注类别的数据集进行数据预处理与特征提取
2、训练决策树(分类器/机器学习模型)
3、对未知类别的数据集进行数据预处理与特征提取
4、利用决策树对未知类别样本的类别做出决策

想要详细了解ID3决策树选择最优特征的过程(即计算条件熵)的同学,可以Google或者百度一下“条件熵”或者查阅《数据挖掘导论》等机器学习相关的书籍;想要详细了解如何代码实现ID3决策树的同学,可以搜索各种CSDN博客或者查阅《机器学习实战》等侧重代码实现的书籍。对于如何提高决策树的泛化能力(防止过拟合)等优化技巧,或者其他类型的决策树,可以看《数据挖掘导论》等经典书籍~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481201.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

听觉器官是高阶元分类“革命性证据”

来源:中国科学报反刍类的内耳几何形态学分析及系统发育示图。Laura Dziomber/绘化石研究的第一步是通过形态特征鉴定身份,厘清物种的亲缘关系,但这种方法并不完美。那些长相相似的也许“八竿子打不着”,而毫无共同特征的却是“亲属…

机器学习从理论到工程的第二步-开发环境与工具篇

在《第一步-编程语言篇》中,小夕为大家较为详细的介绍了做机器学习(及其相关应用方向)的编程语言的选择问题,这一篇便是小夕为大家推荐的各个编程语言的开发环境/工具。习惯性扫盲开篇。鉴于可能有部分同学的软件开发经验稍有欠缺…

干了一年“元宇宙”,Meta亏了300亿美金

来源:青投创新编辑:Leon"Facebook更名成Mate:从社交媒体转型为“元宇宙”,但前景并不乐观。一年前,Meta在元宇宙上高歌猛进。该公司刚刚完成了从Facebook到Meta的品牌重塑。正如马克扎克伯格(Mark Zuc…

机器学习从理论到工程的第二步-开发环境与工具篇(下)

好啦~继续昨天的《第二步——开发环境与工具篇(上)》~其实有点尴尬啦,本来想一篇讲完的,结果小夕太啰嗦了,还没有开始讲正文,就写了快2000字了。。。所以说,这一篇是上一篇的正文。。。matlab就…

阿里-2019算法岗笔试编程题-kmp匹配

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/qq_25737169/article/details/82503724 </div><link rel"stylesheet" href"https://csdnimg.cn/release/phoenix/template/css/ck_htmledit_…

IBM量子处理器,将突破1000位

来源&#xff1a;半导体行业观察IBM的CONDOR是世界上第一台拥有超过1000个量子比特的通用量子计算机&#xff0c;它将于2023年首次亮相。预计这一年IBM还将推出Heron&#xff0c;这是该公司表示可能对其有所帮助的新型模块化量子处理器群中的第一个到2025年生产出超过4000个量子…

ChatGPT到底有多聪明?我测试了ChatGPT的数学能力

来源&#xff1a;AI前线译者&#xff1a;马可薇 人人都听说过最新&#xff0c;也是最复杂的聊天机器人 chatGPT。而众所周知&#xff0c;它在英文文学等“软话题”方面甚是熟练&#xff0c;所以我决定测试它在数学这类“硬话题”方面的表现。你可能不知道&#xff0c;但我是有…

从朴素贝叶斯到贝叶斯网

回顾在文章《朴素贝叶斯》中&#xff0c;小夕为大家介绍了朴素贝叶斯模型的基本知识&#xff0c;并且得出了朴素贝叶斯是利用联合概率P(x1,x2,x3...xn,y)来确定某个样本为某个类别的概率&#xff0c;进而利用最大后验概率&#xff08;MAP&#xff09;来决策类别。也就是说&…

2022年,谁在数学史上永远留下了姓名

来源&#xff1a;新智元这一年&#xff0c;数学领域有什么大事&#xff1f;Quanta Magazine做了一份全年总结。我们可以把数学家想象成考古学家——他们煞费苦心地拂去世界隐藏结构上的灰尘。起来很吸引人&#xff1f;“你的起点并不重要&#xff0c;但要眼光长远&#xff0c;了…

神经网络激活函数=生物转换器?

啊~昨晚躺了一个小时竟然没有睡着&#xff0c;美容觉泡汤了...于是竟然大半夜起来写了这篇文章在《逻辑回归到神经网络》中&#xff0c;小夕让神经网络冒了个泡。在《一般化机器学习与神经网络》中&#xff0c;将神经网络这一火热的模型强制按回机器学习一般框架里。在《BP算法…

从Encoder到Decoder实现Seq2Seq模型

首发于机器不学习关注专栏写文章从Encoder到Decoder实现Seq2Seq模型天雨粟模型师傅 / 果粉​关注他300 人赞同了该文章更新&#xff1a;感谢Gang He指出的代码错误。get_batches函数中第15行与第19行&#xff0c;代码已经重新修改&#xff0c;GitHub已更新。前言好久没有更新专…

市场增速超20%,国产操作系统“浴火重生” | 解读操作系统的 2022

作者 | 凌敏 本文是“2022 InfoQ 年度技术盘点与展望”系列文章之一&#xff0c;由 InfoQ 编辑部制作呈现&#xff0c;重点聚焦操作系统领域在 2022 年的重要进展、动态&#xff0c;希望能帮助你准确把握 2022 年操作系统领域的核心发展脉络&#xff0c;在行业内始终保持足够的…

线性代数应该这样讲(二)

在《...&#xff08;一&#xff09;》中&#xff0c;小夕从映射的角度讲解了矩阵及矩阵运算&#xff0c;这也是机器学习中看待矩阵的非常重要的视角。另一方面说&#xff0c;矩阵当然也是用于存储数据的数据结构&#xff0c;这也是最好理解的形式。另外还可以看做是一个线性方程…

2023将至,Bengio等大佬年度展望!懂理性的AI模型要来了?

来源&#xff1a;新智元【导读】2022年对AI来说注定是不平凡的一年&#xff0c;这不吴恩达、Bengio等一众圈内大佬在接受DeepLearning.ai的采访中都展望了2023年AI的发展趋势&#xff0c;还分享了自己的科研小故事。还有1天&#xff0c;2022年就要过去了。此前我们报道了吴恩达…

【NLP】Attention Model(注意力模型)学习总结

【NLP】Attention Model&#xff08;注意力模型&#xff09;学习总结郭耀华发表于郭耀华‘s Blog订阅294在这篇文章中&#xff1a;1. 什么是Attention机制&#xff1f;2. 先了解编码-解码框架&#xff1a;Encoder-Decoder框架3. Attention Model4. Attention机制的本质思想5. S…

杂谈机器学习的几个应用场景

在上一篇文章末尾&#xff0c;小夕提到了“机器学习是实现自然语言处理的正确道路”。其实确实如此&#xff0c;纵观整个自然语言处理的发展史&#xff0c;也是纵观整个人工智能的发展史&#xff0c;从诞生到现在&#xff0c;机器学习不仅是在理论和工程上实现自然语言处理的目…

2022年度十大AI技术盘点:AIGC风暴来袭,自动驾驶后会无期?

来源&#xff1a;AI科技大本营翻译 & 整理&#xff1a;杨阳“科学不能告诉我们应该做什么&#xff0c;只能告诉我们能做什么。”——让-保罗萨特《存在与虚无》这一年&#xff0c;AI又有哪些前沿技术突破呢&#xff1f;通过汇总梳理2022年10大AI技术&#xff0c;AI科技大本…

从逻辑回归到受限玻尔兹曼机

在那很久很久以前&#xff0c;可爱的小夕写了一篇将逻辑回归小题大做的文章&#xff0c;然后在另一篇文章中阐述了逻辑回归的本质&#xff0c;并且推广出了softmax函数。从那之后&#xff0c;小夕又在一篇文章中阐述了逻辑回归与朴素贝叶斯的恩仇录&#xff0c;这两大祖先级人物…

Peacock:大规模主题模型及其在腾讯业务中的应用-2015

Peacock&#xff1a;大规模主题模型及其在腾讯业务中的应用 作者&#xff1a;赵学敏 王莉峰 王流斌 孙振龙 严浩 靳志辉 王益 摘要 如果用户最近搜索了“红酒木瓜汤”&#xff0c;那么应该展示什么样的广告呢&#xff1f;从字面上理解&#xff0c;可能应该返回酒水或者水果类广…

史上最简单的玻尔兹曼机模型讲解

在上一篇文章中&#xff0c;小夕讲述了逻辑回归为了抗衡贝叶斯网&#xff0c;也开始了自己的进化。然而令我们没有想到的是&#xff0c;逻辑回归最终竟然进化成了一个生成式模型——受限玻尔兹曼机&#xff08;RBM&#xff09;&#xff0c;也就是变成了敌方&#xff08;生成式模…