数据挖掘-分类和预测

来自🥬🐶程序员 Truraly | 田园 的博客,最新文章首发于:田园幻想乡 | 原文链接 | github (欢迎关注)

文章目录

    • 概念
    • KNN 算法
    • 决策树
      • ID3 算法
        • 缺点
      • C4.5 算法
      • CART 算法
    • 贝叶斯算法
      • 朴素贝叶斯算法
      • 贝叶斯信念网络算法
    • 神经网络算法
      • 生成式和判别式模型
    • 支持向量机算法 SVM
    • 分类准确率评估
    • 优化
      • 装袋
      • 提升

概念

分类&预测是有监督学习,聚类是无监督学习。

一个学数据挖掘的开发者的博客 | 博客

包含了决策树,神经网络相关的博客

KNN 算法

Python—KNN 分类算法(详解) | 知乎

KNN 算法是一种分类算法,它的思想是:如果一个样本在特征空间中的 K 个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

决策树

一文看懂决策树(Decision Tree)| 知乎

决策树原理详解(无基础的同样可以看懂)| CSDN

决策树 – Decision tree | 产品经理的人工智能学习库

ID3 算法

信息增益和信息熵 | 博客

熵(信息论)| wiki

ID3 算法的核心思想是:每次选择信息增益最大的特征作为节点,递归地生成决策树。

信息熵:表示随机变量不确定性的度量,即随机变量的不确定性越大,信息熵越大。

I ( S ) = − ∑ i = 1 n p i log ⁡ 2 p i I(S) = -\sum_{i=1}^{n}p_i\log_2p_i I(S)=i=1npilog2pi

其中, p i 表示第 i 个类别的概率。 其中,p_i 表示第 i 个类别的概率。 其中,pi表示第i个类别的概率。

信息增益:表示得知特征 X 的信息而使得类 Y 的信息的不确定性减少的程度。

G a i n ( S , X ) = I ( S ) − ∑ v ∈ V a l u e s ( X ) ∣ S v ∣ ∣ S ∣ I ( S v ) Gain(S, X) = I(S) - \sum_{v \in Values(X)}\frac{|S_v|}{|S|}I(S_v) Gain(S,X)=I(S)vValues(X)SSvI(Sv)

其中, S v 表示特征 X 取值为 v 时的样本集合。 其中,S_v 表示特征 X 取值为 v 时的样本集合。 其中,Sv表示特征X取值为v时的样本集合。

信息增益越大,表示特征 X 对于类 Y 的区分能力越强。

缺点
  1. 信息增益偏向于选择取值较多的特征,比如 ID,每个样本的 ID 都不同,那么信息增益就会很大,但是 ID 对于分类没有任何帮助。

C4.5 算法

C4.5 使用信息增益率来选择特征,信息增益率是信息增益除以特征的熵。解决了 ID3 算法的缺点。

CART 算法

Gini 系数生成决策树 | 博客

CART 使用 Gini 系数来选择特征,Gini 系数是衡量数据集纯度的指标,即数据集中随机抽取两个样本,其类别标签不一致的概率。

贝叶斯算法

朴素贝叶斯算法

朴素贝叶斯算法的前提:假设每个特征之间相互独立,即每个特征都是独立的,不会因为其他特征的变化而变化。

核心思想:

P ( C k ∣ X ) = P ( X ∣ C k ) P ( C k ) P ( X ) P(C_k|X) = \frac{P(X|C_k)P(C_k)}{P(X)} P(CkX)=P(X)P(XCk)P(Ck)

即,当给定一个未分类样本 X 时,计算它属于每个类别的概率,哪个概率大,就把它归为哪个类别。

直接寻找 P ( C k ∣ X ) P(C_k|X) P(CkX) 并不合适,因为符合 X 的数据可能并不多(甚至可以是 0),算出来的概率可能不接近真实概率。

使用 P ( X ∣ C k ) P ( C k ) P ( X ) \frac{P(X|C_k)P(C_k)}{P(X)} P(X)P(XCk)P(Ck) 代替会用到更多的数据,更接近真实概率。

在实际计算中,因为 P ( X ) P(X) P(X) 对于所有类别都是相同的,所以可以忽略,只计算并比较 P ( X ∣ C k ) P ( C k ) P(X|C_k)P(C_k) P(XCk)P(Ck) 的大小。

贝叶斯信念网络算法

神经网络算法

神经网络 | 博客

生成式和判别式模型

判别式模型和生成式模型的区别 | 知乎

一张图介绍判别式和生成式模型,左边是判别式模型,右边是生成式模型,判别式模型是直接对后验概率进行建模,生成式模型是对联合概率进行建模,然后通过贝叶斯公式求后验概率。

图片显示失败

支持向量机算法 SVM

SVM 支持向量机 | 知乎

分类准确率评估

错误率、精度、准确率、召回率、F1 度量 | CSDN

优化

装袋

把多个分类器/预测器组合起来

提升

————————————————

版权声明:本文为 田园幻想乡 的原创文章,遵循 CC 4.0 BY-NA-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:http://truraly.fun/课程笔记/数据挖掘/【6】分类和预测.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/874141.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何做好结构化逻辑分析:分析之万能公式

有人问:我看了很多书,可是一到分析问题和解决问题时,还是不知如何下手。你能给我一个万能框架吗?这样我遇到问题就可以马上找到思路、直接套用,再也不用让大脑去神游和不知所措了。 我想了想,总结出了这个…

突破•指针二

听说这是目录哦 复习review❤️野指针🫧assert断言🫧assert的神奇之处 指针的使用和传址调用🫧数组名的理解🫧理解整个数组和数组首元素地址的区别 使用指针访问数组🫧一维数组传参的本质🫧二级指针&#x…

2-41 基于matlab的小车倒立摆系统的控制及GUI动画演示

基于matlab的小车倒立摆系统的控制及GUI动画演示。输入小车及倒立摆的初始参数,位置参数,对仿真时间和步长进行设置,通过LQR计算K值,进行角度、角速度、位置、速度仿真及曲线输出,程序已调通,可直接运行。 …

Linux设置开机启动Nginx

设置开机启动项 systemctl enable nginx 这个命令会创建一个符号链接到/etc/systemd/system/目录下的multi-user.target.wants/目录,从而确保Nginx在系统启动时自动运行。 查看Nginx是否已设置开机启动项 systemctl list-unit-files | grep nginx 删除开机启动 …

数据无忧:2024年高效硬盘数据恢复解决方法

在这个数字化时代,数据已成为我们生活与工作中不可或缺的一部分。手机或者电脑不够存储数据的时候我们最常用的就是采购硬盘来存储。以备不时之需我们来学习一下硬盘数据恢复的一些技巧吧。 1.福、昕数据恢复 这工具是一款简单小巧的数据恢复工具。下载安装在一分…

文心一言 VS 讯飞星火 VS chatgpt (307)-- 算法导论22.2 5题

五、证明:在广度优先搜索算法里,赋给结点 u 的 u.d 值与结点在邻接链表里出现的次序无关。使用图 22-3 作为例子,证明:BFS 所计算出的广度优先树可以因邻接链表中的次序不同而不同。如果要写代码,请用go语言。 文心一…

51单片机(STC8H8K64U/STC8051U34K64)_RA8889驱动TFT大屏_I2C_HW参考代码(v1.3) 硬件I2C方式

本篇介绍单片机使用硬件I2C方式控制RA8889驱动彩屏。 提供STC8H8K64U和STC8051U34K64的参考代码。 【硬件部份】STC8H8K64U/STC8051U34K64 RA8889开发板 7寸TFT 800x480 1. 实物连接图:STC8H8K64URA8889开发板,使用P2口I2C接口: 2.实物连…

【python基础】类的继承、类导入、类的编写规范

文章目录 一. 继承1. 子类的方法__init__()2. 子类特有的属性和方法3. 重写父类的方法4. 类关系之引入:将实例用作属性 二. 导入类1. 导入类2. 在一个模块中导入另一个模块3. 使用别名导入并创建实例 三. Python标准库四. 类编码风格 一. 继承 一个类继承另一个类时…

log4j2启动异步日志与动态修改日志级别

启动异步日志 启用 Log4j2 的异步日志记录功能可以显著提升日志记录的性能,尤其是在高并发的环境下。异步日志记录通过将日志事件放入队列中进行处理,从而减少了日志记录对应用程序性能的影响。以下是如何启用 Log4j2 异步日志记录的详细步骤。 1. 添加…

【Python】写一篇setattr方法的使用博客

为何每次早餐 仍然魂离魄散 原来 那朝分手都要啜泣中上班 明明能够过得这关 赢回旁人盛赞 原来 顽强自爱这样难 难得的激情总枉费 残忍的好人都美丽 别怕 你将无人会代替 🎵 陈慧娴《情意结》 在 Python 中,动态地操作对象的属性是…

Oracle(15)什么是索引(Index)?

索引(Index)是数据库中一种用于提高查询性能的数据结构。索引在数据库表的一个或多个列上创建,类似于书的目录,通过索引可以快速定位和检索表中的数据行,而无需扫描整个表。尽管索引可以大幅提升查询性能,但…

2024 年 100 大数据科学面试问答

2024 年 100 大数据科学面试问答 一、说明 数据科学是一个快速发展的领域,它正在改变组织根据数据理解和做出决策的方式。因此,公司越来越多地寻求聘请数据科学家来帮助他们理解数据并推动业务成果。这导致了对数据科学家的高需求,这些职位的…

LeetCode 热题 HOT 100 (004/100)【宇宙最简单版】

【单调栈】No. 0739 每日温度 【中等】👉力扣对应题目指路 希望对你有帮助呀!!💜💜 如有更好理解的思路,欢迎大家留言补充 ~ 一起加油叭 💦 ⭐ 题目描述:给定一个整数数组 temperatu…

《Windows API每日一练》13.1 打印基础

在Windows中使用打印机时,在调用一系列与打印相关的GDI绘图函数的背后,实际上启动了一系列模块之间复杂的交互过程,包括 GDI32库模块、打印机设备驱动程序库模块(带.DRV后缀的文件)、Windows后台打印处理程序&#xff…

rem 和 px 的关系

在网页设计中,rem 和 px 是用来表示长度或尺寸的单位,它们之间有以下默认关系: 1rem 16px(假设根元素的字体大小为默认值) 详细说明: 1、px(像素): px 是一种绝对单…

【图像处理】不智能的目标识别

目录 目标识别的划分 识别入门 概念学习 滤波 模版 阈值化 形态学操作 开运算 闭运算 编程语言 示例 大家有没有想过在没有人工智能或者说没有机器学习的的时候,计算机是怎么做目标识别的? 计算机视觉时至今日也是急需人才的领域&…

(AAAI,2024)Structure-CLIP:利用场景知识图谱增强多模态结构化表征

文章目录 Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations相关资料摘要引言方法通过场景图进行语义负采样场景图生成选择语义负样本对比学习目标知识增强编码器 Structure-CLIP: Towards Scene Graph Knowledge to Enhance …

go语言Gin框架的学习路线(七)

GORM入门(基于七米老师) 目录 GORM入门 安装 连接数据库 连接MySQL 连接PostgreSQL 连接Sqlite3 连接SQL Server 我们搞一个连接MySQL的例子 创建数据库 GORM操作MySQL GORM是一个流行的Go语言ORM(对象关系映射)库,它提供了一种方…

maven私服上传jar包 400 Bad Request 错误

文章目录 前言一、直接看报错二、问题处理三 maven 私服配置说明总结 前言 maven仓库的私服,一般会存放公司或者个人封装的jar包,用来共享给二次开发和协作伙伴用,很方便 第一次发布没有问题,但是我第二次发布,开始报错了 一、直接看报错 [外链图片转存失败,源站可能有防盗链…

数据库使用笔记-基于mysql

来自🥬🐶程序员 Truraly | 田园 的博客,最新文章首发于:田园幻想乡 | 原文链接 | github (欢迎关注) 文章目录 MySql 一般信息观前提示登录 MySQLSQL 语句 数据库操作指令show databases | 现实数据库列表u…