机器学习2 (笔记)(朴素贝叶斯,集成学习,KNN和matlab运用)

朴素贝叶斯模型

贝叶斯定理:

常见类型

算法流程

优缺点

集成学习算法

基本原理

常见方法

 KNN(聚类模型)

算法性质:

核心原理:

算法流程

优缺点

matlab中的运用


朴素贝叶斯模型

朴素贝叶斯模型是基于贝叶斯定理与特征条件独立假设的分类方法,在众多领域有广泛应用。

贝叶斯定理

贝叶斯定理解决的核心问题是,当出现新的信息或证据时,如何修正对某个事件发生概率的原有认知。它提供了一种基于先验知识和新证据来更新概率的方法,体现了概率推理的动态过程。

特征条件独立假设:假设给定类别下各个特征之间相互独立。

常见类型

高斯朴素贝叶斯:适用于特征变量为连续型数据,且这些数据服从高斯分布(正态分布)的情况。例如,在根据身高、体重等连续特征判断人的性别时,可假设这些特征在男性和女性群体中分别服从不同参数的高斯分布。

多项式朴素贝叶斯:常用于文本分类等场景,特征变量通常是离散的计数数据。比如在判断一篇文档是否属于某一主题时,以单词在文档中出现的次数作为特征,这些特征符合多项式分布。

伯努利朴素贝叶斯:适用于特征为二值变量的情况,即特征只有两种取值,如真 / 假、是 / 否等。例如在判断邮件是否为垃圾邮件时,可将邮件中某特定关键词的出现(是 / 否)作为二值特征。

算法流程

数据准备:收集数据并进行预处理,包括数据清洗、特征提取等。例如在文本分类中,需要对文本进行分词、去除停用词等操作。

计算先验概率:统计每个类别在训练数据集中出现的频率P(C),作为先验概率。比如在垃圾邮件分类中,统计垃圾邮件和正常邮件在训练集中所占的比例。

计算似然概率:根据特征条件独立假设,计算每个特征在不同类别下的条件概率

。例如在判断一封邮件是否为垃圾邮件时,计算某个关键词在垃圾邮件和正常邮件中出现的概率。

预测:对于新的样本,根据贝叶斯定理计算每个类别下的后验概率

,选择后验概率最大的类别作为预测结果。

,由于

对所有类别相同,所以只需比较分子部分。

优缺点

优点

算法简单高效:基于简单的概率计算,训练和预测速度快,对大规模数据集有较好的适应性。

所需数据量少:在数据较少的情况下仍能表现出较好的性能,且对数据的缺失值不太敏感。

可解释性强:通过计算概率来进行分类决策,结果相对容易理解,可解释每个类别预测的依据。

缺点

特征独立性假设强:实际应用中,特征之间往往存在一定相关性,这可能导致模型性能下降。例如在文本中,某些词汇可能存在语义关联,并不完全独立。

对输入数据的表达形式敏感:不同的特征表示方式可能会对模型效果产生较大影响,如文本分类中不同的分词方法。

集成学习算法

一种机器学习范式,它通过组合多个基学习器(Base Learner)来创建一个更强大、更稳健的模型,以提高模型的泛化能力和预测性能。以下从其原理、常见方法、应用场景、优缺点展开介绍:

基本原理

集成学习的核心思想基于 “三个臭皮匠,赛过诸葛亮” 的理念。不同的基学习器可能在处理数据的不同方面或特征上具有优势,通过将它们结合起来,可以互相补充,减少单一模型的偏差和方差,从而提升整体性能。例如,在预测房价的任务中,一个基学习器可能擅长捕捉房屋面积与价格的关系,另一个可能对房屋所在区域的影响把握更准,集成学习能综合二者优势,做出更准确的预测。

常见方法

Bagging(自举汇聚法)

原理:从原始训练数据集中有放回地随机采样,生成多个与原始数据集大小相同的子数据集,每个子数据集用于训练一个基学习器。由于采样的随机性,不同基学习器基于不同的数据子集进行训练,从而引入了多样性。例如,对于一个包含 1000 个样本的原始数据集,每次有放回地抽取 1000 个样本组成子数据集,多次抽取得到多个不同的子数据集。

代表算法:随机森林(Random Forest)是基于 Bagging 的典型算法,它以决策树为基学习器。在构建每棵决策树时,不仅对样本进行有放回采样,还在节点分裂时随机选择特征子集,进一步增加了决策树之间的差异。最终通过投票(分类任务)或平均(回归任务)的方式综合各决策树的结果。

Boosting(提升法)

原理:基学习器按顺序依次训练,每个新的基学习器会重点关注前一个基学习器预测错误的样本,通过不断调整样本权重,使得后续学习器能够更聚焦于难以分类或预测的样本。例如,在初始阶段,所有样本权重相同,当第一个基学习器训练完成后,将预测错误的样本权重增大,这样下一个基学习器在训练时就会更关注这些样本。

代表算法:Adaboost(自适应提升算法)是最早的 Boosting 算法之一,它通过迭代训练多个弱分类器,并为每个弱分类器赋予不同的权重,最终将这些弱分类器线性组合成一个强分类器。另一个重要的算法是梯度提升树(Gradient Boosting Tree,GBT),它以决策树为基学习器,通过不断拟合残差(即真实值与当前模型预测值的差值)来提升模型性能。

 KNN(聚类模型)

算法性质:

K - Means 属于无监督学习算法,旨在将数据集中的样本划分为 K 个不同的簇,使同一簇内样本相似度高,不同簇间样本相似度低。

核心原理:

随机选择 K 个点作为初始聚类中心,然后将每个样本分配到与其距离最近的聚类中心所在的簇。分配完成后,重新计算每个簇的中心(通常是簇内所有样本的均值)。不断重复样本分配和中心更新步骤,直到聚类中心不再变化或达到预设的迭代次数,此时认为聚类收敛。

算法流程

初始化:随机选择 K 个样本点作为初始聚类中心。

分配样本:计算每个样本到 K 个聚类中心的距离,将样本分配到距离最近的聚类中心所在的簇。

更新聚类中心:计算每个簇内样本的均值,以此更新聚类中心位置。

判断收敛:检查聚类中心是否变化,若变化则返回步骤 2 继续迭代;若不变或达到最大迭代次数,则结束算法。

优缺点

优点:原理简单,计算效率高,能快速处理大规模数据集;对处理数值型数据效果较好。

缺点:需事先指定聚类数 K,K 值选择往往依赖经验且可能影响结果;对初始聚类中心敏感,不同初始值可能导致不同聚类结果;对非凸形状的数据分布或存在噪声的数据聚类效果不佳。

matlab中的运用

1,导入数据*注意这里的变量名训练的和预测的名字要一致

2,matlab工具箱->分类学习器(或者classificationLearner)

(如果是回归学习器,就是reegressionLearner)

3,导入数据

有如下的训练方法

4,并行训练即可

5,导出模型就可以进行预测了

6,预测

第五步也可以采用导出代码来预测

在模型导出的时候选择

然后注释函数行,然后赋值trainingData就可以了

trainingData=x            %%%%%%%x为对应的数据

inputTable = trainingData;

predictorNames = {'VarName1', 'VarName2', 'VarName3', 'VarName4'};

predictors = inputTable(:, predictorNames);

response = inputTable.VarName5;

isCategoricalPredictor = [false, false, false, false];

classNames = categorical({'变色鸢尾'; '山鸢尾'; '维吉尼亚鸢尾'});

% 训练分类器

% 以下代码指定所有分类器选项并训练分类器。

template = templateLinear(...

'Learner', 'Logistic', ...

'Lambda', 'auto', ...

'BetaTolerance', 0.0001);

classificationLinear = fitcecoc(...

predictors, ...

response, ...

'Learners', template, ...

'ClassNames', classNames);

% 使用预测函数创建结果结构体

predictorExtractionFcn = @(t) t(:, predictorNames);

classificationLinearPredictFcn = @(x) predict(classificationLinear, x);

trainedClassifier.predictFcn = @(x) classificationLinearPredictFcn(predictorExtractionFcn(x));

% 向结果结构体中添加字段

trainedClassifier.RequiredVariables = {'VarName1', 'VarName2', 'VarName3', 'VarName4'};

trainedClassifier.ClassificationLinear = classificationLinear;

trainedClassifier.About = '此结构体是从分类学习器 R2023a 导出的训练模型。';

trainedClassifier.HowToPredict = sprintf('要对新表 T 进行预测,请使用: \n [yfit,scores] = c.predictFcn(T) \n将 ''c'' 替换为作为此结构体的变量的名称,例如 ''trainedModel''。\n \n表 T 必须包含由以下内容返回的变量: \n c.RequiredVariables \n变量格式(例如矩阵/向量、数据类型)必须与原始训练数据匹配。\n忽略其他变量。\n \n有关详细信息,请参阅 <a href="matlab:helpview(fullfile(docroot, ''stats'', ''stats.map''), ''appclassification_exportmodeltoworkspace'')">How to predict using an exported model</a>。');

% 提取预测变量和响应

% 以下代码将数据处理为合适的形状以训练模型。

%

inputTable = trainingData;

predictorNames = {'VarName1', 'VarName2', 'VarName3', 'VarName4'};

predictors = inputTable(:, predictorNames);

response = inputTable.VarName5;

isCategoricalPredictor = [false, false, false, false];

classNames = categorical({'变色鸢尾'; '山鸢尾'; '维吉尼亚鸢尾'});

% 执行交叉验证

KFolds = 5;

cvp = cvpartition(response, 'KFold', KFolds);

% 将预测初始化为适当的大小

validationPredictions = response;

numObservations = size(predictors, 1);

numClasses = 3;

validationScores = NaN(numObservations, numClasses);

for fold = 1:KFolds

trainingPredictors = predictors(cvp.training(fold), :);

trainingResponse = response(cvp.training(fold), :);

foldIsCategoricalPredictor = isCategoricalPredictor;

% 训练分类器

% 以下代码指定所有分类器选项并训练分类器。

template = templateLinear(...

'Learner', 'Logistic', ...

'Lambda', 'auto', ...

'BetaTolerance', 0.0001);

classificationLinear = fitcecoc(...

trainingPredictors, ...

trainingResponse, ...

'Learners', template, ...

'ClassNames', classNames);

% 使用预测函数创建结果结构体

classificationLinearPredictFcn = @(x) predict(classificationLinear, x);

validationPredictFcn = @(x) classificationLinearPredictFcn(x);

% 向结果结构体中添加字段

% 计算验证预测

validationPredictors = predictors(cvp.test(fold), :);

[foldPredictions, foldScores] = validationPredictFcn(validationPredictors);

% 按原始顺序存储预测

validationPredictions(cvp.test(fold), :) = foldPredictions;

validationScores(cvp.test(fold), :) = foldScores;

end

% 计算验证准确度

correctPredictions = (validationPredictions == response);

isMissing = ismissing(response);

correctPredictions = correctPredictions(~isMissing);

validationAccuracy = sum(correctPredictions)/length(correctPredictions);

决策树的可视化:

figure(1)

view ( trainingModel.ClassificationTree,’Mode’,’graph’)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/67441.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HTB:Active[RE-WriteUP]

目录 连接至HTB服务器并启动靶机 信息收集 使用rustscan对靶机TCP端口进行开放扫描 将靶机TCP开放端口号提取并保存 使用nmap对靶机TCP开放端口进行脚本、服务扫描 使用nmap对靶机TCP开放端口进行漏洞、系统扫描 使用nmap对靶机常用UDP端口进行开放扫描 使用nmap对靶机…

Git图形化工具【lazygit】

简要介绍一下偶然发现的Git图形化工具——「lazygit」 概述 Lazygit 是一个用 Go 语言编写的 Git 命令行界面&#xff08;TUI&#xff09;工具&#xff0c;它让 Git 操作变得更加直观和高效。 Github地址&#xff1a;https://github.com/jesseduffield/lazygit 主要特点 主要…

58.界面参数传递给Command C#例子 WPF例子

界面参数的传递&#xff0c;界面参数是如何从前台传送到后台的。 param 参数是从界面传递到命令的。这个过程通常涉及以下几个步骤&#xff1a; 数据绑定&#xff1a;界面元素&#xff08;如按钮&#xff09;的 Command 属性绑定到视图模型中的 RelayCommand 实例。同时&#x…

51单片机(STC89C52)开发:点亮一个小灯

软件安装&#xff1a; 安装开发板CH340驱动。 安装KEILC51开发软件&#xff1a;C51V901.exe。 下载软件&#xff1a;PZ-ISP.exe 创建项目&#xff1a; 新建main.c 将main.c加入至项目中&#xff1a; main.c:点亮一个小灯 #include "reg52.h"sbit LED1P2^0; //P2的…

RoboMaster- RDK X5能量机关实现案例(一)识别

作者&#xff1a;SkyXZ CSDN&#xff1a;https://blog.csdn.net/xiongqi123123 博客园&#xff1a;https://www.cnblogs.com/SkyXZ 在RoboMaster的25赛季&#xff0c;我主要负责了能量机关的视觉方案开发&#xff0c;目前整体算法已经搭建完成&#xff0c;实际方案上我使用的上…

MySQL误删数据怎么办?

文章目录 1. 从备份恢复数据2. 通过二进制日志恢复数据3. 使用数据恢复工具4. 利用事务回滚恢复数据5. 预防误删数据的策略总结 在使用MySQL进行数据管理时&#xff0c;误删数据是一个常见且具有高风险的操作。无论是因为操作失误、系统故障&#xff0c;还是不小心执行了删除命…

RDK X5运行DeepSeek-R1-Distill-Qwen-1.5B,体验长思维链的语言大模型!

简介 本文介绍了在RDK X5上&#xff0c;如何从HuggingFace的原始模型权重&#xff08;safetensors&#xff09;经过量化和编译&#xff0c;的到llama.cpp推理框架所需要的GGUF格式的模型&#xff0c;然后演示了如何使用llama.cpp运行量化后的DeepSeek-R1-Distill-Qwen-1.5B模型…

【Proteus仿真】【51单片机】简易计算器系统设计

目录 一、主要功能 二、使用步骤 三、硬件资源 四、软件设计 五、实验现象 联系作者 一、主要功能 1、LCD1602液晶显示 2、矩阵按键​ 3、可以进行简单的加减乘除运算 4、最大 9999*9999 二、使用步骤 系统运行后&#xff0c;LCD1602显示数据&#xff0c;通过矩阵按键…

留学毕业论文如何利用不同问题设计问卷

在留学毕业论文的写作中&#xff0c;我们经常会遇到各种问题&#xff0c;例如选择合适的问题&#xff0c;选择合适的研究方法&#xff0c;以及设计合理的研究过程。然而在完成留学毕业论文的过程中&#xff0c;我们往往会在研究设计这里卡住。即使我们选准了研究问题和研究方法…

Python中的函数(上)

Python中的函数是非常重要的编程概念&#xff0c;以下是详细的介绍&#xff1a; 函数定义基础 在Python中&#xff0c;函数是组织好的、可重复使用的代码块&#xff0c;用于执行特定任务。通过函数&#xff0c;我们可以将复杂的程序分解为较小的、更易管理的部分&#xff0c…

图漾相机搭配VisionPro使用简易教程

文章目录 1.下载并安装VisionPro软件2.下载PercipioCameraForVisionPro软件包3.软件部署4.测试流程4.1 遍历VisionPro SDK支持的参数4.2 设置示例4.2.1_cameraSingle.SetTriggerMode4.2.2 _cameraSingle.SetRegistration4.2.3_cameraSingle.SetInt4.2.4 _cameraSingle.GetInt4.…

新版IDEA创建数据库表

这是老版本的IDEA创建数据库表&#xff0c;下面可以自己勾选Not null&#xff08;非空),Auto inc&#xff08;自增长),Unique(唯一标识)和Primary key&#xff08;主键) 这是新版的IDEA创建数据库表&#xff0c;Not null和Auto inc可以看得到&#xff0c;但Unique和Primary key…

(非技术)从一公里到半程马拉松:我的一年跑步经历

在24年初&#xff0c;从来不运动的我&#xff0c;连跑步一公里都不能完成。而在一年之后的2025年的1月1日&#xff0c;我参加了上海的蒸蒸日上迎新跑&#xff0c;完成了半程马拉松。虽然速度不快&#xff0c;也并不是什么特别难完成的事情&#xff0c;但对我来说还是挺有意义的…

论“0是不存在的”

你看这又是一个悖论的例子。 你会说&#xff0c;既然你都写出来了“0”&#xff0c;咋还能说它不存在&#xff1f; 总是刷到谢尔顿说零不存在那个视频。可能有些小伙伴不解其意&#xff0c;为啥那小谢尔顿坚持说0不存在。我这说一个最简单的视角&#xff0c;怎么理解这句话。…

单路由及双路由端口映射指南

远程登录总会遇到登陆不上的情况&#xff0c;可能是访问的大门没有打开哦&#xff0c;下面我们来看看具体是怎么回事&#xff1f; 当软件远程访问时&#xff0c;主机需要两个条件&#xff0c;一是有一个唯一的公网IP地址&#xff08;运营商提供&#xff09;&#xff0c;二是开…

Spring AI 在微服务中的应用:支持分布式 AI 推理

1. 引言 在现代企业中&#xff0c;微服务架构 已成为开发复杂系统的主流方式&#xff0c;而 AI 模型推理 也越来越多地被集成到业务流程中。如何在分布式微服务架构下高效地集成 Spring AI&#xff0c;使多个服务可以协同完成 AI 任务&#xff0c;并支持分布式 AI 推理&#x…

Kafak 单例生产者实现-C#操作

前面写了一篇入门操作的文章,因为工作需要,简单修改了下如何实现单例生产者。 Kafka入门-C#操作_c# kafka-CSDN博客文章浏览阅读1.6k次,点赞20次,收藏9次。2).报错:“kafka.zookeeper.ZooKeeperClientTimeoutException: Timed out waiting for connection while in state…

2024年记 | 凛冬将至

放弃幻想&#xff0c;准备斗争&#xff01; 考研or就业&#xff1f; 上大学以来&#xff0c;考研上名校在我的心里一直是一颗种子&#xff0c;2024年初&#xff0c;当时的想法是考研和就业两手抓。买了张宇的高数现代&#xff0c;想要死磕&#xff01; 也记了挺多笔记... 如果…

vue-有关于TS与路由器

title: vue(TS)路由器 date: 2025-01-28 12:00:00 tags:- 前端 categories:- 前端Vue3-第二部分 这里是代码中出现TS的&#xff0c;后面是路由器 现在先上代码&#xff0c;步步分析。 eg1-props的使用 步步分析代码&#xff08;先理解&#xff0c;再实践&#xff09; 框架…

mysql.sock.lock 导致mysql重启失败

背景 今天公司物业断电&#xff0c;导致机房服务器停电宕机&#xff0c;所有的服务都得重启。本着mysql实例都做了服务自启动&#xff0c;所以没有太担心影响开发的日常工作。但是今天一上班开发就找来&#xff0c;各种服务都没起来有问题&#xff0c;数据库连不上。马上登陆数…