实战:朴素贝叶斯文本分类器搭建与性能评估

💗💗💗欢迎来到我的博客,你将找到有关如何使用技术解决问题的文章,也会找到某个技术的学习路线。无论你是何种职业,我都希望我的博客对你有所帮助。最后不要忘记订阅我的博客以获取最新文章,也欢迎在文章下方留下你的评论和反馈。我期待着与你分享知识、互相学习和建立一个积极的社区。谢谢你的光临,让我们一起踏上这个知识之旅!
请添加图片描述

文章目录

  • 🍋贝叶斯定理简介
  • 🍋贝叶斯分类器
  • 🍋朴素贝叶斯分类器
  • 🍋优势与不足
  • 🍋实战代码
  • 🍋结语

🍋贝叶斯定理简介

贝叶斯分类基于贝叶斯定理,其核心思想是通过先验概率和样本数据计算后验概率,从而进行分类。贝叶斯定理表达为:

在这里插入图片描述

其中,P(A∣B) 是在给定观测数据 B 的情况下事件 A 的后验概率,P(B∣A) 是在事件 A发生的情况下观测到 B 的概率,P(A) 是事件 A 的先验概率,P(B) 是观测到 B 的概率。

🍋贝叶斯分类器

基本原理

贝叶斯分类器基于贝叶斯定理构建,对于给定的输入样本,计算每个类别的后验概率,选择具有最高后验概率的类别作为最终分类结果。
在这里插入图片描述
其中,Likelihood 是给定类别的样本条件下观测到输入数据的概率,Prior 是类别的先验概率,Evidence 是观测到输入数据的概率。

🍋朴素贝叶斯分类器

朴素贝叶斯分类器是贝叶斯分类中的一种常见形式,它假设输入特征之间相互独立,简化了计算。对于给定的输入 X=(x1,x2,…,xn),朴素贝叶斯分类器的决策规则为:
在这里插入图片描述
其中,P(C=c) 是类别 c 的先验概率,P(Xi​=xi​∣C=c) 是在给定类别 c 的情况下特征 Xi​ 的条件概率。

🍋优势与不足

优势

  • 简单有效: 贝叶斯分类器具有简单的理论基础,易于实现。
  • 处理小样本数据: 在数据较少的情况下仍然有效,特别适用于小样本场景。
  • 对噪声数据不敏感: 对于噪声和缺失数据具有较好的鲁棒性。

不足

  • 对输入特征的独立性要求: 朴素贝叶斯分类器假设输入特征之间相互独立,这在某些实际问题中可能不成立。
  • 无法学习特征之间的关系: 由于假设特征独立,不能很好地捕捉特征之间的复杂关系。
  • 需要先验概率: 对先验概率的准确估计要求较多领域知识或足够的样本数据。

🍋实战代码

# 导入所需的库和模块
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics# 下载并加载20类新闻数据集
newsgroups = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'))# 特征工程: 将文本转换为TF-IDF表示
vectorizer = TfidfVectorizer(stop_words='english', max_features=1000)
X = vectorizer.fit_transform(newsgroups.data)# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, newsgroups.target, test_size=0.2, random_state=42)# 构建朴素贝叶斯分类器
classifier = MultinomialNB()
classifier.fit(X_train, y_train)# 在测试集上进行预测
y_pred = classifier.predict(X_test)# 输出分类报告
print("Classification Report:")
print(metrics.classification_report(y_test, y_pred))# 输出混淆矩阵
print("Confusion Matrix:")
print(metrics.confusion_matrix(y_test, y_pred))

运行结果如下
在这里插入图片描述
在这里插入图片描述

🍋结语

贝叶斯分类作为一种基于统计学习的方法,在实际问题中展现了良好的性能。通过充分利用先验知识和观测数据,贝叶斯分类为我们提供了一种有效的分类工具,特别在小样本场景和文本分类等任务中表现出色。

请添加图片描述

挑战与创造都是很痛苦的,但是很充实。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/578257.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ROS程序中常用循环结构的用途和用法

在 ROS (Robot Operating System) 程序中,循环结构是核心的一部分,用于控制节点的行为和处理消息。下面是一些常用的循环结构及其用途和用法: while (ros::ok()) 循环: 用途: 保持节点运行,用于执行持续的任务或周期性检查。这个循环确保节点在 ROS 环境下正常运行,直到接…

Java 快速入门

简介 跨平台性:Java 最大的优势之一就是跨平台性,即一份 Java 程序可以在多平台上运行,而无需重写。 简单易学:Java 的语法和面向对象的开发方式非常简单易学。 安全性:Java 对于安全性的处理非常慎重,对…

接口测试和功能测试

本文主要分为两个部分: 第一部分:主要从问题出发,引入接口测试的相关内容并与前端测试进行简单对比,总结两者之前的区别与联系。但该部分只交代了怎么做和如何做?并没有解释为什么要做? 第二部分&#xf…

oracle11体系结构二-存储结构

数据区: 数据区(数据扩展区)由一组连续的oracle数据块所构成的存储结构,一个或多个数据块组成一个数据区,一个或多个数据区组成一个段。当段中所有空间被使用完后,oracle系统将自动为该段分配一个新的数据…

2312clang,基于访问者的前端动作

原文 基于RecursiveASTVisitor的ASTFrontendActions. 创建用RecursiveASTVisitor查找特定名字的CXXRecordDeclAST节点的FrontendAction. 创建FrontendAction 编写基于clang的工具(如Clang插件或基于LibTooling的独立工具)时,常见入口是允许在编译过程中执行用户特定操作的F…

如何在生产环境正确使用Redis

一、在生产环境使用Redis 如果在生产环境使用Redis,需要遵守一定的使用规范,以保障服务稳定、高效。。 1.1、明确Redis集群的服务定位 1、仅适用于缓存场景:Redis定位于高性能缓存服务,强调快速读写和低延迟的特性,…

Adobe Application Manager丢失或损坏 - 解决方案

前言 Adobe Application Manager(简称AAM),是用来管理旧版Adobe软件的管理器,后来已经升级为Adobe Creative Cloud(简称ACC)。 使用Adobe系列软件时可能会报错提示需要使用Adobe Application Manager解决…

【Windows编程】期末复习题3

系列文章目录 期末复习题1 期末复习题2 文章目录 系列文章目录什么是事件驱动的程序执行过程?简要描述Windows的事件驱动程序模型。什么是动态链接库?其作用是什么?在Windows API程序设计中,资源的主要作用有哪些?Vis…

wifi驱动打开双模式

双模式 3.1 开启双模式 在Makefile添加EXTRA_CFLAGS -DCONFIG_CONCURRENT_MODE 重新编译(make之后发现不正常工作,需要make clean清理一下)。 再用sudo rmmod 8821cu.ko,重新启动。出现wlan1: 出现问题&#xff1…

助力打造清洁环境,基于轻量级DETR(DEtectionTRansformer)开发构建公共场景下垃圾堆放垃圾桶溢出检测识别系统

公共社区环境生活垃圾基本上是我们每个人每天几乎都无法避免的一个问题,公共环境下垃圾投放点都会有固定的值班时间,但是考虑到实际扔垃圾的无规律性,往往会出现在无人值守的时段内垃圾堆放垃圾桶溢出等问题,有些容易扩散的垃圾比…

2024年PMP考试新考纲-PMBOK第七版-项目绩效域真题解析

如何一次性通过PMP考试,取得3A等级的PMP证书?华研荟根据十多年的培训和辅导,以及数千名学员的建议是: 先把PMBOK第六版、第七版和敏捷实践指南的三本官方教材研读一遍(如果觉得自己看书慢,可以看讲解视频&…

基于多反应堆的高并发服务器【C/C++/Reactor】(中)Dispatcher模块的实现思路和定义

(四)Dispatcher模块的实现思路 关于dispatcher,它应该是反应堆模型里边的核心组成部分,因为如果说这个反应堆模型里边有事件需要处理,或者说有事件需要检测,那么是需要通过这个poll、epoll 或者 select来完…

Spring Boot3 Web开发技术

前期回顾 springboot项目常见的配置文件类型有哪些?哪种类型的优先级最高 yml properties yaml 读取配置文件里的数据用什么注解? value restful风格 RESTful 风格与传统的 HTTP 请求方式相比,更加简洁,安全,能隐…

有赞微商城集成CRM:无代码电商平台优化用户运营

有赞微商城与无代码开发的完美结合 在数字化转型的浪潮中,无代码开发是商家极力追求的目标,它能够让非技术人员也能轻松地实现软件集成和数据流转。有赞微商城的出现,就是为了响应这一需求。通过无需复杂编程即可实现的API集成,商…

Kind创建k8s - JAVA操作控制

kind 简介kind 架构安装 Kind (必备工具)docker官网kubectl官网kind官网校验安装结果 关于kind 命令 安装一个集群查看当前 Kubernetes 集群中的节点信息。查看当前命名空间下中的Pod(容器实例)的信息。使用 kind create cluster 安装,关于安…

MYSQL一一函数一一流程函数

咱今天讲的是MySQL函数中的流程函数,会有3小题和一个综合案例帮助大家理解 流程函数是很常用的一类函数,可以在SQL语句中实现条件筛选,从而提高语句的效率 小题: ①if语句: select if(flash,ok,error); //如果…

Java之Atomic 原子类总结

Java之Atomic 原子类总结 Atomic 原子类介绍 Atomic 翻译成中文是原子的意思。在化学上,我们知道原子是构成一般物质的最小单位,在化学反应中是不可分割的。在我们这里 Atomic 是指一个操作是不可中断的。即使是在多个线程一起执行的时候,一…

【Java】你掌握了多线程吗?

【文末送书】今天推荐一本Java多线程编程领域新书《一本书讲透Java线程》 摘要 互联网的每一个角落,无论是大型电商平台的秒杀活动,社交平台的实时消息推送,还是在线视频平台的流量洪峰,背后都离不开多线程技术的支持。在数字化转…

FPGA-ZYNQ-7000 SoC在嵌入式系统中的优势

FPGA-ZYNQ-7000 SoC在嵌入式系统中的优势 本章节主要参考书籍《Xilinx Zynq-7000 嵌入式系统设计与实现 基于ARM Cortex-A9双核处理器和Vivado的设计方法 (何宾,张艳辉编著)》 本章节主要讲述FPGA-ZYNQ-7000 SoC在嵌入式系统中的优势,学习笔…

LeetCode刷题--- 优美的排列

个人主页:元清加油_【C】,【C语言】,【数据结构与算法】-CSDN博客元清加油_【C】,【C语言】,【数据结构与算法】-CSDN博客 个人专栏 力扣递归算法题 http://t.csdnimg.cn/yUl2I 【C】 http://t.csdnimg.cn/6AbpV 数据结构与算法 ​​​​​​http://t.cs…