【机器学习】朴素贝叶斯算法|商品评论情感分析案例介绍及代码实现

文章目录

  • 朴素贝叶斯算法
    • 朴素贝叶斯算法介绍
      • 概率数学基础复习
      • 朴素贝叶斯算法-利用概率值进行分类的一种机器学习算法
        • 贝叶斯公式
        • 朴素贝叶斯算法
        • 拉普拉斯平滑系数
    • 朴素贝叶斯API
      • 案例
        • 分析流程
        • 数据集
        • 代码实现
        • 运行结果

朴素贝叶斯算法

朴素贝叶斯算法介绍

概率数学基础复习

  • 条件概率 : 事件A在另外一个事件B已经发生条件下的发生概率 P(A|B)
  • 联合概率 : 表示多个条件哦同时成立的概率 P(AB) = P(A) * P(B|A) = P(B) * P(A|B)

朴素贝叶斯算法-利用概率值进行分类的一种机器学习算法

贝叶斯公式
  • 贝叶斯公式

    在这里插入图片描述

    • P© 表示c出现的概率
    • p(W|C) 表示C条件下W出现的概率
    • P(W) 表示 W 出现的概率
  • 例子: 判断女神对你的喜欢情况
    在这里插入图片描述

P(C | W) = P(喜欢 | (程序员,超重))
P(W | C) = P((程序员,超重) | 喜欢)
P© = P(喜欢)
P(W) = P(程序员,超重)

  • 根据训练样本估计先验概率P©:
    • P© = P(喜欢) = 4/7
  • 根据条件概率P(W | C)调整先验概率:
    • P(W | C) = P((程序员,超重) | 喜欢) = 1/4
  • ''此时我们的后验概率
    • P(W | C) * P©为:P(W | C) * P© = P((程序员,超重) | 喜欢) * P(喜欢) = 4/7 * 1/4 = 1/7
  • 那么该部分数据占所有既为程序员,又超重的人中的比例是多少呢?
    • P(W) = P(程序员,超重) = P(程序员) * P(超重 | 程序员) = 3/7 * 2/3 = 2/7

在这里插入图片描述

朴素贝叶斯算法

朴素贝叶斯在贝叶斯基础上增加:特征条件独立假设,即:特征之间是互为独立的。
此时,联合概率的计算即可简化为:
P(程序员,超重|喜欢) = P(程序员|喜欢) * P(超重|喜欢)
P(程序员,超重) = P(程序员) * P(超重)

拉普拉斯平滑系数

在这里插入图片描述

  • 为了避免概率值为 0,我们在分子和分母分别加上一个数值,这就是拉普拉斯平滑系数的作用
    • α 是拉普拉斯平滑系数,一般指定为 1
    • Ni 是 F1 中符合条件 C 的样本数量
    • N 是在条件 C 下所有样本的总数
    • m 表示所有独立样本的总数

朴素贝叶斯API

sklearn.naive_bayes.MultinomialNB(alpha = 1.0
  • 朴素贝叶斯分类
  • alpha 拉普拉斯平滑系数

案例

  • 需求 已知商品评论数据,根据数据进行情感分类(好评、差评)

在这里插入图片描述

分析流程
# 1 获取数据
# 2 数据基本处理# 2-1 处理数据y# 2-2 加载停用词# 2-3 处理数据x 把文档分词# 2-4 统计词频矩阵 作为句子特征# 2-5 准备训练集测试集
# 3 模型训练# 4-1 实例化贝叶斯 添加拉普拉斯平滑参数
# 4 模型预测
# 5 模型评估
数据集

用.csv方式保存数据集

,内容,评价
0, 从编程小白的角度看,入门极佳。,好评
1,很好的入门书,简洁全面,适合小白。,好评
2,讲解全面,许多小细节都有顾及,三个小项目受益匪浅。,好评
3,前半部分讲概念深入浅出,要言不烦,很赞,好评
4,看了一遍还是不会写,有个概念而已,差评
5,中规中矩的教科书,零基础的看了依旧看不懂,差评
6,内容太浅显,个人认为不适合有其它语言编程基础的人,差评
7,破书一本,差评
8,适合完完全全的小白读,有其他语言经验的可以去看别的书,差评
9,基础知识写的挺好的!,好评
10,太基础,差评
11,略_嗦。。适合完全没有编程经验的小白,差评
12,真的真的不建议买,差评
13,很好很好,好评
14,买买买,好评
代码实现
import jieba
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt  # 绘图
from sklearn.feature_extraction.text import CountVectorizer  # 文本特征向量化
from sklearn.naive_bayes import MultinomialNB  # 多项式贝叶斯分类器def demo01():data = pd.read_csv('../data/书籍评价.csv', encoding='gbk')# 数据预处理# data['评论标号'] = np.where(data['评价'] == '好评', 1, 0)# y = data['评论标号']y = data['评价']# 加载停用词stopwords = []with open('../data/stopwords.txt', 'r', encoding='utf-8') as f:lines = f.readlines()for line in lines:stopwords.append(line.strip())stopwords = list(set(stopwords))  # 去重# 处理数据 分词comment_list = [','.join(jieba.lcut(line)) for line in data['内容']]# 特征工程transfer = CountVectorizer(stop_words=stopwords)x = transfer.fit_transform(comment_list)mynames = transfer.get_feature_names_out()x = x.toarray()print(mynames)# 准备训练集测试集x_train = x[:10, :]y_train = y.values[:10]x_test = x[10:, :]y_test = y.values[10:]# 模型训练model = MultinomialNB().fit(x_train, y_train)# 模型预测y_predict = model.predict(x_test)print('预测结果:\n', y_predict)print('实际结果:\n', y_test)print('准确率:\n', model.score(x_test, y_test))if __name__ == '__main__':demo01()
运行结果

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/55081.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux中通过一个命令启动任何java的jar包

由于需要在linux中需要启动N多个jar包,以下是写的一个通用脚本: #!/bin/bash if [ $# -ne 2 ]; then echo "用法: $0 <命令> <模块名称>" exit 1 fi MODEL_NAME=$2 APP_NAME="${MODEL_NAME}" echo $APP_NAME JARFILE="${MODEL_NA…

架构设计笔记-11-未来信息综合技术

知识要点 云原生架构原则包括&#xff1a;服务化原则、弹性原则、可观测原则、韧性原则、所有过程自动化原则、零信任原则和架构持续演进原则。 区块链是一种按照时间顺序将数据区块以顺序相连的方式组合成的一种链式数据结构&#xff0c;并以密码学方式保证的不可篡改和不可…

有缺陷的 Java 代码:Java 开发人员最常犯的 10 大错误

Java 是一种复杂的编程语言&#xff0c;很长一段时间以来一直主导着许多生态系统。可移植性、自动垃圾回收及其温和的学习曲线是使其成为软件开发的绝佳选择的一些因素。但是&#xff0c;与任何其他编程语言一样&#xff0c;它仍然容易受到开发人员错误的影响。 本文探讨了 Jav…

CVE-2022-26965靶机渗透

​ 开启环境 ​ ​ 进入环境 ​ ​ 使用弱口令admin登录 ​ ​ 利用cms主题构造木马 ​ 需要将主题中的info.php文件修改&#xff0c;再打包成zip再上传&#xff0c;通过网络搜索找到Github中的Pluck CMS&#xff0c;进入后随便下载任一主题 https://github.com/sear…

c# using 声明进行资源管理

在 C# 8 中&#xff0c;using 声明引入了一种新的语法&#xff0c;称为 using 声明&#xff0c;它使得开发人员在处理资源时的代码更加简洁和清晰。主要的变化包括 使用声明 和 使用上下文&#xff08;using declaration&#xff09; 的引入。 使用语句的简化 在 C# 8 中&…

服务性能优化之mybatis-plus 开启与关闭 SQL 日志打印

Hello&#xff01;欢迎各位新老朋友来看小弟博客&#xff0c;祝大家事业顺利&#xff0c;财源广进&#xff01;&#xff01; 主题&#xff1a;mybatis-plus 开启与关闭 SQL 日志打印 第一&#xff1a;开启打印 Mybatis-plus 需要通过下面的方式开启控制台 SQL 日志打印 myba…

智能听诊器:宠物健康管理的革命

智能听诊器不仅仅是一个简单的监测工具&#xff0c;它代表了宠物健康管理的一次革命。通过收集和分析宠物的生理数据&#xff0c;智能听诊器能够帮助宠物主人和医生更好地理解宠物的健康需求&#xff0c;从而提供更加个性化的护理方案。 智能听诊器通过高精度的传感器&#xf…

和鲸科技创始人范向伟:拐点即将来临,AI产业当前的三个瓶颈

在科技迅猛发展的时代&#xff0c;人工智能&#xff08;AI&#xff09;无疑已经成为引领新一轮产业革命的核心动力之一。全球企业纷纷拥抱AI技术&#xff0c;试图借助其变革力量在竞争中突围&#xff0c;然而业界对AI产业化的拐点何时来临却众说纷纭。毕竟AI技术从实验室到商业…

4K变倍镜头特点

1、高分辨率成像&#xff1a; ① 能够呈现清晰、细腻的图像&#xff0c;可清晰快速地识别出被测物体的微小细节、特征以及潜在的缺陷等。例如在芯片外观瑕疵检测中&#xff0c;能清晰地分辨出芯片上的刮痕、污渍、破损、引脚缺失等问题。 ② 相比传统的变倍镜头&#xff0c;在…

【VUE】Vue的diff算法和React的diff算法

React和Vue都使用了虚拟DOM来进行高效的页面更新&#xff0c;但它们在实现细节上有一些差异。下面是React和Vue的diff算法的异同点&#xff1a; 异同点&#xff1a; 目标&#xff1a;React和Vue的diff算法的目标都是尽量减少DOM操作的次数&#xff0c;提高页面更新的性能。虚…

LabVIEW提高开发效率技巧----队列使用

在LabVIEW开发中&#xff0c;队列是实现并行处理、数据传递和任务调度的关键机制之一&#xff0c;合理使用队列可以有效提高程序性能并避免内存问题。结合队列长度限制和其他队列相关技巧&#xff0c;以下是队列使用的详细说明&#xff1a; 1. 队列长度限制 限制队列的长度可以…

全面讲解C++

数据类型 1.1 基本数据类型 1.1.1 整型&#xff08;Integer Types&#xff09; 整型用于表示整数值&#xff0c;分为以下几种类型&#xff1a; int&#xff1a;标准整数类型&#xff0c;通常为4字节&#xff08;32位&#xff09;。short&#xff1a;短整型&#xff0c;通常…

Python网络爬虫技术

Python网络爬虫技术详解 引言 网络爬虫&#xff08;Web Crawler&#xff09;&#xff0c;又称网络蜘蛛&#xff08;Web Spider&#xff09;或网络机器人&#xff08;Web Robot&#xff09;&#xff0c;是一种按照一定规则自动抓取互联网信息的程序或脚本。它们通过遍历网页链…

JDK命令行工具

JDK命令行工具 1. jps&#xff1a;虚拟机进程状况工具 显示所有hotspot虚拟机进程 2. jstat&#xff1a;虚拟机统计信息监视工具 收集HotSpot各方面的运行数据&#xff0c;例如类装载&#xff0c;内存&#xff0c;垃圾收集&#xff0c;JIT编译等数据 3. jinfo&#xff1a;…

量子数字签名概述

我们都知道&#xff0c;基于量子力学原理研究密钥生成和使用的学科称为量子密码学。其内容包括了量子密钥分发、量子秘密共享、量子指纹识别、量子比特承诺、量子货币、秘密通信扩展量子密钥、量子安全计算、量子数字签名、量子隐性传态等。虽然各种技术发展的状态不同&#xf…

FreeRTOS学习总结

背景&#xff1a;在裸机开发上&#xff0c;有时候我们需要等待某个信号或者需要延迟时&#xff0c;CPU的运算是白白浪费掉了的&#xff0c;CPU的利用率并不高&#xff0c;我们希望当一个函数在等待的时候&#xff0c;可以去执行其他内容&#xff0c;提高CPU的效率&#xff0c;同…

linux使用nmcli 管理wifi的命令

在 Linux 系统中&#xff0c;nmcli 是 NetworkManager 的命令行工具&#xff0c;常用于管理网络连接&#xff0c;包括 WiFi。下面是一些常见的使用 nmcli 管理 WiFi 的命令。 1. 显示所有可用的 WiFi 网络 nmcli dev wifi list这个命令会列出当前可以扫描到的 WiFi 网络及其信…

windows修改文件最后修改时间

一、需要修改日期的文件 背景:有时候我们需要做一些文件定期删除的操作,但是测试时候并不一定有符合测试的文件,这时候就需要可以方便的修改文件的最后修改时间。 系统环境:windows 测试文件:如上 修改时间方式:windows 脚本。 二、测试脚本 (1) 脚本 # 指定文件路径 …

自然语言处理:第五十三章 Ollama

代码&#xff1a; ollama/ollama: Get up and running with Llama 3.1, Mistral, Gemma 2, and other large language models. (github.com) 官网&#xff1a; Ollama 写在前面: 笔者更新不易&#xff0c;希望走过路过点个关注和赞&#xff0c;笔芯!!! 写在前面: 笔者更新不易…

Android Framework默认授予app通知使用权限

安卓通知使用权限 在安卓系统中&#xff0c;应用程序需要获取通知使用权限才能向用户发送通知。以下是关于安卓通知使用权限的一些信息&#xff1a; 权限获取方式 当用户安装应用时&#xff0c;系统可能会在安装过程中提示用户授予应用通知权限。用户可以选择允许或拒绝。 应…