从情感分析到朴素贝叶斯法:基于朴素贝叶斯的情感分析如何让DeepSeek赋能你的工作?

文章目录

    • 1.概率论基础
      • 1.1 单事件概率
      • 1.2 多事件概率
      • 1.3 条件概率
        • 1.3.1 多事件概率与条件概率的区别
      • 1.4 贝叶斯定理
      • 传统思维误区
      • 贝叶斯定理计算
    • 2. 朴素贝叶斯法
      • 2.1 基本概念
      • 2.2 模型
      • 2.3 学习策略
      • 2.4 优化算法
      • 2.5 优化技巧
        • 拉普拉斯平滑
        • 对数似然
    • 3. 情感分析实战
      • 3.1 流程
      • 3.2 模型评价
      • 3.3 应用场景
      • 3.4 局限性
      • 3.4 局限性

1.概率论基础

1.1 单事件概率

定义一个事件发生的可能性
例子:假设事件A表示“一个文本是正向的”,则P(A) = 正向文本数 / 总文本数。
解释:比如有20个文本,其中13个是正向的,那么P(A) = 13/20 = 0.65。

image-20250405222006965

1.2 多事件概率

定义:多个事件同时发生的概率。
例子:事件A(文本是正向的)和事件B(文本包含单词“happy”)同时发生的概率P(A,B) = P(A∩B) = 3/20。

image-20250405222252829

举个例子:假设某餐厅统计发现:

  • 30%的订单点了汉堡(事件A)
  • 20%的订单同时点了汉堡和薯条(事件A∩B)

那么:

  • 多事件概率:P(汉堡且薯条) = 20%
    直接表示同时点这两样的概率

1.3 条件概率

定义:在已知事件B发生的情况下,事件A发生的概率,记作P(A|B)。
公式:P(A|B) = P(A∩B) / P(B)。
作用:缩小计算范围。例如,已知文本包含“happy”,计算它是正向的概率时,只需关注包含“happy”的文本。

延续刚刚的例子:已知某餐厅统计发现:

  • 薯条订单占全店40%(事件B)
  • 汉堡和薯条同时点占20%(事件A∩B)

则:

  • 条件概率:P(汉堡|已点薯条) = 20%/40% = 50% 【两者同时的概率 / 单单薯条的概率】
    (在已经点薯条的订单中,有50%会加购汉堡)

image-20250405223544164

1.3.1 多事件概率与条件概率的区别
维度多事件概率条件概率
计算范围全局样本空间限定在条件事件发生的子空间
信息量反映单纯共存概率揭示事件间的关联强度
应用场景分析事件组合频率研究因果关系/预测

典型误区分辨

  • ❌错误理解:“今天下雨且堵车”(多事件概率) vs “下雨导致堵车”(条件概率)
  • ✅正确区分:
    • 多事件概率:全市范围内同时下雨和堵车的概率(比如10%)
    • 条件概率:在下雨的日子里发生堵车的概率(可能高达70%)

NLP应用实例(情感分析)

假设分析1,000条商品评论:

  • 200条出现"价格"(事件A)
  • 50条同时出现"价格"和"昂贵"(事件A∩B)
  • "昂贵"出现总次数100次(事件B)

多事件概率
P(“价格"且"昂贵”) = 50/1000 = 5%
(所有评论中同时包含这两个词的概率)

条件概率
P(“昂贵”|出现"价格") = 50/200 = 25%
(在提到价格的评论中,"昂贵"出现的概率)【两者同时的概率 / 单单价格的概率】

1.4 贝叶斯定理

定义:通过已知事件Y反推事件X的概率。贝叶斯定理是"用结果反推原因"的概率计算方法。就像侦探破案:已知犯罪现场有某种证据(结果),计算某个嫌疑人作案(原因)的概率。
公式:P(X|Y) = P(Y|X) * P(X) / P(Y)。
用途:在分类问题中,通过观测数据反推类别概率。

举个例子(疾病检测)
假设:

  • 某疾病在人群中的患病率是1%(先验概率)
  • 检测准确率:
    • 有病的人,99%能测出性(真阳性率)
    • 病的人,2%会误测为性(假阳性率)

问题:如果一个人检测呈阳性,他实际患病的概率是多少?

传统思维误区

很多人会直接认为概率是99%,忽略了基础患病率。

贝叶斯定理计算

P(患病|阳性) = P(阳性|患病) * P(患病) / P(阳性) P(阳性) = [P(阳性|患病) * P(患病) + P(阳性|正常) * P(正常)
= (99% * 1%) / (99% * 1% + 2% * 99%) 这里的P(正常)更多的是:1-P(患病) = 99%
≈ 33%

【“患病”是因,“阳性”是果 ,先乘因,再除果

即使检测呈阳性,实际患病概率只有33%!

接下来我将对公式进行拆解:

P(原因|结果) = [P(结果|原因) × P(原因)] / P(结果)

  • P(原因)先验概率(已知的客观事实)
  • P(结果|原因):似然度(原因导致结果的可能性)
  • P(原因|结果)后验概率(我们想求的答案)

NLP应用实例(垃圾邮件过滤)

已知:

  • 邮件中出现**“折扣”**这个词:
    • 垃圾邮件中出现的概率是80%(P(折扣|垃圾))
    • 正常邮件中出现的概率是10%(P(折扣|正常))
  • 整体邮件中垃圾邮件占比20%(P(垃圾))

计算

P(垃圾|折扣) = [P(折扣|垃圾) * P(垃圾)] / [P(折扣|垃圾) * P(垃圾) + P(折扣|正常) * P(正常)]
= (80% * 20%) / (80% * 20% + 10% * 80%) 这里的P(正常)更多的是:1-P(垃圾) = 80%
= 66.7%

虽然"折扣"在垃圾邮件中出现概率高,但综合考量后,含这个词的邮件是垃圾邮件的概率是66.7%。

那么为什么叫"定理"?

因为可以通过条件概率公式严格推导:

  1. 根据条件概率定义:P(A|B)=P(A∩B)/P(B)
  2. 同理:P(B|A)=P(A∩B)/P(A)
  3. 联立两式消去P(A∩B)即得贝叶斯定理

2. 朴素贝叶斯法

2.1 基本概念

概述:基于贝叶斯定理的分类方法,假设特征之间相互独立(称为“朴素”)。
优点:简单高效,适合文本分类等任务。
缺点:特征独立性假设可能影响准确性。

条件独立假设

  • 假设所有特征在类别确定时彼此独立
  • 虽然简化计算,但现实中特征可能相关。

2.2 模型

目标:对输入数据x,预测最可能的类别y。
核心公式
y = argmax P(y) * Π P(x_i|y),即选择使后验概率最大的类别。

2.3 学习策略

极大似然估计(MLE)

  • 估计先验概率P(y)和条件概率P(x_i|y)。
  • 先验概率:P(y) = 类别y的样本数 / 总样本数。
  • 条件概率:P(x_i|y) = 类别y中特征x_i出现的次数 / 类别y的总样本数。

2.4 优化算法

后验概率最大化

  • 选择使后验概率最大的类别,等价于最小化分类错误。

2.5 优化技巧

拉普拉斯平滑

问题:某些特征未出现时概率为0,导致整体概率为0。
解决:分子加1,分母加特征总数V,避免零概率。

对数似然

问题:连乘小数可能导致数值下溢(结果过小无法表示)。
解决:对概率取对数,将连乘转为连加。

  • 概率比值:ratio(w_i) = P(w_i|正向) / P(w_i|负向)。
  • 对数似然:λ(w_i) = log(ratio(w_i))。
  • 最终决策:若对数先验 + Σλ(w_i) > 0,则为正向;否则为负向。

3. 情感分析实战

3.1 流程

  1. 数据预处理:清洗文本(如去标点、分词)。
  2. 构建词频表:统计单词在正向/负向文本中的出现次数。
  3. 计算概率
    • 条件概率:P(w_i|正向)和P(w_i|负向)。
    • 对数似然:λ(w_i) = log(P(w_i|正向)/P(w_i|负向))。
  4. 预测:根据对数先验 + Σλ(w_i)的符号判断情感倾向。

3.2 模型评价

准确度:正确预测的文本数 / 总文本数。

3.3 应用场景

  • 垃圾邮件分类
  • 新闻分类
  • 情感分析

3.4 局限性

  1. 条件独立假设:忽略单词间的关联(如“not happy”)。
  2. 数据不平衡:正向/负向样本数量差异大时影响效果。
  3. 文本复杂性
    • 标点可能携带情感(如“好!” vs “好?”)。
    • 停用词(如“的”)有时也有情感意义。
    • 反讽或夸张难以捕捉。
  • 新闻分类
  • 情感分析

3.4 局限性

  1. 条件独立假设:忽略单词间的关联(如“not happy”)。
  2. 数据不平衡:正向/负向样本数量差异大时影响效果。
  3. 文本复杂性
    • 标点可能携带情感(如“好!” vs “好?”)。
    • 停用词(如“的”)有时也有情感意义。
    • 反讽或夸张难以捕捉。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/75680.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

获取inode的完整路径包含挂载的路径

一、背景 在之前的博客 缺页异常导致的iowait打印出相关文件的绝对路径-CSDN博客 里的 2.2.3 一节和 关于inode,dentry结合软链接及硬链接的实验-CSDN博客 里,我们讲到了在内核里通过inode获取inode对应的绝对路径的方法。对于根目录下的文件而言&#…

【51单片机】2-6【I/O口】【电动车简易防盗报警器实现】

1.硬件 51最小系统继电器模块震动传感器模块433M无线收发模块 2.软件 #include "reg52.h" #include<intrins.h> #define J_ON 1 #define J_OFF 0sbit switcher P1^0;//继电器 sbit D0_ON P1^1;//433M无线收发模块 sbit D1_OFF P1^2; sbit vibrate …

leetcode二叉树刷题调试不方便的解决办法

1. 二叉树不易构建 在leetcode中刷题时&#xff0c;如果没有会员就需要将代码拷贝到本地的编译器进行调试。但是leetcode中有一类题可谓是毒瘤&#xff0c;那就是二叉树的题。 要调试二叉树有关的题需要根据测试用例给出的前序遍历&#xff0c;自己构建一个二叉树&#xff0c;…

蓝桥杯嵌入式客观题二

十四届模拟一 1. 2.串口通信是一种传输线按位数据顺序传输方式 3.USART_SR是属于STM32微控制器USART的状态寄存器。 4.STM32G431RBT6是32位的ARM微控制器 ARM处理器是英国ARM公司设计的一种低功耗RISC微处理器 5.中断配置‌EXTI->FTSR&#xff08;下降沿触发选择寄存器…

OrangePi入门教程(待更新)

快速上手指南 https://www.hiascend.com/developer/techArticles/20240301-1?envFlag1 教学课程(含开发板配置和推理应用开发) https://www.hiascend.com/developer/devboard 开发推理应用 https://www.hiascend.com/developer/techArticles/20240326-1?envFlag1

王者荣耀的游戏匹配机制

王者荣耀的匹配机制主要基于ELO评分系统&#xff08;隐藏分机制&#xff09;和段位匹配&#xff0c;旨在平衡对局双方实力&#xff0c;同时通过多种策略控制玩家胜率趋近50%。 一、匹配机制核心 1. ELO评分&#xff08;隐藏分&#xff09; - 系统根据玩家的胜负、KDA、伤害量、…

PPTAgent:一款开源免费生成和评估幻灯片的项目

这篇文章介绍一下PPTAgent&#xff0c;一个从文档自动生成演示文稿的创新系统。该系统从人类的展示创作方法中汲取灵感&#xff0c;采用两步流程来确保卓越的整体质量。此外&#xff0c;本文还介绍了PPTEval&#xff0c;这是一个综合评估框架&#xff0c;可以跨多个维度评估演示…

谷歌开源单个 GPU 可运行的Gemma 3 模型,27B 超越 671B 参数的 DeepSeek

自从 DeepSeek 把训练成本打下来之后&#xff0c;各个模型厂家现在不再堆参数进行模型的能力对比。而是转向了训练成本优化方面&#xff0c;且还要保证模型能力不减反增的效果。包括使用较少的模型参数&#xff0c;降低 GPU 使用数量&#xff0c;降低模型内存占用等等技术手段。…

回归预测 | Matlab实现NRBO-Transformer-LSTM多输入单输出回归预测

回归预测 | Matlab实现NRBO-Transformer-LSTM多输入单输出回归预测 目录 回归预测 | Matlab实现NRBO-Transformer-LSTM多输入单输出回归预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.【JCR一区级】Matlab实现NRBO-Transformer-LSTM多输入单输出回归预测&#xf…

Photoshop 2025 Mac中文Ps图像编辑

Photoshop 2025 Mac中文Ps图像编辑 文章目录 Photoshop 2025 Mac中文Ps图像编辑一、介绍二、效果三、下载 一、介绍 Adobe Photoshop 2025 Mac版集成了多种强大的图像编辑、处理和创作功能。①强化了Adobe Sensei AI的应用&#xff0c;通过智能抠图、自动修复、图像生成等功能…

7. 记忆(Memory)机制:让AI拥有“短期记忆”与“长期记忆”

引言&#xff1a;当AI学会"记住你" 2025年某银行智能客服因无法记住用户身份&#xff0c;每次对话都要求重复验证&#xff0c;引发大量投诉。引入LangChain 记忆系统后&#xff0c;客户满意度提升62%。本文将基于MemorySaver与FAISS本地存储&#xff0c;教你构建符合…

【Python使用】嘿马云课堂web完整实战项目第3篇:增加数据,修改数据【附代码文档】

教程总体简介&#xff1a;项目概述 项目背景 项目的功能构架 项目的技术架构 CMS 什么是CMS CMS需求分析与工程搭建 静态门户工程搭建 SSI服务端包含技术 页面预览开发 4 添加“页面预览”链接 页面发布 需求分析 技术方案 测试 环境搭建 数据字典 服务端 前端 数据模型 页面原…

论文笔记(七十五)Auto-Encoding Variational Bayes

Auto-Encoding Variational Bayes 文章概括摘要1 引言2 方法2.1 问题场景2.2 变分下界2.3 SGVB估计器与AEVB算法2.4 重参数化技巧 3 示例&#xff1a;变分自编码器&#xff08;Variational Auto-Encoder&#xff09;4 相关工作5 实验6 结论7 未来工作 文章概括 引用&#xff1…

Python3 学习笔记

Python3 简介 | 菜鸟教程 一 Python3 简介 Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。 Python 的设计具有很强的可读性&#xff0c;相比其他语言经常使用英文关键字&#xff0c;其他语言的一些标点符号&#xff0c;它具有比其他语言更有特色…

Java实现N皇后问题的双路径探索:递归回溯与迭代回溯算法详解

N皇后问题要求在NN的棋盘上放置N个皇后&#xff0c;使得她们无法互相攻击。本文提供递归和循环迭代两种解法&#xff0c;并通过图示解释核心逻辑。 一、算法核心思想 使用回溯法逐行放置皇后&#xff0c;通过冲突检测保证每行、每列、对角线上只有一个皇后。发现无效路径时回退…

前端判断值相等的方法和区别

1. (宽松相等) 在比较之前会进行类型转换 可能导致一些意外的结果 0 // true 0 0 // true false 0 // true null undefined // true [1,2,3]1,2,3 // true2. (严格相等) 不进行类型转换 类型和值都必须相同 0 // false 0 0 // false false 0 /…

Socket编程UDP

Socket编程UDP 1、V1版本——EchoServer2、网络命令2.1、ping2.2、netstat2.3、pidof 3、验证UDP——Windows作为client访问Linux4、V2版本——DictServer5、V3版本——简单聊天室 1、V1版本——EchoServer 首先给出EchoServer目录结构&#xff1a;服务器的类我们实现在UdpServ…

辅助查询是根据查询到的文档片段再去生成新的查询问题

&#x1f4a1; 辅助查询是怎么来的&#xff1f; 它是基于你当前查询&#xff08;query&#xff09;检索到的某个文档片段&#xff08;chunk_result&#xff09;&#xff0c;再去“反推”出新的相关问题&#xff08;utility queries&#xff09;&#xff0c;这些问题的作用是&a…

2025 年 4 月补丁星期二预测:微软将推出更多 AI 安全功能

微软正在继续构建其 AI 网络安全战略&#xff0c;并于本月宣布在 Microsoft Security Copilot 中引入新代理。 他们引入了用于网络钓鱼分类的代理、用于数据丢失预防和内部风险管理的警报分类、条件访问优化、漏洞修复和威胁情报简报。 这些代理的目标是不断从这些不同学科中…

【LLM系列】1.大模型简介

1. 基础 1.1 如何权衡模型的复杂度和性能&#xff1f; ├── a. 模型架构选择 │ ├── 简化架构 │ │ └── 选择较小的网络层数和宽度&#xff0c;降低复杂度&#xff1b; │ │ 可使用高性能基础模型如 Transformers 作为起点&#xff0c;根据需求缩放模型。 │ └──…