【深度学习】最强算法模型之:潜在狄利克雷分配(LDA)

潜在狄利克雷分配

  • 1、引言
  • 2、潜在狄利克雷分配
    • 2.1 定义
    • 2.2 原理
    • 2.3 算法公式
    • 2.4 代码示例
  • 3、总结

1、引言

小屌丝:鱼哥, 给我讲一讲LDA
小鱼:LDA? 你指的是?

小屌丝:就是算法模型的LDA啊, 你想啥?
小鱼:哦,哦, 那就好,
小屌丝:你告诉我,你想啥了?
小鱼:不滴, 我就不
小屌丝:…你就说吧,我又不是外人
小鱼:…把耳朵凑过来,这只能悄悄说
在这里插入图片描述

小屌丝:鱼哥,你这… 咱不开车行不
小鱼:… 最近健身,骑自行车呢
小屌丝: … 我差点信了
在这里插入图片描述

小鱼:… 不扯了,咱还是开始 LDA吧。
小屌丝:那可不。

2、潜在狄利克雷分配

2.1 定义

潜在狄利克雷分配(LDA)是一种生成概率模型,用于集合(如文档集合或语料库)的离散数据(如文档中的单词)的集合中发现潜在的结构。

在LDA中,每个文档被视为由多个主题的混合生成,而每个主题又是由词汇表中单词的特定概率分布所定义。

2.2 原理

LDA的核心原理在于假设文档是由潜在的主题混合而成的,而每个主题则由一组单词的概率分布来定义。

LDA通过最大化文档的似然性来估计这些主题和它们的单词分布。

在文档生成过程中,首先根据主题分布选择一个主题,然后根据该主题的单词分布生成一个单词。

这个过程在文档中重复进行,直到生成完整的文档。

2.3 算法公式

LDA的数学表达涉及概率图模型中的节点和边,以及相应的条件概率分布。

具体来说,LDA定义了一个文档集合中每篇文档的主题分布 ( θ ) (θ) θ,每个主题的单词分布 ( φ ) (φ) φ,以及文档的生成过程。

LDA的主要公式包括:

  • 主题分布θ的先验分布 D i r i c h l e t ( α ) Dirichlet(α) Dirichlet(α)
  • 单词分布φ的先验分布 D i r i c h l e t ( β ) Dirichlet(β) Dirichlet(β)
  • 文档中第n个词的主题分布 z n M u l t i n o m i a l ( θ ) z_n ~ Multinomial(θ) zn Multinomial(θ)
  • 给定主题z_n,文档中第n个词的单词分布KaTeX parse error: Double subscript at position 22: …Multinomial(φ_z_̲n)

其中, α α α β β β超参数,分别控制主题分布单词分布稀疏性

在这里插入图片描述

2.4 代码示例

# -*- coding:utf-8 -*-
# @Time   : 2024-01-21
# @Author : Carl_DJ'''
实现功能:使用Python的gensim库实现LDA主题模型的
'''import gensim  
from gensim import corpora  
from pprint import pprint  # 假设我们有一些文档数据  
documents = [  "这是第一个文档。",  "这是第二个文档,与第一个文档相似。",  "第三个文档与前两个文档不同,讨论的是另一个主题。",  
]  # 创建文本语料库  
texts = [[text for text in doc.split()] for doc in documents]  
dictionary = corpora.Dictionary(texts)  
corpus = [dictionary.doc2bow(text) for text in texts]  # 使用LDA模型  
lda_model = gensim.models.LdaModel(corpus=corpus, id2word=dictionary, num_topics=2, random_state=100, update_every=1, chunksize=100, passes=10, alpha='auto', per_word_topics=True)  # 打印主题  
pprint(lda_model.print_topics())  # 获取文档的主题分布  
doc_topics = lda_model[corpus]  
for i, doc_topic in enumerate(doc_topics):  print(f"文档 {i} 的主题分布: {doc_topic}")  
  • 打印主题 运行结果
#输出结果示例  
[(0, '0.237*"文档" + 0.196*"第一个" + 0.179*"这是" + 0.145*"相似" + 0.100*"第二个"'),  
(1, '0.263*"另一个" + 0.251*"主题" + 0.226*"讨论" + 0.140*"是" + 0.120*"不同"')]  
  • 获取文档的主题分布运行结果
# 输出结果示例  文档 0 的主题分布: [(0, 0.9999911059222225)]  文档 1 的主题分布: [(0, 0.9999999999999997)]  文档 2 的主题分布: [(1, 0.9999999999999998)]

3、总结

潜在狄利克雷分配(LDA)是一种强大的无监督学习算法,它能够通过发现文档集合中的隐藏主题和主题分布,有效地揭示文档集合的内在结构。LDA的灵活性使其成为主题建模、文档分类、信息检索等多个任务中的理想选择。

LDA的核心在于它的生成式模型框架,该框架允许我们同时建模文档的主题混合和每个主题下的单词分布。通过最大化文档的似然性,LDA能够学习到这些分布,进而揭示出文档中的主题信息。

在实际应用中,LDA通常需要配合适当的预处理步骤(如分词、停用词去除、词干提取等)以及后续处理步骤(如主题可视化、主题解释等)来达到最佳效果。

此外,LDA的性能也受到一些因素的影响,如主题数量的选择、超参数的设定以及语料库的大小和质量等。

我是小鱼

  • CSDN 博客专家
  • 阿里云 专家博主
  • 51CTO博客专家
  • 企业认证金牌面试官
  • 多个名企认证&特邀讲师等
  • 名企签约职场面试培训、职场规划师
  • 多个国内主流技术社区的认证专家博主
  • 多款主流产品(阿里云等)测评一、二等奖获得者

关注小鱼,学习【机器学习】&【深度学习】知识,不再迷路。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/773742.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【linux深入剖析】基础IO操作 | 使用Linux库函数实现读写操作 | 文件相关系统调用接口

🍁你好,我是 RO-BERRY 📗 致力于C、C、数据结构、TCP/IP、数据库等等一系列知识 🎄感谢你的陪伴与支持 ,故事既有了开头,就要画上一个完美的句号,让我们一起加油 目录 前言1.复习C文件IO相关操…

双亲委派机制总结

回顾了一下双亲委派机制,在这记录记录,下一篇会基于打破双亲委派机制来更新 1. 类加载: 多个java文件经过编译打包后生成可运行jar包,最后启动程序。首先需要通过类加载器把主类加载到JVM。主类在运行过程中如果使用到其他类&a…

【Python】搭建 Python 环境

目 录 一.安装 Python二.安装 PyCharm 要想能够进行 Python 开发,就需要搭建好 Python 的环境 需要安装的环境主要是两个部分: 运行环境: Python开发环境: PyCharm 一.安装 Python (1) 找到官方网站 (2) 找到下载页面 选择 “Download for Windows”…

最小割问题合集,最大权闭合图,最大密度子图,最小权点覆盖,最大权独立子图,OJ练习,代码详解

文章目录 零、回顾1、流网络的割2、最小割问题 一、最小割的应用1.1POJ1966 -- Cable TV Network1.1.1原题链接1.1.2思路分析1.1.3AC代码 1.2ZOJ 2676 Network Wars1.2.1原题链接1.2.2思路分析1.2.3AC代码 1.3OPTM - Optimal Marks1.3.1原题链接1.3.2思路分析1.3.3AC代码 二、最…

QML | JavaScript作用域和命名解析2

QML | JavaScript作用域和命名解析3.绑定的作用域对象 属性绑定是QML中最常见的JavaScript应用。属性绑定关联了一个JavaScript表达式的结果和对象的一个属性,该属性所归属的对象被称为绑定的作用域对象。在下面的代码中,Item对象就是一个绑定的作用域对象: ​ 绑定可以…

JavaScript Uncaught ReferenceError: WScript is not defined

项目场景: 最近在Visual Studio 2019上编译libmodbus库,出现了很多问题,一一解决特此记录下来。 问题描述 首先就是configure.js文件的问题,它会生成两个很重要的头文件modbus_version.h和config.h,这两个头文件其中…

【Web APIs】正则表达式

目录 1.正则表达式 2.正则表达式语法 3.元字符 3.1边界符 3.2量词 3.3字符类 4.修饰符 1.正则表达式 正则表达式(Regular Expression)是用于匹配字符串中字符组合的模式,在 JavaScript中,正则表达式也是对象。通常用来查…

主流公链 - Solana

探索Solana区块链:下一代高性能区块链平台 1. Solana简介 Solana是一个高性能的区块链平台(TPS能达到10W级别),旨在实现高吞吐量和低延迟的区块链交易处理。它采用了一系列创新技术,其中包括Proof of History (PoH)&a…

管理能力学习笔记三:管理者的时间管理法

时间管理三步法 1、对任务进行分类 2、估算任务时间 3、持续反思评估 对任务进行分类 分类方法:时间管理四象限 A类 B类 C类 D类 估算时间 需要预留休息时间和机动时间 持续反思评估 核对检查任务 自我提问 处理日常干扰的办法 对事情发出提问 对话内容进行…

华为云服务器租用价格_云服务器优惠活动_2024年新版报价

2024年华为云服务器租用价格表,云服务器优惠价格35元一年,配置为1核2G1M带宽HECS云服务器、L实例-2核2G3M配置46元1年、4核16G10M华为云服务器24元一个月、2核4G5M服务器158元一年,3年1010元、华为云香港服务器99元一年、增强型C7云服务器4核…

P1036 [NOIP2002 普及组] 选数

思路:也算典型的dfs,题目就是要求从n个数中选择k个数,计算这k个数的和,看这个和是否是素数。我们知道在dfs时相当于是进行全排列,而结果要求的是组合后和的情况。根据排列和组合的关系,他们之间差K&#xf…

压测利器Webbench(附源码)

web压力测试工具webbench介绍 webbench最多可以模拟3万个并发连接去测试网站的负载能力,并发能力比较高,可以测试https及动态静态页面。 核心原理 父进程fork若干个子进程,每个子进程在用户要求时间或默认的时间内对目标web循环发出实际访问…

C#打印50*30条码标签

示例图: 源码下载地址:https://download.csdn.net/download/tiegenZ/89035407?spm1001.2014.3001.5503

01背包和完全背包

文章目录 01背包1、01背包暴力解法&#xff0c;回溯问题2、动态规划解法3、01背包代码优化 完全背包1、完全背包模型 GitHub参考链接 01背包 1、01背包暴力解法&#xff0c;回溯问题 #include<bits/stdc.h> using namespace std; const int N 1e25; int w[N],v[N]; i…

ValueError: Cannot load file containing pickled data when allow_pickle=False

问题描述 遇到报错&#xff1a;ValueError: Cannot load file containing pickled data when allow_pickleFalse 解决方案 经过查阅有人说是与numpy的版本有关&#xff0c;但是还是不要轻易改变环境中的版本&#xff0c;不一定哪个地方就会报错。这里放个解决方案&#xff1a;…

C++生成动态连接库

文章目录 一、静态连接与动态连接二、 动态链接库&#xff08;DLL&#xff09;的创建三、dll库的使用四、 动态链接链接库工作原理五、extern "C" 一、静态连接与动态连接 静态库和动态库区别是库的加载时间不同。静态库&#xff1a;在链接阶段库将会与.o目标文件一起…

YOLO中的预训练模型是否需要

这张图片显示的是使用YOLOv5&#xff08;一种流行的物体检测算法&#xff09;进行训练时的一段命令行指令以及对应的注释&#xff0c;这些注释是中文的。这里列出的是两个不同情况下的命令行用法。 上面的命令&#xff1a; python train.py --data custom.yaml --weights yolo…

C++中的凸包:convexHull使用手册【c++重要方法】

最近工作中&#xff0c;用到了凸包&#xff0c;查了一些资料&#xff0c;差不多搞明白了&#xff0c;在这里做一个总结&#xff0c;希望可以帮助到你&#xff01; 什么时候需要它&#xff1f; 如果你想要把一群散落的点&#xff0c;包裹起来。而且希望这个包裹尽可能地紧凑&a…

MQTT.fx和MQTTX 链接ONENET物联网提示账户或者密码错误

参考MQTT.fx和MQTTX 链接ONENET物联网开发平台避坑细节干货。_mqttx和mqttfx-CSDN博客 在输入password和username后还是提示错误&#xff0c;是因为在使用token的时候&#xff0c;key填写错误&#xff0c;将设备的密钥填入key中

How to convert .py to .ipynb in Ubuntu 22.04

How to convert .py to .ipynb in Ubuntu 22.04 jupyter nbconvertp2j 最近看到大家在用jupyter notebook&#xff0c;我也试了一下&#xff0c;感觉还不错&#xff0c;不过&#xff0c;也遇到了一些问题&#xff0c;比方说&#xff0c;我有堆的.py文件&#xff0c;如果要一个一…