潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)

文章目录

    • 1. 狄利克雷分布
    • 2. 潜在狄利克雷分配模型
    • 3. 学习推理
    • 4. sklearn.decomposition.LatentDirichletAllocation

潜在狄利克雷分配(latent Dirichlet allocation,LDA),作为基于 贝叶斯学习的话题模型,是潜在语义分析、概率潜在语义分析的扩展,于2002年由Blei等提出。LDA在文本数据挖掘、图像处理、生物信息处理等领域被广泛使用。

LDA模型是文本集合的生成概率模型

  • 假设每个文本话题的一个多项分布表示

  • 每个话题单词的一个多项分布表示

  • 特别假设文本的话题分布的先验分布是狄利克雷分布

  • 话题的单词分布的先验分布也是狄利克雷分布

  • 先验分布的导入使LDA能够更好地应对话题模型学习中的过拟合现象

LDA的文本集合的生成过程如下:

  • 首先随机生成一个文本的话题分布
  • 之后在该文本的每个位置,依据该文本的话题分布随机生成一个话题
  • 然后在该位置依据该话题的单词分布随机生成一个单词
  • 直至文本的最后一个位置,生成整个文本。重复以上过程生成所有文本

LDA模型是含有隐变量的概率图模型

  • 模型中,每个话题的单词分布,每个文本的话题分布,文本的每个位置的话题是隐变量
  • 文本的每个位置的单词是观测变量
  • LDA模型的学习与推理无法直接求解,通常使用吉布斯抽样(Gibbs sampling)和变分EM算法(variational EM algorithm),前者是蒙特卡罗法,而后者是近似算法

1. 狄利克雷分布

狄利克雷分布(Dirichlet distribution)是一种多元连续随机变量的概率分布,是贝塔分布(beta distribution)的扩展。在贝叶斯学习中,狄利克雷分布常作为多项分布的先验分布使用。

定义:

多元连续随机变量 θ=(θ1,θ2,...,θk)\theta = (\theta_1,\theta_2,...,\theta_k)θ=(θ1,θ2,...,θk) 的概率密度函数为:
p(θ∣α)=Γ(∑i=1kαi)∏i=1kΓ(αi)∏i=1kθiαi−1∑i=1kθi=1,θi≥0,αi>0,记作θ∼Dir(α)p(\theta|\alpha) = \frac{\Gamma \bigg(\sum\limits_{i=1}^k \alpha_i\bigg)}{\prod\limits_{i=1}^k \Gamma(\alpha_i)} \prod\limits_{i=1}^k \theta_i^{\alpha_i-1}\quad \sum\limits_{i=1}^k \theta_i = 1, \theta_i\ge 0,\alpha_i >0,记作\theta \sim Dir(\alpha)p(θα)=i=1kΓ(αi)Γ(i=1kαi)i=1kθiαi1i=1kθi=1,θi0,αi>0,θDir(α)
伽马函数,Γ(s)=∫0∞xs−1e−xdx,s>0伽马函数,\Gamma(s) = \int_0^{\infty} x^{s-1}e^{-x}dx, \quad s>0Γ(s)=0xs1exdx,s>0
伽马函数性质:
Γ(s+1)=sΓ(s)\Gamma(s+1) = s\Gamma(s)Γ(s+1)=sΓ(s)
sss 是自然数时,有 Γ(s+1)=s!\Gamma(s+1) = s!Γ(s+1)=s!

2. 潜在狄利克雷分配模型

在这里插入图片描述
LDA模型是概率图模型:

  • 特点:以狄利克雷分布为多项分布的先验分布
  • 学习:就是给定文本集合,通过后验概率分布的估计,推断模型的所有参数

利用LDA进行话题分析,就是对给定文本集合,学习到每个文本的话题分布,以及每个话题的单词分布

  • 可以认为LDA是PLSA(概率潜在语义分析)的扩展
  • 相同点:两者都假设话题是单词的多项分布,文本是话题的多项分布
  • 不同点:LDA使用狄利克雷分布作为先验分布,而PLSA不使用先验分布(或者说假设先验分布是均匀分布),两者对文本生成过程有不同假设
  • 学习过程:LDA基于贝叶斯学习,而PLSA基于极大似然估计
  • LDA的优点是:使用先验概率分布,可以防止学习过程中产生的过拟合(over-fitting)

3. 学习推理

LDA模型的学习与推理不能直接求解。

  • 通常采用的方法是吉布斯抽样算法变分EM算法
  • 前者是蒙特卡罗法,而后者是近似算法

4. sklearn.decomposition.LatentDirichletAllocation

sklearn.decomposition.LatentDirichletAllocation官网介绍

class sklearn.decomposition.LatentDirichletAllocation(n_components=10, 
doc_topic_prior=None, topic_word_prior=None, learning_method='batch',
learning_decay=0.7, learning_offset=10.0, max_iter=10, batch_size=128, 
evaluate_every=-1, total_samples=1000000.0, perp_tol=0.1, 
mean_change_tol=0.001, max_doc_update_iter=100, n_jobs=None, verbose=0, 
random_state=None)

n_components, optional (default=10),话题数量

实践参考:https://www.cnblogs.com/pinard/p/6908150.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/475959.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JMF入门(Java Media Framework)

JMF是SUN推出的用来提供给Java开发者使用Java开发视频与音频播放程序的开发库,JMF的推出已经有几年的历史了,目前最新的版本为 2.1.1e,这里我们来讲述使用Java的AWT组件来开发一个视频播放器,采用JMF作为视频的播放库,…

LeetCode 983. 最低票价(动态规划)

1. 题目 在一个火车旅行很受欢迎的国度,你提前一年计划了一些火车旅行。 在接下来的一年里,你要旅行的日子将以一个名为 days 的数组给出。 每一项是一个从 1 到 365 的整数。 火车票有三种不同的销售方式: 一张为期一天的通行证售价为 co…

final 数组 java_Java Final数组列表

您是正确的声明列表最终意味着您无法将列表变量重新分配给另一个对象.另一个问题(我想)是public class SomeClass {private static final ArrayList list new ArrayList();}VSpublic class SomeClass {ArrayList list new ArrayList();}我们轮流使用每个修饰符.private只有这…

生活点滴语录

1、gmail与chrome,高效实用,简单大方。生活中用到的两款google产品,确实喜欢。2、g.cn,值得信任。-------简洁明了,深入人心。3、深度,值得深入。-------精髓的解说。4、有人说态度决定一切,有人…

LeetCode 1306. 跳跃游戏 III(广度优先搜索BFS)

1. 题目 这里有一个非负整数数组 arr,你最开始位于该数组的起始下标 start 处。 当你位于下标 i 处时,你可以跳到 i arr[i] 或者 i - arr[i]。 请你判断自己是否能够跳到对应元素值为 0 的 任意 下标处。 注意,不管是什么情况下&#xff…

mysql错误日志为aborting_MySQL 错误日志(Error Log)

同大多数关系型数据库一样,日志文件是MySQL数据库的重要组成部分。MySQL有几种不同的日志文件。通常包括错误日志文件,二进制日志,通用日志,慢查询日志,等等。这些日志能够帮助我们定位mysqld内部发生的事件&#xff0…

this和arguments

this是面向对象语言中的一个重要概念,在JAVA,C#等大型语言中,this固定指向运行时的当前对象。但是在javascript中,由于javascript的动态性(解释执行,当然也有简单的预编译过程),this的指向在运行…

LeetCode 529. 扫雷游戏(广度优先搜索BFS/深度优先搜索DFS)

文章目录1. 题目2. 解题2.1 BFS2.2 DFS1. 题目 让我们一起来玩扫雷游戏! 给定一个代表游戏板的二维字符矩阵。 ‘M’ 代表一个未挖出的地雷, ‘E’ 代表一个未挖出的空方块, ‘B’ 代表没有相邻(上,下,左…

java 使用jar_Java 使用JAR文件

JAR,Java Archive File,Java档案文件。JAR文件是一种压缩文件,与ZIP压缩文件兼容,通常称为JAR包。JAR文件中默认包含了一个名为META-INF/MANIFEST.MF的清单文件,是在生成JAR文件时由系统自动创建的。使用JAR文件与以下…

Flash 与数学:圆的切线(3)

在上面几节当中,已经了解过计算圆上任意一点的切线的方法,我们首先知道使用导数几何意义在哪里?在我们高中数学和大学的数学当中,说明了。导数的几何意义函数yf(x)在点x0处导数为f(x0)在几何上表示曲线yf&a…

LeetCode 1110. 删点成林(二叉树递归)

1. 题目 给出二叉树的根节点 root,树上每个节点都有一个不同的值。 如果节点值在 to_delete 中出现,我们就把该节点从树上删去,最后得到一个森林(一些不相交的树构成的集合)。 返回森林中的每棵树。你可以按任意顺序…

Asp.net 编码函数

属于Server类 HtmlEncode UrlEncode转载于:https://www.cnblogs.com/hahacjh/archive/2010/06/21/1761822.html

LeetCode 973. 最接近原点的 K 个点(排序/优先队列/快排)

文章目录1. 题目2. 解题2.1 排序2.2 优先队列2.3 快排思路1. 题目 我们有一个由平面上的点组成的列表 points。需要从中找出 K 个距离原点 (0, 0) 最近的点。 (这里,平面上两点之间的距离是欧几里德距离。) 你可以按任何顺序返回答案。除了…

创建链表

代码#include <iostream>usingnamespacestd;structstudent //定义结构体{ intdata; student *next;};//创建链表student *CreateList(){ student *headNULL; student *pnewstudent; cin>>p->data; student *endp; while(p->data!0…

LeetCode 1286. 字母组合迭代器(回溯/位运算)

文章目录1. 题目2. 解题2.1 回溯2.2 位运算1. 题目 请你设计一个迭代器类&#xff0c;包括以下内容&#xff1a; 一个构造函数&#xff0c;输入参数包括&#xff1a;一个 有序且字符唯一 的字符串 characters&#xff08;该字符串只包含小写英文字母&#xff09;和一个数字 c…

[Ubuntu]Apt-get命令参数详解

常用的APT命令参数&#xff1a;apt-cache search package 搜索包apt-cache show package 获取包的相关信息&#xff0c;如说明、大小、版本等sudo apt-get install package 安装包sudo apt-get install package - - reinstall 重新安装包sudo apt-get -f install 修复安装"…

java 密码 md5_java怎么去判断md5加密的密码啊?

对两次的加密字符进行比较&#xff0c;MD5加密的结果是一样的&#xff0c;所以每次进行加密后的密文进行匹配比较。java代码加密import java.security.MessageDigest;import java.security.NoSuchAlgorithmException;public class MD5Utils {public static void main(String[] …

PageRank 算法

文章目录1. PageRank 的定义1.1 基本想法1.2 PageRank 的基本定义1.3 PageRank 的一般定义2. PageRank 的计算2.1 迭代算法2.2 幂法2.3 代数算法PageRank算法是图的链接分析&#xff08;link analysis&#xff09;的代表性算法&#xff0c;属于图数据上的无监督学习方法。 Pag…

基于Java+SpringMvc+Vue求职招聘系统详细设计实现

基于JavaSpringMvcVue求职招聘系统详细设计实现 &#x1f345; 作者主页 专业程序开发 &#x1f345; 欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; &#x1f345; 文末获取源码联系方式 &#x1f4dd; 文章目录 基于JavaSpringMvcVue求职招聘系统详细设计实现一、前言介…

NameValueCollection详解

1.NameValueCollection类集合是基于 NameObjectCollectionBase 类。 但与 NameObjectCollectionBase 不同&#xff0c;该类在一个键下存储多个字符串值&#xff08;就是键相同&#xff0c;值就连接起来如下例子&#xff09;。该类可用于标头、查询字符串和窗体数据。每个元素都…