lda进行图片分类_LDA主题模型

今天来啃硬骨头了,说说LDA主题模型。本文言简意赅,没有太多的数学公式。

学习也不要太多的陷入算法的细枝末节之中,学习复杂的事物,需要从整体去把握。

先列出本文的讲解顺序。

  1. 什么是LDA模型

2.

函数与 Beta函数

3.共轭先验分布

4.二项分布与多项分布

5.Beta分布与Dirichlet分布

6. LDA的解释

...

相关参考文章:

我是这样一步步理解--主题模型(Topic Model)、LDA(案例代码)

如何通俗理解 beta 分布?

把LDA主题模型作为自己的硕士课题,有什么可以做的?

NLP系列(三)LDA主题模型

通俗理解LDA主题模型

1.什么是LDA模型

将文档集中的每篇文档的主题以概率分布的形式给出,即将文档转化为基于主题的数值向量,每个维度上的主题概率取值就是对特定主题的聚类中心的隶属度

然后我们看百度百科中关于LDA主题模型的解释:

LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。

论文给出了文档生成模型的例子:

比如事先确定了Arts, Budget, Children, Education这几个主题,每个主题下对应了多个词。

a2e8b51143c2342de50731ea4598a616.png

然后文档中每个词的生成:以一定的概率选取上述某个主题,再以一定的概率选取那个主题下的某个单词,不断的重复这两步,最终生成如下图所示的一篇文章。不同颜色表示不同主题。

f8e0754394fcab1a673fa1bf5f5145c0.png

2.

函数与 Beta函数

函数:

首先来看

函数(读作gamma)的定义:

函数可以当成是阶乘在实数集上的延拓
。在(0-4]区间内图像如下:

484f9c4e45c0763bfaa23b30fadbc003.png

Beta函数:

关于Beta分布的理解可以参考这篇:如何通俗理解 beta 分布? - 小杰的回答 - 知乎

总而言之,beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它可以给出了所有概率出现的可能性大小。

Beta分布的概率密度:

其中系数B为:

Beta函数就是先验分布,加上实验结果得到后验分布。

Beta分布的期望是

.

3.共轭先验分布

朴素贝叶斯分类的公式:

: 后验分布

: 先验分布

: 似然函数

如果后验分布

与先验分布
满足同样的分布律,那么先验分布和后验分布叫做共轭分布。同时,先验分布叫做似然函数的共轭先验分布。

二项分布的共轭先验分布是Beta分布.

多项分布的共轭先验分布是Dirichlet分布.

4.二项分布与多项分布

伯努利分布:又称为两点分布,或者0-1分布,伯努利实验室单次随机实验,只有0和1两种实验结果,记为1的概率为p,为0的概率为1-p. 比如抛硬币1次.

二项分布:二项分布是进行n次伯努利实验,为1的概率为p,为0的概率为1-p.

比如抛硬币n次.

多项式分布:多项式分布是二项式分布的推广。进行n次实验,每次实验的可能结果有m个。比如掷骰子多次。

5.Beta分布与Dirichlet分布

Beta分布推广到多项,即Dirichlet分布。

Beta分布:

其中:

Beta分布的期望为:

Dirichlet分布:

其中:

Dirichlet分布的期望为:

是参数向量,共K个.

Dirichlet分布的特殊情况为对称Dirichlet分布,即组成

向量的元素相同。

6.LDA的解释

  • 共有m篇文章,一共涉及了K个主题
  • 每篇文章(长度为
    )都有各自的主题分布,主题分布是多项式分布,该多项式分布的参数服从Dirichlet分布,该Dirichlet分布的参数为
  • 每个主题都有各自的词分布,词分布为多项分布,该多项分布的参数服从Dirichlet分布,该Dirichlet分布的参数为
  • 对于某篇文章中的第n个词,首先从该文章的主题分布中采样一个主题,然后在这个主题对应的词分布中采样一个词。不但重复这个随机生成过程,知道m篇文章全部完成上述过程。

0bd3c356df9bfb330ebbaddb4fcfdc75.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/347932.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

FPGA(1)--VHDL--6选1数据选择器

一、实验目的 掌握用VHDL语句进行组合电路设计的方法,并熟悉程序的编译、调试与波形图的仿真。 二、实验内容 分别用VHDL的CASE语句及IF语句两种方法,设计6选1数据选择器。通过编译、仿真验证功能正确性。 三、实验设计 设计的依据:教材…

android+4.4+jni闪退,native2.1 安卓退到后台时,概率闪退

赞同来自:同样的,在这个时候,还出了另一个错误,详情见下面的log,这个问题,出现的情况就和上面的不同,从5.0 - 9.0 ,level 22- level 28 ,都在出这个错误,真的搞不太清楚是为什么&…

java 模板方法设计模式_Java中的模板方法设计模式

java 模板方法设计模式模板方法是一种行为设计模式 ,用于创建方法存根并将某些实现步骤推迟到子类。 模板方法定义了执行算法的步骤,它可以提供默认实现,该实现对于所有或某些子类可能是通用的。 让我们通过一个例子来理解这种模式&#xff…

FPGA(2)--例化语句--1位全加器

文章目录一、实验目的二、实验内容三、实验设计四、实验结果及仿真一、实验目的 熟悉元件封装方法,掌握层次化电路设计方法;掌握VHDL例化语句的设计方法。 二、实验内容 1.用VHDL语言设计1位全加器,其中仅就半加器实体进行例化声明及端口映…

对mysql的总结与反思_一次DB故障引起的反思和MySQL Operator选型

前言在一次数据库故障后,我们发现业务库会根据业务的等级会划分多个 MySQL 实例,许多业务库会同时属于一个 MySQL 实例,当一个库引发问题后整个实例的状态是不可控的。从而导致这个实例上的所有业务不稳定甚至造成中断。故障反思微服务架构微…

android 三星 拍照,安卓里面拍照最好的三个品牌,OPPO华为三星怎么选

原标题:安卓里面拍照最好的三个品牌,OPPO华为三星怎么选几乎每一个节日都能被国内的商家抓住并且成功的策划为一次次的「购物节」,双十一、双十二等无一例外,3月7日这个从中国高校里衍生出来的「女生」节如今也成为了「女神节」。…

FPGA(3)--VHDL及原理图--4位全加器

文章目录一、实验目的二、实验内容三、实验设计五、实验思考与总结一、实验目的 掌握例化语句的使用方法,掌握使用程序文本和原理图结合方法设计电路,掌握利用包含算术操作符的重载函数的使用。 二、实验内容 首先用VHDL语言设计1位全加器&#xff0c…

Vertx编程风格:您的反应式Web Companion REST API解释了

Vertx提供了许多在轻量级环境中进行编程的选项,例如node.js。 但是,对于新用户来说,选择采用哪种方法来创建REST API几乎不会造成混淆。 在vertx中编程时可以采用不同的模型。 下面通过易于理解的图表对其进行说明。 PS – vertx编程的核心…

过去式加ed的发音_小学英语动词过去式归类总结

小学英语动词过去式归类总结  一、动词过去式的规则变化 1. 一般情况下,动词词尾加-ed 如:work ---worked, play---played, want----wanted, act----acted 2. 以不发音的 -e 结尾动词,动词词尾加 -d 把动词原形最后的e去掉&#xff0…

FPGA(4)--VHDL--4位D触发器

一、实验目的 掌握利用VHDL语言,进行基本时序元件的设计。 二、实验内容 利用VHDL语言设计含异步复位(RST)及使能端(EN)的4位D触发器,其中输入D及输出Q均为4位(STD_LOGIC_VECTOR)…

鸿蒙10 5G手机,继鸿蒙后麒麟V10问世 5G时代国产操作系统将起飞

(记者 陈洲)从工信部获悉,中国电子近日在广州发布了银河麒麟操作系统 V10。该系统打通了手机、平板、PC 等多个终端,可谓为5G时代量身定做。其独创的 kydroid 技术,可将安卓应用无缝迁移到国产平台上。银河麒麟V10是继华为鸿蒙OS后&#xff0…

模糊查询关键字不区分大小写_SQL简单查询

SQL书写规则:1)以英文分号结尾(;) eg. select 姓名,性别 from student;2)不区分关键字的大小写。就像Excel里面sum可以大写可以小写。同理,SQL中select不区分大小写。3)列名不能加单引号,列名中间不能有空格。4)所有符号都要是英文…

FPGA(5)--VHDL--10十进制计数器及7段显示译码器

前些天发现了一个巨牛的人工智能学习电子书,通俗易懂,风趣幽默,无广告,忍不住分享一下给大家。(点击跳转人工智能学习资料) 一、实验目的 掌握一般性计数器的VHDL设计方法,熟悉程序文本和原理图…

鸿蒙系统笔记本产业链,华为P40或用鸿蒙 华为产业链概念股一览

众所周知,华为已经推出了全新的鸿蒙系统,这正式证明了华为越挫越勇的精神,余承东已经对外透露,要是在无法使用谷歌服务的情况下,明年推出的华为P40或用鸿蒙系统,值得关注的是,这是时候&#xff…

apache log4j_Apache log4j是领先的日志记录框架

apache log4j根据 零周转的调查中, Apache log4j是领先的Java日志记录框架。 这实际上是一个非常有趣的调查。 它显示SLF4J最常用作伐木外墙,占61%。 但是,它似乎最常与Apache Log4j一起使用,52%的调查参…

FPGA(6)--7段显示译码器的加法计数器

文章目录一、实验目的二、实验内容三、实验设计与结果四、实验思考与小结一、实验目的 在上次加法计数器仿真实验的基础上,掌握端口的引脚配置、实验箱的接线及程序的下载、调试等。 二、实验内容 1.在上次实验的基础上,编译、仿真可以进行0-99加法计…

FPGA(7)--有限状态机--交通灯

一、实验目的 掌握有限状态机的编程和使用方法。 二、实验内容 设计一个十字路口交通灯控制器,东西(b)、南北(a)方向有红灯、黄灯、绿灯,持续时间分别为45、5、40秒,仿真验证其功能。 三、实验设计与结果 1.整体设计思路:根…

Spring Cloud配置–外部化应用程序配置

本教程是关于Spring Cloud Config的,这里我们将研究如何在不同的应用程序中针对不同的环境(例如开发人员,本地,产品等)使用Spring Cloud Config来管理和存储分布式外部配置属性。开发一个简单的云应用程序以使用云配置…

输入法问题_「图」KB4515384再爆新问题:OOBE时中文输入法阻止创建本地账户

KB4515384可谓是近期BUG数量最多的累积更新了,继开始菜单出现严重错误、音频故障、网络适配器问题、PIN登陆系统无法使用之后,在支持文档中微软承认了在初次设置(OOBE)过程中,使用某些语言将会阻止用户创建本地账户。微软在支持文档中表示&am…

FPGA(0)--quartusⅡ安装

微信公众号:创享日记 发送:quartus 获取软件安装包等 (假设光盘驱动器号为 E, 所有软件安装到 D 分区) 1.运行e:\QuartusII9.0 \ isetup.exe,直接点击“next”,一直到完成安装 2.设安装路径和目录为&#…