机器学习之LDA主题模型算法

文章目录

  • 1、知道LDA的特点和应用方向
    • 1.1、特点
    • 1.2、应用方向
  • 2、知道Beta分布和Dirichlet分布数学含义
  • 3、了解共轭先验分布
  • 4、知道先验概率和后验概率
  • 5、知道参数α值的大小对应的含义
  • 6、掌握LDA主题模型的生成过程
  • 7、知道超参数α等值的参考值
  • 8、LDA总结

1、知道LDA的特点和应用方向

1.1、特点

知道LDA说的降维代表什么含义:将一篇分词后的文章降维为一个主题分布(即如20个特征向量主题)。
根据对应的特征向量中的相关主题概率(20个主题的概率相加为1即为主题分布)得到对应的文档主题,属于无监督学习(你没有给每个数据打标签)

1.2、应用方向

信息提取与搜索(语义分析),文档的分、聚类,文章摘要,计算机视觉,生物信息等方向(只要包含隐变量都可考虑使用)

PS:知道朴素贝叶斯在文本分析的劣势:无法识别一词多义和多词一意。

2、知道Beta分布和Dirichlet分布数学含义

Beta分布概率密度表达式是一条曲线,系数B的表达式是曲线下的面积。
在这里插入图片描述
知道二项分布的共轭先验分布是Beta分布,多项分布的共轭先验分布是Dirichlet分布。
在这里插入图片描述
知道Dirichlet分布的概率密度函数的数学含义:当K=3时,密度函数数学含义也就是一个曲面
在这里插入图片描述

3、了解共轭先验分布

含义:找个一个先验分布和后验分布都满足于同一种分布的概率分布。这样你知道其中的一个分布就代表知道了另外一个分布。
在这里插入图片描述

4、知道先验概率和后验概率

**先验概率:**是指根据以往经验和分析得到的概率.
**后验概率:**事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小

5、知道参数α值的大小对应的含义

当α小于1的时候代表取某一个值的概率很高(即某一主题的概率很高即主题鲜明),=1的时候代表概率为均匀分布,大于1的时候代表k个p相同的概率增大。
对应的z轴就代表这个点对应的概率
在这里插入图片描述
在这里插入图片描述

6、掌握LDA主题模型的生成过程

总结一句话:主题概率模型生成一个主题分布再生成一个主题,词概率模型生成主题的词分布再生成一个词;最终得到一个主题对应这个词。(连接的条件主题的标号)
在这里插入图片描述
在这里插入图片描述
掌握整个过程:
θ代表的一个主题分布,即K维的主题向量。

  1. 从α控制的Dirichlet分布的概率密度函数中采取一个对应的K维的主题分布即θm(第m篇文档的主题)
  2. 从β控制的Dirichlet分布的概率密度函数中生成K个对应的V维的词分布即φk
  3. Zm,n即代表第m个文档的第n个主题。当n=2时即代表采到第m篇文档的第二个主题,就到对应的β生成的第二个主题的词分布即φk(对应的第几个主题的词分布)
  4. 从φk中随机挑选一个词作为Wm,n的值(即第m篇文档第n个主题对应的词)
  5. 循环执行上述步骤得到每个主题对应的词
    在这里插入图片描述
    PS:各个参数的含义
    θm代表第m篇文档的主题分布(m为文档总数)
    φk表示第k个主题的词分布(k为主题的个数)
    Zm,n代表第m篇文档中的第n个主题
    Wm,n代表第m篇文档中的第n个单词

7、知道超参数α等值的参考值

在这里插入图片描述

8、LDA总结

  • 由于在词和文档之间加入的主题的概念,可以较好的解决一词多义和多词一义的问题。
  • 在实践中发现,LDA用于短文档往往效果不明显一这是可以解释的:因为一个词被分配给某个主题的次数和一个主题包括的词数目尚未敛。往往需要通过其他方亲“连接”成长文档。
  • 用户评论/Twitter/微博囗LDA可以和其他算法相结合。首先使用LDA将长度Ni的文档降维到K维(主题的数目),同时给出每个主题的概率(主题分布),从而可以使用if-idf继续分析或者直接作为文档的特征进入聚类或者标签传播算法用于社区发现等问题。
  • 知道LDA是一个生成模型,由y得到对应的x(y代表的是主题,x代表的词)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/456427.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[Go] Template 使用简介

Golang 提供了两个标准库用来处理模板 text/template 和 html/template。我们使用 html/template 格式化 html 字符。 模板引擎 模板引擎很多,Python 的 jinja,nodejs 的 jade 等都很好。所谓模板引擎,则将模板和数据进行渲染的输出格式化后的…

内存泄露监测

2019独角兽企业重金招聘Python工程师标准>>> iOS 内存泄露监测 144 作者 谢谢生活 已关注 2017.05.19 17:38* 字数 4235 阅读 209评论 0喜欢 6 iOS可能存在的内存泄露:block 循环引用。当一个对象有一个block属性,而block属性又引用这个对象…

玩Azkaban跳过的坑

文章目录一号坑:启动Azkaban报错:User xml file conf/azkaban-users.xml doesnt exist.二号坑:报错:failed SslSocketConnector0.0.0.0:8443: java.io.FileNotFoundException: /home/hadoop/app/azkaban/azkaban-web-2.5.0/bin/ke…

删除节点removeChild()

http://www.imooc.com/code/1700 删除节点removeChild() removeChild() 方法从子节点列表中删除某个节点。如删除成功,此方法可返回被删除的节点,如失败,则返回 NULL。 语法: nodeObject.removeChild(node) 参数: node :必需&…

机器学习自主解决安全威胁离我们还有多远?

曾经听见不止一次这样的问题: “机器学习会替代基于人工经验规则的安全解决方案么?”把这个问题放在去年来看,我们已经得到了非常多的讨论甚至是一些已经实际应用的解决方案,对于人工智能在安全以及其它各种对数据进行价值挖掘的场…

Vue:解决[Vue warn]: Failed to resolve directive: modle (found in Anonymous)

解决问题 [Vue warn]: Failed to resolve directive: modle (found in <ComponentA>) console.error(("[Vue warn]: " msg trace)); 原因是 我把model 写成了 modle 这类错误一般是单词写错了 (found in <Anonymous>) 解决思路

一行Python代码制作动态二维码

目录 1、普通二维码 2、艺术二维码 3、动态二维码 在GitHub上发现了一个比较有意思的项目&#xff0c;只需要一行Python代码就可以快捷方便生成普通二维码、艺术二维码(黑白/彩色)和动态GIF二维码。 GitHub网站参加&#xff1a;https://github.com/sylnsfar/qrcode 用法比…

Vue常用经典开源项目汇总参考-海量

Vue常用经典开源项目汇总参考-海量 Vue是什么&#xff1f; Vue.js&#xff08;读音 /vjuː/, 类似于 view&#xff09; 是一套构建用户界面的 渐进式框架。与其他重量级框架不同的是&#xff0c;Vue 采用自底向上增量开发的设计。Vue 的核心库只关注视图层&#xff0c;并且非常…

Pycharm常用高效技巧总结

文章目录1、PyCharm如何自动生成函数注释2、pycharm运行程序时在Python console窗口中运行3、Pycharm在创建py文件时,如何自动添加文件头注释4、Pycharm配置远程调试5、pycharm同一目录下无法import明明已经存在的.py文件1、PyCharm如何自动生成函数注释 一般在函数def()行下敲…

EntityFramework中常用的数据删除方式

最近在学EF&#xff0c;目前了解到删除操作有三种方式&#xff0c; 第一&#xff0c;官方推荐的先查询数据&#xff0c;再根据查询的对象&#xff0c;删除对象。 这是第一种&#xff0c;官方推荐 第二&#xff0c;自己创建一个对象&#xff0c;然后附加&#xff0c;然后删除。 …

Elasticsearch的前后台运行与停止(tar包方式)

备注&#xff1a;在生产环境中&#xff0c;往往一般用后台来运行。jps查看。 1、ES的前台运行 [hadoopdjt002 elasticsearch-2.4.3]$ pwd/usr/local/elasticsearch/elasticsearch-2.4.3[hadoopdjt002 elasticsearch-2.4.3]$ bin/elasticsearch 2、ES的后台运行 [hadoopdjt002 e…

解决pycharm运行Flask指定ip、端口更改无效

后来查了一下官网文档&#xff0c;原来Flask 1.0 版本不再支持之前的FLASK_ENV 环境变量了。 Prior to Flask 1.0 the FLASK_ENV environment variable was not supported and you needed to enable debug mode by exporting FLASK_DEBUG1. This can still be used to control…

Android中SimpleAdapter的使用—自定义列表

本人初学Android&#xff0c;今天研究到Adapter这块感觉挺有意思的&#xff0c;写了个自定义列表进行测试 首先我们新建一个layout列表布局文件&#xff0c;具体布局可以自己设定。 下面贴上我的自定义布局文件代码 1 <?xml version"1.0" encoding"utf-8&qu…

linux lvm扩容

linux lvm扩容 LVM磁盘管理 一、LVM简介... 1 二、 LVM基本术语... 2 三、 安装LVM... 3 四、 创建和管理LVM... 4 2、 创建PV.. 6 3、 创建VG.. 7 4、 创建LV.. 9 5、LV格式化及挂载... 10 一、LVM简介 LVM是 Logical Volume Manager(逻辑卷管理)的简写&#xff0c;它由Heinz …

Python基础常见面试题总结

文章目录基础知识题看程序写结果题编程题以下是总结的一些常见的Python基础面试题&#xff0c;帮助大家回顾基础知识&#xff0c;了解面试套路。会一直保持更新状态。PS&#xff1a;加粗为需要注意的点。基础知识题 1、深拷贝和浅拷贝的区别是什么&#xff1f; 深拷贝是将对象…

Flask-Script扩展命令行manager = Manager(app)

通过使用Flask-Script扩展&#xff0c;我们可以在Flask服务器启动的时候&#xff0c;通过命令行的方式传入参数。而不仅仅通过app.run()方法中传参&#xff0c;比如我们可以通过python hello.py runserver --host ip地址&#xff0c;告诉服务器在哪个网络接口监听来自客户端的连…

Python基础总结之常用内置方法总结

文章目录前言1、str1.1、内置方法&#xff1a;1.2、常用的内置方法1.3、String模块的一些方法2、list2.1、内置方法2.2、常用内置方法3、tupple3.1、内置方法3.2、常用内置方法4、dict4.1、内置方法4.2、常用内置方法5、其他5.1、几个sort的使用5.2、enumerate&#xff08;&…

线程的条件变量实例

情景1&#xff1a;Jack开着一辆出租车来到一个网站停车。看见没人就走了。过段时间。Susan来到网站准备乘车。可是没有来&#xff0c;于是就等着。过了一会Mike开着车来到了这个网站&#xff0c;Sunsan就上了Mike的车走了。如图所看到的&#xff1a;程序实现该情景&#xff1a;…

浅谈互联网寒冬与经济形势

文章目录前言&#xff1a;闲扯总结&#xff1a;前言&#xff1a; 作为刚进入职场一年多的小白来说&#xff0c;刚准备“猥琐发育涨经验”&#xff0c;却碰到这股互联网寒冬&#xff0c;也感到鸭梨山大。也许有人认为我在贩卖焦虑&#xff0c;但是现实真的很严峻。接下说下过去…

Java集合---LinkedList源码解析

一、源码解析1、 LinkedList类定义2、LinkedList数据结构原理3、私有属性4、构造方法5、元素添加add()及原理6、删除数据remove()7、数据获取get()8、数据复制clone()与toArray()9、遍历数据&#xff1a;Iterator()二、ListItr 一、源码解析 1、 LinkedList类定义。 public cla…